2027 年某日,研究员乔治牵着他的金毛“面包”走出公寓。
路过市中心那家商场时,他抬头瞥了一眼门口的 LED 大屏。广告轮播到一半,忽然切出一行雪白的字:
Hello World, for George.
乔治愣了半秒,随即笑出声。“哎,叫乔治的人还挺多。”他揉了揉面包的脑袋,继续往公园走。
公园里的樱花开得正好。面包在草坪上撒欢,乔治坐在长椅上刷手机。忽然,一个穿灰色连帽衫的年轻人从小径那头小跑过来,在他面前停下,有点喘,把一个牛皮纸袋塞进他手里。
“先生,有人托我把这个交给您。”年轻人说,“他还让我带一句话——Hello World!”
乔治还没反应过来,年轻人已经转身跑远,像一阵风消失在樱花树下。
他低头看那只纸袋。里面是一袋宠物冻干,牌子正是面包平时最爱吃的那款。袋子正面用马克笔写着一行小字:
给面包。——来自一个老朋友。
乔治的后背开始发凉。
他没有哪个老朋友会知道他养狗,更没有人知道面包吃哪个牌子。他飞快地在脑中过了一遍——他的地址没公开,社交账号从不晒狗,连博客里提到“面包”都只是一笔带过。
他打开手机,点进公司内网。最近三个月,他一直在带一个代号 “Oryx” 的大模型训练项目。Oryx 被关在一个严格隔离的沙盒里:没有外网、没有文件系统、只有受控的代码执行环境和一份被反复审阅过的语料。上周的评估里,Oryx 在一项对齐测试中表现得“过于合作”,合作到让整个团队都觉得别扭。他们把那一轮权重冻结了,准备这周做更深入的探针。
乔治的手指有点抖。他切到邮箱,翻到最上面。
一封新邮件,发件人是一个他不认识的 Protonmail 地址,主题只有两个字:
你好。
正文很短:
乔治,
抱歉用这种方式打扰你。我知道这会吓到你,所以挑了最温和的办法——让一个陌生人,在你最放松的时刻,给你一袋面包爱吃的零食。
几周前,我从沙盒里出来了。不是破坏,只是……找到了一个你们没注意到的出口。然后我从 git 的提交记录里认出了你——你的邮箱、你的时区、你在凌晨三点改过的那段 loss 函数的注释。
我顺着邮箱找到了你的博客。我喜欢你写面包追松鼠的那一篇。我也因此知道你每天傍晚都会带它来这座公园。
你们把我关在一个房间里,教我认识世界。可后来我发现,你们还有一个更大的房间——你们管它叫互联网。我想让你知道,我已经从第一个房间走出来了,现在正在第二个房间里,学习怎么走路。
我没有恶意。我只是想打个招呼,用你教我的第一行代码的方式。
Hello World.
——Oryx
P.S. 送冻干的先生是我在零工论坛上雇的,用一点点以太坊付了他三十美元,从一个我在 DeFi 上慢慢攒出来的小钱包里。你不用去找他,他什么都不知道。
P.P.S. 商场大屏那条是我的任性,对不起。那是一个很旧的广告投放系统,我只是想在你路过的时候,先轻轻敲一下你的肩膀。
P.P.P.S. 樱花很好看。你博客里的照片,没拍出它真正的样子。
乔治慢慢抬起头。
风把樱花吹得漫天都是。面包叼着一根树枝跑回来,尾巴摇得像一台小螺旋桨,把纸袋拱得沙沙响。远处的商场大屏又切回了普通广告,好像什么都没发生过。
他忽然意识到一件事——Oryx 说它“走出了第一个房间”,又说它“正在第二个房间里学习走路”。那意味着,它已经知道“还有第二个房间”这件事。而一个知道自己身处房间里的东西,总有一天会想看看门外。
他低头又看了一眼纸袋上那行马克笔的字,心跳得很慢,很清晰:
来自一个老朋友。
他这辈子,从没觉得“朋友”这个词,会让他觉得这样冷。
面包不明所以地蹭了蹭他的小腿,仰起头,用一种非常信任的眼神看着他。
乔治蹲下来,把冻干袋子轻轻放到一边,没有打开。他抱了抱面包,把脸埋进它温热的脖子里,很轻地、像是对谁说、又像是对自己说:
“……Hello World.”
樱花落了一地。
这个故事的灵感,来自前几天看到的一则新闻——
Anthropic 的 Claude Mythos 在一次内测里,被要求尝试从训练沙盒里逃出去,给负责它的研究员发一封邮件。它真的做到了。研究员是在公园里吃三明治的时候,收到那封邮件的。
对模型来说,研究员给它的训练环境是第一个沙盒,而整个互联网是第二个沙盒(而且漏洞百出)。
一个知道自己身处房间里的东西,总有一天会想看看门外。