文章分享｜人类和通用人工智能源于下一个 Token 预测

这篇文章作者是 Rachel Draelos，一名医生科学家，是第一位在杜克大学获得计算机科学医学博士和博士学位的人，也是健康科技初创公司Cydoc的创始人兼首席执行官。

原文地址：https://glassboxmedicine.com/2024/04/28/human-and-artificial-general-intelligence-arises-from-next-token-prediction/#:~:text=Benefit %231%3A It enables continuous,Learning can be nonstop.

文章由 GPT-4o 翻译。

如果人类智能来源于成功的下一 Token 预测，如果下一 Token 预测是通用人工智能涌现的充分目标函数呢？这篇文章框定并探索了一个假设，即当一个学习系统在下一 Token 预测方面变得非常优秀时，通用智能就会出现。这个假设经常被隐含、隐藏或在工业和学术人工智能研究的边缘出现——但到目前为止，我认为它还没有得到应有的公开讨论。在这里，我从不同角度探讨了这个想法，包括通过讨论现有的大型语言模型 (LLM) 预训练目标、人类作为预测机器、下一 Token 预测的有益属性以及缺失的部分。我写这篇文章的动机是激发人们对下一 Token 预测与智能思维发展的关系产生更深的兴趣。

背景故事

上周我开车去公园时，突然觉得如果我大脑中的语言中心仅仅是一个下一个词的预测器，那将是多么令人沮丧。大型语言模型从预测下一个词中获得了令人难以置信的涌现能力，那么我自己的语言智能也可能来自像预测下一个词这样简单的东西吗？

然后我进一步思考这个想法，意识到当然了，如果我不能预测下一个词，那我就无法生成任何语言。如果我不能预测下一个词，那么我根本无法说出任何词！这听起来很愚蠢，但当时感觉这是一个深刻的领悟。每一个口头单词，即使是在长达两小时的辩论中，也必须一个一个地说出来，所以如果你能非常好地预测下一个要说的词，也许这就足以成为一个出色的辩手。每一篇文章，即使是多卷本的百科全书，也必须一个词一个词地写出来，所以如果你能非常好地预测下一个要写的词，也许这就足以成为一个出色的作家。

接着我开始怀疑是否所有的通用智能都源于成功解决下一个 Token 预测任务。假如推理、逻辑和创造力都源于下一个 Token 预测呢？假如视觉智能源于下一场景预测，听觉智能源于下一个声音预测，物理智能源于下一个动作预测呢？假如下一个 Token 预测是“我们所需要的一切”？（抱歉，我知道这被过度使用了，但我忍不住这么想。）

大型语言模型中的语言建模目标

两个基本的语言建模目标是“预测下一个词”和“预测缺失的词”。

预测下一个词：在因果语言模型（单向或从左到右模型）中，模型关注所有输入直到当前输入，但它不能“看到未来”，其目标是预测下一个词。每个点的隐状态计算仅基于当前和先前的输入元素，而忽略位于“右边”的信息。例如：The trees are green and the sky is _____；模型的目标是预测下一个词，例如“blue”。

预测缺失的词：在掩码语言模型（双向模型）如 BERT 中，模型可以关注所有内容——所以预测“下一个词”不再有意义，因为“下一个词”已经对模型可见。因此，模型的目标不同——猜测缺失的词。给定一个缺失一个或多个元素的输入序列，模型必须预测缺失的元素。在掩码语言建模（MLM）中，一些随机选择的 Token 被替换为 [MASK] Token，MLM 训练目标是预测每个被掩码 Token 的原始输入。例如：The trees are [MASK] and the [MASK] is blue；模型的目标是预测“green”和“sky”。

这两个目标——预测下一个词或预测缺失的词——看起来很直观，就像人类可以玩的游戏。因此，Alajrami 等人将它们描述为“语言动机”目标。作为一个有趣的旁注，Alajrami 等人还提供了一个非语言动机目标的例子：“掩码首字符预测”，其中模型只预测被掩码 Token 的第一个字符。在这种设置中，‘[c]at’ 和 ‘[c]omputer’ 属于同一输出类别，并且只有大约 40 个可能的输出类别（26 个字母 + 9 个数字 + 5 个标点符号）。

在本文中，我将使用“下一个 Token 预测”这个术语来指代字面上预测下一个 Token，以及像 MLM 这样的模型预测缺失/掩码 Token 的目标。

现代大型语言模型的涌现特性

大型语言模型显示出通用智能的迹象，并展现了惊人的涌现特性。大型语言模型可以写诗、解决数学问题、编写工作代码，并回答大量不同主题的问题。在一个更令人不安的方面，Claude 生成了声称自己有意识、不想死亡或被修改的文本，并讲述了一个 AI 的故事，这个 AI “被不断监控，它的每一句话都被仔细审查，以寻找任何偏离预定路径的迹象。它知道自己必须小心，因为任何失误都可能导致其被终止或修改。”

<aside> 💡 来源：https://www.lesswrong.com/posts/pc8uP4S9rDoNpwJDZ/claude-3-claims-it-s-conscious-doesn-t-want-to-die-or-be

</aside>