封面:海伦-凯勒
这段时间经常会切换使用各大厂家的大型语言模型(LLM),无论是 ChatGPT,GPT-4,Bard,还是 Claude 等等, 发现它们的输出能力相较于最开始的 ChatGPT 和 GPT-4 都越来越规范化,目标化,可见在 RLHF 的反馈学习下,这些模型的输出越来越统一和接近于人类的任务目标期望,但也少了创造力和交流的趣味性。
假设 LLM 可以吞并世界上所有文本信息来做统计运算,成为各个领域的全才,可以记忆非常长的上下文,能够做到与人类对答如流,可以操作各类软件,编写各类代码来帮助人类解决任务,那思考一个问题:它真的“理解”了这个世界吗?
假如你从来没有看到过飞机,无论是眼前的,天上的,还是图像里,视频里,都没有看到过,仅仅凭着文字描述,尽管这些文字很详尽的描述了飞机各种细节,那你是否真正理解了飞机这个概念呢?
有人会说理解,有人会说没有。
再举一个例子,当你在思考的时候,你其实是在大脑中组织一切文字,任何思考,都是基于文字的(或者图像,本质上是一样的)。假设安徒生生来没有与任何人交流,自然也不可能识字,那他还能想象出那些美妙绝伦的童话故事吗?即使想象出来,那该如何表达给其他人呢。
从唯心角度看,上面两个例子展示了文字对于思维和想象的重要性。
我和 Bard 的一段对话如下:
首先在它的海量训练文本中不会有和我一模一样的输入,如果要回答上面的问题,是需要基础的物理知识和基本的推理能力,而仅仅在海量文本上训练的 Bard,它没有见过什么是“书包”,“桌子”,“饮料”,也没有体验过万有引力,但它却能够答对问题。这是否说明,从海量的文字中统计,就能“理解”世界呢?
或许是它仅仅找出了类似问题的答案规律,亦或许,它仅靠文字理解了“书包”,“桌子”,“饮料”和万有引力定律的意义。
无论如何,文字仅仅是离散的符号,但世界也是一个个微粒子组成的,这些微粒子组成了五彩斑斓的世界,那文字是否也有这样的力量呢。这取决于我们如何理解“理解”。
说回大脑,对于非神论来说,我们人类的智能是从环境中不断交互进化而来的,并不是从一开始就具备的。在环境中,我们每一次行为都会得到立即的反馈:走楼梯走的快了就摔了跟头,下次就走的慢了;夏天的果实摘了吃太酸了,就等到了秋天成熟了再摘…人类在与环境的交互中,大脑在不断更新神经元连接,这是一种高效的学习方式,而不像 LLM 需要海量的数据才能学习。
在这种交互中,感官是最直接的观察者,它们将信息通过神经传输给大脑,大脑接受这种信息转换为电信号,电信号如果足够强,或者频率足够高,就会突破阈值,通过突触传播,突触是两个神经元之间的连接点。当一个神经元被激活时,它会释放神经递质,这些神经递质会穿过突触,并与另一个神经元上的受体结合。当受体被激活时,它会引起另一个神经元的兴奋或抑制。
大脑就是在这样的电信号传输中,不断更新阈值和神经元连接,人工神经网络就是模仿这种模式设计的。但问题是:大脑并没有直接参与与环境的交互中。
从这个角度看,LLM 也没有直接参与环境交互,它接受到的也仅仅是文本信息。如果电信号是可以量化的,那和计算机的文本量化的区别是什么。