虽然 GPT-3.5 和 GPT-4 到目前为止并没有公布具体的模型细节,但是从已有信息来看,两者的模型架构并没有与 GPT-3 相差太大,那为什么效果会相差很多呢?是 GPT-4 产生了意识了吗?笔者将从一个不专业的角度进行分析。

模型还是数据

近些年来,很多研究人员一直在一个方向走到底,就是对于模型的各种魔改,目前看来,模型的发展远快于数据的发展,其实模型不需要那么复杂,笔者在神经科学中提及过,大脑结构一定远复杂于我们现在的模型,而大脑中一个很重要的结构就是神经元。

一个生物群体的智能程度一定正比于该生物群体大脑的平均神经元数量,而一个个体的智慧程度取决神经元之间的连接。现有理论认为,我们的记忆、思维、习惯等等,可能主要都是体现在神经元之间的连接中,比如每天准时健身,那健身这种习惯会随着时间的进程,不断在相关神经元之间激活,达到阈值之后,形成连接,这也就是习惯养成的过程;又比如学习中的死记硬背,也是在不断刺激神经元之间产生连接。类比到大模型中,当模型大到一定程度的时候,加上海量的数据,其人工神经元之间也像大脑的神经元之间一样在不断的互相产生连接,而且这种连接是稀疏的,且不完善的,否则模型不会通过这么多 Prompt 来进行理解,其实这都是在模型内部产生连接的过程(见Prompt 的思考:迟早会消失的 Prompt )。

当然了,GPT-4 能有这样的效果,还借助于标准而精细的微调以及它的迭代方式,见SFT 和 RLHF

综上,我认为或许我们不应该过多专注于如何精细的构建模型内部的模块,而应该关注于如何构建数据表征,应该关注于如何训练模型。神经元之间的连接能自我“生长”出类似于大脑不同功能区的功能。试想一下,我们不也是从环境的交互中自主进化的吗?难道是我们先设计好大脑再去自然选择的吗?显然不是。

当然,除了关注于如何构建数据表征和如何训练模型之外,还应该关注于与环境的实时交互,这一点将在下文中说明。


群体智能

大脑神经元目前测定为860亿,而 GPT-3 的参数量就已经达到了1750亿,GPT-4 只会更多。在参数量与数据量达到这种级别,那产生出当前的结果也是可想而知。现在所说的“涌现”一词,其实也就是指在随着参数量和数据量的大幅上升,模型突然之间产生了意想不到的结果(见大模型的涌现现象 ),无数的个体参数聚合在一起形成了一个复杂网络,而这个复杂网络却体现出了高等的“智能”。

其实这种现象在生物圈中早就体现,例如一只蚂蚁你看不出什么有明显的智能行为,但是一群蚂蚁却可以分工合作,建立起庞大的“蚂蚁帝国”,而且在洪水来临之时,它们甚至能围聚在一起,像一块竹筏漂浮,这样就保证了整体不会被分散;另外笔者还听说有一种类似大雁的海鸟,在群体飞行时能紧密团结在一起,但绝不会互相挨着飞行,即使进行转弯也不会互相拍打翅膀而撞在一起。这种现象称之为“群体智能”(https://zh.wikipedia.org/wiki/群体智能)。从人类的角度看,个体的智慧是有限的,群体的智慧是无限的,即使再聪明的人,他的成长也是受到了前人的知识总结的影响。

如果你了解康威生命游戏,也能从中发现群体的“智能行为”(https://zh.wikipedia.org/wiki/康威生命游戏)。


身体与意识

人们常常讨论的一个问题是:身体和意识是独立的吗?或者说,死亡消亡了身体,那意识还在吗?它是否以某种形式(如灵魂)存在呢?

首先,我们的大脑是存在于脑骨中的,它并不直接接触于外部的客观世界,而是通过耳鼻眼口皮肤等器官的直接观测,在神经元之间形成脉冲信号来间接感受世界,神奇地是,大脑靠这些脉冲信号,居然能够思考,能推理,能想象,能产生意识。这是否也意味着意识是不需要直接感受客观世界而产生的。

再来思考一个群体,他们因某些不幸的事情而导致了被截肢的事实,这种时候都会伴有幻肢症,也就是大脑感觉这个肢体还存在,并想要做出相应的肢体动作。但客观现实是,肢体并不存在了,也就是说肢体没有产生知觉发送给大脑,但大脑却产生了它存在的意识,那这是不是说明,大脑被欺骗了?会不会因为大脑无法直接观测客观世界,导致它是很容易被欺骗的。

那原问题的答案就很明显了,大脑和身体其实是息息相关的,至少以当前的解释看,意识的产生需要身体的知觉,但同时意识也很容易被欺骗。