我越来越被**杰弗里·辛顿(**Geoffrey Hinton)教授的观点所折服,他是英国出生的加拿大计算机学家和心理学家,并研究了多年神经科学,多伦多大学教授。是反向传播算法和对比散度算法的发明人,被誉为“深度学习教父”。辛顿因在深度学习方面的贡献与约书亚·本希奥和杨立昆一同被授予了2018年的图灵奖。

Untitled

我在之前介绍过杨立昆,杨立昆主张大语言模型并没有“意识”,“智能”,只是统计模型,为此,他设计了自己的“世界模型”架构 JEPA(杨立昆的世界模型 ),认为那才是走向“意识” AI 的关键。

而辛顿,始终坚持认为大语言模型是具有“意识”,“心智”,他从脑科学、心理学、计算机科学角度给出了解释,实在是让人叹为观止。为此,我想收集辛顿教授的观点,因为,我希望这些是真的。

我会慢慢更新他每一场2024年之后的主要演讲的观点。

2024.02.19 | 牛津大学的年度 Romanes 讲座 | 数字智能会取代生物智能吗?

人工智能的两种研究范式

1950年以来,人工智能的两种研究范式,分别是逻辑启发式方法和生物启发式方法,逻辑启发式方法认为智能的本质是推理,是通过使用符号规则来操作符号表达式完成的,他们认为人工智能不要急着去“学习”,当理解了如何表示事物之后,学习就很简单了,而生物启发式方法认为智能的本质,是在神经网络中学习连接的强度,不要着急去“推理”,在学习完成后,推理自然就来了。

连接主义与符号主义

(关于符号主义与连接主义的介绍:AGI 需要符号主义吗?

符号主义和语言学家认为神经网络是无法理解语言的,认为文字是符号,而神经网络是以人工神经元连接为主的连接主义,无法掌握符号之间的关系及推理,但是,事实表明,大型神经网络仅仅通过学习大量的文本,就能无师自通掌握了语言的语法和语义。

在这之前,关于人是怎么理解事物的有两种理论:结构主义理论认为,一个词的意义在于它与其他词的关系,符号学派非常相信这种方法,你必须要通过一个关系图,其中有单词的节点和关系的弧线才能捕捉他们之间的意义;而心理学理论认为,一个词的意义是一大堆特征组成的,比如“狗”有一大堆特征,它有生命、它是哺乳动物、它会捕食等等,但是他们没有说特征从哪里来,或者特征到底是什么。而辛顿早在1985年提出的模型中,就将两种理论统一了起来,有超过一千个权重,它不仅可以学习每个单词的特征,还可以学习单词的特征之间如何相互作用,从而预测下一个单词的特征,这就跟现在的大语言模型微调时所做的一样。最重要的是这些特征的交互,并不会有任何显式的关系图,如果非要弄个关系图,那么可以根据特征来生成。所以说,它是一个生成模型,知识存在于你赋予符号的特征中,以及这些特征的交互中。

辛顿举了一个意大利家族的例子来说明模型的工作原理:在符号方法中,对于回答“詹姆斯的妻子是谁”这种问题,

符号人工智能是这么做的:它看到科林有父亲詹姆斯,科林有母亲维多利亚,它用规则推断出,詹姆斯有妻子维多利亚。

而辛顿用一个神经网络让它能学习到相同的信息,但是都是通过特征交互的方式。神经网络是怎么做的呢?在神经网络中,有一个代表人的符号,一个代表关系的符号,符号通过一些连接变成了一个特征向量,随后这个网络学习到“詹姆斯”有一堆特征,“妻子”有一堆特征,推理的时候,它让这些特征相互作用,得出了“詹姆斯”的“妻子”应该有的特征,然后发现“维多利亚“最匹配这些特征,那么“维多利亚”就是”詹姆斯“的”妻子”了。

虽然这个网络只有六个特征神经元,但是它学习了这个领域中所有显而易见的特征,比如说国籍特征和代际特征,也学会了如何让这些特征相互作用,就类似于匹配特征向量,如果一个向量与另一个向量相似,就让它更多影响,如果不相似则减少影响,最终可以生成输出,或者说,它以符号串作为输入,创建出了相应的特征,并且让这些特征之间进行交互,最终生成了符号串,但是它没有存储最后的符号串,就像 GPT-4 一样,它没有在长期知识中存储任何的词语序列,不过它将知识全部转化为权重,从中可以再生成序列。

我们今天拥有的大型语言模型,都可以算是这个微小的语言模型的后代,他们遵循了基本的框架,拥有同样的基本理念,将简单的字符串转化为单词片段的特征,以及这些特征向量之间的交互作用。