在 ChatGPT 出来之后,“涌现”这个词被提及的概率就很高了,但在 ChatGPT 之前, NLP 学术圈就已经发现了这种现象。这篇文章的作者就对这种现象进行了研究。
如下所示,针对各种不同的任务,对不同的预训练模型在不同的参数量尺度上进行测试,一个坐标轴为一种任务,横轴表示参数量的大小,虚线表示随机结果。
从图中可以发现,在参数量 10B(100亿)以下的时候,结果和随机没什么差别,但是一旦模型大于 10B,参数越多,其能力就直线上升,这就是大模型带来的“涌现”现象。
笔者在什么是 Instruction Turning 和Chain-of-Thoughts 中介绍了两者的应用,那么这篇文章的作者也发现,如果对于参数量较少的模型使用这两个方法,实际上并不会有所改善,而如果对于大模型使用这两种方法,那么结果的效率提升是非常可观的。
其中 Scratchpad 是与 ICL 差不多的方法,而 Calibration 的介绍在这里,简单来说,模型知道不知道自己的回复在”瞎掰“,图中显示大模型在 Calibration 指标上提升也非常明显。