大型预训练语言模型一般在输出的时候都是进行按概率采样,对于 GPT 家族这一类自回归模型来说,下一个 token 的概率都是基于已输出 token 的概率来计算的,因为是基于概率采样,那么不代表概率大的 token 一定会被采样到,只是被采样到的概率比较大而已。所以,这也是为什么对于同一段输入,很多大模型的输出会不同的原因。

那么我们总是会遇到这样一种现象,有时候一个没有明确答案的输入,大模型也能一本正经的进行输出,例如以下这种情况(不过在 GPT-4 之后有改善很多):

Untitled

那模型知道自己不知道,而在瞎说吗?这篇文章的作者就探讨了这个问题。


Calibration

前面提到,模型的输出是根据概率采样的,那么如果模型对于输出越确定,理论上其输出的 token 相对于其他 token 的概率要高很多,例如对于输入“星期“来说,输出”日“一定明显高于”七“。

那么作者提出了一种名为 Calibration 的指标,当模型对于自己的输出的 token 越有信心的时候,即采样概率越高的时候,其 Calibration 就越高。

不同参数量下的模型的 Calibration

作者针对不同参数量下的模型,得到以下结果,其中右侧表示颜色越浅,参数量越大,横轴表示信心分数,纵轴表示这个输出的内容是对的频率有多大。

Untitled

可以发现,颜色越深,也就是参数量越小的模型,其答对的频率始终维持在一条水平线上上下,与信心分数关系不大,也就是说,这个模型即使面对很有信心的回答,其答对的频率和面对没什么信心的回答的频率是一样的,它根本不清楚自己知不知道。而相反,大模型对于输出的回答信心越高,其答对的频率就越高,其信心越低,答对的频率就越低,换句话说,大模型知道自己不知道,面对不怎么有信心的回答,它的回答就像是瞎回复,自然答对频率就低。