ChatGPT 的流程其实和 InstructGPT 差不多,也是通过反馈来进行强化学习的模型(Reinforcement Learning from Human Feedback,RLHF)。
从 OpenAI 官网可以查看 GPT-3.5 的训练流程,与 InstructGPT 几乎没有什么差别:
其中关键的技术在于 Step 1 的 SFT 和 Step 2 和 3 的 RLHF,见SFT 和 RLHF。
通过收集的 demonstrations 来监督微调 GPT-3
写出一个完整的对话,如图所示,包括机器人的对话也是人类写的
收集这种人类写的对话,最后用来微调 GPT-3
训练一个奖励模型(一个评分老师)
通过强化学习训练对话模型
给定一个人类写的对话历史
模型生成接下去的对话
奖励模型根据模型输出来评分
评分传给模型,让模型来调整输出
循环
通过人类标注的样本,来检测模型是否能通过上述任务。