ChatGPT（GPT-3.5）

ChatGPT 的流程其实和 InstructGPT 差不多，也是通过反馈来进行强化学习的模型（Reinforcement Learning from Human Feedback，RLHF）。

模型训练过程

从 OpenAI 官网可以查看 GPT-3.5 的训练流程，与 InstructGPT 几乎没有什么差别：

Untitled

其中关键的技术在于 Step 1 的 SFT 和 Step 2 和 3 的 RLHF，见SFT 和 RLHF。

通过收集的 demonstrations 来监督微调 GPT-3
1. 写出一个完整的对话，如图所示，包括机器人的对话也是人类写的
2. 收集这种人类写的对话，最后用来微调 GPT-3
训练一个奖励模型（一个评分老师）
1. 给定一个人类写的对话历史
2. 模型生成接下去的对话
3. 人类来对多种输出进行排序
4. 根据这种输入和排序训练一个奖励模型
通过强化学习训练对话模型
1. 给定一个人类写的对话历史
2. 模型生成接下去的对话
3. 奖励模型根据模型输出来评分
4. 评分传给模型，让模型来调整输出
循环
1. 因为不断强化学习的过程中，根据 prompt，模型的生成就会变好，这个时候可以重新回到第2步去更新奖励模型
2. 再回到第3步
3. 不断循环

通过人类标注的样本，来检测模型是否能通过上述任务。