ChatGPT 的流程其实和 InstructGPT 差不多,也是通过反馈来进行强化学习的模型(Reinforcement Learning from Human Feedback,RLHF)。


模型训练过程

从 OpenAI 官网可以查看 GPT-3.5 的训练流程,与 InstructGPT 几乎没有什么差别:

Untitled

其中关键的技术在于 Step 1 的 SFT 和 Step 2 和 3 的 RLHF,见SFT 和 RLHF

分步骤讲解

  1. 通过收集的 demonstrations 来监督微调 GPT-3

    1. 写出一个完整的对话,如图所示,包括机器人的对话也是人类写的

    2. 收集这种人类写的对话,最后用来微调 GPT-3

      image_256.png

  2. 训练一个奖励模型(一个评分老师)

    1. 给定一个人类写的对话历史
    2. 模型生成接下去的对话
    3. 人类来对多种输出进行排序
    4. 根据这种输入和排序训练一个奖励模型

    image_257.png

  3. 通过强化学习训练对话模型

    1. 给定一个人类写的对话历史

    2. 模型生成接下去的对话

    3. 奖励模型根据模型输出来评分

    4. 评分传给模型,让模型来调整输出

      image_258.png

  4. 循环

    1. 因为不断强化学习的过程中,根据 prompt,模型的生成就会变好,这个时候可以重新回到第2步去更新奖励模型
    2. 再回到第3步
    3. 不断循环

评价指标

image_259.png

通过人类标注的样本,来检测模型是否能通过上述任务。