GPT-4 在2022年8月就已经训练完成,OpenAI 宣称他们花费了6个月的时间来迭代 GPT-4(通过后训练对齐),从而在事实性、可控性和拒绝越过防护栏方面获得了有史以来最好的结果(尽管还远未完美)。
而参与这项巨大工程的人员多达上百位。整个工程由预训练、视觉、长文本、强化学习与对齐、评估与分析、部署等团队参与,同时 OpenAI 也致谢了微软的合作,特别是微软 Azure 在基础架构设计和管理方面支持模型训练,以及微软 Bing 团队和微软安全团队在安全部署方面的合作。
GPT-4 的上下文长度为8192个 token,还提供对32,768长度(约相当于50页文本)版本的有限访问,即 gpt-4-32k。
和 GPT-3,GPT-3.5 一样,GPT-4 同样没有公开技术细节,在已有公布的一百页 GPT-4 报告中,有一段描写说明了 GPT-4 的主要技术:
翻译过来就是:
GPT-4 是一种 Transformer 类型的模型,使用公开可用的数据(例如互联网数据)和第三方提供商许可的数据进行预训练,以预测文档中的下一个 token。 然后使用人类反馈强化学习 (RLHF) 对模型进行微调。 鉴于竞争格局和 GPT-4 等大型模型的安全影响,本报告不包含有关架构(包括模型大小)、硬件、训练计算、数据集构建、训练方法或类似内容的更多详细信息。
从这段话中可以了解到,起模型还是基于 Transformer Decoder(有改动的 Decoder)的自回归的模型,也有和 GPT-3.5 一样的指令微调和 RLHF,但是更多细节和数据就无从知晓了。
2023年7月19日更新。目前已有人爆料了 GPT-4 的架构。见:
GPT-4 Architecture, Infrastructure, Training Dataset, Costs, Vision, MoE
报料人来自 SemiAnalysis 的两位名叫 Dylan Patel 和 Gerald Wong 的撰稿人,根据他们的爆料,GPT-4 的具体架构和参数如下: