精读笔记:InstructGPT — 用人类反馈训练语言模型遵循指令


基本信息

项目 内容
论文标题 Training Language Models to Follow Instructions with Human Feedback
中文标题 用人类反馈训练语言模型遵循指令
作者 Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll Wainwright, Pamela Mishkin 等(OpenAI,共 20 余人)
机构 OpenAI
发表 NeurIPS 2022(arXiv 预印本 arXiv:2203.02155,2022年3月)
重要性 ChatGPT 的直接技术原型;当代 AI 对齐领域最重要的论文之一

阅读地图

本文解决一个核心问题:GPT-3 能"续写文本",但不会"听话办事"。本文提出 RLHF(人类反馈强化学习)三阶段训练法,让大语言模型从"聪明但不听话"变成"既聪明又听话"。

建议阅读顺序:

问题背景(Introduction)
   ↓
RLHF 三步骤(Section 2:方法)
   ↓
惊人结论(Section 3:1.3B 胜 175B)
   ↓
对齐税概念(对齐代价与解决方案)
   ↓
安全性提升(真实性 + 无害性)

核心问题:为什么需要"对齐"?

在读论文之前,先理解它要解决的根本问题。

GPT-3 的本质:GPT-3 是在互联网文本上训练的"下一词预测"模型。给它一段话,它能续写出听起来流畅的内容。

问题所在:互联网上什么都有——错误信息、偏见、有害内容。GPT-3 学会了"续写互联网风格的文字",但这个目标和"帮助用户解决问题"是两回事。于是:
- 问它一个问题,它可能"续写"出一堆听起来像答案但实际是编造的内容
- 让它写一封邮件,它可能写了三段再扯到不相关的话题
- 它不知道什么时候该说"我不知道"

这就是对齐问题(Alignment Problem):模型的优化目标(预测下一个词)与人类真实意图(有帮助、诚实、无害)之间的偏差。

本文的答案:用人类反馈来"教"模型什么是好的回答,通过三阶段 RLHF 训练,让模型学会"听话"。


RLHF 三阶段流程图(文字版)

原始 GPT-3(预训练模型)
         │
         ▼
┌─────────────────────────────────────────────────────────┐
│  第一阶段:监督微调 (SFT)                                  │
│  人工标注员写出示范回答 → 用监督学习微调 GPT-3             │
│  类比:给学生看"优秀作文范本",让他模仿学习               │
└─────────────────────────────────────────────────────────┘
         │
         ▼  SFT 模型
         │
┌─────────────────────────────────────────────────────────┐
│  第二阶段:训练奖励模型 (RM)                               │
│  对同一问题生成多个答案 → 人工排名优劣                     │
│  → 训练一个能自动给回答打分的"评审模型"                    │
│  类比:培养一位"会打分的老师",让他学会判断好坏             │
└─────────────────────────────────────────────────────────┘
         │
         ▼  奖励模型 (RM)
         │
┌─────────────────────────────────────────────────────────┐
│  第三阶段:PPO 强化学习优化                                 │
│  用 RM 作为反馈信号 → PPO 算法让 SFT 模型持续改进          │
│  类比:学生在"老师"的打分反馈下不断练习,越练越好           │
└─────────────────────────────────────────────────────────┘
         │
         ▼
   InstructGPT(对齐后的模型)

三步类比总结:先看示范学样(SFT)→ 培训打分老师(RM)→ 照老师反馈练习(PPO)


Abstract(摘要)精译

原文:Making language models bigger does not inherently make them better at following a user's intent.

翻译:让语言模型变得更大,并不自然而然地让它们更善于遵循用户的意图。

讲解:这是全文的核心命题,也是对当时"规模定律"思潮的一次重要修正。彼时学界普遍认为"模型越大越好",GPT-3 凭借 1750 亿参数震惊世界。但本文一开篇就指出:参数量 ≠ 有用性。一个"聪明"的模型不一定是一个"听话"的模型。


原文:For example, large language models (LMs) can generate outputs that are untruthful, toxic, or simply not helpful to the user.

翻译:例如,大型语言模型可能生成不真实、有毒,或者对用户根本没有帮助的输出。

讲解:这三类问题正是后来 AI 安全研究的三大核心:
- 不真实(untruthful):模型会"一本正经地胡说八道",编造看起来合理的事实
- 有毒(toxic):生成歧视性、攻击性内容
- 没帮助(not helpful):答非所问,或绕圈子不直接回答


原文:In other words, these models are not aligned with their users.

翻译:换句话说,这些模型与其用户是"未对齐的"。

讲解对齐(Alignment) 是本文最核心的术语。想象一个对齐了的指南针,它的指向和你想去的方向一致。"模型与用户未对齐",意思是模型的行为方向和用户的真实需求方向不一致。这个词来自物理学中"方向一致"的概念,在 AI 领域特指让模型的目标与人类价值观保持一致。


原文:We show that our evaluators prefer outputs from the 1.3B parameter InstructGPT model over outputs from the 175B GPT-3, despite having 100x fewer parameters.

翻译:我们表明,尽管参数量少了 100 倍,评估者仍然更偏好 1.3B 参数的 InstructGPT 模型的输出,而非 175B 参数的 GPT-3 的输出。

讲解:这是本文最轰动的实验结论。1.3B vs 175B,参数量相差 100 倍,但人类评估者更喜欢小模型的答案。这直接证明:训练方式比模型大小更重要。就像一个受过良好礼仪教育的普通人,往往比一个学识渊博但粗鲁无礼的天才更受欢迎。


原文:Our models also show improvements in truthfulness and reductions in toxic output generation on public NLP datasets, and we show that these benefits sometimes come at the cost of lower performance on some other NLP tasks (this is referred to as an "alignment tax").

翻译:我们的模型在公开 NLP 数据集上也展现出真实性的提升和有毒输出生成的减少,我们还表明这些收益有时是以在某些其他 NLP 任务上性能下降为代价的(这被称为"对齐税")。

讲解对齐税(Alignment Tax) 是本文引入的重要概念。为了让模型更"听话",在某些标准测试题(如阅读理解、翻译)上的分数会略微下降。就像一个接受了礼仪培训的人,在某些竞技性考试中可能不如那些只顾刷题的人——因为他们的注意力分配不同了。后文会讲如何用 PPO-ptx 来减轻这个"税"。


Introduction(引言)精译

问题的根源

原文:The language modeling objective used for many recent large LMs—predicting the next token on a webpage from the internet—is different from the objective "follow the user's instructions helpfully and safely."

翻译:许多近期大型语言模型使用的语言建模目标——预测互联网网页上的下一个词元——与"有帮助且安全地遵循用户指令"这一目标是不同的。

讲解:这句话点出了问题的根本原因,非常值得细细理解。

GPT-3 学的是什么:从数TB的互联网文本中,预测"给定前面这些词,下一个词最可能是什么"。这个任务让它学会了语言规律、知识储备,但没有学会"帮助用户"

类比:就像一个博览群书的图书管理员,他能背出无数书里的内容,但没有人教他"怎么给读者提供最有用的推荐"。他可能给你推荐一本书名很像但内容完全不符合你需求的书,并且说得头头是道。

这种训练目标与使用目标之间的不一致,就是"未对齐"的本质。


原文:We want language models to be helpful (they should help the user solve their task), honest (they shouldn't fabricate information or mislead the user), and harmless.

翻译:我们希望语言模型是有帮助的(它们应该帮助用户完成任务)、诚实的(它们不应该编造信息或误导用户)、无害的。

讲解:这三个词——Helpful(有帮助)、Honest(诚实)、Harmless(无害),在 AI 对齐领域被称为 "3H 原则",是 Anthropic 和 OpenAI 等公司的核心价值观框架。本文是最早将这三者系统化的工作之一。

  • Helpful:真正解决用户的问题,而不是给出模棱两可的废话
  • Honest:宁愿说"我不知道",也不编造听起来有道理的答案
  • Harmless:拒绝生成可能伤害他人的内容

方法总览

原文:We then collect a dataset of rankings of model outputs, which we use to further fine-tune this supervised model using reinforcement learning from human feedback (RLHF).

翻译:然后我们收集一个模型输出排名的数据集,用它通过人类反馈强化学习(RLHF)进一步微调这个监督模型。

讲解RLHF(Reinforcement Learning from Human Feedback,人类反馈强化学习) 是本文的核心技术,也是 ChatGPT 的关键秘密。

  • Reinforcement Learning(强化学习):通过"行动-奖励"循环让模型学习,就像训练宠物——做对了给奖励,做错了给惩罚
  • from Human Feedback(来自人类反馈):奖励信号不是来自数学公式,而是来自真实人类的判断

整个训练的哲学是:与其给模型一个精确的数学目标,不如让真实的人来告诉它"这个答案好,那个答案差"


核心发现预告

原文:Outputs from the 1.3B parameter InstructGPT model are preferred to outputs from the 175B GPT-3, despite having 100x fewer parameters.

翻译:1.3B 参数的 InstructGPT 模型的输出优于 175B GPT-3 的输出,尽管前者的参数量少了 100 倍。

讲解:再次强调这个惊人结论,并思考其深远意义:

如果"模型变大就会变好"是真的,那么 AI 进步就只需要堆算力。

但本文证明:对齐方法可以用极低的成本(相对于预训练)大幅提升实用性。这给了小团队和小公司一个启示——不需要和大公司拼参数量,把模型训练得更"听话"就能胜出。

这也正是后来 Alpaca、Vicuna 等小型对齐模型爆发的理论基础。


Section 2:方法(RLHF 三阶段详解)

第一阶段:监督微调(SFT)

术语解释SFT(Supervised Fine-Tuning,监督微调) 就是用标注好的"输入-输出"对,教模型什么样的回答是正确的。"监督"的意思是每个训练样本都有人工标注的标准答案作为"监督信号"。

原文:We hired a team of about 40 contractors on Upwork and through ScaleAI.

翻译:我们在 Upwork 和通过 ScaleAI 雇用了大约 40 名承包商组成团队。

讲解:OpenAI 花钱雇了约 40 名人工标注员。这些人的工作是:
1. 看到一个问题/指令(称为 Prompt,即提示词/输入)
2. 亲手写出一个理想的回答
3. 或者从模型生成的多个回答中排名优劣

Prompt(提示词) 是 AI 领域的核心术语,指给模型的"输入",可以是问题、指令、对话开头等任何形式。


原文(数据集规模,来自论文数据):The SFT dataset contains approximately 13,000 labeler demonstrations covering tasks such as generation, open QA, brainstorming, chat, rewrite, summarization, classification, and closed QA.

翻译:SFT 数据集包含约 13,000 条标注员演示,涵盖生成、开放问答、头脑风暴、对话、改写、摘要、分类和封闭问答等任务。

讲解:13,000 条示范数据,这个数字看起来很小——而 GPT-3 预训练用了数千亿个词的数据。但就是这区区 13,000 条高质量示范,加上后续的 RLHF,就足以从根本上改变模型的行为风格。这说明数据质量远比数量重要,尤其是在微调阶段。

SFT 训练了 16 个 epoch(即把这 13,000 条数据反复学习 16 遍),学习率按余弦规律衰减,残差 dropout 率 0.2。


第二阶段:训练奖励模型(RM)

术语解释RM(Reward Model,奖励模型) 是一个专门训练来"给回答打分"的模型。它看了大量人类的优劣排名之后,学会了模仿人类的判断标准,能自动判断一个回答的质量。

原文(方法描述):We then collect a dataset of rankings of model outputs, which we use to train our reward model.

翻译:然后我们收集一个模型输出排名的数据集,用它来训练我们的奖励模型。

讲解为什么要训练奖励模型,而不直接让人类打分

强化学习需要对模型的每一次输出都给予即时反馈。如果每次都让人类来打分,成本极高、速度极慢。

解决方案:先让人类给一批数据打分/排名,训练出一个"会打分的 AI"(奖励模型),然后用这个 AI 来代替人类打分,给强化学习提供连续的反馈信号。

类比:就像培训一个代课老师。真正的专家(人类标注员)先阅卷几千份,代课老师(RM)从中学会评分标准。此后,代课老师就能自动给作业打分,效率大幅提升。


原文(奖励模型规模):The RM is initialized from the SFT model with the final unembedding layer removed, and we use a 6B reward model, as we found it to be more stable.

翻译:奖励模型从去掉最后一层反嵌入层的 SFT 模型初始化,我们使用 6B 参数的奖励模型,因为我们发现它更稳定。

讲解:奖励模型的参数量是 60 亿(6B),而不是最大的 1750 亿(175B)。这是出于稳定性考虑——更大的奖励模型容易在训练中产生不稳定性。这里的"去掉最后一层"是因为原始模型的输出层预测的是词,而奖励模型需要输出的是一个分数(标量),所以要换一个输出头。


原文(排名数据规模):The comparison dataset contains approximately 33,000 human-labeled comparisons.

翻译:比较数据集包含约 33,000 条人工标注的比较。

讲解:标注员对同一个问题的多个模型回答进行排名(比如 A、B、C、D 四个答案,按好坏排序)。这 33,000 条排名数据是训练奖励模型的"教材"。

奖励模型的损失函数(核心公式)

loss(θ) = −1/(K choose 2) · E[log(σ(r_θ(x, y_w) − r_θ(x, y_l)))]

翻译成人话:对于同一个问题 x,好答案 y_w 得到的分数应该高于差答案 y_l。损失函数的目标就是让 RM 学会区分好坏。这用的是Bradley-Terry 模型,一种统计学中经典的两两比较模型。


第三阶段:PPO 强化学习

术语解释PPO(Proximal Policy Optimization,近端策略优化) 是强化学习中的一个经典算法,2017 年由 OpenAI 提出。它让模型在改进自己的回答策略时,不要步子迈得太大,以免训练不稳定。

原文(PPO 目标函数):objective(ϕ) = E[(r_θ(x, y) − β log(π_RL(y|x) / π_SFT(y|x)))] + γ E[log π_RL(x)]

翻译:目标函数 = E[奖励分数 − β × KL散度惩罚项] + γ × E[预训练分布的对数似然]

讲解:这个公式看起来复杂,但逻辑很清晰,分三部分:

第一部分:r_θ(x, y)
奖励模型给当前回答打的分——越高越好。模型要最大化这个分数。

第二部分:−β log(π_RL / π_SFT)
KL 散度惩罚(KL Penalty)。这是一个"不要走太远"的约束。
- π_RL 是当前强化学习模型的策略
- π_SFT 是第一阶段训练好的 SFT 模型的策略
- β 控制惩罚力度

为什么需要这个惩罚? 如果没有约束,模型可能会"过度优化"奖励分数——比如发现奖励模型对某种语言风格打分特别高,就拼命往那个方向跑,生成人类看来奇怪但能骗过 RM 的回答。这叫"奖励黑客(reward hacking)"。KL 惩罚就像一根绳子,把强化学习模型拴在 SFT 模型附近,不让它跑得太偏。

第三部分:+γ × E[log π_RL(x)]
预训练梯度混合(PPO-ptx 变体)。在强化学习更新中混入一些预训练数据的梯度,防止对齐过程中"遗忘"原有的语言能力。这正是解决"对齐税"的关键机制(后文详述)。

简单类比:PPO 就像一个考生备考——他的目标是考高分(最大化 RM 奖励),但有两个约束:一是别偏离自己的基础知识太远(KL 惩罚),二是保持对基础课程的复习(预训练混合)。


原文(关于 KL 惩罚的作用):The KL reward coefficient, β, and the pretraining loss coefficient, γ, control the strength of the KL penalty and pretraining gradients respectively.

翻译:KL 奖励系数 β 和预训练损失系数 γ,分别控制 KL 惩罚和预训练梯度的强度。

讲解:β 和 γ 是两个需要人工调节的超参数(hyperparameter)。
- β 越大,模型越保守,离 SFT 模型越近
- γ 越大,模型越"记得"预训练知识,对齐税越小

找到合适的 β 和 γ 需要大量实验,是工程上的核心挑战之一。


Section 3:关键实验结果精译

3.1 惊人结论:1.3B 胜 175B

原文:outputs from the 1.3B parameter InstructGPT model are preferred to outputs from the 175B GPT-3, despite having 100x fewer parameters.

翻译:1.3B 参数的 InstructGPT 模型的输出优于 175B GPT-3 的输出,尽管前者参数量少了 100 倍。

讲解:让我们理解这个实验是怎么做的:

评估方式:让人类标注员(评估者)盲评——不告诉他们哪个是哪个模型生成的,只问"这两个答案哪个更好?"

结论的具体数字(来自论文数据):
- 175B InstructGPT vs 175B GPT-3(few-shot):71 ± 4% 的时间人类更偏好 InstructGPT
- 175B InstructGPT vs 175B GPT-3(全量):85 ± 3% 的时间人类更偏好 InstructGPT
- 1.3B InstructGPT vs 175B SFT 基准:约 73% 的胜率

深层含义:这不只是一个实验数字,它改变了整个 AI 行业的发展路径。它告诉我们:
1. 对齐训练的价值远超扩大规模——至少在实用性指标上
2. RLHF 是一种极其高效的训练方法——用极少的人类标注数据,产生巨大的改进
3. "更大"不等于"更好用"——行业需要重新定义"更好的模型"的标准


3.2 真实性(Truthfulness)提升

原文:InstructGPT generates truthful and informative answers about twice as often as GPT-3.

翻译:InstructGPT 生成真实且有用答案的频率约为 GPT-3 的两倍。

讲解:这个评估用的是 TruthfulQA 测试集——专门设计来测试模型是否会给出错误但听起来很合理的答案(比如一些常见误解)。

GPT-3 的问题:它接触过大量含有错误信息的互联网文本,学会了"听起来有道理的表达方式",但不区分真假。

InstructGPT 的改进:通过 RLHF,人类标注员在打分时会降低不真实答案的评分,RM 学会了更偏好真实的回答,PPO 优化后的模型也随之减少了胡编乱造。


原文(关于幻觉减少):on closed-domain tasks, InstructGPT had 21% hallucination rate versus 41% for GPT-3.

翻译:在封闭域任务上,InstructGPT 的幻觉率为 21%,而 GPT-3 为 41%。

讲解幻觉(Hallucination) 是 AI 领域的专业术语,指模型"一本正经地胡说八道"——生成的内容听起来自信满满,但实际是错误或编造的。

比如问"2023年谁获得了诺贝尔文学奖",GPT-3 可能直接给出一个名字,但这个名字可能是错的。而 InstructGPT 更倾向于承认不确定性或给出更谨慎的答案。

41% → 21%:幻觉率减半,这是一个巨大的实用性提升,对企业级应用场景尤为重要。


3.3 无害性(Harmlessness)提升

原文:InstructGPT showed about 25% fewer toxic outputs than GPT-3 when prompted to be respectful.

翻译:当被提示要尊重他人时,InstructGPT 生成的有毒输出比 GPT-3 少约 25%。

讲解:当用户主动要求模型"请尊重地回答"时,InstructGPT 能更好地遵循这个要求,减少有害输出。

重要限制:论文也诚实地指出,在没有明确提示要求尊重时,InstructGPT 在毒性方面的改进有限;在偏见指标(Winogender、CrowS-Pairs 测试集)上,与 GPT-3 相比也没有显著改善。这说明 RLHF 不是万能的,对齐工作仍有很大空间。


3.4 对齐税(Alignment Tax)与解决方案

这是什么问题?

原文:This is an example of an "alignment tax" since our alignment procedure comes at the cost of lower performance on certain tasks that we may care about.

翻译:这是"对齐税"的一个例子,因为我们的对齐过程是以在某些我们可能关心的任务上性能下降为代价的。

讲解对齐税(Alignment Tax) 的直觉理解:

假设 GPT-3 原本在做标准化考试(SQuAD 阅读理解、翻译测试等)时表现很好。经过 RLHF 对齐训练后,模型学会了"怎么和人说话",但在这些考试题上的分数可能略有下降。

为什么会下降? 强化学习训练时,模型的参数会向"讨人喜欢的对话风格"方向调整,这可能会微妙地影响在特定格式化任务上的表现。

类比:一个从小只练应试的学生,突然去学礼仪、沟通技巧,应试分数可能略降,但综合素质大幅提升。这个分数下降就是"对齐税"。


原文(PPO-ptx 的解决方案):We can greatly reduce the performance regressions on these datasets by mixing PPO updates with updates that increase the log likelihood of the pretraining distribution (PPO-ptx).

翻译:我们可以通过将 PPO 更新与增加预训练分布对数似然的更新混合(PPO-ptx),来大幅减少在这些数据集上的性能回退。

讲解PPO-ptx 是本文提出的对齐税解决方案。

"-ptx" 的含义:pretraining(预训练)。这个变体在 PPO 强化学习的每一步更新中,同时混入一些原始预训练数据的梯度。

工作原理:就像让模型一边学新技能(对齐),一边复习老功课(预训练知识)。这样就不会因为专注对齐而"忘记"原来会做的题。

在受到对齐税影响的任务上(SQuAD、DROP、HellaSwag、翻译),PPO-ptx 能显著恢复性能,同时几乎不牺牲对话偏好分数。这是本文的重要工程贡献之一。


3.5 泛化能力(Generalization)

原文:InstructGPT models show promising generalization to instructions outside of the RLHF fine-tuning distribution, including non-English languages and code tasks, despite these being a tiny minority of our fine-tuning data.

翻译:InstructGPT 模型展现出令人期待的泛化能力,能够泛化到 RLHF 微调分布之外的指令,包括非英语语言和代码任务,尽管这些内容在微调数据中占极小比例。

讲解:这是一个重要的"附赠惊喜"。训练数据主要是英语,但模型在中文、法语等语言的指令遵循上也有所改善。对代码任务也有一定改进,尽管代码几乎不在训练数据中。

为什么会泛化? 因为"遵循指令"是一种通用能力——模型学会了"理解人类意图并给出相应回应"的元技能,这种技能可以跨语言、跨任务迁移。

这也给了后来者启示:不需要为每种语言都收集大量对齐数据,从高质量英语数据对齐的模型,可以自然地迁移到其他语言。


关键术语速查表

术语(英文) 中文全称 一句话解释
Alignment 对齐 让 AI 的行为目标与人类意图保持一致
RLHF 人类反馈强化学习 用人类的好坏判断来训练 AI 的完整方法框架
SFT 监督微调 第一阶段:用人类示范答案直接教模型
RM 奖励模型 第二阶段产物:学会给回答自动打分的 AI
PPO 近端策略优化 第三阶段用的强化学习算法,特点是步子不迈太大
PPO-ptx 混合预训练的 PPO 在 PPO 中混入预训练数据梯度,减少对齐税
Alignment Tax 对齐税 为了对齐而在部分标准测试上付出的性能代价
Prompt 提示词/输入 给 AI 的指令或问题,是人机交互的起点
Hallucination 幻觉 模型一本正经地编造不存在的事实
KL Divergence KL 散度 衡量两个概率分布距离的数学工具;这里用于防止模型跑偏
3H 原则 有帮助/诚实/无害 Helpful + Honest + Harmless,AI 对齐的三大目标
InstructGPT 指令 GPT 本文训练出的对齐版 GPT-3,ChatGPT 的直接前身

总结:为什么这篇论文改变了 AI 发展方向

五个核心贡献

  1. 证明了对齐比规模更重要:1.3B 打败 175B,颠覆了"参数即性能"的认知
  2. 系统化了 RLHF 三阶段流程:SFT → RM → PPO,成为后来所有对齐工作的标准范式
  3. 引入了对齐税概念,并提供了 PPO-ptx 解决方案
  4. 量化了三大改进:真实性(幻觉减半)、无害性(毒性降 25%)、指令遵循
  5. 奠定了 ChatGPT 的技术基础:ChatGPT 于同年 11 月发布,核心技术正是本文的 RLHF

对 AI 发展的深远影响

InstructGPT (2022年3月)
      │
      ├── ChatGPT (2022年11月) ← 直接商业化产品
      │
      ├── Claude (Anthropic) ← 进一步发展 3H 原则
      │
      ├── Llama + Alpaca/Vicuna ← 开源对齐模型
      │
      └── RLHF 成为行业标准 ← 几乎所有主流 LLM 都采用

遗留的开放问题(论文诚实承认的局限)

  1. 标注员代表性:仅约 40 人,主要来自美国和东南亚,英语为主,无法代表全人类
  2. 仍可生成有害内容:当用户明确要求时,模型仍难以拒绝
  3. 偏见改善有限:在标准偏见测试集上无显著改进
  4. 奖励黑客风险:RM 可能被"骗",需要 KL 约束等保护机制

数据汇总:关键数字一览

指标 数值
SFT 训练数据 ~13,000 条人工示范
RM 训练数据 ~33,000 条人工排名
PPO 训练数据 ~31,000 条 API 提示词
人工标注员数量 ~40 人(Upwork + ScaleAI)
奖励模型参数量 6B(60亿)
InstructGPT 最大版本 175B(1750亿)
1.3B InstructGPT 胜 175B GPT-3 人类评估中显著偏好
175B InstructGPT vs 175B GPT-3(few-shot) 人类 71 ± 4% 的时间偏好前者
175B InstructGPT vs 175B GPT-3(完整) 人类 85 ± 3% 的时间偏好前者
TruthfulQA 改进 真实且有用答案频率约为 GPT-3 的 2 倍
封闭域幻觉率 InstructGPT 21% vs GPT-3 41%
毒性降低(被提示尊重时) 约减少 25%
标注员间一致率 72.6 ± 1.5%(训练集)
175B SFT 训练成本 4.9 petaflops/s-days
175B PPO-ptx 训练成本 60 petaflops/s-days
GPT-3 预训练成本 3,640 petaflops/s-days

:RLHF 对齐训练的计算成本(60 petaflops/s-days)仅为 GPT-3 预训练(3,640 petaflops/s-days)的约 1.6%,却带来了人类偏好上的巨大提升。这再次印证了对齐的高效性


精读笔记完

覆盖:Abstract 全部 | Introduction 核心段落 | 方法章节 RLHF 三阶段全部 | 关键实验结论(1.3B vs 175B、对齐税、真实性、无害性)