🎯 分类 04

预训练 / 微调 / 对齐

训练全流程：缩放定律、RLHF、LoRA/QLoRA、CoT。从能力到对齐到推理。

13篇论文

6必读 ⭐⭐⭐

13PDF 原文

← 返回首页

📚 分类导读合集先看这个建立全局观

本类全部论文的一站式导读

论文架构、核心观点、创新点、实验设置、写作风格、图表亮点、新手阅读建议——尽在导读合集

📖 打开导读合集 →

📄 本类全部论文 13 篇

第 01 篇

Scaling Laws

缩放定律，模型/数据/算力关系

📖 精读 📄 PDF arXiv:2001.08361

⭐⭐⭐

第 02 篇

Chinchilla

计算最优配比，颠覆越大越好

📖 精读 📄 PDF arXiv:2203.15556

⭐⭐⭐

第 03 篇

Learning to Summarize

人类反馈强化学习的早期实践

📖 精读 📄 PDF arXiv:2009.01325

⭐⭐

第 04 篇

InstructGPT

RLHF 对齐范式，ChatGPT 技术原型

📖 精读 📄 PDF arXiv:2203.02155

⭐⭐⭐

第 05 篇

Constitutional AI

用 AI 反馈替代部分人工 (RLAIF)

📖 精读 📄 PDF arXiv:2212.08073

⭐⭐

第 06 篇

DPO

免强化学习的偏好对齐，当前主流

📖 精读 📄 PDF arXiv:2305.18290

⭐⭐⭐

第 07 篇

PPO

RLHF 用到的强化学习算法

📖 精读 📄 PDF arXiv:1707.06347

⭐⭐

第 08 篇

LoRA

低秩微调，最常用的高效微调

📖 精读 📄 PDF arXiv:2106.09685

⭐⭐⭐

第 09 篇

QLoRA

量化 + LoRA，单卡微调大模型

📖 精读 📄 PDF arXiv:2305.14314

⭐⭐

第 10 篇

Prefix-Tuning

前缀微调

📖 精读 📄 PDF arXiv:2101.00190

⭐

第 11 篇

Prompt Tuning

软提示微调

📖 精读 📄 PDF arXiv:2104.08691

⭐

第 12 篇

FLAN

指令微调让模型学会听指令

📖 精读 📄 PDF arXiv:2109.01652

⭐⭐

第 13 篇

Chain-of-Thought

思维链，激发推理能力的关键提示

📖 精读 📄 PDF arXiv:2201.11903

⭐⭐⭐