🎯 分类 04

预训练 / 微调 / 对齐

训练全流程:缩放定律、RLHF、LoRA/QLoRA、CoT。从能力到对齐到推理。

13篇论文
6必读 ⭐⭐⭐
13PDF 原文
← 返回首页

📚 分类导读合集 先看这个建立全局观

本类全部论文的一站式导读

论文架构、核心观点、创新点、实验设置、写作风格、图表亮点、新手阅读建议——尽在导读合集

📖   打开导读合集 →

📄 本类全部论文 13 篇

第 01 篇

Scaling Laws

缩放定律,模型/数据/算力关系

📖 精读 📄 PDF arXiv:2001.08361
⭐⭐⭐
第 02 篇

Chinchilla

计算最优配比,颠覆越大越好

📖 精读 📄 PDF arXiv:2203.15556
⭐⭐⭐
第 03 篇

Learning to Summarize

人类反馈强化学习的早期实践

📖 精读 📄 PDF arXiv:2009.01325
⭐⭐
第 04 篇

InstructGPT

RLHF 对齐范式,ChatGPT 技术原型

📖 精读 📄 PDF arXiv:2203.02155
⭐⭐⭐
第 05 篇

Constitutional AI

用 AI 反馈替代部分人工 (RLAIF)

📖 精读 📄 PDF arXiv:2212.08073
⭐⭐
第 06 篇

DPO

免强化学习的偏好对齐,当前主流

📖 精读 📄 PDF arXiv:2305.18290
⭐⭐⭐
第 07 篇

PPO

RLHF 用到的强化学习算法

📖 精读 📄 PDF arXiv:1707.06347
⭐⭐
第 08 篇

LoRA

低秩微调,最常用的高效微调

📖 精读 📄 PDF arXiv:2106.09685
⭐⭐⭐
第 09 篇

QLoRA

量化 + LoRA,单卡微调大模型

📖 精读 📄 PDF arXiv:2305.14314
⭐⭐
第 10 篇

Prefix-Tuning

前缀微调

📖 精读 📄 PDF arXiv:2101.00190
第 11 篇

Prompt Tuning

软提示微调

📖 精读 📄 PDF arXiv:2104.08691
第 12 篇

FLAN

指令微调让模型学会听指令

📖 精读 📄 PDF arXiv:2109.01652
⭐⭐
第 13 篇

Chain-of-Thought

思维链,激发推理能力的关键提示

📖 精读 📄 PDF arXiv:2201.11903
⭐⭐⭐