训练全流程:缩放定律、RLHF、LoRA/QLoRA、CoT。从能力到对齐到推理。
论文架构、核心观点、创新点、实验设置、写作风格、图表亮点、新手阅读建议——尽在导读合集
缩放定律,模型/数据/算力关系
计算最优配比,颠覆越大越好
人类反馈强化学习的早期实践
RLHF 对齐范式,ChatGPT 技术原型
用 AI 反馈替代部分人工 (RLAIF)
免强化学习的偏好对齐,当前主流
RLHF 用到的强化学习算法
低秩微调,最常用的高效微调
量化 + LoRA,单卡微调大模型
前缀微调
软提示微调
指令微调让模型学会听指令
思维链,激发推理能力的关键提示