📚 自主学习系统 · 2026

大模型经典论文学习站

覆盖 Transformer、RAG、上下文系统、预训练对齐、Agent 与最新 Harness 工程六大主线。每篇论文配独立精读：摘要 / 方法 / 实验逐段精译，新手友好。

57篇精读

6大类

57PDF 原文

~200万字精译讲解

🗂️ 六大分类建议按顺序学

🧠

Transformer 架构

现代大模型的地基。从自注意力机制到 BERT/GPT/LLaMA/Mamba。理解一切的起点。

12 篇精读→ 进入分类

🔍

RAG 检索增强

让大模型用上外部知识库：从 RAG 原论文到 Self-RAG、CRAG、综述。

11 篇精读→ 进入分类

📜

上下文系统

长上下文与记忆管理：稀疏注意力、位置外推、流式生成、外部记忆。

10 篇精读→ 进入分类

🎯

预训练 / 微调 / 对齐

训练全流程：缩放定律、RLHF、LoRA/QLoRA、CoT。从能力到对齐到推理。

13 篇精读→ 进入分类

🤖

Agent 智能体

让大模型行动起来：ReAct / Toolformer / 反思 / 思维树 / 终身学习。

10 篇精读→ 进入分类

🛠️

Agent 执行外壳工程

2026 最新视角：决定 Agent 可靠性的是执行外壳(harness)而非模型本身。

1 篇精读→ 进入分类

🛣️ 推荐学习路径 15 篇核心 · 主线打通

从零到 Agent · 主线 15 篇

按顺序读完这 15 篇 ⭐⭐⭐ 论文，你将建立大模型完整知识地图。

📋 全部论文一览支持搜索

Transformer 架构 · 第 01 篇

Attention Is All You Need

Transformer 开山之作，自注意力机制提出

📖 精读 📄 PDF arXiv:1706.03762

⭐⭐⭐

Transformer 架构 · 第 02 篇

BERT

双向编码 + 预训练范式革命

📖 精读 📄 PDF arXiv:1810.04805

⭐⭐⭐

Transformer 架构 · 第 03 篇

GPT-3

大模型涌现与 In-Context Learning

📖 精读 📄 PDF arXiv:2005.14165

⭐⭐⭐

Transformer 架构 · 第 04 篇

T5

统一文本到文本框架，大型消融研究

📖 精读 📄 PDF arXiv:1910.10683

⭐⭐

Transformer 架构 · 第 05 篇

ViT

把 Transformer 用到图像

📖 精读 📄 PDF arXiv:2010.11929

⭐⭐

Transformer 架构 · 第 06 篇

Switch Transformers

MoE 混合专家，万亿参数稀疏模型基础

📖 精读 📄 PDF arXiv:2101.03961

⭐

Transformer 架构 · 第 07 篇

RoFormer-RoPE

旋转位置编码，现代 LLM 标配

📖 精读 📄 PDF arXiv:2104.09864

⭐⭐

Transformer 架构 · 第 08 篇

FlashAttention

注意力的显存/速度优化，工程必懂

📖 精读 📄 PDF arXiv:2205.14135

⭐⭐

Transformer 架构 · 第 09 篇

LLaMA

开源 LLM 标杆，结构设计影响深远

📖 精读 📄 PDF arXiv:2302.13971

⭐⭐⭐

Transformer 架构 · 第 10 篇

Llama 2

开源对齐模型完整方案（含 RLHF）

📖 精读 📄 PDF arXiv:2307.09288

⭐⭐

Transformer 架构 · 第 11 篇

Mistral 7B

小模型高性能，滑动窗口注意力

📖 精读 📄 PDF arXiv:2310.06825

⭐

Transformer 架构 · 第 12 篇

Mamba

状态空间模型，Transformer 的潜在挑战者

📖 精读 📄 PDF arXiv:2312.00752

⭐

RAG 检索增强 · 第 01 篇

RAG原论文

RAG 概念提出，检索+生成联合

📖 精读 📄 PDF arXiv:2005.11401

⭐⭐⭐

RAG 检索增强 · 第 02 篇

REALM

在预训练阶段引入检索

📖 精读 📄 PDF arXiv:2002.08909

⭐⭐

RAG 检索增强 · 第 03 篇

DPR

稠密向量检索，向量库召回的基础

📖 精读 📄 PDF arXiv:2004.04906

⭐⭐⭐

RAG 检索增强 · 第 04 篇

FiD

多文档融合解码

📖 精读 📄 PDF arXiv:2007.01282

⭐⭐

RAG 检索增强 · 第 05 篇

RETRO

用万亿级检索库增强生成

📖 精读 📄 PDF arXiv:2112.04426

⭐

RAG 检索增强 · 第 06 篇

Atlas

少样本场景的检索增强

📖 精读 📄 PDF arXiv:2208.03299

⭐

RAG 检索增强 · 第 07 篇

HyDE

假设性文档嵌入，零样本检索

📖 精读 📄 PDF arXiv:2212.10496

⭐⭐

RAG 检索增强 · 第 08 篇

FLARE

Active RAG 主动按需检索

📖 精读 📄 PDF arXiv:2305.06983

⭐⭐

RAG 检索增强 · 第 09 篇

Self-RAG

模型自我判断何时检索/是否可信

📖 精读 📄 PDF arXiv:2310.11511

⭐⭐⭐

RAG 检索增强 · 第 10 篇

CRAG

纠错式检索，提升鲁棒性

📖 精读 📄 PDF arXiv:2401.15884

⭐⭐

RAG 检索增强 · 第 11 篇

RAG综述

系统性梳理 RAG 全景

📖 精读 📄 PDF arXiv:2312.10997

⭐⭐⭐

上下文系统 · 第 01 篇

Longformer

稀疏注意力处理长文档

📖 精读 📄 PDF arXiv:2004.05150

⭐⭐

上下文系统 · 第 02 篇

BigBird

稀疏注意力的理论与实践

📖 精读 📄 PDF arXiv:2007.14062

⭐

上下文系统 · 第 03 篇

ALiBi

位置偏置，外推到更长序列

📖 精读 📄 PDF arXiv:2108.12409

⭐⭐

上下文系统 · 第 04 篇

Lost in the Middle

长上下文的中间遗忘现象

📖 精读 📄 PDF arXiv:2307.03172

⭐⭐⭐

上下文系统 · 第 05 篇

YaRN

高效扩展上下文窗口

📖 精读 📄 PDF arXiv:2309.00071

⭐⭐

上下文系统 · 第 06 篇

LongLoRA

低成本微调长上下文

📖 精读 📄 PDF arXiv:2309.12307

⭐⭐

上下文系统 · 第 07 篇

StreamingLLM

流式无限输入的注意力汇机制

📖 精读 📄 PDF arXiv:2309.17453

⭐⭐

上下文系统 · 第 08 篇

Ring Attention

分布式超长上下文

📖 精读 📄 PDF arXiv:2310.01889

⭐

上下文系统 · 第 09 篇

MemGPT

把 LLM 当操作系统做分层记忆

📖 精读 📄 PDF arXiv:2310.08560

⭐⭐⭐

上下文系统 · 第 10 篇

Infini-attention

压缩记忆实现无限上下文

📖 精读 📄 PDF arXiv:2404.07143

⭐

预训练 / 微调 / 对齐 · 第 01 篇

Scaling Laws

缩放定律，模型/数据/算力关系

📖 精读 📄 PDF arXiv:2001.08361

⭐⭐⭐

预训练 / 微调 / 对齐 · 第 02 篇

Chinchilla

计算最优配比，颠覆越大越好

📖 精读 📄 PDF arXiv:2203.15556

⭐⭐⭐

预训练 / 微调 / 对齐 · 第 03 篇

Learning to Summarize

人类反馈强化学习的早期实践

📖 精读 📄 PDF arXiv:2009.01325

⭐⭐

预训练 / 微调 / 对齐 · 第 04 篇

InstructGPT

RLHF 对齐范式，ChatGPT 技术原型

📖 精读 📄 PDF arXiv:2203.02155

⭐⭐⭐

预训练 / 微调 / 对齐 · 第 05 篇

Constitutional AI

用 AI 反馈替代部分人工 (RLAIF)

📖 精读 📄 PDF arXiv:2212.08073

⭐⭐

预训练 / 微调 / 对齐 · 第 06 篇

DPO

免强化学习的偏好对齐，当前主流

📖 精读 📄 PDF arXiv:2305.18290

⭐⭐⭐

预训练 / 微调 / 对齐 · 第 07 篇

PPO

RLHF 用到的强化学习算法

📖 精读 📄 PDF arXiv:1707.06347

⭐⭐

预训练 / 微调 / 对齐 · 第 08 篇

LoRA

低秩微调，最常用的高效微调

📖 精读 📄 PDF arXiv:2106.09685

⭐⭐⭐

预训练 / 微调 / 对齐 · 第 09 篇

QLoRA

量化 + LoRA，单卡微调大模型

📖 精读 📄 PDF arXiv:2305.14314

⭐⭐

预训练 / 微调 / 对齐 · 第 10 篇

Prefix-Tuning

前缀微调

📖 精读 📄 PDF arXiv:2101.00190

⭐

预训练 / 微调 / 对齐 · 第 11 篇

Prompt Tuning

软提示微调

📖 精读 📄 PDF arXiv:2104.08691

⭐

预训练 / 微调 / 对齐 · 第 12 篇

FLAN

指令微调让模型学会听指令

📖 精读 📄 PDF arXiv:2109.01652

⭐⭐

预训练 / 微调 / 对齐 · 第 13 篇

Chain-of-Thought

思维链，激发推理能力的关键提示

📖 精读 📄 PDF arXiv:2201.11903

⭐⭐⭐

Agent 智能体 · 第 01 篇

ReAct

推理+行动交替，Agent 范式基石

📖 精读 📄 PDF arXiv:2210.03629

⭐⭐⭐

Agent 智能体 · 第 02 篇

Toolformer

模型自主学会调用工具

📖 精读 📄 PDF arXiv:2302.04761

⭐⭐⭐

Agent 智能体 · 第 03 篇

Reflexion

通过反思自我改进

📖 精读 📄 PDF arXiv:2303.11366

⭐⭐

Agent 智能体 · 第 04 篇

Self-Refine

自我反馈迭代优化输出

📖 精读 📄 PDF arXiv:2303.17651

⭐⭐

Agent 智能体 · 第 05 篇

HuggingGPT

LLM 作为控制器调度多模型

📖 精读 📄 PDF arXiv:2303.17580

⭐⭐

Agent 智能体 · 第 06 篇

Generative Agents

斯坦福小镇，多智能体社会模拟

📖 精读 📄 PDF arXiv:2304.03442

⭐⭐⭐

Agent 智能体 · 第 07 篇

Tree of Thoughts

思维树，搜索式推理

📖 精读 📄 PDF arXiv:2305.10601

⭐⭐

Agent 智能体 · 第 08 篇

Voyager

终身学习智能体 (Minecraft)

📖 精读 📄 PDF arXiv:2305.16291

⭐

Agent 智能体 · 第 09 篇

LLM Agent综述

Agent 全景综述

📖 精读 📄 PDF arXiv:2308.11432

⭐⭐⭐

Agent 智能体 · 第 10 篇

MRKL

模块化神经符号架构，工具调用先驱

📖 精读 📄 PDF arXiv:2205.00445

⭐

Agent 执行外壳工程 · 第篇

Agent-Harness综述

2026 最新综述：执行外壳=可靠性首要因素，H=(E,T,C,S,L,V)

📖 精读 📄 PDF Preprints 2026

⭐⭐⭐

🗂️ 六大分类 建议按顺序学