🧠 分类 01

Transformer 架构

现代大模型的地基。从自注意力机制到 BERT/GPT/LLaMA/Mamba。理解一切的起点。

12篇论文

4必读 ⭐⭐⭐

12PDF 原文

← 返回首页

📚 分类导读合集先看这个建立全局观

本类全部论文的一站式导读

论文架构、核心观点、创新点、实验设置、写作风格、图表亮点、新手阅读建议——尽在导读合集

📖 打开导读合集 →

📄 本类全部论文 12 篇

第 01 篇

Attention Is All You Need

Transformer 开山之作，自注意力机制提出

📖 精读 📄 PDF arXiv:1706.03762

⭐⭐⭐

第 02 篇

BERT

双向编码 + 预训练范式革命

📖 精读 📄 PDF arXiv:1810.04805

⭐⭐⭐

第 03 篇

GPT-3

大模型涌现与 In-Context Learning

📖 精读 📄 PDF arXiv:2005.14165

⭐⭐⭐

第 04 篇

T5

统一文本到文本框架，大型消融研究

📖 精读 📄 PDF arXiv:1910.10683

⭐⭐

第 05 篇

ViT

把 Transformer 用到图像

📖 精读 📄 PDF arXiv:2010.11929

⭐⭐

第 06 篇

Switch Transformers

MoE 混合专家，万亿参数稀疏模型基础

📖 精读 📄 PDF arXiv:2101.03961

⭐

第 07 篇

RoFormer-RoPE

旋转位置编码，现代 LLM 标配

📖 精读 📄 PDF arXiv:2104.09864

⭐⭐

第 08 篇

FlashAttention

注意力的显存/速度优化，工程必懂

📖 精读 📄 PDF arXiv:2205.14135

⭐⭐

第 09 篇

LLaMA

开源 LLM 标杆，结构设计影响深远

📖 精读 📄 PDF arXiv:2302.13971

⭐⭐⭐

第 10 篇

Llama 2

开源对齐模型完整方案（含 RLHF）

📖 精读 📄 PDF arXiv:2307.09288

⭐⭐

第 11 篇

Mistral 7B

小模型高性能，滑动窗口注意力

📖 精读 📄 PDF arXiv:2310.06825

⭐

第 12 篇

Mamba

状态空间模型，Transformer 的潜在挑战者

📖 精读 📄 PDF arXiv:2312.00752

⭐