🧠 分类 01

Transformer 架构

现代大模型的地基。从自注意力机制到 BERT/GPT/LLaMA/Mamba。理解一切的起点。

12篇论文
4必读 ⭐⭐⭐
12PDF 原文
← 返回首页

📚 分类导读合集 先看这个建立全局观

本类全部论文的一站式导读

论文架构、核心观点、创新点、实验设置、写作风格、图表亮点、新手阅读建议——尽在导读合集

📖   打开导读合集 →

📄 本类全部论文 12 篇

第 01 篇

Attention Is All You Need

Transformer 开山之作,自注意力机制提出

📖 精读 📄 PDF arXiv:1706.03762
⭐⭐⭐
第 02 篇

BERT

双向编码 + 预训练范式革命

📖 精读 📄 PDF arXiv:1810.04805
⭐⭐⭐
第 03 篇

GPT-3

大模型涌现与 In-Context Learning

📖 精读 📄 PDF arXiv:2005.14165
⭐⭐⭐
第 04 篇

T5

统一文本到文本框架,大型消融研究

📖 精读 📄 PDF arXiv:1910.10683
⭐⭐
第 05 篇

ViT

把 Transformer 用到图像

📖 精读 📄 PDF arXiv:2010.11929
⭐⭐
第 06 篇

Switch Transformers

MoE 混合专家,万亿参数稀疏模型基础

📖 精读 📄 PDF arXiv:2101.03961
第 07 篇

RoFormer-RoPE

旋转位置编码,现代 LLM 标配

📖 精读 📄 PDF arXiv:2104.09864
⭐⭐
第 08 篇

FlashAttention

注意力的显存/速度优化,工程必懂

📖 精读 📄 PDF arXiv:2205.14135
⭐⭐
第 09 篇

LLaMA

开源 LLM 标杆,结构设计影响深远

📖 精读 📄 PDF arXiv:2302.13971
⭐⭐⭐
第 10 篇

Llama 2

开源对齐模型完整方案(含 RLHF)

📖 精读 📄 PDF arXiv:2307.09288
⭐⭐
第 11 篇

Mistral 7B

小模型高性能,滑动窗口注意力

📖 精读 📄 PDF arXiv:2310.06825
第 12 篇

Mamba

状态空间模型,Transformer 的潜在挑战者

📖 精读 📄 PDF arXiv:2312.00752