现代大模型的地基。从自注意力机制到 BERT/GPT/LLaMA/Mamba。理解一切的起点。
论文架构、核心观点、创新点、实验设置、写作风格、图表亮点、新手阅读建议——尽在导读合集
Transformer 开山之作,自注意力机制提出
双向编码 + 预训练范式革命
大模型涌现与 In-Context Learning
统一文本到文本框架,大型消融研究
把 Transformer 用到图像
MoE 混合专家,万亿参数稀疏模型基础
旋转位置编码,现代 LLM 标配
注意力的显存/速度优化,工程必懂
开源 LLM 标杆,结构设计影响深远
开源对齐模型完整方案(含 RLHF)
小模型高性能,滑动窗口注意力
状态空间模型,Transformer 的潜在挑战者