📜 分类 03

上下文系统

长上下文与记忆管理:稀疏注意力、位置外推、流式生成、外部记忆。

10篇论文
2必读 ⭐⭐⭐
10PDF 原文
← 返回首页

📚 分类导读合集 先看这个建立全局观

本类全部论文的一站式导读

论文架构、核心观点、创新点、实验设置、写作风格、图表亮点、新手阅读建议——尽在导读合集

📖   打开导读合集 →

📄 本类全部论文 10 篇

第 01 篇

Longformer

稀疏注意力处理长文档

📖 精读 📄 PDF arXiv:2004.05150
⭐⭐
第 02 篇

BigBird

稀疏注意力的理论与实践

📖 精读 📄 PDF arXiv:2007.14062
第 03 篇

ALiBi

位置偏置,外推到更长序列

📖 精读 📄 PDF arXiv:2108.12409
⭐⭐
第 04 篇

Lost in the Middle

长上下文的中间遗忘现象

📖 精读 📄 PDF arXiv:2307.03172
⭐⭐⭐
第 05 篇

YaRN

高效扩展上下文窗口

📖 精读 📄 PDF arXiv:2309.00071
⭐⭐
第 06 篇

LongLoRA

低成本微调长上下文

📖 精读 📄 PDF arXiv:2309.12307
⭐⭐
第 07 篇

StreamingLLM

流式无限输入的注意力汇机制

📖 精读 📄 PDF arXiv:2309.17453
⭐⭐
第 08 篇

Ring Attention

分布式超长上下文

📖 精读 📄 PDF arXiv:2310.01889
第 09 篇

MemGPT

把 LLM 当操作系统做分层记忆

📖 精读 📄 PDF arXiv:2310.08560
⭐⭐⭐
第 10 篇

Infini-attention

压缩记忆实现无限上下文

📖 精读 📄 PDF arXiv:2404.07143