长上下文与记忆管理:稀疏注意力、位置外推、流式生成、外部记忆。
论文架构、核心观点、创新点、实验设置、写作风格、图表亮点、新手阅读建议——尽在导读合集
稀疏注意力处理长文档
稀疏注意力的理论与实践
位置偏置,外推到更长序列
长上下文的中间遗忘现象
高效扩展上下文窗口
低成本微调长上下文
流式无限输入的注意力汇机制
分布式超长上下文
把 LLM 当操作系统做分层记忆
压缩记忆实现无限上下文