精读笔记:Big Bird — Transformers for Longer Sequences


论文基本信息

项目 内容
论文标题 Big Bird: Transformers for Longer Sequences
arXiv 编号 2007.14062
发表会议 NeurIPS 2020
作者机构 Google Research
核心贡献 提出稀疏注意力机制,将 Transformer 复杂度从 O(n²) 降为 O(n),支持 8 倍更长序列,并证明其图灵完备性

阅读地图(先看这里!)

本文共 5 个核心主题,建议按如下顺序理解:

1. 为什么需要 BigBird?      → 理解 O(n²) 困境(前置知识)
2. BigBird 是什么?          → 三元稀疏注意力组合(核心方法)
3. 两种变体:ITC vs ETC      → 工程实现细节
4. 为什么它还那么强?        → 图灵完备性与通用逼近(理论保证)
5. 它在哪些任务上有效?      → NLP 问答 + 基因组学(实验验证)

和 Longformer 的关系:Longformer(2020)先提出了局部窗口+全局 token 的思路,BigBird 在此基础上额外加入了随机注意力,并补充了严格的理论证明。可以把 BigBird 理解为"Longformer 的理论加强版 + 随机注意力扩展版"。


前置知识:O(n²) 困境(新手必读)

在正式进入论文之前,我们需要搞清楚一个核心问题:Transformer 为什么处理不了长文本?

什么是全注意力(Full Attention)?

标准 Transformer 的自注意力(Self-Attention)让序列中每一个词都和其他所有词计算相关性分数。假设序列长度为 n,那么:

这就是 O(n²) 复杂度(读作"平方阶复杂度"),含义是:序列长度翻倍,计算量变成原来的 4 倍

这有多严重?

BERT 使用的序列长度上限是 512 个 token(大约 300-400 个英文单词)。如果想处理 4096 token(相当于一篇 10 页的学术论文):

这意味着很多长文档任务(法律合同分析、学术论文问答、基因序列分析)对标准 BERT 来说根本无法直接处理。

BigBird 的解决思路:我们真的需要每个词都关注所有其他词吗?不需要!通过精心设计的稀疏注意力(Sparse Attention),我们可以让每个词只关注少数关键位置,计算量从 O(n²) 降为 O(n),而不损失多少表达能力。


第一部分:Abstract(摘要)

原文(关键英文句)

"Transformers-based models, such as BERT, have been one of the most successful deep learning models for NLP. Unfortunately, one of their core limitations is the quadratic dependency (mainly in terms of memory) on the sequence length due to their full attention mechanism."

"We propose, BigBird, a sparse attention mechanism that reduces this quadratic dependency to linear."

BigBird "handles sequences of length up to 8x of what was previously possible using similar hardware."

翻译

基于 Transformer 的模型(如 BERT)是 NLP 领域最成功的深度学习模型之一。然而,它们有一个核心局限:由于全注意力机制,模型对序列长度的依赖是二次方级别的(主要体现在内存占用上)。

为此,我们提出 BigBird——一种稀疏注意力机制,将这种二次方依赖降低为线性。BigBird 可以处理比此前方法最多长 8 倍的序列(在相同硬件条件下),并在问答、文本摘要等任务上取得了最优成绩,还开创了基因组学的新应用。

新手讲解

摘要用一句话点出了问题所在:全注意力是 O(n²) 的。BigBird 用稀疏注意力把它变成 O(n),并且在理论上证明这种稀疏版本仍然保留了 Transformer 的全部能力(图灵完备 + 通用逼近器)。

这就像把一个"每个人都认识所有人"的超大派对,换成"每个人只和少数人直接联系"的精简社交网络——效率大幅提升,但信息仍然可以流通到所有人。


第二部分:Introduction(引言)

2.1 问题背景

原文(关键英文句)

"Models based on Transformers, such as BERT, are wildly successful for a wide variety of Natural Language Processing (NLP) tasks and consequently are mainstay of modern NLP research."

"In particular, the full self-attention have computational and memory requirement that is quadratic in the sequence length."

"This requirement translates to roughly being able to handle input sequences of length 512 tokens. This reduces its direct applicability to tasks that require larger context, like QA, document classification, etc."

翻译

基于 Transformer 的模型(如 BERT)在各种 NLP 任务上取得了广泛成功,已成为现代 NLP 研究的中坚力量。

然而,全自注意力机制的计算量和内存需求与序列长度成二次方关系。实际上,这意味着模型只能处理约 512 token 的输入序列,大大限制了其在需要长上下文的任务(如问答、文档分类)中的应用。

新手讲解

作者开门见山:BERT 很强,但 512 token 的上限太短了。现实中大量任务需要更长的上下文:
- 问答(QA):要在一篇几千字的文章里找到答案
- 文档分类:一份法律合同可能有几万个字
- 基因组学:DNA 序列可以有数万甚至数百万个碱基对

这些场景下,BERT 直接就"截断"了,重要信息根本看不到。


2.2 BigBird 的核心思路

原文(关键英文句)

"In particular, our BigBird consists of three main part: A set of g global tokens attending on all parts of the sequence. All tokens attending to a set of w local neighboring tokens. All tokens attending to a set of r random tokens."

翻译

BigBird 由三个核心部分组成:
1. g 个全局 token(global tokens):这些特殊 token 可以关注序列中所有位置
2. 局部窗口注意力(local window attention):每个 token 关注其前后共 w 个相邻 token
3. 随机注意力(random attention):每个 token 随机关注 r 个其他 token

新手讲解:社交网络类比

想象一个有 1000 人的小城镇,全注意力就是"每个人都认识其他所有人"——这不现实。BigBird 的设计灵感来自真实的社交网络:

注意力类型 社交网络类比 作用
局部窗口(Local Window) 你认识邻居、同事、周围的人 捕捉局部上下文(句子内的语法关系)
随机(Random) 你偶然认识的远方朋友 引入远距离信息,提供"意外的长距离连接"
全局(Global) 城里的市长、名人、意见领袖 所有人都认识他们,信息可以通过他们快速传播到全城

关键洞见:在这样的网络中,从任意一个人到另一个人,只需经过很少几步(这就是著名的"六度分隔"理论)。BigBird 的稀疏注意力也有类似特性:即使每个 token 只直接关注少数其他 token,信息仍能在少数步骤内在整个序列中传播


2.3 理论贡献预告

原文(关键英文句)

"We show that this is indeed the case: we can use a sparse encoder and sparse decoder to simulate any Turing Machine."

"extra tokens allows one to express all continuous sequence to sequence functions with only O(n)-inner products."

翻译

我们证明,稀疏注意力的 Transformer 编码器-解码器可以模拟任何图灵机。同时,通过引入全局 token,模型可以仅用 O(n) 次内积运算就能表达所有连续的序列到序列函数。

新手讲解

这两个理论结论非常重要,用人话说:

作者在说:BigBird 不是一种牺牲能力换速度的折中,而是在速度更快的同时,理论能力保持完整。


2.4 与 Longformer 的关系

原文(关键英文句)

"Recently, Longformer introduced a localized sliding window based mask with few global mask to reduce computation and extended BERT to longer sequence based tasks."

"One can clearly see the importance of using longer context as both Longformer and BigBird outperform models with smaller contexts."

翻译

最近,Longformer 提出了基于局部滑动窗口的掩码,并加入少量全局掩码来降低计算量,将 BERT 扩展到了更长序列的任务上。从实验中可以清楚看出,使用更长上下文的重要性:Longformer 和 BigBird 都优于上下文较短的模型。

新手讲解:BigBird vs Longformer 对比

对比维度 Longformer BigBird
局部窗口注意力
全局 token 有(少量)
随机注意力 有(关键区别)
理论证明 有(图灵完备 + 通用逼近)
复杂度 O(n) O(n)
发表时间 2020年4月 2020年7月

一句话总结:Longformer = 局部 + 全局;BigBird = 局部 + 全局 + 随机 + 理论保证。BigBird 在 Longformer 的基础上补了随机注意力,并用严格数学证明了这套机制的理论完备性。


第三部分:BigBird 方法详解(核心章节)

这是全文最重要的部分,务必仔细理解。

3.1 稀疏注意力的图论视角

原文(关键英文句)

"The key insight is to consider the attention mechanism as a directed graph where each node (token) is connected only to certain other nodes."

"A sliding window on the nodes" where each position attends to neighboring tokens within distance w/2.

翻译

核心洞见是:把注意力机制看作一张有向图——每个节点(token)只与某些特定节点相连。BigBird 将这种图结构限定为稀疏图,从而大幅降低计算量。局部窗口则是一种"在节点上的滑动窗口",每个位置关注距离在 w/2 以内的相邻 token。

新手讲解

把序列想象成一排站立的人,编号 1 到 1000:

图论告诉我们:即使图是稀疏的,只要结构设计合理(比如小世界网络),信息仍然可以在少数跳之内传遍所有节点。这就是 BigBird 的理论基础。


3.2 三种注意力类型详解

3.2.1 局部窗口注意力(Local Window Attention)

原文

"during self attention of width w, query at location i attends from i−w/2 to i+w/2 keys"

翻译:在宽度为 w 的自注意力中,位置 i 处的查询(query)关注从 i−w/2 到 i+w/2 的所有键(key)。

新手讲解

这是最直觉的注意力形式——每个词只看"左边 w/2 个词"和"右边 w/2 个词"。类比阅读:你在理解一个词时,自然会看它前后几个词的上下文,不会去看整篇文章的开头。

例:w=6,位置 5 的词关注位置 2、3、4、5、6、7、8
(即左右各3个邻居 + 自己)

序列:1  2  3  4  5  6  7  8  9  10
关注:        [←  ←  ★  →  →  →]

优点:捕捉局部句法关系(主谓宾、修饰语等)
局限:无法捕捉长距离依赖(如第 1 段和第 50 段之间的关联)


3.2.2 随机注意力(Random Attention)

原文

"each query attends over r random number of keys"
"All tokens attending to a set of r random tokens."

翻译:每个查询(query)随机关注 r 个键(key)。即序列中的每个 token 会随机选取 r 个其他位置的 token 进行注意力计算。

新手讲解

随机注意力的灵感来自图论中的随机图(Random Graph)理论。数学上已经证明,在一个随机图中,任意两节点之间的最短路径长度是 O(log n)(对数级别)——即使图非常稀疏!

类比:想象你认识几个来自不同城市的随机朋友。通过这些"长距离随机连接",信息可以在整个网络中快速扩散,你可以在很少几步内联系到几乎任何人。

例:r=2,每个 token 随机选2个远距离 token

序列:1  2  3  4  5  6  7  8  9  10
位置5:       ★    ← (随机连到位置3)
               ★                ← (随机连到位置9)

为什么加随机注意力?:纯局部窗口注意力只能看到"邻居",无法直接获取远距离信息。随机注意力提供了"意外的远程连接",使信息可以在序列任意位置之间传播。

与 Longformer 的关键区别:Longformer 没有随机注意力,BigBird 有。这也是 BigBird 在理论上能证明图灵完备的重要原因之一。


3.2.3 全局注意力(Global Attention)

原文

"A set of g global tokens attending on all parts of the sequence."
"BigBird-itc: In internal transformer construction (itc), we make some existing tokens 'global', which attend over the entire sequence."
"BigBird-etc: In extended transformer construction (etc), we include additional 'global' tokens such as CLS. Concretely, we add g global tokens that attend to all existing tokens."

翻译

g 个全局 token 可以关注序列的所有部分。具体有两种实现方式:
- BigBird-ITC(Internal Transformer Construction,内部 Transformer 构造):从已有的 token 中选择若干个作为全局 token(例如把某些特殊位置的 token 标记为全局)
- BigBird-ETC(Extended Transformer Construction,扩展 Transformer 构造):在原始序列之外额外添加 g 个全局 token(如 [CLS] token),这些额外 token 关注所有现有 token

新手讲解

全局 token 是整个机制中最关键的设计。从图论角度看,全局 token 就像图中的"枢纽节点"(Hub)或"中心节点"——它们和所有其他节点都直接相连。

类比"名人效应":
- 假设城市里有 3 个名人(全局 token),他们认识所有市民
- 任意两个普通市民 A 和 B 之间最多只需 2 步就能沟通:A → 名人 → B
- 这保证了信息的"全局可达性"

ITC vs ETC 的工程含义

变体 全局 token 来源 适用场景
BigBird-ITC 从原序列中选(如第一个、最后一个等) 不增加序列长度,更节省资源
BigBird-ETC 在序列外额外加(如 [CLS] 预置标记) 全局 token 更"纯粹",不干扰原始 token 的表示

论文中 BigBird-ETC 通常在实验中表现更好,因为额外的全局 token 不会与原始词义混淆。


3.3 三种注意力的整体组合

原文(关键英文句)

"In particular, our BigBird consists of three main part: A set of g global tokens attending on all parts of the sequence. All tokens attending to a set of w local neighboring tokens. All tokens attending to a set of r random tokens."

翻译

BigBird 的注意力由三部分叠加:
1. g 个全局 token 双向关注整个序列
2. 每个 token 关注 w 个局部邻居
3. 每个 token 随机关注 r 个其他 token

新手讲解:三元组合的完整社交网络图

让我们用完整的社交网络类比把三者串联起来:

整个城市(序列)有 1000 个人(token)

局部窗口(w=6):你认识你的左右邻居、同事(局部社区)
随机注意力(r=2):你还认识几个来自不同地方的随机朋友(远程连接)
全局注意力(g=3):城里有 3 个市长/名人,认识所有人(信息中转站)

问题:从人 #1 传个消息到人 #999,最多几步?
答案:人 #1 → 名人 → 人 #999(2步!)

这套设计保证了:
- 效率:每个 token 只需关注 O(1) 个其他 token,总计算量 O(n)
- 覆盖:信息可以在 O(log n) 步之内传遍整个序列(理论上)
- 表达力:保留了完整的图灵完备性(下一节证明)


第四部分:理论性质(数学保证)

4.1 通用逼近器(Universal Approximator)

原文(关键英文句)

Theorem 1(通用逼近定理)

"Given 1<p<∞ and ϵ>0, for any f∈ℱ_CD, there exists a transformer with sparse-attention, g∈𝒯_D^{H,m,q} such that d_p(f,g)≤ϵ where D is any graph containing star graph S."

"extra tokens allows one to express all continuous sequence to sequence functions with only O(n)-inner products."

翻译

定理 1(通用逼近定理):对于任意 1<p<∞ 和误差 ε>0,对于任意连续序列函数 f,存在一个使用稀疏注意力的 Transformer,能以 ε 误差近似 f——前提是注意力图 D 包含星形图 S(即存在全局 token 与所有其他 token 相连)。

换言之:加入全局 token 后,BigBird 可以仅用 O(n) 次内积运算表达所有连续的序列到序列函数。

新手讲解

术语解释
- 通用逼近器(Universal Approximator):能近似任意函数的模型。就像著名的神经网络通用逼近定理说"足够大的神经网络能逼近任意连续函数",这里说的是"BigBird 能逼近任意连续序列函数"。
- 星形图(Star Graph):图论中,一个中心节点连接所有其他节点的图。全局 token 就创造了这种结构。

关键条件:注意力图必须包含星形图——这就是为什么全局 token 是必不可少的。只有局部+随机而没有全局 token,理论保证就不成立了。

直觉:全局 token 像"信息汇聚点",任何远程信息都可以先流向全局 token,再从全局 token 流向目标位置,保证信息不会"困在局部"。

数学附录说明:论文的附录中有完整的数学证明,涉及 Lp 范数、连续序列函数空间等。对于新手,只需记住结论:有了全局 token,稀疏注意力的表达能力和全注意力等价


4.2 图灵完备性(Turing Completeness)

原文(关键英文句)

"We show that this is indeed the case: we can use a sparse encoder and sparse decoder to simulate any Turing Machine."

Theorem 2(图灵完备性定理)(原文意):在标准精度假设下,BigBird 的稀疏编码器-解码器架构可以模拟任意图灵机。

翻译

我们证明:稀疏编码器和稀疏解码器的组合可以模拟任意图灵机。换言之,在标准精度假设(有限精度浮点数)下,BigBird 的编码器-解码器架构具有完整的图灵计算能力

新手讲解

术语解释
- 图灵机(Turing Machine):理论计算机科学的基础模型,代表了"所有可计算的问题"。你电脑上运行的任何程序,理论上都等价于某个图灵机。
- 图灵完备(Turing Complete):一个系统如果能模拟图灵机,就称为图灵完备——意味着它能计算任何可计算的问题。

BigBird 的图灵完备意义:标准 Transformer 编码器(仅编码器)不是图灵完备的(它是有限状态的),但 编码器+解码器 组合 + 适当的全局 token 就是图灵完备的。BigBird 保留了这一性质。

一句话总结:把注意力从"完全图"变成"稀疏图",理论上不损失任何计算能力——这就是 BigBird 的核心理论贡献。


4.3 稀疏注意力的局限性(也是诚实的部分)

论文也承认:稀疏注意力并非在所有情况下都与全注意力等价。存在某些特定任务(如"找序列中最远的两个向量"),稀疏注意力需要指数级更多的层数才能完成全注意力一层就能做到的事。这是理论上的边界条件,实际中很少遇到,但诚实地指出它是科学严谨的体现。


第五部分:关键实验结果

5.1 长文档问答(NLP QA Tasks)

原文(关键英文句)

"For Natural Questions Long Answer (LA), TriviaQA, and WikiHop, BigBird-ETC is the new state-of-the-art. On HotpotQA we are third in the leaderboard by F1 and second by Exact Match."

"One can clearly see the importance of using longer context as both Longformer and BigBird outperform models with smaller contexts."

翻译

在 Natural Questions Long Answer(NQ-LA)、TriviaQA 和 WikiHop 三个数据集上,BigBird-ETC 取得了新的最优成绩(State-of-the-Art)。在 HotpotQA 上,BigBird 按 F1 分数排名第三、按精确匹配(Exact Match)排名第二。

从实验中可以清楚看出长上下文的重要性:Longformer 和 BigBird 都优于上下文较短的模型。

关键实验数字

数据集 BigBird-ETC 成绩 备注
Natural Questions (Long Answer) 84.5(joint F1) 新 SOTA
TriviaQA 73.6 F1 新 SOTA
WikiHop 77.8 accuracy 新 SOTA
HotpotQA 81.2 F1 排行榜第 3

新手讲解

这些数据集都是需要长文档理解的问答任务:

BigBird 能在这些任务上超越 Longformer 和标准 BERT,正是因为:
1. 它能处理完整的长文档(不需要截断)
2. 稀疏注意力的随机连接使其能捕捉跨段落的长距离依赖


5.2 文本摘要(Summarization)

原文(关键英文句)

"BigBird-Pegasus" achieves significantly improved ROUGE scores on ArXiv, BigPatent and other long document summarization benchmarks compared to baselines.

On BigPatent dataset: ROUGE-1: 60.64, ROUGE-2: 42.46, ROUGE-L: 50.01(相比 Pegasus 基线有显著提升)

翻译

BigBird-Pegasus 在 ArXiv、BigPatent 等长文档摘要数据集上显著超越了基线方法。在 BigPatent 数据集上,ROUGE-1 达到 60.64,ROUGE-2 达到 42.46,ROUGE-L 达到 50.01。

新手讲解

ROUGE 分数是衡量摘要质量的指标(值越高越好,范围 0-100)。文档摘要需要读取整篇文章,这对标准 BERT/Transformer 来说特别困难(文章经常超过 512 token)。BigBird 能读完整篇文章,因此摘要质量自然更好。


5.3 基因组学应用(Genomics)

原文(关键英文句)

"BigBird achieve nearly perfect accuracy with a 5% jump from the previous best reported accuracy" (promoter prediction).

Promoter prediction: BigBird 达到 99.9 F1,而此前最优方法 DeePromoter 只有 95.6 F1

BigBird 在 DNA 序列上进行掩码语言模型预训练(类似 BERT 的预训练),将 DNA 序列视为"语言"进行处理。

翻译

在启动子预测(promoter prediction)任务上,BigBird 取得了近乎完美的准确率——比此前最优方法提升了约 5 个百分点(99.9 F1 vs 95.6 F1)。此外,在染色质特征预测(chromatin profile prediction)任务上,BigBird 在多个类别上优于 DeepSea 基线。

新手讲解

为什么 BigBird 能用于基因组学?

DNA 序列本质上也是一种"语言":A、T、G、C 四种碱基组成的长字符串,编码了生命的遗传信息。基因功能(如基因是否被激活)往往依赖于序列中相距很远的片段之间的相互作用,这正是 Transformer 擅长处理的长距离依赖问题。

关键是:DNA 序列通常很长(一个基因区域可能有数千个碱基对),这是标准 BERT 完全无法处理的。BigBird 支持更长序列,天然适合基因组学。

数字说明:5% 的提升幅度(95.6 → 99.9)在医学/生物信息学领域是非常显著的提升,因为高准确率区域的每一点提升都越来越难。


第六部分:综合总结

BigBird 的核心价值

BigBird 的贡献可以从三个维度理解:

1. 工程价值:通过三元稀疏注意力,将 Transformer 的内存复杂度从 O(n²) 降为 O(n),使处理 4096+ token 的长序列成为可能。

2. 理论价值:首次严格证明稀疏注意力 Transformer 是图灵完备的,也是序列函数的通用逼近器——彻底消除了"稀疏化是否损失表达能力"的疑虑。

3. 应用价值:不仅提升了 NLP 长文档任务(问答、摘要)的成绩,还开创了基因组学这一全新应用领域。

局限性

BigBird 在发展脉络中的位置

标准 Transformer (2017)
      ↓ O(n²) 太慢
Longformer (2020.04) — 局部窗口 + 全局 token
      ↓ 缺理论保证,无随机注意力
BigBird (2020.07)   — 局部 + 全局 + 随机 + 图灵完备证明
      ↓
FlashAttention (2022) — 不改变注意力模式,但用IO感知算法加速全注意力
      ↓
Mamba / SSM (2023)  — 完全不同的架构,用状态空间模型替代注意力

BigBird 代表了"稀疏化路线"的巅峰,为后续研究提供了重要的理论基础和工程范式。


关键术语速查表

术语 英文 含义
稀疏注意力 Sparse Attention 每个 token 只关注少数其他 token,而非全部
全注意力 Full Attention 每个 token 关注所有其他 token(O(n²))
局部窗口注意力 Local Window Attention 每个 token 只关注前后 w/2 个相邻 token
随机注意力 Random Attention 每个 token 随机关注 r 个其他 token
全局注意力 Global Attention 少数特殊 token 关注/被所有 token 关注
图灵完备 Turing Complete 理论上能计算任何可计算问题的能力
通用逼近器 Universal Approximator 能以任意精度近似任意函数的模型
BigBird-ITC Internal Transformer Construction 从原序列中选择现有 token 作为全局 token
BigBird-ETC Extended Transformer Construction 额外添加全局 token(如 CLS)到序列中
复杂度 O(n) Linear Complexity 计算量与序列长度成正比(BigBird 实现了这个)
复杂度 O(n²) Quadratic Complexity 计算量与序列长度的平方成正比(标准 Transformer)
ROUGE 分数 ROUGE Score 文本摘要质量评估指标,值越高越好
启动子预测 Promoter Prediction 预测 DNA 序列中基因启动子位置的生物信息学任务

本精读笔记基于论文原文(arXiv 2007.14062)整理,所有数字均来自论文原文,未作编造。
整理日期:2026-05-27