精读笔记：MRKL Systems

论文全名：MRKL Systems: A modular, neuro-symbolic architecture that combines large language models, external knowledge sources and discrete reasoning
arXiv 编号：2205.00445
机构：AI21 Labs
发表时间：2022 年 5 月
作者：Ehud Karpas, Omri Abend, Yonatan Berant, Barak Lenz, Opher Lieber, Nir Ratner, Yoav Shoham, Hofit Bata, Yoav Levine, Kevin Leyton-Brown, Dor Muhlgay, Noam Rozen, Erez Schwartz, Gal Shachaf, Shai Shalev-Shwartz, Amnon Shashua, Moshe Tennenholtz

阅读地图

本文是一篇立场兼架构论文（position/architecture paper），篇幅约 7 页，结构非常紧凑。全文围绕一个核心主张展开：单靠大语言模型（LLM）不够用，需要为它配上一套"专家工具箱"。

章节顺序：

Abstract：用三句话点明问题和解法
Introduction：详细拆解 LLM 的四大局限
MRKL System：定义架构——路由器 + 专家模块
技术挑战（实现细节）：以算术为例，讲清楚"参数抽取"难点
Jurassic-X：AI21 Labs 自己的 MRKL 实现
优势列举：六点好处
结语

历史地位：为什么这篇论文很重要

这篇论文发表于 2022 年 5 月，是"给 LLM 配工具"这一思想的最早系统性阐述之一。

时间线对比：

时间	工作	关系
2022.05	MRKL（本文）	最早提出"路由器 + 专家模块"架构蓝图
2022.05	Toolformer（Meta）	同期，LLM 自己学会调 API
2022.10	ReAct（Google）	结合推理链与工具调用
2022~2023	LangChain、LlamaIndex	把上述思想工程化，变成框架
2023	ChatGPT Plugins	商业化落地，LLM 调用第三方插件
2024~	Claude Tools、GPT-4o Tools	主流产品标配

MRKL 的贡献：它在 ChatGPT 横空出世之前，就已经清晰命名并定义了"神经符号模块化"这一范式——把 LLM 当"路由调度中心"而非"全能选手"的思路，直接预示了后来 Agent 时代所有"工具调用"框架的骨架。

核心概念术语表（新手速查）

术语	英文	一句话解释
大语言模型	LLM (Large Language Model)	像 GPT-3 这样用海量文本训练出来的、能理解和生成自然语言的模型
路由器	Router	负责"分配任务"的调度组件，读懂问题后决定交给哪个专家
专家模块	Expert Module	处理某类具体任务的专门工具，如计算器、数据库、翻译器
神经符号	Neuro-Symbolic	把擅长"模糊理解"的神经网络与擅长"精确推算"的符号程序结合
符号系统	Symbolic System	按严格规则运算的传统程序，如计算器、SQL 查询，不会"幻觉"
参数抽取	Argument Extraction	从自然语言中提取出调用工具所需的具体数字/参数
幻觉	Hallucination	LLM 一本正经地编造事实（如编造不存在的城市人口数字）
组合推理	Compositional Reasoning	把一个复杂问题拆成多步，每步交给不同模块，最后合并答案

Abstract（摘要）

原文：Huge language models (LMs) have ushered in a new era for AI, serving as a gateway to natural-language-based knowledge tasks. Although an essential element of modern AI, LMs are also inherently limited in a number of ways. We discuss these limitations and how they can be avoided by adopting a systems approach. Conceptualizing the challenge as one that involves knowledge and reasoning in addition to linguistic processing, we define a flexible architecture with multiple neural models, complemented by discrete knowledge and reasoning modules. We describe this neuro-symbolic architecture, dubbed the Modular Reasoning, Knowledge and Language (MRKL, pronounced "miracle") system, some of the technical challenges in implementing it, and Jurassic-X, AI21 Labs' MRKL system implementation.

翻译：巨型语言模型（LM）为人工智能开启了新纪元，充当了自然语言知识任务的"入口"。尽管 LM 是现代 AI 的核心要素，但它们在多个方面存在本质局限。我们讨论这些局限，以及如何通过"系统化方法"来规避它们。我们将这一挑战重新定义为：除了语言处理之外，还涉及知识与推理。为此，我们设计了一种灵活的架构——由多个神经模型加上离散知识与推理模块共同构成。我们将这一神经符号架构称为 MRKL（Modular Reasoning, Knowledge and Language，发音"miracle"）系统，并介绍实现它的若干技术挑战，以及 AI21 Labs 的 MRKL 实现——Jurassic-X。

讲解：摘要用三句话交代了完整的故事弧线：① LLM 很强大；② LLM 有局限；③ 我们用"系统化方法"解决它——架构叫 MRKL，读音是"miracle"（奇迹）。这个读音是作者故意选的，带着一点俏皮。"gateway（入口/网关）"这个词很关键——LLM 不是终点，而是理解人类语言后通往知识世界的入口。真正做事的是后端那些专门模块。类比：摘要就像是电影的30秒预告片，"LLM 是前台接待，但有些事前台搞不定，需要专业窗口——我们发明了一套让前台正确引导你的系统。"

Introduction（引言）

段落 1：LLM 是知识网关

原文：Huge language models (LMs) such as BERT, GPT-3, Jurassic-1, PaLM, and others, have taken AI by storm, with the promise of serving as versatile, general-purpose foundations for many applications.

翻译：BERT、GPT-3、Jurassic-1、PaLM 等巨型语言模型横扫 AI 领域，有望成为众多应用通用、多功能的基础底座。

讲解：这是标准的"背景铺垫"段。作者列出了 2022 年当时最知名的大模型，说明这是一个被业界广泛认可的技术趋势，不是偏门。注意这里提到了 Jurassic-1——正是 AI21 Labs 自己的模型，即本文要介绍的 Jurassic-X 的前身。

段落 2：LLM 建模的是"世界"，而不只是"语言"

原文：While LMs indeed model syntax, and other linguistic elements, their most striking feature is that they model the world, as described by the data on which they were trained. And so really LMs serve as a textual gateway to the universe of knowledge, and perhaps should instead be called "language and knowledge" models.

翻译：虽然语言模型确实建模了语法等语言要素，但它们最令人惊叹的特征是：它们对世界进行了建模——这个世界正是由训练数据所描述的。因此，LM 实际上充当了通往知识宇宙的文本入口，或许应该被称为"语言与知识"模型。

讲解：这是本文一个深刻的哲学观察。普通人觉得 GPT-3 是"语言工具"，但作者说：不，它其实把训练数据描述的整个世界都压缩进了参数里。你问它"巴黎在哪里"，它能回答，不是因为它懂地理规则，而是因为它在无数文本里"见过"这个知识。这就是为什么叫它"语言模型"有些低估了它——它更像是一个知识库的文本接口。类比：LLM 就像一个读过所有百科全书的人，你用自然语言问他，他用自然语言答你——他是"进入知识宇宙的文本入口"。

段落 3：尽管如此，LLM 经常出错

原文：While versatile and impressive, the output of even huge LMs is in many cases wrong, and often ridiculously so. For example, LMs can struggle to understand that there are no US cities with more than 20m citizens, that a math teacher is a person, don't know what today's date is, nor can they engage in even simple (e.g., mathematical) reasoning. When you look for the root cause, you realize the core limitations of LMs: They don't have access to all relevant knowledge, and neural models are ill-suited for certain types of calculation.

翻译：虽然 LM 功能多样且令人印象深刻，但即使是最庞大的 LM，输出内容也经常是错误的，而且有时错得可笑。例如，LM 难以理解美国没有超过 2000 万人口的城市，分不清"数学老师"也是一个人，不知道今天的日期，也无法进行哪怕最简单的（如数学）推理。当你追溯根本原因时，会意识到 LM 的核心局限：它们无法获取所有相关知识，且神经网络模型本质上不擅长某些类型的计算。

讲解：这一段用非常生动的反例揭示了 LLM 的软肋。"美国没有超过 2000 万人口的城市"——但 LLM 可能编造一个，因为它只是在做统计预测，不是在查真实数据库。"不知道今天的日期"——因为 LLM 的知识在训练时就冻结了，像一张拍摄于过去某天的照片，它活在过去。"连简单数学都算不好"——神经网络做加减乘除会出错，因为它是通过"学习语言模式"来猜答案，而不是真的在做运算。这就是"幻觉（hallucination）"的根源：LLM 不是在查真相，而是在预测下一个词。

段落 4：LLM 的四大核心局限

原文（局限1）：Lack of access to current information. Certain data constantly change – the exchange rate between the dollar and the Moroccan Dirham, current COVID numbers, the stock price of AAPL, the weather in Vancouver (OK, not so much), or even the current date.

翻译（局限1）：缺乏对实时信息的访问。某些数据不断变化——美元与摩洛哥迪拉姆的汇率、当前的新冠数据、苹果公司的股价、温哥华的天气（好吧，变化不大），甚至今天的日期。

讲解：这是最直观的局限。LLM 的训练数据有截止日期（如 2021 年），之后发生的一切它都不知道。问它"今天苹果股价多少"，它要么说不知道，要么胡说一个训练时见过的数字。这就像问一个 2021 年入睡至今的人当前股价——他确实不知道。

原文（局限2）：Lack of access to proprietary information sources. As an important special case of 1, the models don't have access to proprietary information, such as the client roster in a company's database or the state of an online game.

翻译（局限2）：缺乏对私有信息源的访问。作为上一条的重要特例，模型无法获取私有信息，例如公司数据库中的客户名单，或某个在线游戏的当前状态。

讲解：即使 LLM 的训练数据是实时更新的，你公司内网的 CRM 系统数据、你们的订单数据库，它也永远无法知道——那是你公司的私有信息，从未出现在公开训练数据里。这使得把 LLM 直接用在企业内部应用时，它就是个"局外人"。

原文（局限3）：Lack of reasoning. Certain reasoning is beyond the reach of the neural approach, and requires a dedicated reasoning process.

翻译（局限3）：缺乏推理能力。某些推理超出了神经方法的能力范围，需要专门的推理过程。

讲解：神经网络的强项是模式匹配和模糊理解，但面对"125 × 37 + 88 = ?"这样需要精确逐步计算的任务，它会出错。这就像让一个文学博士心算多位数乘法——他很聪明，但这不是他的工具。专门的"推理模块"（比如一个计算器程序）才能可靠地完成这类任务。

原文（局限4）：Model explosion. Today's LM's zero-shot performance trails that of fine-tuned models.

翻译（局限4）：模型爆炸问题。当今 LM 的零样本性能不如经过微调的模型。

讲解："模型爆炸"说的是：如果你想让 LLM 在每个垂直领域都表现最好，就需要为每个领域单独微调一个大模型——医疗微调一个、法律微调一个、金融微调一个……这既耗时耗钱，又难以管理，规模爆炸。MRKL 的思路是：把通用 LLM 留作路由器，具体领域的任务交给轻量级专家模块处理，而不是重复微调一个巨型模型。

段落 5：提出解法

原文：Despite all these shortcomings, large language models are an essential backbone of any future AI system. The solution we offer takes the form of a flexible architecture dubbed the Modular Reasoning, Knowledge and Language (MRKL, pronounced "miracle") system.

翻译：尽管存在上述所有不足，大语言模型仍是未来任何 AI 系统的核心骨架。我们提出的解决方案是一种灵活的架构，称为 MRKL（模块化推理、知识与语言，发音"miracle"）系统。

讲解：注意这句话的逻辑：作者不是要"取代 LLM"，而是要"以 LLM 为核心，再给它配上专家模块"。LLM 是"骨架"，专家模块是"手脚"。这是非常务实的工程思路——用 LLM 的语言理解能力，用专家模块的精确执行能力，两者互补。发音"miracle（奇迹）"也是作者在暗示：这个组合能做到单靠 LLM 无法实现的"奇迹"。

The MRKL System（MRKL 架构定义）

核心定义

原文：Thus a MRKL system consists of an extendable set of modules, which we term 'experts', and a router that routes every incoming natural language input to a module that can best respond to the input (the output of that module can be the output of the MRKL system, or be routed to another module). These modules can be:
- Neural, including the general-purpose huge language model as well as other smaller, specialized LMs.
- Symbolic, for example a math calculator, a currency converter or an API call to a database.

翻译：因此，MRKL 系统由以下部分构成：一个可扩展的模块集合（我们称之为"专家"），以及一个路由器——它将每一条输入的自然语言指令路由到最能响应该输入的模块（该模块的输出可以直接作为 MRKL 系统的最终输出，也可以再被路由给另一个模块）。这些模块可以是：
- 神经型：包括通用巨型语言模型，以及其他更小的、专门化的语言模型。
- 符号型：例如数学计算器、货币换算器，或对数据库的 API 调用。

讲解：这是全文最核心的定义，值得逐字品味。

类比——医院的分诊台：你走进医院，告诉分诊护士"我头很疼"。护士（= 路由器/LLM）听懂你的症状后，把你引导到神经内科（= 专家模块1）；如果你说"我要查一下上周的化验结果"，护士把你送到检验科取报告（= 数据库查询模块）；如果你说"我要换算一下这个药的剂量"，护士给你一个计算器（= 符号计算模块）。护士本身不给你看病、不做化验、不计算剂量——她只负责听懂你说的是什么，然后把你送到正确的地方。

神经型模块 vs 符号型模块 的对比：
- 神经型（Neural）：内部是权重矩阵，擅长模糊匹配、自然语言理解、上下文推理，但可能出错
- 符号型（Symbolic）：内部是硬编码逻辑，如 2+3=5 永远是5，精确无误，但只接受结构化输入

MRKL 的天才之处在于：让神经模型（LLM）负责"把人类的模糊语言转化为结构化指令"，然后把这个指令丢给精确的符号系统执行——扬长避短。

路由的实质：参数抽取挑战

原文：Once the router has made the decision of which module to call upon, it needs to pass the right information to it... When a neural network needs to access a database, make an API call, or invoke another symbolic computation, it must extract from the text discrete parameters required by the module. The cost is in training the router to extract the arguments reliably, which must be done rigorously.

翻译：一旦路由器决定调用哪个模块，它就需要将正确的信息传递给该模块……当神经网络需要访问数据库、发起 API 调用或调用其他符号计算时，它必须从文本中抽取出模块所需的离散参数。代价在于：必须严格训练路由器以可靠地抽取参数，这一训练必须经过严格评估。

讲解：这里点出了 MRKL 架构最难的工程问题，非常重要。

举个例子：用户问"把 350 欧元换成美元是多少？"路由器识别出这是"货币换算"任务，于是要调用货币换算模块。但货币换算模块不理解自然语言，它只接受 convert(amount=350, from="EUR", to="USD") 这样的结构化参数。路由器必须：
1. 从"350 欧元换成美元"这句话中抽取出 amount=350、from=EUR、to=USD
2. 按照正确格式传给模块

这个从自然语言到结构化参数的转化，就叫"参数抽取（argument extraction）"。作者强调这必须"可靠（reliable）"且"严格（rigorous）"——用几个例子让 LLM 猜（few-shot）不够稳定，必须专门训练和评估。这个问题在后来的 Function Calling、Tool Use 等技术里都是核心挑战。

训练策略：系统训练 vs 少样本提示

原文：Performing these experiments in a few-shot setting might be a more natural choice that requires less effort in training these models. The solution is to train the router to extract the right input independently for each module, with rigorous evaluation of the performance.

翻译：在少样本设置下进行这些实验可能是更自然的选择，需要的训练工作也更少。但我们的解决方案是：针对每个模块独立训练路由器以抽取正确的输入，并对性能进行严格评估。

讲解：作者在这里做了一个重要的工程选择。"少样本（few-shot）"的方式是：给 LLM 几个示例，让它自己猜参数怎么写——方便但不稳定。作者选择了更稳妥的方式：针对每个专家模块，专门训练一个"参数抽取"能力，并且严格测试准确率。这说明 AI21 Labs 把这个系统当成工业级产品在做，而不是学术玩具。后来 OpenAI 的 Function Calling 也是类似思路——用专门微调让模型学会输出 JSON 格式的函数调用，而不是靠 prompt 提示来猜。

算术实验结果

原文（结果数据）：1.0 accuracy for addition across 1-9 digits when trained on single digits; 0.987 accuracy training on words, testing on digits; In 22 of the 29 combinations the accuracy exceeds 90%.

翻译：在加法任务上，仅用单位数训练后在 1-9 位数测试中达到 1.0（完美精度）；用文字格式（"three hundred fifty"）训练后在数字格式测试中达到 0.987；在两步运算的 29 种组合中，有 22 种准确率超过 90%。

讲解：这组数据是在验证一件事：一旦 LLM 学会了"参数抽取"（把自然语言里的数字正确识别出来），然后交给计算器模块，就能以接近完美的精度完成算术任务。对比是：纯 LLM 做算术会出错，但"LLM 抽参数 + 计算器执行"这个组合却非常准确。这个实验是整篇论文最有说服力的实证：不是理论，是真实测量的数字。注意作者诚实地记录了弱点：用文字格式训练、用数字格式测试时效果好（0.987），但反过来（数字训练，文字测试）只有 0.156——说明还有泛化问题需要解决，这也是良好学术诚信的体现。

MRKL 的六大优势

原文（六点列表）：
1. Safe fallback: In case the input doesn't match any existing expert module, the router sends the input directly to the general-purpose huge LM.
2. Robust extensibility: Since each expert is trained independently we are able to cheaply add new capabilities.
3. Interpretability: When the router invokes a specific module, that often has the side benefit of providing a rationale.
4. Up-to-date information: The integration of external APIs allows the MRKL system to hook into dynamic knowledge bases.
5. Proprietary knowledge: Access to proprietary databases and other information sources.
6. Compositionality: By routing compounded multi-hop inputs to different experts we are able to naturally integrate their responses.

翻译：
1. 安全兜底：若输入不匹配任何现有专家模块，路由器直接将其发送给通用巨型 LM 处理。
2. 健壮的可扩展性：由于每个专家模块独立训练，可以低成本地添加新能力。
3. 可解释性：当路由器调用某个特定模块时，往往附带一个"为什么调用它"的理由，作为副产品。
4. 实时信息：集成外部 API，使 MRKL 系统能够接入动态更新的知识库。
5. 私有知识：能够访问私有数据库及其他信息源。
6. 组合性：通过将多跳复合输入路由到不同专家，可以自然地整合各模块的响应。

讲解：这六点优势逐一对应了前面提出的问题：

优势1（安全兜底）：解决了"如果找不到合适模块怎么办"的工程焦虑——最坏情况就是退化回普通 LLM，不会崩溃。这是系统设计里很重要的"graceful degradation（优雅降级）"思想。

优势2（可扩展）：不需要重新训练整个系统。想新增一个"翻译模块"？单独训练它，然后注册进去就行。类比：医院新开一个科室，不需要把整个医院拆了重建。

优势3（可解释）：当系统调用"货币换算模块"时，这个动作本身就告诉了你它在做什么——比纯 LLM 输出一个黑箱答案透明得多。这对企业应用非常重要，监管合规需要"可审计的决策过程"。

优势4和5（实时+私有信息）：直接解决了 LLM 知识截止和无法访问内部数据的问题。

优势6（组合性）：这是最有想象力的一点。例如用户问"将我去年的总销售额换算成欧元后再加上今年的预算是多少"——这需要：①查私有数据库（去年销售额）→ ②调汇率 API（换算）→ ③调数据库（今年预算）→ ④调计算器（相加）。多个模块串联，实现了真正的多步推理。这正是后来 ReAct、AutoGPT 等 Agent 框架所实现的"多步工具链"。

Jurassic-X：MRKL 的工业实现

原文：We have implemented a MRKL system called Jurassic-X, which is being piloted by a few partners. Jurassic-X will soon be available to developers.

翻译：我们实现了一个名为 Jurassic-X 的 MRKL 系统，目前正在少数合作伙伴中进行试点，即将向开发者开放。

讲解：Jurassic-X 是 AI21 Labs 基于其 Jurassic-1 模型（当时与 GPT-3 同级别的大模型）打造的 MRKL 实例。"X"暗示扩展（eXtended）。这是全文少数提到实际产品落地的地方，说明 MRKL 不只是纸上谈兵，而是真实工程项目。不过历史上 Jurassic-X 的知名度远不及后来 OpenAI 的 Function Calling 和 LangChain 生态——一定程度上因为 ChatGPT 在 2022 年底发布，直接改变了整个行业格局。

神经符号（Neuro-Symbolic）思想深度解析

这一节值得单独讲，因为"神经符号"是本文架构名称的核心词之一。

什么是符号 AI（Symbolic AI）？

符号 AI 是 1950~1980 年代的主流 AI 范式。核心思想：知识 = 逻辑规则 + 符号表示。例如：
- IS_HUMAN(MathTeacher) = TRUE（数学老师是人）
- 2 + 3 = 5（加法规则）

这类系统精确、可解释、不会出错——但无法处理模糊语言，也不会从数据中学习。

什么是神经 AI（Neural AI）？

以深度学习为代表，从数据中学习模式，擅长处理图像、语言这类模糊输入——但输出可能出错，决策过程像黑箱。

神经符号（Neuro-Symbolic）的意义

MRKL 的核心洞见是：两者不需要二选一，可以配合。

用户问："把1,250.99美元换算成欧元，今日汇率"
        ↓
[神经模块 = LLM]
理解语义：这是货币换算请求
识别参数：amount=1250.99, from=USD, to=EUR, date=today
        ↓
[符号模块 = 汇率API + 计算器]
查今日汇率：1 USD = 0.923 EUR
计算：1250.99 × 0.923 = 1154.66 EUR
        ↓
[神经模块 = LLM]
生成自然语言答案："今日1,250.99美元约合1,154.66欧元"

神经模块负责"理解"和"表达"，符号模块负责"精确计算"。这个分工是 MRKL 架构的精髓，也是"神经符号"这个词的实际含义。

架构全景图（文字版）

由于原论文有一张架构图（Figure 1），这里用文字还原其结构：

用户自然语言输入
        │
        ▼
┌──────────────────┐
│   路由器（Router） │  ← 由大型LLM担任，理解输入意图
└──────────────────┘
        │ 决策：该交给谁？
        ├─────────────────────────────────┐
        ▼                                 ▼
┌────────────────┐               ┌────────────────┐
│  专家模块1      │               │  专家模块2      │
│  神经型         │               │  符号型         │
│  (专用小LM)    │               │  计算器/数据库  │
└────────────────┘               └────────────────┘
        │                                 │
        └──────────┬──────────────────────┘
                   ▼
         最终自然语言输出（可能经过LLM润色）

关键设计细节：
- 路由器的输出不只是单向的，模块的输出可以再次被路由到另一个模块（支持多跳）
- 通用 LLM 既担任路由器，也作为兜底的"默认专家"
- 专家模块可以是神经网络，也可以是传统程序——这就是"neuro-symbolic（神经符号）"

历史回响：MRKL 预示了什么

本文发表后，这一思想被后续工作以不同形式实现：

ReAct（2022.10，Google）
- 在 MRKL 基础上，加入了"推理轨迹（Reason）+ 行动（Act）"的交替模式
- LLM 不只是路由，还要写出思考过程，然后决定调用哪个工具
- 直接引用了 MRKL 的概念

Toolformer（2022.12，Meta）
- 让 LLM 自己学会在生成文本时插入工具调用标记
- 区别：工具调用嵌入在文本生成流程里，不需要独立路由器

LangChain（2022 年底）
- 把 MRKL 的思想工程化为框架
- Chain（链）= MRKL 的多跳路由；Tool（工具）= MRKL 的专家模块；Agent = MRKL 的路由器

OpenAI Function Calling（2023.06）
- 官方支持让 LLM 输出结构化函数调用
- 本质上是 MRKL"参数抽取"问题的工业级解决方案

ChatGPT Plugins / GPTs（2023~）
- MRKL 架构的商业化产品形态
- 用户问问题 → GPT 决定调用哪个插件 → 插件执行 → GPT 整合回答

MRKL 论文用 7 页纸，用 2022 年的语言，描述了整个 Agent 时代的基本蓝图。

核心贡献总结

贡献	具体内容
问题定义	清晰归纳了纯 LLM 的四大局限（实时信息/私有信息/推理/模型爆炸）
架构提出	定义了 MRKL：路由器 LLM + 可扩展专家模块集合
哲学立场	明确主张神经符号结合，而不是选边站
工程洞察	点出"参数抽取"是核心技术难点，必须严格训练而不能依赖 few-shot
实证验证	用算术实验证明"LLM抽参数 + 计算器执行"显著优于纯 LLM
产品落地	提出 Jurassic-X 并对外开放，证明可工业化

延伸阅读建议

读完本文后，可以按顺序阅读：

Toolformer（Schick et al., 2023）- Meta，LLM 自己学会调工具
ReAct（Yao et al., 2022）- Google，推理+行动交替，工具调用与思维链结合
Chain-of-Thought Prompting（Wei et al., 2022）- Google，让 LLM 写出推理过程
HuggingGPT / HuGGingface 论文（2023）- 更大规模的模型路由系统
LangChain 文档 - MRKL 思想的工程化实现参考

笔记完成于 2025 年 5 月，基于 arXiv:2205.00445 原文整理。