这是 Anthropic 发布的所有Transformer更新路程更新和 LLM 研究的时间表。2024 年 4 月
Circuits Updates — 2024 年 4 月
人类学可解释性团队的一系列小更新。阅读更多 >2024 年 3 月
Circuits Updates — 2024 年 3 月
对定性研究的思考——关于为什么可解释性研究的定性方面可能比我们在其他领域所习惯的更为重要,我有一些独到的见解。阅读更多 >2024 年 2 月
Circuits Updates — 2024 年 2 月
阅读更多 >2024 年 1 月
Circuits Updates – 2024 年 1 月
阅读更多 >2023 年 10 月
Towards Monosemanticity: Decomposing Language Models With Dictionary Learning
使用稀疏自动编码器,我们从单层转换器中提取了大量可解释的特征。阅读更多 >2023 年 7 月
Circuits Updates — 2023 年 7 月
阅读更多 >2023 年 5 月
Circuits Updates — 2023 年 5 月
可解释性梦境– 我们目前的研究旨在为机械可解释性研究奠定基础。在此过程中,重要的是要了解我们试图奠定基础的原因。阅读更多 >
分布式表示:组合与叠加——关于“分布式表示”如何理解为两种不同的、相互竞争的策略——“组合”和“叠加”——具有完全不同属性的非正式说明。阅读更多 >2023 年 3 月
Privileged Bases in the Transformer Residual Stream
我们对 Transformer 架构的数学理论表明,残差流中的单个坐标应该没有特殊意义,但最近的研究表明,这种观察在实践中是错误的。我们调查了这一现象,并暂时得出结论,Adam 优化器中每个维度的规范化器是造成这种影响的原因。阅读更多 >2023 年 1 月
Superposition, Memorization, and Double Descent
尽管这是一个核心问题,但我们对深度学习模型如何过度拟合其训练数据知之甚少。在这里,我们扩展了之前对玩具模型的研究,以阐明模型如何在训练数据之外进行推广。阅读更多 >2022 年 9 月
Toy Models of Superposition
神经网络似乎经常将许多不相关的概念打包到单个神经元中——这种令人费解的现象被称为“多义性”。在我们最新的可解释性工作中,我们构建了玩具模型,可以充分理解多义性的起源和动态。阅读更多 >2022 年 6 月
Softmax 线性单元
另一种激活函数增加了与人类可理解的概念相对应的神经元的比例。阅读更多 >
机械可解释性、变量和可解释基础的重要性– 关于与机械可解释性相关的直觉的非正式说明。阅读更多 >2022 年 3 月
情境学习和归纳指导
探索归纳头脑是情境学习的主要机制这一假设。阅读更多 >2021 年 12 月
A Mathematical Framework for Transformer Circuits
逆向工程模型的早期数学框架,通过逆向工程小玩具模型进行演示。阅读更多 >
2020 年 3 月 – 2021 年 4 月
Original Distill Circuits Thread
如果我们投入大量资金对单个神经网络进行逆向工程,我们能学到什么?阅读更多 >
什么是Transformer Circuits Thread 项目?
Transformer Circuits Thread 项目是 Anthropic 的一项雄心勃勃的研究工作,其重点是将 Transformer 语言模型逆向工程为人类可理解的计算机程序。受 Distill Circuits Thread 的启发,Anthropic 旨在创建交互式文章和资源,使 Transformer 的内部工作原理更易于解释和访问。
Transformer 是用于自然语言处理任务的最先进的深度学习模型。然而,其复杂的架构和数百万个参数使得它们非常难以理解和解释。Transformer Circuits Thread 项目旨在通过系统地研究和解释在经过训练的 Transformer 模型中出现的计算模式和主题来打开这个“黑匣子”。
Anthropic 认为,了解 transformer 的工作原理对于构建安全可靠的 AI 系统至关重要。通过对 transformer 进行逆向工程,他们希望:
- 解释语言模型中当前的安全问题
- 确定新的潜在问题
- 预测未来的安全挑战,更强大的模型
让 Transformer 更易于处理
为了实现这一宏伟目标,Transformer Circuits Thread 首先分析最简单的 Transformer 模型,然后逐步构建更大、更现实的架构。他们最初的重点是只有一层或两层且只有注意力模块的 Transformer,而现代 Transformer(如 GPT-3)有 96 层,注意力模块和 MLP 模块交替出现。
早期进展
尽管起步很小,但 Anthropic 已经通过开发新的数学框架在理解这些玩具模型方面取得了重大进展。主要发现包括:
- 识别在 2 层模型中实现上下文学习的“感应头”
- 展示感应头如何通过具体例子进行操作
- 为仅关注注意力的模型提供优雅的数学处理
虽然这些见解尚未完全扩展到实际的变压器,但 Anthropic 计划在未来的工作中展示他们的框架和感应头等概念在更大的模型中仍然适用。虽然完全可解释性仍然是一个遥远的目标,但变压器电路线程是朝着机械理解变压器和构建更安全的人工智能系统迈出的重要一步。
什么是Circuits Updates?
Circuits Updates 是定期发布的博客文章,其中 Anthropic 可解释性团队分享了正在开发的研究思路、小规模实验和可能不需要写完整篇论文的小发现。这些非正式更新旨在让更广泛的 AI 社区了解 Anthropic 的研究过程和计划。
电路更新涵盖了与变压器可解释性相关的各种主题,包括:
- 模型架构和训练技术的实验
- 学习特征和注意力模式的分析
- 理解电路的假设和概念框架
- 重复并扩展先前的结果
- 负面结果和未解决的问题
共同点是,这些都是 Anthropic 团队正在积极思考的初步想法,但尚未准备好撰写完整的论文。这些更新更像是非正式的实验室会议讨论,而不是精心制作的出版物。
Circuits Updates中涵盖的主题
以下是过去 Circuits 更新中涵盖的一些主题示例:
- 研究注意力头如何学习“叠加”多个特征
- 通过修改激活函数改进稀疏自动编码器
- 分析学习表征的几何形状
- 识别复制、移动或比较 token 的头部
- 可解释性的缩放定律
Anthropic 希望通过分享这些正在进行的工作来促进与其他可解释性研究人员的讨论和合作。电路更新为了解 Anthropic 变压器可解释性研究的当前前沿提供了一个窗口。
Anthropic 多久发布一次 Circuits 更新?
Anthropic 大约每月发布一次电路更新,但会有所变动。新更新以博客文章的形式发布在 Transformer Circuits Thread 网站上。
自 2021 年底变压器电路线程项目启动以来,Anthropic 在以下几个月发布了电路更新:
- 2021 年 12 月(初始框架文件)
- 2022 年 2 月
- 2022 年 4 月
- 2022 年 5 月
- 2023 年 1 月
- 2023 年 2 月
- 2023 年 4 月
- 2023 年 5 月
每次更新的长度取决于团队当月要分享的新成果数量。有些更新会重点关注一个深入的主题,而有些更新则会简要讨论几个不相关的想法。
什么是Anthropic Interpretability Team?
Anthropic Interpretability Team是一群研究人员和工程师,致力于让 AI 系统更具解释性和可理解性。截至 2024 年 4 月,该团队已发展到 17 人,占全球约 50 名全职机械解释性研究人员的很大一部分。
可解释性团队隶属于总部位于旧金山的 AI 安全和研究公司 Anthropic。Anthropic 的使命是确保变革性 AI 系统可靠、可解释且对社会有益。可解释性团队通过开展研究来逆向工程并了解 AI 模型(如 Transformer)的底层工作原理,在这一使命中发挥着关键作用。
Anthropic Interpretability Team的著名成员包括:
- Chris Olah:前 Google Brain 研究员,因其在神经网络可解释性方面的工作而闻名,包括启发 Anthropic 的 Transformer Circuits 项目的原始 Distill Circuits Thread。
- Nelson Elhage:一名软件工程师和研究员,自可解释性团队成立之初就在那里工作。
- 凯瑟琳·奥尔森(Catherine Olsson):与可解释性团队密切合作的人工智能安全研究员。
该团队采用跨学科方法,结合机器学习、神经科学、物理学和软件工程的专业知识。他们旨在将可解释性视为一门严谨的科学,开发新的实验方法和数学框架来研究人工智能系统。
可解释性团队的一些关键研究方向包括:
- 分析 Transformer 中的注意力头和计算电路
- 使用稀疏自动编码器和单语义特征学习提高可解释性
- 使用玩具模型研究叠加和感应头等突发行为
- 将可解释性技术扩展到更大的模型
该团队经常通过Transformer Circuits Thread主题网站上的Circuits Updates 系列分享他们的最新实验、假设和结果。这些非正式帖子为了解 Anthropic 机械可解释性研究的当前前沿提供了一个窗口。
Anthropic 的 Circuits 更新重点关注哪些研究领域?
Anthropic 的Circuits Updates涵盖了广泛的Transformer可解释性主题,但已经出现了一些关键的研究主题。
分析注意力头和回路
许多电路更新深入探讨了单个注意力头的行为以及它们与其他头、MLP 和跳跃连接形成的计算“Circuits”。Anthropic 已经确定了几种重要的头类型,包括:
- 执行动态情境学习的感应头
- 将令牌从一个位置复制或移动到另一个位置的磁头
- 根据内容相似性比较 token 并参与的主管
为了研究这些头部,Anthropic 采用了以下技术:
- 推导头脑计算的数学表达式
- 追踪特定输入的头部激活情况
- 扰动或烧蚀头部并测量对模型输出的影响
- 基于激活模式的聚类头
主要目标是将 Transformer 执行的复杂计算分解为更小的、人类可解释的组件或算法。Induction Heads 取得了早期的成功,展示了 2 层 Transformer 如何通过特定的注意模式实现上下文学习。
最近的更新已经开始探索注意力头如何相互作用和组合以形成更大的电路。Anthropic 正在开发方法来追踪注意力头之间的信息流,并确定一个注意力头的输出何时影响另一个注意力头的计算。
使用稀疏自动编码器提高可解释性
另一项研究旨在通过改变 Transformer 的架构或训练过程使其更具可解释性。一个关键想法是使用稀疏自动编码器来学习更多人类可解释的特征或“词典”。
标准 Transformer 通常会学习纠缠的多义特征,这些特征很难理解,因为它们编码了许多不相关的概念。稀疏自动编码器通过以下方式限制模型学习更稀疏、更解开的特征:
- 施加 L1 正则化以鼓励激活大部分为零
- 修剪权重以创建更稀疏的连接模式
- 使用 SoLU 等促进稀疏性的激活函数
Anthropic 发现,稀疏自动编码器可以学习更多可解释的“单义”特征,其中每个神经元都会针对单个人类可理解的概念进行激活。一些更新分析了这些稀疏表示的训练动态和几何形状。
Anthropic 还在探索其他架构修改,例如 SoLU 和标准变压器块的变体。目标是找到既能实现高性能又更易于解释的模型设计。
研究Toy Models中的突发行为
第三个研究方向是使用简单的“Toy Models”来研究可能与理解更大的语言模型相关的突发行为。通过将转换器分解为核心组件,Anthropic 可以在更受控的环境中隔离特定现象。
例如,Toy叠加模型更新研究了经过训练以模仿一组“地面实况”注意力头的微型变压器。这种设置使 Anthropic 能够精确研究模型如何学习将多个注意力模式组合或“叠加”到一个注意力头中。
令人惊讶的是,即使这些简约的模型也表现出丰富的行为,例如:
- 学习压缩的“多视图”表示,对所有真实特征进行编码
- 学习动态经历急剧的“相变”
- 开发具有几何意义的特征子空间
人类学假设类似的叠加效应发生在大型语言模型中,并有助于其多义性。玩具模型提供了一种探索这些想法的可行方法。
其他更新使用了玩具模型来研究诸如 grokking(transformers 在记住训练数据后突然泛化)和模块化(将任务分解为可重复使用的子任务的模型)等主题。希望从这些简化的设置中获得的见解可以指导实用 transformer 的可解释性工作。
缩放定律和感应头
最后,几篇 Circuits Updates 研究了变压器的可解释性如何随模型大小而变化。Anthropic 在合成数据集上训练了不同大小的模型,以测量学习动态和电路形成如何变化。
一个关键发现是存在“诱导头部凸起”——在关键模型规模上,情境学习表现急剧增加。这些凸起与诱导头部的出现相吻合,表明模型需要一定的能力来实现情境学习回路。
Anthropic 还利用中心核对齐 (CKA) 和其他相似性度量研究了学习特征的数量和特异性如何随模型大小而变化。他们发现,总体而言,较大的模型会学习更多特征,但这些特征的平均人类可解释性会降低。
这些缩放定律研究旨在预测随着 transformer 规模不断扩大,可解释性将如何变化。Anthropic 希望利用这些见解来设计能够与最先进模型保持同步的可解释性工具。