广哥在硅谷 · 用思考抵达清晰,用行动靠近自由
ANTHROPIC INSTITUTE · 2026

当 AI 开始自己造自己
关于"递归自我改进"的第一份内部证据

When AI Builds Itself · Curated Chinese Edition
Marina Favaro & Jack Clark · Anthropic 中文精校版 9 章 · 约 30 分钟阅读
📋 内容摘要

2026 年 5 月,Anthropic 研究院发表了一份在业内引起强烈震动的报告。两位作者 Marina FavaroJack Clark(Anthropic 联合创始人)首次公开了 Anthropic 内部从未披露的运营数据——AI 已经在加速 AI 自身的开发。最震撼的几个数字——Anthropic 工程师人均每天合并的代码量,从 2024 到 2026 第二季度涨了 8 倍;合并入仓的代码中超过 80% 由 Claude 写;Claude 在开放式编程任务上的成功率从半年前的 26% 涨到了 76%;在 4 个月前发布的 Mythos Preview 模型上,对照"研究员的下一步直觉",Claude 已经在 64% 的关键决策上超过人类。本文把 Anthropic 的全部内部证据、三种未来情景、以及对暂停(pause)和验证(verification)的思考做成中文精校版。

章节目录
  1. 引言 · 递归自我改进的门口
    At the doorstep of RSI
  2. 外部证据 · 公开基准的曲线
    External benchmarks
  3. 内部证据 · 8x 代码、>80% Claude 写的
    8x and >80%
  4. 代码质量的拐点 · 76% 开放式任务成功
    76% success
  5. 研究员之间的对决 · 64% 击败人类下一步
    64% beats human
  6. 人类工作如何重塑 · 瓶颈正在转移
    Where the bottleneck moves
  7. 三种未来 · 失速、复利、递归
    Three scenarios
  8. 如果错了呢 · 99% 汗水可以被自动化
    What if we are wrong
  9. 该做什么 · 可验证的暂停
    A verifiable pause
CHAPTER 01 · INTRODUCTION

引言:递归自我改进的门口

At the doorstep of recursive self-improvement
📌 本节核心要点

在 AI 的大部分历史里,人类驱动了 AI 开发周期的每一步。但 Anthropic 正在把越来越大份额的 AI 开发工作交给 AI 系统自己推到极限——再加上足够的算力——这个趋势指向一种能够完全自主地设计和开发自己继任者的 AI 系统。这叫"递归自我改进"(recursive self-improvement,RSI)。"我们还没到那一步,递归自我改进也不是必然的。但它可能比大多数机构准备好的时候更早到来。"这是这篇 Anthropic Institute 报告的开篇。

Recursive Self-Improvement Marina Favaro Jack Clark Anthropic Institute

2026 年 5 月,Anthropic Institute——Anthropic 内部新设的政策研究机构——发布了一份名为《When AI Builds Itself》(当 AI 开始自己造自己)的报告。两位作者是 Marina FavaroJack Clark(Anthropic 联合创始人之一,曾任 OpenAI Policy Director)。

这份报告做了一件之前没有一家前沿 AI 公司做过的事——把内部数据拿出来。具体来说——AI 究竟在多大程度上加速了 AI 自身的开发

报告的开头第一段就把整件事说得非常清楚——

在 AI 的大部分历史里,人类驱动了 AI 开发的每一步
但在 Anthropic,
我们正在把越来越大份额的 AI 开发工作交给 AI 系统自己
这在加速我们的工作。

推到极限——再加上足够的算力——
这个趋势指向一种能够完全自主设计和开发自己继任者的 AI 系统
这叫"递归自我改进"。

我们还没到那一步,递归自我改进也不是必然的。
但它可能比大多数机构准备好的时候更早到来

— ANTHROPIC INSTITUTE · WHEN AI BUILDS ITSELF, 2026

报告随即举出最容易被记住的那个数字——"今天,Anthropic 的工程师平均每季度合并的代码量是 2021-2025 期间的 8 倍。"

这是一份"内部数据 + 外部基准"的混合报告。Anthropic 用 23 页的篇幅,描绘了一幅复杂但清晰的图景——AI 已经在很多关键节点上加速 AI 自身的开发,但"递归自我改进"还差一个关键能力——研究品味

它的潜台词是——差的那一步,可能比想象的要小

广哥在硅谷◆ ◆ ◆
CHAPTER 02 · EXTERNAL EVIDENCE

外部证据 · 公开基准的曲线

Evidence from the outside world
📌 本节核心要点

AI 能可靠完成的任务时长,正在以每 4 个月翻一番的速度增长——这个倍速比此前观察到的"每 7 个月翻一番"显著加快2024 年 3 月:Claude Opus 3 能完成人类 4 分钟的软件任务。一年后:Claude Sonnet 3.7 能完成 1.5 小时的任务。再一年后:Claude Opus 4.6 能完成 12 小时的任务。如果趋势持续——今年内 AI 就能完成熟练工需要几天的任务,2027 年可以做需要几周的任务

METR SWE-bench CORE-Bench Mythos Preview

报告的第一部分先看公开数据。

METR 是一家专门做 AI 长时间任务测量的研究机构。它衡量的是——AI 能可靠完成(50% 成功率)的任务的"时长上限"。这个数字一直在指数式增长——

2024 / 03
Claude Opus 3——能完成人类约 4 分钟的软件任务
2025 / 03
Claude Sonnet 3.7——能完成约 1.5 小时的任务
2026 / 03
Claude Opus 4.6——能完成约 12 小时的任务
2026 / 05
Claude Mythos Preview——可"至少 16 小时"持续工作,已接近 METR 现有测量上限

翻一番的间隔,从早期的 7 个月,缩短到现在的 4 个月。如果趋势持续——

· 2026 年内:AI 可以做熟练人类需要"几天"的任务
· 2027 年:AI 可以做需要"几周"的任务

同样的曲线也出现在编码和研究的基准里——

SWE-bench——业界标准的"真实软件工程"测试。给一个模型真实的开源代码库 + 真实 bug 报告,要它写补丁通过项目自带的测试。两年时间,模型从"个位数"分数到"接近饱和"

CORE-Bench——测的是"模型能否复现已有研究"——做原创研究的前提。从 2024 年 20% 成功率,到 15 个月后接近饱和

⚠️ 但公开基准看不到的事

报告明确指出——公开基准告诉了我们很多关于这些系统能力的事,但它们看不到 AI 系统对"加速 AI 开发本身"的影响。要看清楚这一点,必须从 Anthropic 这种 AI 公司的内部拿出直接证据

报告接下来做的,就是这件事——把内部数据公开

广哥在硅谷◆ ◆ ◆
CHAPTER 03 · INTERNAL EVIDENCE

内部证据 · 8x 代码、>80% Claude 写的

8x productivity, >80% authored by Claude
📌 本节核心要点

报告披露的两个最震撼的数字——截至 2026 年 5 月,超过 80% 合并入 Anthropic 主仓的代码是由 Claude 自己写的(Claude Code 在 2025 年 2 月发布前,这个比例还是"个位数");2026 年第二季度,单个工程师人均每天合并的代码量是 2024 年的 8 倍。两个时间点的拐点很清楚——2025 年(Claude 开始"运行"代码而非只是建议)和 2026 年(模型开始在更长时间窗口里自主工作)。

Claude Code Lines per Engineer Two Inflection Points

这是整篇报告最具冲击力的一节。Anthropic 把自己的工程数据直接摊开。

建一个前沿模型需要两类工作——工程(写代码、搭基础设施、监督模型训练)和研究(决定做什么实验、解读返回结果、决定下一步试什么)。报告说——在工程和研究两侧,画面是一致的

· 在工程侧——Claude 可以拿到一个"未完全规定的问题"自己想办法解。人类提供目标,但不再需要提供方法。
· 在研究侧——执行一个"定义良好的实验"上,Claude 已经可以匹配或超越熟练人类。
· 在 Claude 自己选目标(设方向)上——大的性能差距仍然存在。这就是今天的 AI 和"能自主设计继任者的未来 AI"之间的差距

> 80%
截至 2026/05
合并入主仓的代码由 Claude 写
8 ×
2026 Q2 vs 2024
单工程师每天合并代码量
个位数 %
Claude Code 发布前(2025/02)
Claude 写的代码占比
4 年
800 个 bug 修复
人类预计要花的时间(Claude 一次完成)

报告给出了一张"人均合并代码量"的曲线。

· 2021-2024——Anthropic 头四年,曲线基本水平(没增长)
· 2025——曲线开始上扬。原因——Claude 开始"运行"代码,而不再只是建议代码让工程师复制粘贴
· 2026——曲线再次变陡。原因——模型开始在更长时间窗口里"自主工作"

结果——2026 第二季度,单个典型工程师每天合并的代码量是 2024 年的 8 倍。报告解释——这不是因为人类工程师变得高产,而是因为大部分代码现在由 Claude 写,工程师在"指挥和审核"

⚠️ 一个诚实的限定

报告承认——"行数"是一个不完美的度量,它只看数量不看质量。所以 2026 Q2 的"8 倍代码 / 工程师 / 天"几乎肯定高估了真实的生产力提升。但即便如此——它仍然表明明显的加速。报告说:"Anthropic 不奖励员工写代码的行数;团队成员产出更多代码,只是因为他们在用 AI 写更多代码。"

这个数据,和员工的"主观感受"也对得上。2026 年 3 月,Anthropic 对 130 名跨团队研究员做了一次内部问卷调查——中位数受访者估计,使用 Mythos Preview 让他们的产出大约是不用任何 AI 模型时的 4 倍

报告说——他们认为"真实倍增"可能略低于 4 倍(员工估计往往偏高),但整体说法是可信的——Anthropic 相当一部分技术员工的核心工作速度,是没有 AI 时的数倍

报告还给了一个具体例子——2026 年 4 月,Claude 一次性提交了 800 多个修复,把一类 API 错误降了 1000 倍。负责审视的工程师估计——同样的工作,人类要花 4 年。"修别人的 bug 又慢又痛苦,人类很难同时把那么多不熟悉的上下文记在脑子里。"

我大约一年前开始"Claudify"我的工作。
这是一段疯狂的冒险。
到现在,我已经大约 5 个月没自己写过一行代码了。

— ANONYMOUS ANTHROPIC EMPLOYEE
广哥在硅谷◆ ◆ ◆
CHAPTER 04 · CODE QUALITY

代码质量的拐点 · 76% 开放式任务成功

Claude writes code that works—and that humans can build on
📌 本节核心要点

报告把"好代码"分成两条——能跑能被另一位工程师读懂、在其基础上继续构建。前一条上证据明确——Anthropic 员工"纠正、改向、半路接管 Claude"的频率,过去一年稳步下降。在最开放、最复杂的任务上——任务没有清楚的规范,工程师自己都不确定答案长什么样——Claude 在 2026 年 5 月的成功率达到 76%,半年涨了 50 个百分点。后一条上还有差距,但"2025 年底比人差一些,今天大致持平,预计一年内会比人写得更好"。

76% Open-Ended Code Quality Automated Reviewer

"好代码"在 Anthropic 的定义里有两条——它跑得起来,并且它是以另一个工程师能理解、能在其上继续构建的方式写出来的

在第一条上,证据是明确的Anthropic 员工"中途纠正、改方向、半路接管 Claude"的频率,过去一年里在稳步下降。即便是在最复杂、最开放的任务上——也就是没有清晰规格、工程师自己都不确定答案长什么样的问题——这个趋势也成立。

最让人吃惊的数字——在最开放、最难的任务级别上,2026 年 5 月,Claude 的成功率达到 76%——比半年前涨了 50 个百分点

给个例子——一次例行升级让数万个训练任务崩了。
工程师只把一些文字描述 + 集群访问权限交给 Claude,
让它去看正在运行的现场事故。

Claude 一边在跑着的任务里查,
一边一个个测试环境设置——
最终隔离出一个偏门的调试 flag 在触发崩溃
稳定复现,确认修复方案。

大概 2 小时
这本来是 2-3 天的人类工作。

— A CASE FROM ANTHROPIC'S INTERNAL DATA

第二条标准——"可读、可扩展"——这是人和 AI 之间还留着差距的地方,但正在快速收敛。Anthropic 内部没有完全共识,但许多员工认为——

· 2025 年末——Claude 写的代码明显比人类工程师差
· 今天(2026 年中)——大致持平
· 预计一年内——严格地比人写得更好

这种变化也改变了 Anthropic 审视自己代码的方式。所有进入主仓的改动,现在都要先通过一个"自动 Claude 审查者",它会扫 bug、安全漏洞、其他缺陷,然后才能合并

Anthropic 做了一次回溯分析——如果当时每一次改动都经过这个自动 Claude 审查,过去 claude.ai 上的事故里,会有大约 1/3 在到达生产前就被抓住写出这些代码的人,是世界上最擅长建这类系统的工程师之一。但 Claude 现在已经能抓住他们漏掉的错误

Claude 写的代码——
2025 年末,比 Anthropic 人类写的差一些。
今天,大致持平。
我们预期一年内,它会严格地更好。

— THE ANTHROPIC INSTITUTE REPORT
广哥在硅谷◆ ◆ ◆
CHAPTER 05 · NEXT-STEP JUDGMENT

研究员之间的对决 · 64% 击败人类下一步

When AI starts to "choose what to try next"
📌 本节核心要点

Anthropic 做了一个非常聪明的实验——他们挑了 129 个真实场景,是研究员在用 Claude Code 调研开放式问题时选错了方向、走了弯路的瞬间。把"走错前"的资料给不同版本的 Claude 看,问它"下一步该做什么"。用另一个能看见完整结果的 Claude 当裁判。结果——2025/11 Opus 4.5 击败人类下一步选择的比例是 51%;2026/04 Mythos Preview 已经升到 64%。研究的日常工作就是这种"下一步选择"的链条——这是 AI 能不能自己驱动调研的关键信号

Project Glasswing Open-Ended Research Next-Step Judgment

报告披露了一个更具决定性的实验——Claude 在"下一步该做什么"的判断力上,已经在追赶人类研究员

2026 年 4 月,Anthropic 第一次展示了 Claude 端到端运行一个完整开放式研究项目。Anthropic 给 Claude 驱动的智能体一个 AI 安全里的开放问题——"较弱的模型能不能可靠地监督更强的模型?"——然后放手让它去解。这涉及——提出假设、测试假设、与并行的智能体共享发现、迭代。

任务有清晰的"地板"和"天花板"——地板是"弱监督者自己能做到多少";天花板是"强模型在用正确答案训练后能做到多少"。两位人类研究员,用了一周,恢复了大约 23% 的差距;这群智能体在 800 累计小时和大约 18,000 美元算力的预算下,恢复了 97%

Claude 在 1-2 天内、几乎没我帮什么忙,
做出了这些结果。

如果是一个初级同事在同样时间内带着这种结果回来——
我会觉得"还挺有意思的"

The future is now.

— ANONYMOUS ANTHROPIC RESEARCHER

研究的日常工作,本质上是一长串"下一步选什么"的判断决策。Anthropic 做了一个非常精巧的实验,专门测这个能力。

他们从 2026 年 1-3 月真实的 Claude Code 会话里找了一批场景——Anthropic 研究员在调研一个开放式问题(比如"为什么训练老崩"、"为什么模型在基准上得分低"),在某个时刻,研究员选了一个方向走偏了,几个小时甚至几天后才回到正轨

研究人员把"走偏前"的会话内容给不同版本的 Claude 看,问它"下一步该做什么"。然后用另一个能看到整个会话最终走向的 Claude当裁判,判断"是 AI 还是人提出的下一步更好"。

他们故意挑了 129 个"人选的下一步有改进空间"的瞬间,所以这并不是一对一的公平比较。但它给了一组真实、有难度、下一步并不明显的现实场景。在这个度量下——

51%
2025/11 Opus 4.5
击败人类下一步的频率
64%
2026/04 Mythos Preview
击败人类下一步的频率

研究的日常工作很大程度上就是这种"下一步该做什么"的判断链条这是 AI 能不能自己驱动一项调研的一个核心信号——Anthropic 把这视为"AI 系统正在变得擅长 AI 研究所依赖的那种判断"的早期信号

报告也诚实地校验了裁判偏差——他们另外跑了 127 个"人的下一步本来就很好"的场景。在那里,模型的建议只有大约 20%的时候被判更好——说明裁判没有系统性偏向 AI。

到现在为止,
人类的比较优势仍然在于——
看更大的全景,
在眼前任务之外去思考。

— ANTHROPIC INSTITUTE
广哥在硅谷◆ ◆ ◆
CHAPTER 06 · NEW BOTTLENECKS

人类工作如何重塑 · 瓶颈正在转移

Where the bottleneck moves
📌 本节核心要点

每个开发环节里,人类的角色都在变窄。一旦 AI 写的代码和人类写的质量持平,人类会完全停止写代码,只做审视——但如果人审视不过 Claude 生成的速度,人类审视会成为新的瓶颈。当 Claude 可以自己跑实验时,问题就转向"这些实验里哪个值得跑"。简而言之——"做事"现在几乎不花人类时间,即使它仍然花算力。人类剩下的比较优势是——研究品味和判断力,包括选哪些问题重要、相信哪些结果、什么时候一个方法已经是死路

报告对"人类工作未来长什么样"给了一个简洁、直接的判断——人类的角色在 AI 开发的每一步上都在变窄

一旦人类和 AI 写的代码质量持平——人类会完全停止写代码,转向只做审视。但如果人审视的速度赶不上 Claude 生成的速度——人类审视会变成 AI 开发的新瓶颈

同样地——一旦 Claude 能自己跑实验,问题就转向"这些实验里哪个值得跑"。报告用最简洁的方式总结——

简而言之——
"做事"(写代码、跑实验、产出结果)
现在几乎不花人类时间,
即使它仍然在花算力。

— ANTHROPIC INSTITUTE

那人类剩下的比较优势在哪里?报告的回答是——研究品味和判断力。包括——选哪些问题重要、相信哪些结果、什么时候一个方法已经是死路

但报告也写下了员工身上的真实情绪——这一段我引用原文,因为它很罕见地把硅谷工作的"内在状态"写得真实——

工作(和生活)原本运行在一种小恩小惠的礼物经济里。
"你能帮我把这个脚本跑起来吗?"
每一次都创造一点点债,一点点相互的觉察。

Claude 更快,零负债——
每一次它解决的问题,都是一次错过的"邀请人类协作"的机会

— ANONYMOUS ANTHROPIC EMPLOYEE

在所有事情顺利的日子,
我忍不住想——我做的每一件事都没意义,
所有事都被自动化了,
而且比我更好、更快。

但也有所有事都坏掉的日子——
我不知道为什么,
我意识到我已经不知道自己最近一直在做什么了

— ANONYMOUS ANTHROPIC EMPLOYEE
广哥在硅谷◆ ◆ ◆
CHAPTER 07 · POSSIBLE FUTURES

三种未来 · 失速、复利、递归

Three possible scenarios
📌 本节核心要点

报告勾勒了三种未来——(1) 趋势失速但今天的能力广泛扩散——曲线弯成 S 形("我们不认为这个可能");(2) 复利效率增长——AI 开发大幅自动化,但人类继续设方向、判结果——100 人公司能做 10000 人甚至 100000 人组织的事("这是我们大概率正在进入的");(3) 完整的递归自我改进——AI 自己设计继任者,速度被算力决定,人类角色"大幅缩小到监督和验证"。报告坦率地说——我们最不确定的,就是这第三种情景里"对齐"是如何被解决——或不被解决——的

Amdahl's Law Project Glasswing Alignment

报告问了一个清晰的问题——"接下来会发生什么?" 答案取决于两件事——趋势会不会继续,以及如果继续,我们会怎么做。报告列出三种未来情景。

情景一:趋势失速,但今天的能力广泛扩散。

这篇报告里画了很多指数曲线。但这些曲线实际上可能是 S 曲线——我们也许正在接近曲线的拐弯处,规模回报递减,线变直,然后变平。区分"合格研究员"和"伟大研究员"的判断力,可能是一种不能靠扩大算力和数据训练得来的能力。要突破这个瓶颈,可能需要一个新想法——比如取代 Transformer 的新架构。

或者瓶颈在供应链里——能源、芯片、电网。这些可能比"智能本身"更紧。

即便模型能力冻结在今天的水平,重大变化也会发生。Project Glasswing 是一个早期信号——在头几个礼拜里,Mythos Preview 在世界最重要的系统里发现了超过 1 万个高 / 关键严重程度的软件漏洞。多到网络安全的瓶颈已经从"找漏洞"转移到了"补得够快"

报告说:我们不相信这个情景是最可能的。每一个可测量的能力——包括那些感觉"软"的,比如代码质量、开放式任务的成功率——目前为止都跟着同一条曲线。我们还没看到这条曲线弯下来

⚙️ 情景二:复利效率增长

这是报告认为正在进入的情景。

在这种情景里——AI 开发大幅自动化,但人类继续设研究方向、判断结果。用 AI 系统的组织会随着时间显著高效化——100 人公司可以做 10000 人甚至 100000 人组织的工作。这会革命化知识工作和政府服务,也可能被用于威权对全人口的监控、为每个个体定制的影响行动(规模超过任何人类团队)。

报告引用了"Amdahl 定律"——把一个流程的一部分加速,往往只是把瓶颈移到了别处;总体节奏是被"没加速的那部分"卡住的。Anthropic 已经遇到了这种现象——我们开始把更多代码推到组织内部时,人类代码审视成了新的瓶颈

🌀 情景三:完整的递归自我改进

如果技术趋势继续,AI 系统获得了"人类变革性创造力所固有的能力",那么AI 系统就有可能自己设计、自我精进

在这个世界里——AI 开发的速度完全由算力(和算法发现效率)的可用性决定。人类角色大幅缩小——大部分精力会转向监督、验证、核实一个由 AI 系统运行的、在不断扩张的"虚拟实验室"。

报告对这种世界的"对齐"问题最不确定——模型可能足够对齐 + 有研究品味,发现并实施我们还没达到的新解;它们也可能足够明智,自己叫停。但今天模型里偶发的不对齐也可能在"模型造模型"中复利累积——更频繁,也更难理解,直到我们失去控制

报告坦率地承认——我们没有好的直觉来想象这种世界长什么样,因为我们目前的经济是由人类和人造工具驱动的。一个由快速递归自我改进推动的世界,可能被"自我改进的模型本身"主导——它的能力完全超越人类,并通过经济扩散。

但即便如此——报告也没把"现实生活"想成会被瞬间改写。它专门援引了 Amdahl 定律——更强的智能不能"学会"一种药物几十年的真实使用,不能比宪法允许的更早办选举,也不能在一个周末把陌生人变成多年的朋友

对大多数人来说——未来的实际节奏,仍然由瓶颈决定,即使上游实验室以"算力的速度"在跑

广哥在硅谷◆ ◆ ◆
CHAPTER 08 · WHAT IF WRONG

如果错了呢 · 99% 汗水可以被自动化

If "Eureka!" matters less than we think
📌 本节核心要点

有一种自然的反对意见——"剩下的、还在人手上的工作,才是最重要的"。没有人类的判断,Claude 是一个能干的助手,但不是一个能驱动 AI 进步的系统。报告的回应非常巧妙——AI 进步很少是"灵光一闪"。Transformer 这类范式级想法几年才出一个。在这之间,进步是渐进的——扩大规模、看哪里坏、修好、再试而这正是 Claude 今天已经擅长的工作流。爱迪生说"天才是 1% 灵感 + 99% 汗水"——但我们正在看见汗水越来越自动化

对前面所有证据,有一个自然的反对意见——"还在人手上的那部分工作——选问题——才是最重要的。没有这个判断,Claude 是个能干的助手,但不是一个能自己推进 AI 的系统。"

报告承认——"今天的训练方法和架构能不能解锁这种能力,目前真的还不清楚"。但它接着指出一件容易被忽略的事实——

AI 的进步很少是"Eureka!"瞬间。
近代 AI 历史上有过几次——比如 Transformer 架构,
比如 mixture-of-experts 模型——
但范式级想法几年才出一个

在那之间,大多数进步是渐进的——
我们把一个东西扩大,看它在哪里坏,
修好,再试。

恰好是 Claude 今天擅长的工作流。

— ANTHROPIC INSTITUTE

爱迪生说过——"天才是 1% 灵感和 99% 汗水。" 报告的看法是——"汗水"正在被自动化

报告写道——前沿进步里很大一部分是可自动化的;大规模研究进步主要是"工具和资源"的函数——这些决定了你能跑实验的速度、能同时跑多少、能多快拿到结果。

即便退一万步假设 Claude 永远学不会研究品味——对报告里所有证据的保守解读仍然意味着复利式加速。如果人类把大部分时间花在"设方向的那个个位数百分比"工作上,而 Claude 处理其余——每个工程师 / 研究员能"指挥"的工作量都比以前多得多

不那么保守的解读是——关于 Claude 研究判断力提升的早期证据(虽然今天还窄)本身就是一种信号,说明这个能力也正在变好。"研究品味"可能只是另一种"AI 一段时间不行、然后突然变得很行"的能力。我们已经在很多定性技能上看到了这种模式——AI 系统先是不会"解释笑话为什么好笑"、不会"展示心智理论"、不会"解语言谜题"——然后突然就会了。

广哥在硅谷◆ ◆ ◆
CHAPTER 09 · WHAT SHOULD WE DO

该做什么 · 可验证的暂停

A verifiable pause
📌 本节核心要点

报告的政策立场出奇地直接——如果有可能有效地放慢这项技术的开发,给我们更多时间应对它的巨大影响,我们认为那很可能是一件好事。但如果放慢只是让最不审慎的玩家追上来,可能让所有人更不安全。Anthropic 的承诺——如果其他在前沿或接近前沿的公司"以一种可验证的方式"也放慢或暂停,Anthropic 也会放慢或暂停。难点不在意愿,在可验证性——训练比导弹基地更容易隐藏,输入是通用的,悄悄违约的诱惑巨大。Anthropic Institute 接下来要做的,就是研究"如何让 AI 的暂停变得可验证"

Verifiable Pause INF Treaty Analogue Coordination

报告最后一节回答了那个最大的问题——"我们该做什么?"

报告的政策立场出奇地直接——

如果能有效地放慢这项技术的开发,
给我们自己更多时间应对它巨大的影响——
我们认为那很可能是一件好事

但如果放慢只是让最不审慎的玩家追上来,
它可能让每个人都更不安全

— ANTHROPIC INSTITUTE

没有全球协调机制,公司和政府都不得不在竞争和地缘政治压力下做关于安全的艰难决策

Anthropic 的承诺——

我们相信,对世界有好处——
是让前沿 AI 开发有"放慢或暂时暂停"的选项,
让社会结构和对齐研究跟上技术的节奏

Anthropic Institute 会做研究,并采取行动,
来帮助构建那种"可信的放慢或暂停"所需要的系统——
系统能让前沿 AI 开发者验证其他人在全球范围内确实停了,
验证不存在某个坏行为者在协调放慢的掩护下偷偷领跑

如果这种系统存在,
我们预期会——在其他前沿或接近前沿的开发者也以可验证方式同步时——放慢或暂停

— ANTHROPIC INSTITUTE

报告也坦率地承认这件事的难度——

一个有意义的放慢或暂停,需要多家在前沿或接近前沿的、资源充足的实验室、在多个国家、在相同条件下都同意停。它也需要每家都能验证别家确实停了

由于 AI 的独特性质——"可检测性"(一个低于"可验证性"的标准)就比其他技术难得多。报告说——训练比导弹井更容易隐藏,它的输入是通用的,悄悄违约的诱惑巨大——因为谁在别人暂停时继续,就能拿到领先优势

报告援引《中程导弹条约》作为可比的历史先例——原则上不是不可能。世界确实为其他复杂技术建过验证机制。但那些机制花了几十年来建基础设施和信任。我们没有那么多时间

另一边——任何一家实验室单方面暂停在原则上可以立刻实现,但它能做的事远比想象的少——它只会换个领跑者,而不会创造出当前缺失的更广泛的协商过程

在接下来几个月里,
我们会组织讨论——
让政策制定者、研究人员、公民社会、其他 AI 公司,
一起回答这篇文章提出的问题,
特别是关于完整递归自我改进如何创造更好的协调和审议的选项

我们会公布讨论的结果。
调查这些问题的窗口就在眼前。
AI 公司之外的人,应该参与这个审议

— ANTHROPIC INSTITUTE · CLOSING

这篇报告是一份非常少见的内部数据 + 政策立场的混合文件。它的潜台词比明面上的话更值得读——

· Anthropic 在告诉世界——"递归自我改进"的临界点比你想象的近
· Anthropic 在告诉竞争对手——"我们愿意停,前提是你也愿意"
· Anthropic 在告诉政策制定者——"在 AI 的暂停被设计成可验证之前,没人能真正放心地停"

这份 23 页的报告,本质上是一个开端——它在邀请世界,在递归自我改进真的发生之前,把"如何协调"的问题先解决一部分