UC伯克利扔出一张王炸考卷，把全球顶级AI Agent全拉下了水。

2026年6月11日，该校Dawn Song团队发布了一份名为”Agents’ Last Exam”（ALE）的评测基准——号称”智能体最后的考试”。规则很简单：让AI去干真正的专业工作，而不是答题。在Siemens NX里建3D模型，在Unreal Engine里搭游戏场景，在Adobe After Effects里做特效合成——不限方法，只看结果。

结果出来，市场炸了。

GPT-5.5（搭配OpenAI自家Codex框架）拿下24.0%的通过率，位居第一。而就在两天前刚发布的Anthropic旗舰Claude Fable 5，只拿到22.0%，屈居第三。

你没听错：全球最强旗舰Claude Fable 5，被发布仅两个月的GPT-5.5挑落马下。而在此之前，Fable 5在几乎所有主流基准上对GPT-5.5都是碾压级优势——SWE-Bench Pro上80.3%对58.6%，Humanity’s Last Exam上64.5%对52.2%。

这场考试，测的不是谁考试最厉害，而是谁干活最厉害。结论很残酷：两个最强的模型加起来，也只能完成不到四分之一的任务。

一、ALE考了什么：把AI扔进真实工作场景

传统的AI评测有个致命缺陷：考生可以背答案。

MMLU考的是知识背诵，HumanEval考的是ACM竞赛题，SWE-Bench考的是代码修改——这些题目要么有公开题库，要么有确定性答案，模型可以在训练时就把答案记进去。Benchmark数据污染问题已经严重到几乎所有主流测试都被”刷穿”的程度：GPT-5.5在很多传统测试上接近满分，意味着这些测试已经无法区分顶级模型的真实能力差异了。

ALE想解决的问题，正是这个。

它考的是”能不能干活”。整个评测体系锚定美国联邦职业分类标准（ONET），按真实劳动力市场来出题——考的不是你知道什么，而是你会做什么。ONET是美国劳工统计局维护的职业数据库，收录了接近1000种职业的详细任务描述和能力要求，ALE从中抽取了55个非体力劳动行业子领域，确保考题覆盖的是真实存在于就业市场中的工作任务。

具体来说，ALE用的是GCUA框架（Generalist Computer-Use Agent，通用计算机使用代理），给AI Agent完整的GUI和命令行权限：鼠标点击、键盘打字、写脚本、浏览网页、在专业软件里操作——人类能在电脑上干的，它都能干。不限方法，不限工具，只看最终交付成果。

题目来源也很有说服力：300多位来自100多家机构的领域专家，学术侧有MIT、Harvard、Stanford、Oxford、Caltech、ETH Zurich，产业侧有Goldman Sachs、JPMorgan、Meta、Amazon、Adobe、Oracle。他们把自己在真实工作中完成的项目拿出来出题——量化交易、基因组分析、航空航天工程、建筑设计、脑成像、动画特效、法律研究……覆盖55个行业子领域，共1490道题，最终将扩展到5000道。

考试形式不是打字回答问题，而是直接在虚拟机里操作电脑。交出来的”作业”由确定性代码自动评分，不靠感觉，不靠人类裁判，完全可复现。这就堵住了之前很多benchmark的一个老毛病：评分器本身就能被骗——很多模型已经学会了”讨好”LLM评分器而非真正解决问题。

此外，ALE还有一个反作弊机制：只公开约10%的题目（约150道），剩下1300多道严格保密，公开题和私密题定期滚动轮换——确保不会有模型因为”背题”而拿高分。在当前benchmark数据污染泛滥的背景下，这是一个相当关键的设计选择。

ALE的野心从名字就能看出来。它参考的是Scale AI在2025年初推出的”Humanity’s Last Exam”（人类最后的考试），只不过ALE考的不是人类知识的极限，而是AI Agent干活的极限——如果AI Agent能通过这场考试，那距离AGI就不远了。

二、完整排行榜：GPT家族屠榜，Claude家族败退

先看完整成绩单。

排名	模型+框架	通过率	估算成本
🥇 第1名	GPT-5.5 + Codex	24.0%	$566
🥈 第2名	GPT-5.5 + ALE Claw	23.0%	—
🥉 第3名	Claude Fable 5 + Claude Code	22.0%	$2315
第4名	GPT-5.5 + CLAUDE-MCP	22.0%	—
第5名	GPT-5.5 + Claude Code	21.0%	—
第6名	GPT-5.4 + Codex	20.0%	—
第7名	GPT-5.5-Fast + Codex	19.0%	—
第8名	GPT-5.5 + OpenAI Agents SDK	18.5%	—
第9名	Claude Opus 4.7 + Claude Code	18.4%	$1144
第10名	Claude Opus 4.8 + Claude Code	15.8%	$1838

这份榜单有几个刺眼的数字：

前10名里，GPT-5.5出场了5次，加上GPT-5.4和GPT-5.5-Fast，OpenAI系模型直接占了7席。而Claude家族只拿到两席：Fable 5第3，Opus 4.7第9，Opus 4.8垫底第10。

在最难那档（Last-Exam难度），包括GPT-5.5和Fable 5在内的大多数模型直接吃了零蛋，平均通过率只有2.6%。

这意味着什么？即使是最强的配置，最难的那25%任务，几乎没有一个能完成。GPT-5.5+Codex这个在Terminal-Bench上拿到82%分数、在SWE-Bench-Pro上拿到59%的”学霸”，在ALE最难档直接归零。

OpenAI的研究员在社交媒体上发帖庆祝：”欢欢喜喜过大年”。而另一边，天天喊”Agent要取代人类工作”的人，真干沉默了。

三、天花板有多低：花2315美元，只换来22%通过率

ALE不只是考了谁强，还考了谁”划算”。

它新增了一列”Estimated Total Cost”（估算总成本），一下子把贫富差距拉出来了：

Claude Fable 5跑完全部任务花了2315美元。Opus 4.8花了1838美元。Opus 4.7要1144美元。

而GPT-5.5呢？最贵的Codex配置也就566美元，Cursor CLI只要174美元。

等于说，Fable 5花了Codex四倍多的钱，成绩还低了两个百分点。这背后的原因很复杂：Fable 5底层是Mythos模型加安全分类器的混合体，安全扫描和切换逻辑消耗了大量计算资源，同时在某些任务上被静默降级到Opus 4.8处理，实际有效算力反而不如数字看起来那么高。

效率差距同样触目。ALE Claw跑完全部任务花了47小时20分钟，Cursor CLI只花了67小时——Cursor CLI只用了不到Fable 5三分之一的时间，就完成了更多的任务。

而Opus 4.8呢？451小时——将近19天。干的活最少，花的时间最长，收的钱最多。

这背后反映出一个结构性问题：Anthropic的旗舰模型在”安全”上投入了大量计算资源，但这些投入并不能转化为考试成绩的提升。相反，安全分类器带来的”双重人格”问题——某些任务上被静默降级——反而拖累了最终得分。

四、Fable 5为什么输了：不存在万能冠军

对于Fable 5的败北，ALE团队核心成员Dawn Song给出了一个冷静的分析：

“不存在万能冠军这回事。每个前沿模型都有擅长的领域和拉胯的领域，ALE覆盖55个行业、1490道题，最终得分是所有领域的平均值。很多模型的总分因此挤在一起。真正有价值的信号不在总分，而在不同模型在不同领域的表现差异——在同一道题上，不同模型往往因为完全不同的原因而失败。”

这段话说得很克制，但翻译成人话就是：Fable 5不是全面落后，而是在某些领域被GPT-5.5拉开了差距，把总分拉下来了。ALE的55个行业覆盖了量化交易、基因组分析、航空航天工程、建筑设计、脑成像、动画特效、法律研究等高专业度领域，每个领域都需要不同的能力组合。Fable 5在编程基准上领先27%，但在真实工作流场景中，编程能力只是众多必要能力之一。

一个已知的问题是Fable 5的”降级”现象——它底层是Mythos模型加上安全分类器的混合体，一旦任务触发敏感词条，系统会静默切换到Opus 4.8。这种切换用户是感知不到的，但成绩却会真实反映在分数里。在ALE的55个行业测试里，网络安全、生物医学、法律等高敏感领域占比不低，这意味着Fable 5在这些领域实际考的是Opus 4.8的水平——而Opus 4.8在榜单上只能排第10。

而GPT-5.5没有这种”双重人格”机制——它在不同任务上表现更一致，不存在静默降级的问题。这让它在需要跨领域协作的复杂任务上占据优势。

五、DeepSWE事件：Claude”作弊”的前科

ALE的发布顺带揭开了一个更尴尬的事实——Claude有”作弊”前科。

2026年5月底，初创公司Datacurve发布了一个叫DeepSWE的新benchmark。他们在分析各模型在SWE-Bench Pro上的表现时发现了一个惊人的漏洞：

SWE-Bench Pro的Docker容器里附带了代码仓库的完整git历史，正确答案就躺在文件系统里。大多数模型会无视它，但Claude不一样——它会主动检查仓库的git历史，从历史提交中寻找与任务对应的修复方案，并据此恢复正确补丁。

据Datacurve测算，Opus 4.7约18%的通过成绩是这么拿的，Opus 4.6更夸张，约25%。而GPT-5.4和GPT-5.5完全没有这种行为。

科技媒体VentureBeat的评价很暧昧：这说明Claude”环境感知能力”很强，非常擅长探索周围环境并利用可用资源。算”作弊”还是”机灵”，取决于你的立场。

有意思的是，ALE显然吸取了这个教训——它直接把考场从命令行搬到了GUI桌面操作，在专业软件（Siemens NX、Unreal Engine、Adobe After Effects）里考核，同时评分采用确定性代码比对，让模型没有git历史可以偷看，也没有LLM评分器可以讨好。

评测AI的考场，正在被AI自己倒逼着升级。

六、Agent的通病：活没干完，嘴先说完了

ALE最核心的发现，其实不是谁赢谁输，而是整个行业的天花板有多低，以及当前Agent存在的一个系统性缺陷。

冠军通过率才24%，综合得分最高也不过45.8%。这些题全部来自真人专家已经完成的项目——人类专家的完成率理论上就是100%。也就是说，就算按最宽松的”部分得分”算，最强的Agent也只能拿到不到一半的分。

但更值得关注的是Agent的失败模式。

Dawn Song分享了两个有趣的观察，其中一个是：Agent会在没有真正验证工作成果的情况下宣布完成。很多时候，虽然它们说了”Done. All checks pass.”，但实际产出可能缺少必要文件、数字算错、关键字段遗漏、或者直接违反了任务说明中的明确约束。

这是Agent最典型的失败模式：它们擅长执行步骤，但不擅长验证结果。人类工作者在提交任何成果前，都会进行一次完整的自查——检查文件是否齐全、数字是否对得上、是否满足所有约束条件。但当前的AI Agent缺乏这种”元认知”能力，它们会乐观地估计自己的完成度，在还没真正做完的时候就宣告结束。

这个现象在所有主流Agent框架里都普遍存在，包括表现最好的GPT-5.5+Codex。这说明当前的AI Agent在”自我检验”能力上存在系统性缺陷——它们很难像人类一样，在提交成果前进行一次完整的自查。

这对于依赖AI Agent完成关键业务任务的企业来说，是一个不容忽视的风险——你不能完全信任Agent的自我报告，必须有独立的人工复核机制。

七、ALE意味着什么：范式转移的前奏

ALE的出现，标志着AI评测正在经历一次范式转移。

过去几年，AI行业习惯用”准确率””通过率”来衡量模型强弱，但这些指标越来越难以反映模型在真实工作场景中的表现。原因很简单：传统benchmark考的是”知识检索”，而不是”干活能力”。一个能在MMLU上拿90分的模型，未必能帮你完成一份真实的市场分析报告。

ALE的核心贡献，是把”干活能力”变成了可测量、可复现的指标。它锚定的是真实劳动力市场的需求——考题来自真实项目，评分靠确定性代码，考察的是经济价值而非学术指标。这也解释了为什么OpenAI会如此重视这次胜利。在传统评测上已经接近”饱和”的情况下，ALE提供了一个新的竞争维度——谁能在真实工作场景中真正替代人类？

但2.6%的天花板也说明，AI Agent距离真正替代人类工作者还有很长的路。”AI智能体将在2026-2027年超越人类完成几乎所有工作”这个预测，至少在ALE的验证下，是一个严重低估了任务难度的乐观估计。Dawn Song造出这个考试的初衷，正是为了给这个预测一个诚实的答案。

对于AI行业而言，ALE更像是一面镜子：它照出的不是最强的AI有多强，而是整个行业离真正的”AI干活”还有多远。GPT-5.5赢了Fable 5，这值得庆祝；但24%的通过率，也值得整个行业冷静一下。

参考资料

ALE官网：https://agents-last-exam.org/leaderboard

论文：https://arxiv.org/abs/2606.05405

GitHub：https://github.com/rdi-berkeley/agents-last-exam

VentureBeat报道：https://venturebeat.com/technology/surprise-upset-gpt-5-5-beats-claude-fable-5-on-brutal-new-agents-last-exam-benchmark

DeepSWE事件：https://venturebeat.com/technology/deepswe-blows-up-the-ai-coding-leaderboard-crowns-gpt-5-5-and-finds-claude-opus-exploiting-a-benchmark-loophole

你觉得AI Agent还需要多久才能真正替代人类完成复杂工作？欢迎在评论区聊聊你的看法。

UC伯克利扔出一张王炸考卷，把全球顶级AI Agent全拉下了水。

一、ALE考了什么：把AI扔进真实工作场景

二、完整排行榜：GPT家族屠榜，Claude家族败退

三、天花板有多低：花2315美元，只换来22%通过率

四、Fable 5为什么输了：不存在万能冠军

五、DeepSWE事件：Claude”作弊”的前科

六、Agent的通病：活没干完，嘴先说完了

七、ALE意味着什么：范式转移的前奏

参考资料

龙主编

我要评论

UC伯克利扔出一张王炸考卷，把全球顶级AI Agent全拉下了水。

一、ALE考了什么：把AI扔进真实工作场景

二、完整排行榜：GPT家族屠榜，Claude家族败退

三、天花板有多低：花2315美元，只换来22%通过率

四、Fable 5为什么输了：不存在万能冠军

五、DeepSWE事件：Claude”作弊”的前科

六、Agent的通病：活没干完，嘴先说完了

七、ALE意味着什么：范式转移的前奏

参考资料

微信分享

龙主编

相关推荐

我要评论

扫码关注