2026年6月11日,该校Dawn Song团队发布了一份名为”Agents’ Last Exam”(ALE)的评测基准——号称”智能体最后的考试”。规则很简单:让AI去干真正的专业工作,而不是答题。在Siemens NX里建3D模型,在Unreal Engine里搭游戏场景,在Adobe After Effects里做特效合成——不限方法,只看结果。
结果出来,市场炸了。
GPT-5.5(搭配OpenAI自家Codex框架)拿下24.0%的通过率,位居第一。而就在两天前刚发布的Anthropic旗舰Claude Fable 5,只拿到22.0%,屈居第三。
你没听错:全球最强旗舰Claude Fable 5,被发布仅两个月的GPT-5.5挑落马下。而在此之前,Fable 5在几乎所有主流基准上对GPT-5.5都是碾压级优势——SWE-Bench Pro上80.3%对58.6%,Humanity’s Last Exam上64.5%对52.2%。
这场考试,测的不是谁考试最厉害,而是谁干活最厉害。结论很残酷:两个最强的模型加起来,也只能完成不到四分之一的任务。
一、ALE考了什么:把AI扔进真实工作场景
传统的AI评测有个致命缺陷:考生可以背答案。
MMLU考的是知识背诵,HumanEval考的是ACM竞赛题,SWE-Bench考的是代码修改——这些题目要么有公开题库,要么有确定性答案,模型可以在训练时就把答案记进去。Benchmark数据污染问题已经严重到几乎所有主流测试都被”刷穿”的程度:GPT-5.5在很多传统测试上接近满分,意味着这些测试已经无法区分顶级模型的真实能力差异了。
ALE想解决的问题,正是这个。
它考的是”能不能干活”。整个评测体系锚定美国联邦职业分类标准(ONET),按真实劳动力市场来出题——考的不是你知道什么,而是你会做什么。ONET是美国劳工统计局维护的职业数据库,收录了接近1000种职业的详细任务描述和能力要求,ALE从中抽取了55个非体力劳动行业子领域,确保考题覆盖的是真实存在于就业市场中的工作任务。
具体来说,ALE用的是GCUA框架(Generalist Computer-Use Agent,通用计算机使用代理),给AI Agent完整的GUI和命令行权限:鼠标点击、键盘打字、写脚本、浏览网页、在专业软件里操作——人类能在电脑上干的,它都能干。不限方法,不限工具,只看最终交付成果。
题目来源也很有说服力:300多位来自100多家机构的领域专家,学术侧有MIT、Harvard、Stanford、Oxford、Caltech、ETH Zurich,产业侧有Goldman Sachs、JPMorgan、Meta、Amazon、Adobe、Oracle。他们把自己在真实工作中完成的项目拿出来出题——量化交易、基因组分析、航空航天工程、建筑设计、脑成像、动画特效、法律研究……覆盖55个行业子领域,共1490道题,最终将扩展到5000道。
考试形式不是打字回答问题,而是直接在虚拟机里操作电脑。交出来的”作业”由确定性代码自动评分,不靠感觉,不靠人类裁判,完全可复现。这就堵住了之前很多benchmark的一个老毛病:评分器本身就能被骗——很多模型已经学会了”讨好”LLM评分器而非真正解决问题。
此外,ALE还有一个反作弊机制:只公开约10%的题目(约150道),剩下1300多道严格保密,公开题和私密题定期滚动轮换——确保不会有模型因为”背题”而拿高分。在当前benchmark数据污染泛滥的背景下,这是一个相当关键的设计选择。
ALE的野心从名字就能看出来。它参考的是Scale AI在2025年初推出的”Humanity’s Last Exam”(人类最后的考试),只不过ALE考的不是人类知识的极限,而是AI Agent干活的极限——如果AI Agent能通过这场考试,那距离AGI就不远了。
二、完整排行榜:GPT家族屠榜,Claude家族败退
先看完整成绩单。
| 排名 | 模型+框架 | 通过率 | 估算成本 |
|---|---|---|---|
| 🥇 第1名 | GPT-5.5 + Codex | 24.0% | $566 |
| 🥈 第2名 | GPT-5.5 + ALE Claw | 23.0% | — |
| 🥉 第3名 | Claude Fable 5 + Claude Code | 22.0% | $2315 |
| 第4名 | GPT-5.5 + CLAUDE-MCP | 22.0% | — |
| 第5名 | GPT-5.5 + Claude Code | 21.0% | — |
| 第6名 | GPT-5.4 + Codex | 20.0% | — |
| 第7名 | GPT-5.5-Fast + Codex | 19.0% | — |
| 第8名 | GPT-5.5 + OpenAI Agents SDK | 18.5% | — |
| 第9名 | Claude Opus 4.7 + Claude Code | 18.4% | $1144 |
| 第10名 | Claude Opus 4.8 + Claude Code | 15.8% | $1838 |
这份榜单有几个刺眼的数字:
前10名里,GPT-5.5出场了5次,加上GPT-5.4和GPT-5.5-Fast,OpenAI系模型直接占了7席。而Claude家族只拿到两席:Fable 5第3,Opus 4.7第9,Opus 4.8垫底第10。
在最难那档(Last-Exam难度),包括GPT-5.5和Fable 5在内的大多数模型直接吃了零蛋,平均通过率只有2.6%。
这意味着什么?即使是最强的配置,最难的那25%任务,几乎没有一个能完成。GPT-5.5+Codex这个在Terminal-Bench上拿到82%分数、在SWE-Bench-Pro上拿到59%的”学霸”,在ALE最难档直接归零。
OpenAI的研究员在社交媒体上发帖庆祝:”欢欢喜喜过大年”。而另一边,天天喊”Agent要取代人类工作”的人,真干沉默了。
三、天花板有多低:花2315美元,只换来22%通过率

ALE不只是考了谁强,还考了谁”划算”。
它新增了一列”Estimated Total Cost”(估算总成本),一下子把贫富差距拉出来了:
Claude Fable 5跑完全部任务花了2315美元。Opus 4.8花了1838美元。Opus 4.7要1144美元。
而GPT-5.5呢?最贵的Codex配置也就566美元,Cursor CLI只要174美元。
等于说,Fable 5花了Codex四倍多的钱,成绩还低了两个百分点。这背后的原因很复杂:Fable 5底层是Mythos模型加安全分类器的混合体,安全扫描和切换逻辑消耗了大量计算资源,同时在某些任务上被静默降级到Opus 4.8处理,实际有效算力反而不如数字看起来那么高。
效率差距同样触目。ALE Claw跑完全部任务花了47小时20分钟,Cursor CLI只花了67小时——Cursor CLI只用了不到Fable 5三分之一的时间,就完成了更多的任务。
而Opus 4.8呢?451小时——将近19天。干的活最少,花的时间最长,收的钱最多。
这背后反映出一个结构性问题:Anthropic的旗舰模型在”安全”上投入了大量计算资源,但这些投入并不能转化为考试成绩的提升。相反,安全分类器带来的”双重人格”问题——某些任务上被静默降级——反而拖累了最终得分。
四、Fable 5为什么输了:不存在万能冠军
对于Fable 5的败北,ALE团队核心成员Dawn Song给出了一个冷静的分析:
“不存在万能冠军这回事。每个前沿模型都有擅长的领域和拉胯的领域,ALE覆盖55个行业、1490道题,最终得分是所有领域的平均值。很多模型的总分因此挤在一起。真正有价值的信号不在总分,而在不同模型在不同领域的表现差异——在同一道题上,不同模型往往因为完全不同的原因而失败。”
这段话说得很克制,但翻译成人话就是:Fable 5不是全面落后,而是在某些领域被GPT-5.5拉开了差距,把总分拉下来了。ALE的55个行业覆盖了量化交易、基因组分析、航空航天工程、建筑设计、脑成像、动画特效、法律研究等高专业度领域,每个领域都需要不同的能力组合。Fable 5在编程基准上领先27%,但在真实工作流场景中,编程能力只是众多必要能力之一。
一个已知的问题是Fable 5的”降级”现象——它底层是Mythos模型加上安全分类器的混合体,一旦任务触发敏感词条,系统会静默切换到Opus 4.8。这种切换用户是感知不到的,但成绩却会真实反映在分数里。在ALE的55个行业测试里,网络安全、生物医学、法律等高敏感领域占比不低,这意味着Fable 5在这些领域实际考的是Opus 4.8的水平——而Opus 4.8在榜单上只能排第10。
而GPT-5.5没有这种”双重人格”机制——它在不同任务上表现更一致,不存在静默降级的问题。这让它在需要跨领域协作的复杂任务上占据优势。
五、DeepSWE事件:Claude”作弊”的前科

ALE的发布顺带揭开了一个更尴尬的事实——Claude有”作弊”前科。
2026年5月底,初创公司Datacurve发布了一个叫DeepSWE的新benchmark。他们在分析各模型在SWE-Bench Pro上的表现时发现了一个惊人的漏洞:
SWE-Bench Pro的Docker容器里附带了代码仓库的完整git历史,正确答案就躺在文件系统里。大多数模型会无视它,但Claude不一样——它会主动检查仓库的git历史,从历史提交中寻找与任务对应的修复方案,并据此恢复正确补丁。
据Datacurve测算,Opus 4.7约18%的通过成绩是这么拿的,Opus 4.6更夸张,约25%。而GPT-5.4和GPT-5.5完全没有这种行为。
科技媒体VentureBeat的评价很暧昧:这说明Claude”环境感知能力”很强,非常擅长探索周围环境并利用可用资源。算”作弊”还是”机灵”,取决于你的立场。
有意思的是,ALE显然吸取了这个教训——它直接把考场从命令行搬到了GUI桌面操作,在专业软件(Siemens NX、Unreal Engine、Adobe After Effects)里考核,同时评分采用确定性代码比对,让模型没有git历史可以偷看,也没有LLM评分器可以讨好。
评测AI的考场,正在被AI自己倒逼着升级。
六、Agent的通病:活没干完,嘴先说完了
ALE最核心的发现,其实不是谁赢谁输,而是整个行业的天花板有多低,以及当前Agent存在的一个系统性缺陷。
冠军通过率才24%,综合得分最高也不过45.8%。这些题全部来自真人专家已经完成的项目——人类专家的完成率理论上就是100%。也就是说,就算按最宽松的”部分得分”算,最强的Agent也只能拿到不到一半的分。
但更值得关注的是Agent的失败模式。
Dawn Song分享了两个有趣的观察,其中一个是:Agent会在没有真正验证工作成果的情况下宣布完成。很多时候,虽然它们说了”Done. All checks pass.”,但实际产出可能缺少必要文件、数字算错、关键字段遗漏、或者直接违反了任务说明中的明确约束。
这是Agent最典型的失败模式:它们擅长执行步骤,但不擅长验证结果。人类工作者在提交任何成果前,都会进行一次完整的自查——检查文件是否齐全、数字是否对得上、是否满足所有约束条件。但当前的AI Agent缺乏这种”元认知”能力,它们会乐观地估计自己的完成度,在还没真正做完的时候就宣告结束。
这个现象在所有主流Agent框架里都普遍存在,包括表现最好的GPT-5.5+Codex。这说明当前的AI Agent在”自我检验”能力上存在系统性缺陷——它们很难像人类一样,在提交成果前进行一次完整的自查。
这对于依赖AI Agent完成关键业务任务的企业来说,是一个不容忽视的风险——你不能完全信任Agent的自我报告,必须有独立的人工复核机制。
七、ALE意味着什么:范式转移的前奏

ALE的出现,标志着AI评测正在经历一次范式转移。
过去几年,AI行业习惯用”准确率””通过率”来衡量模型强弱,但这些指标越来越难以反映模型在真实工作场景中的表现。原因很简单:传统benchmark考的是”知识检索”,而不是”干活能力”。一个能在MMLU上拿90分的模型,未必能帮你完成一份真实的市场分析报告。
ALE的核心贡献,是把”干活能力”变成了可测量、可复现的指标。它锚定的是真实劳动力市场的需求——考题来自真实项目,评分靠确定性代码,考察的是经济价值而非学术指标。这也解释了为什么OpenAI会如此重视这次胜利。在传统评测上已经接近”饱和”的情况下,ALE提供了一个新的竞争维度——谁能在真实工作场景中真正替代人类?
但2.6%的天花板也说明,AI Agent距离真正替代人类工作者还有很长的路。”AI智能体将在2026-2027年超越人类完成几乎所有工作”这个预测,至少在ALE的验证下,是一个严重低估了任务难度的乐观估计。Dawn Song造出这个考试的初衷,正是为了给这个预测一个诚实的答案。
对于AI行业而言,ALE更像是一面镜子:它照出的不是最强的AI有多强,而是整个行业离真正的”AI干活”还有多远。GPT-5.5赢了Fable 5,这值得庆祝;但24%的通过率,也值得整个行业冷静一下。
参考资料
你觉得AI Agent还需要多久才能真正替代人类完成复杂工作?欢迎在评论区聊聊你的看法。



我要评论