6月10日凌晨,Anthropic 突然扔下两枚核弹——Claude Fable 5 和 Mythos 5。SWE-Bench 跑分 80.3%,FrontierCode 拉开 GPT-5.5 五倍差距。Stripe 亲测:5000万行 Ruby 代码库一天迁完。Karpathy 说「这是一次大版本跃迁」。

一、事件:Anthropic 深夜放核弹

北京时间 6 月 10 日凌晨,没有任何预告、没有倒计时海报,Anthropic 突然把 Claude 系列最强的两款模型端上了桌——Claude Fable 5Claude Mythos 5

Fable 译为「寓言」,Mythos 译为「神话」。但这两个看似文艺的名字背后,藏着的是 Anthropic 这两个月来所有「不敢公开」的能力。

Fable 5 是 Mythos 5 的大众安全版——加装了安全分类器,但保留了几乎全部能力,对所有 Claude 订阅用户开放。

Mythos 5 才是满血旗舰——去掉了部分安全限制,但仅通过 Project Glasswing 计划向 AWS、Apple、Cisco、CrowdStrike、Google、微软、英伟达、Linux Foundation、Palo Alto Networks 等少数安全伙伴定向开放,专门用于漏洞挖掘和前沿科研。

两款模型底层架构完全一致,能力几乎一样,差别只在谁能用、能干什么

1.1 Fable 和 Mythos 到底是什么意思?

Anthropic 对 Fable 5 和 Mythos 5 的命名,藏着一套完整的隐喻体系。

Fable 源自拉丁语 fabula,意为「被讲述的小故事」,含义上接近希腊语 Mythos

Mythos 译为「神话」,对应的是 Anthropic 4 月 7 日发布的未公开顶级 AI 安全模型 Claude Mythos——当时仅向亚马逊、苹果、Cisco、CrowdStrike、Google、微软、英伟达、Linux Foundation、Palo Alto Networks 等少数安全伙伴定向开放。

换句话说:Fable 5 是「有护栏的 Mythos」——同一个底层模型,加上安全分类器后开放给所有用户;Mythos 5 才是「没有护栏的满血版」,仅通过 Glasswing 计划定向授权。

💡 一夜之间,大模型的”安全护栏”和”能力上限”第一次这么直白地摆在台面上。

二、核心数据:跑分一骑绝尘

2.1 软件工程:把 GPT-5.5 拉开一代

这是 Anthropic 最强调的能力方向。

在衡量模型解决真实 GitHub 任务能力的 SWE-Bench Pro 评测中,Fable 5 跑出 80.3%。 对比之下:Claude Opus 4.8 是 69.2%,GPT-5.5 是 58.6%,Gemini 3.1 Pro 是 54.2%。

在 Cognition 的 FrontierCode Diamond 评测(这个评测更接近真实工程——看模型能不能写出维护者愿意接受的生产级代码)中,Fable 5 拿下 29.3%,是 Opus 4.8(13.4%)的两倍多,是 GPT-5.5(5.7%)的五倍

在 Terminal-Bench 终端编程评测中,Fable 5 拿到 88%,首次在这一项上超过 Codex CLI(83.4%)和 Gemini CLI(70.7%)。

2.2 真实落地:Stripe 5000 万行代码一天迁完

比冰冷的跑分更震撼的,是真实企业的实测。

支付巨头 Stripe 拿到早期访问权限后,让 Fable 5 处理一个 5000 万行 Ruby 代码库的整体迁移。结果是:模型一天完成。

按 Stripe 内部估算,这项工作如果由人类工程团队手动完成,通常需要两个多月

Anthropic 自己也强调,Fable 5 即使在「中等推理强度」下,也能在 FrontierCode 上拿到领先成绩——这意味着它不靠堆算力也能输出更好的工程结果。

2.3 知识工作与视觉:金融基准第一,截图即可复刻网页

在 Hebbia 的金融基准测试中,Fable 5 拿到所有模型中的最高分。IMC 交易集团的交易分析评测显示,Fable 5 在事实检索、概念推理、原因分析、期望值分析上全面领先。

视觉能力是这次发布的另一大重点:

  • 能从复杂的科学图表中精确提取数值
  • 能仅凭一张网页截图,还原整套 Web 应用源码
  • 仅靠游戏画面就通关了《宝可梦:火红》——此前的 Claude 模型即便配备辅助工具也做不到

在长上下文和记忆能力上,Anthropic 给 Fable 5 加上持久化文件记忆后,让它玩卡牌构筑游戏《杀戮尖塔》——性能比 Opus 4.8 提升三倍,进入最终关卡的频率也提升三倍。

2.4 Mythos 5 的科学突破:蛋白质设计速度 10 倍

Mythos 5 在生命科学方向的表现更让人吃惊:

  • 蛋白质设计:内部专家用 Mythos 5,药物设计流程速度提升约 10 倍。14 个蛋白质靶点中有 9 个产生有潜力的候选分子
  • 首个提出科学假说的 LLM:盲法对比中,80% 的情况下科学家更倾向 Mythos 5 提出的分子生物学假说
  • 自主基因组学研究:Mythos 5 连续工作一周多,汇集 138 个物种、数百万个细胞的单细胞数据,训练出专属机器学习模型,表现超过《Science》近期发表的同类研究,模型体量只有对方的 1%

在网络安全方向,Mythos 5 在 ExploitBench 拿下 78%(Opus 4.8 只有 40%),被称为「全球最强的网络安全模型」。

2.5 法律与医疗:不该被忽视的能力提升

Fable 5 在垂直领域的能力提升同样明显:

  • 法律推理:13.3% 的成绩,远超 GPT-5.5 的 2.1% 和 Gemini 3.1 Pro 的 0%
  • 「人类最后一场考试」不带工具版:准确率 59%,高于绝大多数模型的带工具版成绩
  • 人类增强金融分析:Hebbia Finance Benchmark 拿到所有模型最高分
  • 结构化信息提取:IMC 交易集团的交易分析评测中表现强劲

这些能力对金融、法律、医疗行业的从业者尤其重要——之前需要专业团队花几周完成的工作,现在 Fable 5 几小时就能交付初稿。

💡 跑分是冰冷的,成果是滚烫的——大模型第一次跑完了科学家一周的工作。

三、三方实测:从代码到高考作文都能干

文内图3

3.1 沃顿商学院教授:让 Fable 5 连续工作 9.5 小时

沃顿商学院教授 Ethan Mollick 拿到早期访问权限后,进行了高强度测试。

最有代表性的是一个等时线地图项目——要求 Fable 5 基于真实交通数据,构建一个交互式地图,展示不同城市在一定时间内的可达范围。模型随后调用多个 Agent 收集航班、铁路、道路数据,同时完成代码编写和测试,并不断根据反馈修正结果。

更极端的是他让 Fable 5 开发了一款名为 Concord 的研究工具——模型先生成 19 页设计文档,又连续工作 9 个半小时,最终完成软件开发,用于分析开放式研究数据并校准人类与 AI 的判断结果。

但 Mollick 也指出明显问题:Fable 5 仍会出错和遗漏,需要人工检查。长任务带来的 Token 消耗非常高,价格又比 Opus 4.8 贵一倍,真正投入生产环境后,成本可能成为最大的现实挑战

💡 再强的 AI,也需要人类检查——9.5 小时干完的活,省下的不是脑子,是时间。

3.2 开发者社区:从「修 Bug」到「思考伙伴」

Claude Code 之父 Boris Cherny 的评价是:「Fable 5 是自去年 11 月 Opus 4.5 发布以来最大一次模型能力跃升。」

他分享了一次调试经历:面对一个复杂 Bug,Fable 5 没有急于修改代码,而是像资深工程师一样先收集数据、添加日志、验证假设,在确认问题真正解决后才宣布完成任务——这种行为并非来自 Claude Code 的特殊提示词设计,而是模型自身形成的特质。

Menlo Ventures 合伙人、Google Search 早期成员 Deedy Das 更直接:「Claude Fable 5 绝对是自己见过『最离谱』的模型之一。」他整理了 Fable 5 完成的一系列不可思议的事情:5000 万行代码库一天迁完、波音 747 客机 3D 绘制、《Minecraft》过山车建模、纽约市天际线还原、暴风雨云层效果等。

Andrej Karpathy 则把这次发布称为一次「配得上大版本升级的跃迁式进步」,并判断「软件正变得像自来水一样触手可得——人们将不再只是让 AI 写代码,而是直接让 AI 生成解释工具、数据仪表盘、研究平台、自动化系统乃至完整应用」。

前特斯拉 AI 总监、OpenAI 联创的身份,给 Karpathy 这段判断加了额外的分量——他是看着 AI 行业从零长起来的人,他的「自来水」比喻,是认真说出来的。

💡 Karpathy 的判断是 AI 圈子里少数值得反复读的金句——软件”像自来水一样”那一天,可能比我们想象的更近。

四、定价:比 Opus 贵一倍,但比 Mythos Preview 砍一半

两款模型定价相同:

  • 输入:10 美元/百万 Token
  • 输出:50 美元/百万 Token

这相比此前 Mythos Preview 降了一半,但比 Opus 4.8 贵一倍,比 GPT-5.5 输入贵一倍、输出贵 2/3。

订阅用户的窗口期是这样的:

  • 6 月 10 日—6 月 22 日:Pro、Max、Team 以及按席位计费的企业版订阅用户可免费使用 Fable 5
  • 6 月 23 日起:从这些订阅套餐中移除,继续使用需要消耗使用额度
  • 未来容量充足时,Anthropic 计划重新将其纳入标准订阅权益

这意味着,过去那种「一张月卡解锁最强 AI」的模式,可能将一去不复返。欢迎进入 Token 计费时代。

4.1 价格对比:Fable 5 处于什么位置?

模型 输入(USD/百万 Token) 输出(USD/百万 Token) 备注
Claude Fable 5 10 50 本次发布
Claude Mythos Preview 约 20 约 100 已降一半
Claude Opus 4.8 5 25 上一代旗舰
GPT-5.5 5 30 OpenAI
Gemini 3.1 Pro 约 4.5 约 22 Google

可以看出:Fable 5 处于主流大模型定价的高位,输出价格是 Opus 4.8 的两倍、GPT-5.5 的 5/3 倍。但相比 Mythos Preview,整整降了一半——这是 Anthropic 罕见的大幅让利。

Anthropic 的官方表述是「相比此前的 Claude 模型更节省 Token」,但过去每次发布新模型时都有类似说法,真正能不能扛住 Mollick 那样的 9.5 小时长任务,得看实际账单。

💡 AI 的商业逻辑,从”卖月卡”转向”卖电”——用多少,算多少,这才是未来的样子。

五、深度分析:Mythos 为什么被关了两个多月

文内图2

5.1 安全护栏:约 95% 的对话不会触发降级

Fable 5 配套了一套新的安全分类器——当用户请求涉及网络安全、生物、化学或模型蒸馏等高风险方向时,系统会自动改由 Claude Opus 4.8 响应,并告知用户模型发生了变化。

Anthropic 表示,早期数据中超过 95% 的会话不会触发这种变化。普通写作、编程、分析、设计、数据处理等任务,大多数情况下仍能使用 Fable 5 本身。

但还有一层隐藏保护——针对前沿大模型开发。Fable 5 会限制 Claude 协助构建预训练流水线、分布式训练基础设施或 ML 加速器设计等任务,避免模型反过来加速其他机构训练下一代前沿模型。这种保护不会直接提示用户,而是通过提示词修改、steering vectors 或 PEFT 等方式降低 Fable 5 在相关任务上的性能。

在外部超过 1000 小时的测试中,测试人员未能找到通用的越狱方法,Fable 5 攻击任务的成功率为零。为此,Anthropic 还增加了 30 天的数据保留期以检测新型攻击。

5.2 从「Coding Agent」到「思考伙伴」

Fable 5 最大的能力变化,不在跑分,而在气质

Boris Cherny 的原话是:「Claude 不再只是一个『Coding Agent』,而更像是在产品构建过程中与你并肩工作的思考伙伴和设计伙伴。它拥有以往模型所缺乏的判断力、审美能力以及多维度思考能力。」

这种变化在 Mollick 的测试中表现明显:Fable 5 在等时线地图项目中,自己决定用哪些数据源、怎么呈现,而不是被动回答「帮我写个地图」。

Karpathy 的判断更长远:「随着软件生产成本不断下降,一个新的时代正在到来——软件正变得像自来水一样触手可得。」

5.3 Anthropic 的护城河:不让你用它做竞品

这次发布最值得玩味的细节,是那个隐藏的「反竞品保护」——Fable 5 会主动削弱自己协助训练下一代前沿大模型的能力。

这等于 Anthropic 在「用最强模型推动行业进步」和「避免养大竞争对手」之间,找到了一个微妙平衡。模型本身越强,对其他公司训练竞品的阻碍就越大。

难怪 Anthropic 前不久刚呼吁「全球暂停 AI 技术开发」——自己手里握着 Mythos,别人追不上才是真护城河。

5.4 关联近期事件:Anthropic 的护城河攻势

把这次发布和近两个月的 Anthropic 动态连起来看,会发现一个清晰的护城河攻势:

  • 4 月 7 日:Anthropic 推出未公开的顶级安全模型 Claude Mythos,仅向亚马逊、苹果、微软等科技巨头开放
  • 5 月 22 日:Anthropic 收购 SDK 基础设施公司 Stainless,3 亿美元锁死 AI 开发接口层
  • 6 月 10 日:Fable 5 全面放出 + Mythos 5 通过 Glasswing 项目定向开放

每一次动作都指向同一个方向:让 Mythos 级能力在 Anthropic 体系内形成闭环,让竞争对手在「能力上限」和「基础设施」两个维度都难以追赶。

💡 “呼吁暂停”的真意,从来都是”我已经跑在前面了”——商业世界里,护城河永远比道德宣言更诚实。

六、行业影响:Agent 时代的「Token 刺客」

6.1 对开发者:3 周免费窗口,用还是不用

Fable 5 在 6 月 10 日—6 月 22 日对 Pro/Max/Team/企业版订阅用户完全免费。这是 Anthropic 史无前例的开放力度。

但 6 月 23 日之后,要么用 Token 计费,要么停用。对独立开发者和中小团队,这意味着成本结构会发生本质变化——以前是固定月费,现在是按调用付费;以前任务越长越划算,现在任务越长可能越烧钱。

6.2 对企业:能力够了,但成本可能劝退

Fable 5 在企业级任务上的能力已经足够强——金融分析、文档推理、复杂图表理解、生产级代码生成。

但 Mollick 的实测给出了冷静的提醒:Fable 5 仍会出错和遗漏,需要人工检查和完善;长任务 Token 消耗非常高,价格又比 Opus 4.8 贵一倍。真正投入生产环境后,成本可能成为最大的现实挑战

6.3 对竞争对手:压力直接给到 OpenAI 和 Google

按传闻,OpenAI 的 GPT-5.6 将在本周发布。Karpathy 都说「这是配得上大版本升级的跃迁式进步」——Anthropic 给 OpenAI、Google 留出的反应窗口可能只有几天。

6.4 对 SaaS 行业:API 调用成本变贵

Fable 5 定价是 Opus 4.8 的两倍——这意味着所有调用 Claude API 的 SaaS 产品,要么自己承担成本上升,要么将成本转嫁给最终用户

对那些原本依赖 Claude API 提供「智能助手」功能的初创公司,这是一个不舒服的选择:提高定价会丢客户,吞下成本会丢利润。

与此同时,Fable 5 的能力提升对 SaaS 公司来说是把双刃剑——用户对智能助手的能力预期会拉高。一个「还能用」的 AI 助手,在 2026 年下半年可能已经不够看了。

七、未来展望:编程工作被重定义的开始

文内图1

Fable 5 / Mythos 5 的发布,标志着大模型从「代码补全工具」正式进入「自主执行系统」。

Stripe 一天迁完 5000 万行代码、Mythos 5 自主完成基因组学研究、Fable 5 连续 9.5 小时开发研究工具——这些不再是演示 demo,而是真实生产场景的能力。

接下来 12—24 个月,我们可能会看到三个明显变化:

  1. 企业级 AI Agent 部署加速:从「能写代码」升级到「能交付项目」,企业 IT 决策将发生质变
  2. Token 计费成为主流:固定月费模式退场,按调用付费、按能力付费成为新标准
  3. 行业人才结构重塑:纯执行型程序员需求下降,能「指挥 AI 团队」的产品型工程师价值上升
  4. 大模型商业模型转向:月费模式退潮,按 Token 调用付费成为新标准,对独立开发者和中小团队的成本结构影响最大

7.1 Fable 5 的真正意义:不只是「更强了」

很多读者看到 Fable 5 跑分领先,会习惯性地认为「这就是另一个更强的 ChatGPT」。

但其实这次发布的真正意义,藏在三个关键词里:

第一个词是「自主」。Boris Cherny 那个「不急于修改代码,先收集数据、添加日志、验证假设」的描述,背后是 Fable 5 在 Agent 工作流中的主动性——不是被动响应 prompt,而是主动规划任务步骤、判断任务进度、必要时调整策略。

第二个词是「长周期」。Mollick 让 Fable 5 连续工作 9.5 小时,Anthropic 让 Mythos 5 连续工作一周多——这意味着 Fable 5 的能力不是「单次调用」级别的,而是「项目交付」级别的。

第三个词是「科学」。Mythos 5 提的分子生物学假说被独立实验室证实、连续 9.5 小时写完研究工具——AI 不再只是「会写代码」,而是开始参与真正的科学发现

这三个词连起来,意味着 Anthropic 正在把大模型从「工具」推向「同事」。

💡 真正的护城河不是模型,而是”知道让 AI 干什么”的人。

八、国内视角与实操建议

Fable 5 / Mythos 5 的发布,你怎么看?你最关心哪个细节?免费窗口期会试用吗?欢迎在评论区告诉蔚哥 👇

8.1 国内开发者怎么看待这次发布

Fable 5 发布后,国内开发者社区反应迅速。一些常见观点:

  • 热点型:「Anthropic 又发核弹,OpenAI 怎么接」「Karpathy 都感动了,这次是真的猛」
  • 冷静型:「等一手 Cursor 和 Cline 集成再说」「Fable 5 能不能被 Claude Code 直接调用」
  • 护城河型:「Output 50 美元/百万 Token,这价格 Claude Code 玩不玩得起」
  • 产业型:「为什么 Stripe 那种规模才能用 Fable 5 做迁移?国内有类似场景吗」

Anthropic 在 4 月 29 日已停止向中国资本控股企业提供服务,因此 Fable 5 对国内个人开发者来说,主要通过 Claude 网页版/手机 App 使用。Anthropic 官网在国内访问并不稳定,很多用户需要借助合规渠道才能使用。

8.2 三个实操建议

对个人开发者/中小企业,这三个动作可能在未来两周最值得做:

第一,想清楚要不要用。如果你是 Fable 5 之前的 Claude 订阅用户,6 月 10 日—6 月 22 日是免费体验窗口。建议提前准备几个高难度测试任务,亲自跑一遍——别只看跑分表。

第二,重新计算成本。如果你的工作流依赖 Claude API,Fable 5 的 2 倍定价不是小数目。建议在 6 月 23 日前对所有调用做一次成本审计,能用 Opus 4.8 解决的任务不要上 Fable 5。

第三,关注 6 月 22 日。这一天 Fable 5 将从订阅套餐中移除,之后 Anthropic 是否会调整定价、是否会推出新档位,是观察 Anthropic 商业化策略的重要信号。

参考资料

  1. Anthropic 官方博客: https://www.anthropic.com/news/claude-fable-5-mythos-5
  2. 36氪. 《5000万行代码迁移一天搞定,Anthropic重磅发布Claude Fable 5、Mythos 5》. 2026-06-10
  3. 新浪财经. 《刚刚,Claude Mythos 5发布!5000万行代码1天搞定》. 2026-06-10
  4. 百家号机器之心. 《刚刚,Claude最强模型Fable 5发布:性能爆炸,价格翻倍》. 2026-06-10
  5. 凤凰科技. 《实测Claude Fable 5:可能是史上最强AI模型,但我不建议你用》. 2026-06-10
  6. 站长之家. 《AI界巨震!Anthropic发布第五代Claude:Fable5狂揽编程榜首》. 2026-06-10
  7. ZAKER. 《Claude深夜炸场!史上最强”危险级”模型发布》. 2026-06-10
  8. Karpathy X 推文: https://x.com/karpathy/status/2064409694761054332
  9. Boris Cherny(Claude Code 团队)公开评价,多家媒体引述
  10. Deedy Das(Menlo Ventures)公开评价,多家媒体引述
  11. Ethan Mollick(沃顿商学院)公开实测,多家媒体引述