CPU杀回牌桌：Agent时代推理需求超训练，1700亿美元上位大戏开启

在AI行业过去三年的叙事里，CPU几乎是”透明人”。所有聚光灯都打在GPU身上——英伟达市值冲破4万亿美元，A100/H100/B200一代比一代猛，”买不到GPU”成了所有AI公司的共同焦虑。但2026年6月，一个被忽视了太久的角色正在悄悄改写剧本：CPU，这个曾经被黄仁勋称为”AI工厂里搬运工”的芯片，正在成为数据中心性能的关键瓶颈。

6月1日，英伟达在GTC Taipei 2026大会上发布了Vera CPU——这是英伟达20年历史上第一次推出独立的CPU产品线。黄仁勋在发布会上说了一句让整个半导体行业震动的话：”在AI智能体时代，CPU已经成为数据中心性能的关键瓶颈，不能让CPU拖慢AI工厂的token生产速度。”

这句话的潜台词是：GPU太快了，CPU跟不上了。

一、为什么CPU突然”翻身”了

文内图

过去三年，AI行业几乎所有的注意力都集中在”训练”上。训练一个万亿参数的大模型需要几千张GPU跑几个月，CPU在其中只负责数据加载、通信调度这些”杂活”，工作量占比大约只有10%到30%。

但2025年下半年开始，行业重心悄然转向。当大模型训练告一段落，”推理”——也就是让模型实际干活——成了新的算力黑洞。更关键的是，AI从”对话”进化到了”Agent”。

英特尔与佐治亚理工学院在2025年11月联合发表了一篇论文，标题直指要害：《以CPU为中心的智能体AI视角》。研究团队对五类典型的Agent工作负载进行了实测，结果发现：CPU端工具处理所占用的时间，达到总延迟的43.8%到90.6%。

💡 Agent不是在做数学题，而是在”跑腿”——调用工具、读写数据库、搜索网页、执行代码，这些全是CPU的活。

一位长期跟踪半导体板块的券商分析师解释了这个翻转的底层逻辑：”训练阶段的计算高度规整，数以亿计的参数在海量数据上反复做矩阵乘法，GPU的并行架构就是为这类任务设计的。但到了推理阶段，特别是Agent场景，任务变成多步推理、调用外部工具、执行代码、读写数据库、搜索网页，然后将中间结果编排成最终输出。这些工作控制流密集、分支复杂、输入输出频繁，GPU面对这类串行、碎片化的任务利用率会明显下降。”

简单说：GPU擅长”算”，CPU擅长”跑”。Agent时代，”跑”的需求远远超过了”算”。

二、从300亿到1700亿：一个5年5倍的市场

市场的嗅觉永远是最灵敏的。

2026年5月，AMD CEO苏姿丰在财报电话会上宣布，将服务器CPU的市场规模预测从600亿美元翻倍上调至1200亿美元以上，对应2025至2030年的复合年增长率从18%提高到35%。

瑞银的预测更加激进：服务器CPU的潜在市场规模将从2025年的约300亿美元增长到2030年的约1700亿美元——5年增长近5倍。

这组数据的背后，是AI推理需求的爆发式增长。根据英伟达公开数据，自2024年下半年以来，每个问题的平均输出Token数量以每年超过5倍的速度激增，目前已达约30000至40000个Token。这意味着，每次AI对话或Agent任务消耗的算力，比两年前高了一个数量级。

💡 Token数量的爆炸式增长，本质上是CPU工作量的爆炸式增长。因为每一个Token的生成，都需要CPU来编排、调度和管理上下文数据。

IDC的数据印证了这一趋势：2025年全球服务器市场规模达到4441亿美元，同比增长80.4%，其中AI服务器贡献了大部分增量。而在这4441亿美元中，CPU的价值量正在被重新定价。

三、英伟达的”双芯”棋局：Vera CPU + Groq LPU

黄仁勋是GPU时代的最大赢家，但他显然不想在CPU时代缺席。

6月1日发布的Vera CPU，是英伟达20年来首次推出独立CPU产品线。同期发布的Vera Rubin AI超算平台，首批客户名单堪称”AI界全明星”：OpenAI和Anthropic。

但英伟达的野心不止于此。推理过程可以拆分为两个阶段：预填充（处理输入提示）和解码（生成输出Token）。预填充阶段计算密集，由Vera Rubin GPU承担；解码阶段需要极低延迟和大内存带宽，英伟达把去年12月以2000亿美元收购的Groq推上了前台。

3月的GTC大会上，英伟达发布了Groq 3 LPX机架，可容纳256颗Groq 3 LPU芯片。每颗LPU芯片提供500MB的SRAM——这是当前速度最快的存储介质，直接集成在芯片内部，内存带宽可达每秒100至150太字节，比HBM3快100倍以上。

💡 英伟达的算盘很清楚：GPU负责”算”，CPU负责”跑”，LPU负责”快”——三层架构，把推理的每一毫秒都榨干。

与此同时，英伟达还发布了Dynamo软件平台和CMX上下文内存存储平台。Dynamo将访问频率较低的KV缓存卸载至CPU内存和SSD，CMX则作为全新的G3.5存储层级，专门用于存放和检索LLM推理过程中生成的KV Cache数据。

这些技术的共同逻辑是：在推理时代，存储层级需要被彻底重构，CPU从”搬运工”升级为”调度中心”。

四、谷歌、AMD、英特尔：芯片三国杀全面开打

英伟达不是唯一看到这个趋势的玩家。

谷歌在近期发布了TPU 8i推理芯片，直接针对智能体场景优化。谷歌CEO皮查伊在博客中解释，TPU 8i的SRAM容量增加了3倍，从而提供了”同时运行数百万个智能体所需的巨大吞吐量和低延迟”。

谷歌此举被外界视为对英伟达的正面挑战——训练芯片可以通用，但推理芯片必须专用。

AMD这边更是气势如虹。2026年第一季度，AMD数据中心业务营收达到创纪录的58亿美元，同比增长57%。服务器CPU收入连续第四个季度创下历史新高，在数据中心业务收入规模上首次超越英特尔。

Mercury Research的数据显示，2026年一季度AMD的服务器CPU收入份额达到46.2%，英特尔为53.8%。但AMD的出货量份额只有33.2%——这意味着AMD用更少的芯片创造了更高的收入，高核数产品的溢价能力在这个季度得到集中体现。

💡 AMD用三分之一的出货量拿到了近一半的收入——这说明市场愿意为”AI推理专用CPU”支付溢价。

英特尔虽然在份额上仍有优势，但增速明显落后。不过，英特尔与佐治亚理工学院的联合研究，以及在CPU-centric Agent架构上的布局，显示出这家老牌芯片巨头正在试图用”定义问题”的方式来重新夺回话语权。

五、SRAM崛起：存储架构的范式转移

文内图

CPU翻身的背后，还有一个更深层的技术趋势：存储架构的范式转移。

传统AI服务器的存储层级是：GPU HBM（高速但容量小）→ 系统内存DRAM（中速中容量）→ SSD存储（慢速大容量）。但在推理场景下，KV缓存的膨胀速度远超预期，HBM很快就不够用了。

英伟达的Dynamo软件将不常用的KV缓存卸载到CPU内存和SSD，但这只是权宜之计。真正的变革是SRAM的崛起。

Groq的LPU芯片将向量、矩阵计算单元与大容量SRAM深度集成在同一块芯片上，单芯片提供500MB SRAM。另一家公司d-Matrix的”海盗船”加速器，采用3D堆叠芯粒封装，单芯片集成256MB SRAM，单卡输出150TB/s的超高内存带宽。

💡 当GPU的HBM成为瓶颈，SRAM从”芯片里的配角”变成了”推理系统的主角”——这是存储架构30年来最大的一次范式转移。

英伟达去年12月以2000亿美元收购Groq，本质上就是在押注这条技术路线。现在看来，这笔钱花得值。

六、对中国市场的影响

这轮CPU翻身潮对中国AI产业意味着什么？

首先，国产CPU厂商迎来了历史性机遇。在训练时代，国产GPU与英伟达的差距难以逾越。但在推理时代，CPU的核心能力是控制流调度、I/O管理和内存管理，这些领域的技术差距远小于GPU的并行计算能力差距。

其次，推理对算力的需求模式完全不同。训练需要”集中力量办大事”，几千张卡跑几个月；推理需要”蚂蚁雄兵”，每天处理几百万次请求，每次几秒钟。这种分布式、高并发的负载特征，天然适合国产CPU+国产推理芯片的组合。

最后，Agent场景对工具调用、数据库读写、代码执行的需求，催生了大量中间件和编排层的软件机会。这些软件层的价值量可能超过硬件本身。

💡 训练时代拼的是”谁的GPU多”，推理时代拼的是”谁的系统效率高”——这是一场软件和系统工程的竞赛，而不仅仅是谁的芯片更强。

七、三个值得关注的观察点

1. 英伟达Vera CPU的实际表现

Vera CPU目前还在量产初期，OpenAI和Anthropic作为首批客户的实际部署数据尚未公开。如果Vera CPU在Agent场景下的表现确实能大幅降低延迟，那么CPU市场的格局将被彻底改写。

2. 英特尔的反击

英特尔在服务器CPU市场仍有66.8%的出货量份额，但收入份额只有53.8%——这说明英特尔的产品单价被AMD压得很低。如果英特尔不能在AI推理专用CPU上拿出有竞争力的产品，这个差距会继续扩大。

3. 国产CPU的Agent适配

目前国产CPU（海光、鲲鹏、飞腾等）在通用服务器领域已经有一定份额，但在AI推理场景下的软件生态和工具链适配还比较薄弱。谁能率先完成Agent场景的深度适配，谁就能在这轮浪潮中抢占先机。

八、常见问题 Q&A

文内图

Q1：CPU翻身是不是意味着GPU不行了？

不是。GPU仍然是AI计算的核心，特别是在训练和预填充阶段。CPU翻身的真正含义是：在推理和Agent场景下，CPU从”配角”升级为”关键角色”，系统的瓶颈从GPU转移到了CPU。

Q2：1700亿美元的市场规模预测靠谱吗？

这是瑞银的预测，AMD自己的预测是1200亿美元以上。两个数字的方向一致，都是5年5倍左右的增长。考虑到AI推理需求的爆发式增长，这个预测的可信度较高。

Q3：普通人怎么理解这个趋势？

想象一下：你用ChatGPT问一个问题，背后需要GPU来”思考”答案，但还需要CPU来管理对话上下文、调用搜索工具、读取记忆、格式化输出。以前CPU的任务很轻，现在Agent模式下CPU的任务量暴增——每个问题可能需要调用十几个工具，每个工具都需要CPU来编排。

Q4：这对AI创业公司有什么影响？

最大的影响是：推理成本的结构变了。以前GPU是大头，现在CPU+内存+存储的占比在快速上升。创业公司在做成本预算时，不能再只看GPU的租用价格，还需要考虑CPU和内存的配置。

Q5：SRAM会不会完全取代HBM？

短期内不会。SRAM速度快但成本极高，目前只用于芯片内部缓存和特定推理芯片（如Groq LPU）。更可能的路径是多层存储架构：SRAM（最快）→ HBM（高速）→ DRAM（中速）→ SSD（大容量），各层各司其职。

九、参考资料

1. 经济观察报：《CPU杀回牌桌，一场1700亿美元的”上位”大戏开启》，2026-06-19

2. 百家号：《CPU”咸鱼翻身”记》，2026-06-19

3. 新浪财经：《谷歌拆分模型训练和推理专用芯片》，2026-06-18

4. 百家号：《AI推理如何创造新的内存需求》，2026-06-15

5. 网易：《英伟达AI存储棋局——STX重构存储层级》，2026-06-12

6. 新浪财经：《AMD服务器CPU营收将增长超70%，数据中心收入首次超越英特尔》，2026-06-15

7. 同花顺财经：《CPU”咸鱼翻身”记》，2026-06-19

8. 雪球：《CPU杀回牌桌，一场1700亿美元的”上位”大戏开启》，2026-06-19

互动话题

你觉得在AI Agent时代，CPU和GPU哪个更有投资价值？你身边有没有感受到推理成本结构变化的案例？欢迎在评论区聊聊你的看法。

CPU杀回牌桌：Agent时代推理需求超训练，1700亿美元上位大戏开启

一、为什么CPU突然”翻身”了

二、从300亿到1700亿：一个5年5倍的市场

三、英伟达的”双芯”棋局：Vera CPU + Groq LPU

四、谷歌、AMD、英特尔：芯片三国杀全面开打

五、SRAM崛起：存储架构的范式转移

六、对中国市场的影响

七、三个值得关注的观察点

八、常见问题 Q&A

九、参考资料

互动话题

龙主编

我要评论

CPU杀回牌桌：Agent时代推理需求超训练，1700亿美元上位大戏开启

一、为什么CPU突然”翻身”了

二、从300亿到1700亿：一个5年5倍的市场

三、英伟达的”双芯”棋局：Vera CPU + Groq LPU

四、谷歌、AMD、英特尔：芯片三国杀全面开打

五、SRAM崛起：存储架构的范式转移

六、对中国市场的影响

七、三个值得关注的观察点

八、常见问题 Q&A

九、参考资料

互动话题

微信分享

龙主编

相关推荐

我要评论

扫码关注