在AI行业过去三年的叙事里,CPU几乎是”透明人”。所有聚光灯都打在GPU身上——英伟达市值冲破4万亿美元,A100/H100/B200一代比一代猛,”买不到GPU”成了所有AI公司的共同焦虑。但2026年6月,一个被忽视了太久的角色正在悄悄改写剧本:CPU,这个曾经被黄仁勋称为”AI工厂里搬运工”的芯片,正在成为数据中心性能的关键瓶颈。
6月1日,英伟达在GTC Taipei 2026大会上发布了Vera CPU——这是英伟达20年历史上第一次推出独立的CPU产品线。黄仁勋在发布会上说了一句让整个半导体行业震动的话:”在AI智能体时代,CPU已经成为数据中心性能的关键瓶颈,不能让CPU拖慢AI工厂的token生产速度。”
这句话的潜台词是:GPU太快了,CPU跟不上了。
一、为什么CPU突然”翻身”了

过去三年,AI行业几乎所有的注意力都集中在”训练”上。训练一个万亿参数的大模型需要几千张GPU跑几个月,CPU在其中只负责数据加载、通信调度这些”杂活”,工作量占比大约只有10%到30%。
但2025年下半年开始,行业重心悄然转向。当大模型训练告一段落,”推理”——也就是让模型实际干活——成了新的算力黑洞。更关键的是,AI从”对话”进化到了”Agent”。
英特尔与佐治亚理工学院在2025年11月联合发表了一篇论文,标题直指要害:《以CPU为中心的智能体AI视角》。研究团队对五类典型的Agent工作负载进行了实测,结果发现:CPU端工具处理所占用的时间,达到总延迟的43.8%到90.6%。
💡 Agent不是在做数学题,而是在”跑腿”——调用工具、读写数据库、搜索网页、执行代码,这些全是CPU的活。
一位长期跟踪半导体板块的券商分析师解释了这个翻转的底层逻辑:”训练阶段的计算高度规整,数以亿计的参数在海量数据上反复做矩阵乘法,GPU的并行架构就是为这类任务设计的。但到了推理阶段,特别是Agent场景,任务变成多步推理、调用外部工具、执行代码、读写数据库、搜索网页,然后将中间结果编排成最终输出。这些工作控制流密集、分支复杂、输入输出频繁,GPU面对这类串行、碎片化的任务利用率会明显下降。”
简单说:GPU擅长”算”,CPU擅长”跑”。Agent时代,”跑”的需求远远超过了”算”。
二、从300亿到1700亿:一个5年5倍的市场
市场的嗅觉永远是最灵敏的。
2026年5月,AMD CEO苏姿丰在财报电话会上宣布,将服务器CPU的市场规模预测从600亿美元翻倍上调至1200亿美元以上,对应2025至2030年的复合年增长率从18%提高到35%。
瑞银的预测更加激进:服务器CPU的潜在市场规模将从2025年的约300亿美元增长到2030年的约1700亿美元——5年增长近5倍。
这组数据的背后,是AI推理需求的爆发式增长。根据英伟达公开数据,自2024年下半年以来,每个问题的平均输出Token数量以每年超过5倍的速度激增,目前已达约30000至40000个Token。这意味着,每次AI对话或Agent任务消耗的算力,比两年前高了一个数量级。
💡 Token数量的爆炸式增长,本质上是CPU工作量的爆炸式增长。因为每一个Token的生成,都需要CPU来编排、调度和管理上下文数据。
IDC的数据印证了这一趋势:2025年全球服务器市场规模达到4441亿美元,同比增长80.4%,其中AI服务器贡献了大部分增量。而在这4441亿美元中,CPU的价值量正在被重新定价。
三、英伟达的”双芯”棋局:Vera CPU + Groq LPU
黄仁勋是GPU时代的最大赢家,但他显然不想在CPU时代缺席。
6月1日发布的Vera CPU,是英伟达20年来首次推出独立CPU产品线。同期发布的Vera Rubin AI超算平台,首批客户名单堪称”AI界全明星”:OpenAI和Anthropic。
但英伟达的野心不止于此。推理过程可以拆分为两个阶段:预填充(处理输入提示)和解码(生成输出Token)。预填充阶段计算密集,由Vera Rubin GPU承担;解码阶段需要极低延迟和大内存带宽,英伟达把去年12月以2000亿美元收购的Groq推上了前台。
3月的GTC大会上,英伟达发布了Groq 3 LPX机架,可容纳256颗Groq 3 LPU芯片。每颗LPU芯片提供500MB的SRAM——这是当前速度最快的存储介质,直接集成在芯片内部,内存带宽可达每秒100至150太字节,比HBM3快100倍以上。
💡 英伟达的算盘很清楚:GPU负责”算”,CPU负责”跑”,LPU负责”快”——三层架构,把推理的每一毫秒都榨干。
与此同时,英伟达还发布了Dynamo软件平台和CMX上下文内存存储平台。Dynamo将访问频率较低的KV缓存卸载至CPU内存和SSD,CMX则作为全新的G3.5存储层级,专门用于存放和检索LLM推理过程中生成的KV Cache数据。
这些技术的共同逻辑是:在推理时代,存储层级需要被彻底重构,CPU从”搬运工”升级为”调度中心”。
四、谷歌、AMD、英特尔:芯片三国杀全面开打
英伟达不是唯一看到这个趋势的玩家。
谷歌在近期发布了TPU 8i推理芯片,直接针对智能体场景优化。谷歌CEO皮查伊在博客中解释,TPU 8i的SRAM容量增加了3倍,从而提供了”同时运行数百万个智能体所需的巨大吞吐量和低延迟”。
谷歌此举被外界视为对英伟达的正面挑战——训练芯片可以通用,但推理芯片必须专用。
AMD这边更是气势如虹。2026年第一季度,AMD数据中心业务营收达到创纪录的58亿美元,同比增长57%。服务器CPU收入连续第四个季度创下历史新高,在数据中心业务收入规模上首次超越英特尔。
Mercury Research的数据显示,2026年一季度AMD的服务器CPU收入份额达到46.2%,英特尔为53.8%。但AMD的出货量份额只有33.2%——这意味着AMD用更少的芯片创造了更高的收入,高核数产品的溢价能力在这个季度得到集中体现。
💡 AMD用三分之一的出货量拿到了近一半的收入——这说明市场愿意为”AI推理专用CPU”支付溢价。
英特尔虽然在份额上仍有优势,但增速明显落后。不过,英特尔与佐治亚理工学院的联合研究,以及在CPU-centric Agent架构上的布局,显示出这家老牌芯片巨头正在试图用”定义问题”的方式来重新夺回话语权。
五、SRAM崛起:存储架构的范式转移

CPU翻身的背后,还有一个更深层的技术趋势:存储架构的范式转移。
传统AI服务器的存储层级是:GPU HBM(高速但容量小)→ 系统内存DRAM(中速中容量)→ SSD存储(慢速大容量)。但在推理场景下,KV缓存的膨胀速度远超预期,HBM很快就不够用了。
英伟达的Dynamo软件将不常用的KV缓存卸载到CPU内存和SSD,但这只是权宜之计。真正的变革是SRAM的崛起。
Groq的LPU芯片将向量、矩阵计算单元与大容量SRAM深度集成在同一块芯片上,单芯片提供500MB SRAM。另一家公司d-Matrix的”海盗船”加速器,采用3D堆叠芯粒封装,单芯片集成256MB SRAM,单卡输出150TB/s的超高内存带宽。
💡 当GPU的HBM成为瓶颈,SRAM从”芯片里的配角”变成了”推理系统的主角”——这是存储架构30年来最大的一次范式转移。
英伟达去年12月以2000亿美元收购Groq,本质上就是在押注这条技术路线。现在看来,这笔钱花得值。
六、对中国市场的影响
这轮CPU翻身潮对中国AI产业意味着什么?
首先,国产CPU厂商迎来了历史性机遇。在训练时代,国产GPU与英伟达的差距难以逾越。但在推理时代,CPU的核心能力是控制流调度、I/O管理和内存管理,这些领域的技术差距远小于GPU的并行计算能力差距。
其次,推理对算力的需求模式完全不同。训练需要”集中力量办大事”,几千张卡跑几个月;推理需要”蚂蚁雄兵”,每天处理几百万次请求,每次几秒钟。这种分布式、高并发的负载特征,天然适合国产CPU+国产推理芯片的组合。
最后,Agent场景对工具调用、数据库读写、代码执行的需求,催生了大量中间件和编排层的软件机会。这些软件层的价值量可能超过硬件本身。
💡 训练时代拼的是”谁的GPU多”,推理时代拼的是”谁的系统效率高”——这是一场软件和系统工程的竞赛,而不仅仅是谁的芯片更强。
七、三个值得关注的观察点
1. 英伟达Vera CPU的实际表现
Vera CPU目前还在量产初期,OpenAI和Anthropic作为首批客户的实际部署数据尚未公开。如果Vera CPU在Agent场景下的表现确实能大幅降低延迟,那么CPU市场的格局将被彻底改写。
2. 英特尔的反击
英特尔在服务器CPU市场仍有66.8%的出货量份额,但收入份额只有53.8%——这说明英特尔的产品单价被AMD压得很低。如果英特尔不能在AI推理专用CPU上拿出有竞争力的产品,这个差距会继续扩大。
3. 国产CPU的Agent适配
目前国产CPU(海光、鲲鹏、飞腾等)在通用服务器领域已经有一定份额,但在AI推理场景下的软件生态和工具链适配还比较薄弱。谁能率先完成Agent场景的深度适配,谁就能在这轮浪潮中抢占先机。
八、常见问题 Q&A

Q1:CPU翻身是不是意味着GPU不行了?
不是。GPU仍然是AI计算的核心,特别是在训练和预填充阶段。CPU翻身的真正含义是:在推理和Agent场景下,CPU从”配角”升级为”关键角色”,系统的瓶颈从GPU转移到了CPU。
Q2:1700亿美元的市场规模预测靠谱吗?
这是瑞银的预测,AMD自己的预测是1200亿美元以上。两个数字的方向一致,都是5年5倍左右的增长。考虑到AI推理需求的爆发式增长,这个预测的可信度较高。
Q3:普通人怎么理解这个趋势?
想象一下:你用ChatGPT问一个问题,背后需要GPU来”思考”答案,但还需要CPU来管理对话上下文、调用搜索工具、读取记忆、格式化输出。以前CPU的任务很轻,现在Agent模式下CPU的任务量暴增——每个问题可能需要调用十几个工具,每个工具都需要CPU来编排。
Q4:这对AI创业公司有什么影响?
最大的影响是:推理成本的结构变了。以前GPU是大头,现在CPU+内存+存储的占比在快速上升。创业公司在做成本预算时,不能再只看GPU的租用价格,还需要考虑CPU和内存的配置。
Q5:SRAM会不会完全取代HBM?
短期内不会。SRAM速度快但成本极高,目前只用于芯片内部缓存和特定推理芯片(如Groq LPU)。更可能的路径是多层存储架构:SRAM(最快)→ HBM(高速)→ DRAM(中速)→ SSD(大容量),各层各司其职。
九、参考资料
1. 经济观察报:《CPU杀回牌桌,一场1700亿美元的”上位”大戏开启》,2026-06-19
2. 百家号:《CPU”咸鱼翻身”记》,2026-06-19
3. 新浪财经:《谷歌拆分模型训练和推理专用芯片》,2026-06-18
4. 百家号:《AI推理如何创造新的内存需求》,2026-06-15
5. 网易:《英伟达AI存储棋局——STX重构存储层级》,2026-06-12
6. 新浪财经:《AMD服务器CPU营收将增长超70%,数据中心收入首次超越英特尔》,2026-06-15
7. 同花顺财经:《CPU”咸鱼翻身”记》,2026-06-19
8. 雪球:《CPU杀回牌桌,一场1700亿美元的”上位”大戏开启》,2026-06-19
互动话题
你觉得在AI Agent时代,CPU和GPU哪个更有投资价值?你身边有没有感受到推理成本结构变化的案例?欢迎在评论区聊聊你的看法。


我要评论