万亿美元大饼背后，英伟达也开始焦虑了

推理领域有没有CUDA护城河？

文｜任晓渔周享玥

编｜徐鑫

“到2027年，市场对Blackwell和Vera Rubin系统的订单需求将带来至少1 万亿美元的营收。”

又到一年GTC。今年的“科技春晚”上，身着皮衣的老黄又发了新的“核弹”，同时也带来了一个前所未有的爆炸性业绩预测。这个惊人的数字，延续了黄仁勋一贯的对AI时代基础设施持续增长的乐观和信心，也是在向市场宣告英伟达的增长故事远未结束。

但资本市场的反应略显冷淡。英伟达股价应声跳涨4.3%后又下跌，最终收涨1.2%。前所未有的业绩预测，并没有催化成市场的热情。

症结在于，在正在爆发的推理算力市场上，游戏规则正在起变化。低延迟、高能效比和应用成本正取代高性能、高吞吐、大内存、高带宽等指标，成为主导算力市场的核心因素。

结构性巨变下，过去三年里统治AI算力的绝对王者——英伟达，正在遭遇前所未有的离心力。除了传统芯片厂商，英伟达的一众传统大客户如亚马逊、Meta甚至OpenAI都在加速自研芯片进程。同时，中国市场是推理需求的大户，目前国产算力的推理成本也极具竞争力。

为应对前所未有的推理焦虑，英伟达在今年GTC大会发布了一系列新品来适应推理需求，并用AI工厂的叙事来重塑自身护城河。不过，当下外界仍然在观察和观望这些动向的效果。

可以想见的是，这场围绕着护城河和壁垒的保护战，才刚刚打响。

推理时代的“离心”焦虑

展开全文

英伟达正遭遇一场巨大的“离心运动”。多路玩家争抢推理市场形成强大外向拉力，正冲击这家巨头在训练市场的统治力。

源头在于，AI产业正在发生巨变，推理市场正超越训练市场，成为AI算力的主战场。

正如老黄自己在今年的GTC大会演讲中的断言，“推理拐点已至”。这是一个正在爆发中的巨大市场。IDC预测，到2027年，中国推理算力占整体算力的比例将突破 70%，在全球市场，智能体使用量将增长10倍，推理需求将增长1000倍。Deloitte也在一份报告中指出，2026年推理工作负载已占全部AI算力三分之二，而2023年的三分之一到2025年的一半，实现了快速跃升。

但这个高潜爆发市场，推理任务对算力的要求与训练阶段存在根本性差异。

RISC架构奠基人David Patterson与Google DeepMind高级工程师马晓宇今年年初在一篇论文中提到，训练阶段需要大规模并行计算来处理海量数据。如单次GPT-4级别的训练需要25,000张A100 GPU连续运行90天，是比拼峰值算力与资金的“军备竞赛”。

但推理阶段的逻辑完全不同，它本质是顺序化的自回归过程，每次只能生成一个token，模型参数需要频繁从GPU显存加载到计算单元，可用内存带宽才是token生成速度的决定因素，这使得内存带宽和端到端延迟成为核心瓶颈。

另外，在成本结构上，训练时代是“一次性爆发”模式，推理则是持续性失血。每天数十亿次请求下，AI应用厂商们会十分重视成本控制，“每瓦特每美元的token产出”关乎AI应用的落地。

针对内存带宽和端到端延迟及成本功耗问题，业界有共识，定制芯片可以针对特定任务做优化，相比通用GPU有更好的表现。

目前，有多股力量都在进军推理算力市场。

万亿美元大饼背后，英伟达也开始焦虑了

传统的芯片厂商们如AMD和Intel都没有缺席，它们早已看中了推理市场的结构性增长机会。其中，AMD凭借MI350系列（含MI355X）的强大内存和推理性能，在总拥有成本上形成优势。权威供应链统计显示，Meta在2025年已采购17.3万片MI300系列芯片（后续将大规模转向MI350），微软采购9.6万片。Oracle也有最多部署13.1万颗MI355X的大单承诺。同时，Intel的Gaudi 3加速器正在企业级和云端推理市场快速突围。

头部云厂商此前是英伟达数据中心业务的主要收入贡献者，但在成本控制与供应链自主的考量下，正大力开启芯片自研动作。对这些大厂而言，在每天数十亿次推理请求的庞大规模下，自研成本更低的定制芯片不仅能每年节省数十亿美元，还能带来关键的供应链灵活性。

目前，从谷歌到亚马逊都已与博通深度合作，完成推理芯片的设计和量产。谷歌的TPU经过多次迭代，已获得Anthropic（部署超100万颗）和Meta（2026年2月签署数十亿美元多年期租用协议）的订单。而亚马逊的Trainium获得OpenAI 2GW容量的订单，Anthropic也向Amazon伸出了橄榄枝。Meta自研的MTIA系列（含MTIA 300及后续版本）已部署数十万颗芯片，全面支撑全平台推荐系统推理。

与此同时，一些专业化推理芯片公司也在加速发力这一市场。例如已被英伟达2025年底收购整合的Groq，其LPU因首token延迟远低于GPU及定价更低等因素，在2025年曾吸引大量开发者与企业尝试。

除了这些对手，中国作为推理市场大客户，国内的推理算力生态也在崛起。业界观察到，目前国内已经从华为一家演化为百花齐放局面，市面上壁仞的推理专用芯片极具成本优势，沐曦、摩尔线程等厂商都已经在AI智能体企业圈内大受推荐。

多路对手围攻之下，市场调研机构认为，AI服务器市场将从英伟达“一家独大”走向“多元化竞争”。XPU（既非GPU也非CPU的专用加速器）的增长率将超过GPU。科技分析机构byteiota综合分析师观点甚至指出，到2028年英伟达在推理市场份额将从80%大幅下降，被ASIC蚕食70～75%的生产推理工作负载。

“推理领域没有 CUDA 护城河（There is no CUDA moat in inference）。”华尔街日报日前报道过新兴芯片厂商Cerebras Systems的CEO Andrew Feldman的看法。某种程度上这可能也是英伟达当下最大的焦虑来源。

剑指万亿市场，英伟达的护城河守卫战

不过同时，英伟达也采取了一系列动作和举措来应对推理时代挑战。GTC大会上，无论是老黄的演讲内容还是一系列新品和动作，都展示了英伟达对推理时代的野心。

两个多小时的演讲中，有人统计过，“训练（training）”被提到仅10余次，“推理（inference）”一词则出现了将近40次。

他还用一万亿美金营收预测数据，来向外界表明，英伟达在推理时代将继续保持存在感——

“去年此时我提到过，到2026年，Blackwell 和 Rubin 的需求规模有望达到5000亿美元。今天，我想告诉大家：站在这里，到2027年，我们看到的高确定性需求，至少已经是一万亿美元级别。而且我相信，真实需求还会更高”。

万亿美元大饼背后，英伟达也开始焦虑了

而这背后，老黄提到从2025年开始，英伟达就在全力押注推理能力，确保英伟达不仅擅长训练，也擅长训练后、擅长推理、擅长整个 AI 生命周期。

本次大会，英伟达展示了英伟达应对推理时代挑战的完整战略布局，黄仁勋将推理过程拆解为“prefill”（预填充）和“decode”（解码）两个截然不同的阶段，并为每个阶段配备专门优化的硬件架构。

有人点评这是在通过对推理计算的本质重新定义，来夺回英伟达在推理时代的话语权。

新一代旗舰 GPU——Vera Rubin GPU，专门负责“prefill”（预填充）阶段，推理性能相比上一代提升3.3～5 倍，能将用户请求转化为 token。

Groq 3 LPX的加入，被视为英伟达补齐低时延推理短板的关键一步。2025年12月，英伟达斥资200亿美元，通过非传统收购整合了Groq的低延迟推理技术及核心团队，这笔交易成为其历史上规模最大的一笔。Groq主打极致低延迟与性能确定性，其创始人Jonathan Ross是谷歌TPU的关键推手。

Groq 3 LPU也是双方合作后的首款产品，由三星代工，预计2026年Q3出货。这是一款专为decode阶段设计的芯片，它绕开了传统GPU的HBM内存瓶颈，首token延迟低于0.1毫秒，推理性能提升达35倍。黄仁勋还表示“GPU负责prefill、LPU负责decode”的分工是推理时代的最优架构。

智能体时代到来，英伟达还专为智能体工作流设计打造了全新CPU——Vera CPU，采用常用于手机、平板等的LPDDR5低功耗内存，将定位从通用算力处理器转向智能体任务调度员，不再盲目堆砌内存带宽，而是以更低功耗实现数据高效、精准调度。黄仁勋称，其性能是全球主流CPU的两倍，将是一项价值数十亿美元级的业务，“我们从未想过会单独销售 CPU，但现在确实卖得很多。”

由此，英伟达也打破了通用GPU打天下的叙事，转向了场景化分工。目前，整套系统中形成了分工三角：GPU 负责重计算，CPU 负责调度编排，LPU负责极速输出。再配合英伟达自研的Dynamo调度软件，可灵活应对不同AI任务对成本、延迟和吞吐量的复杂要求，在高价值Token生成场景中，每兆瓦Token吞吐量较上一代Blackwell提升35倍。

黄仁勋还进一步给出部署建议：高吞吐负载可100%使用Vera Rubin；编码、高价值工程类Token生成负载，可配置25%Groq与75%Vera Rubin的组合。

万亿美元大饼背后，英伟达也开始焦虑了

除了软硬件层面的发布，英伟达还构建了一个新的叙事，“AI工厂”——

“我们不是单独优化芯片，而是在做极端协同设计：芯片、系统、网络、软件、算法、部署方式，全栈协同。未来，所有云服务商、AI 公司和大型企业，都会像今天研究制造业产线一样，研究自己的 token 工厂效率。因为数据中心已经不再只是‘存放文件的地方’，而是一个生产 token 的工厂。token，正在成为新的商品；而 AI 计算，正在变成新的收入来源。”

这套叙事下，竞争不再是单一的芯片维度，而是包含了从芯片到液冷机架到网络互联和AI工厂操作系统，英伟达占据了从能源、芯片、基础设施到模型的多个层级，客户能“一站式”获得训练+推理全生命周期的最优成本。黄仁勋还阐述“Token工厂经济学”，强调“每瓦特每美元的token产出”这一全新衡量标准。

外界认为，英伟达正通过一整套交付模式，用系统优势来用抹平单一维度的成本优势，从而应对推理市场竞争。

2026年GTC，英伟达仍然是AI算力市场的主导者，不过它也正进入一场防御性战事的开场。这场推理保卫战，也是新时代的生存和主导权之战，一切才刚刚开始。