您的位置 首页 科技

万亿美元大饼背后,英伟达也开始焦虑了

推理领域有没有CUDA护城河? 文|任晓渔 周享玥 编|徐鑫 “到2027年,市场对Blackwell和Vera Rubin系统的订单需求将带来至少1 万亿美元的营收。”


推理领域有没有CUDA护城河?

文|任晓渔 周享玥

编|徐鑫

“到2027年,市场对Blackwell和Vera Rubin系统的订单需求将带来至少1 万亿美元的营收。”

又到一年GTC。今年的“科技春晚”上,身着皮衣的老黄又发了新的“核弹”,同时也带来了一个前所未有的爆炸性业绩预测。这个惊人的数字,延续了黄仁勋一贯的对AI时代基础设施持续增长的乐观和信心,也是在向市场宣告英伟达的增长故事远未结束

但资本市场的反应略显冷淡。英伟达股价应声跳涨4.3%后又下跌,最终收涨1.2%。前所未有的业绩预测,并没有催化成市场的热情。

症结在于,在正在爆发的推理算力市场上,游戏规则正在起变化。低延迟、高能效比和应用成本正取代高性能、高吞吐、大内存、高带宽等指标,成为主导算力市场的核心因素。

结构性巨变下,过去三年里统治AI算力的绝对王者——英伟达,正在遭遇前所未有的离心力。除了传统芯片厂商,英伟达的一众传统大客户如亚马逊、Meta甚至OpenAI都在加速自研芯片进程。同时,中国市场是推理需求的大户,目前国产算力的推理成本也极具竞争力。

为应对前所未有的推理焦虑,英伟达在今年GTC大会发布了一系列新品来适应推理需求,并用AI工厂的叙事来重塑自身护城河。不过,当下外界仍然在观察和观望这些动向的效果。

可以想见的是,这场围绕着护城河和壁垒的保护战,才刚刚打响。

01

推理时代的“离心”焦虑

展开全文

英伟达正遭遇一场巨大的“离心运动”。多路玩家争抢推理市场形成强大外向拉力,正冲击这家巨头在训练市场的统治力。

源头在于,AI产业正在发生巨变,推理市场正超越训练市场,成为AI算力的主战场

正如老黄自己在今年的GTC大会演讲中的断言,“推理拐点已至”。这是一个正在爆发中的巨大市场。IDC预测,到2027年,中国推理算力占整体算力的比例将突破 70%,在全球市场,智能体使用量将增长10倍,推理需求将增长1000倍。Deloitte也在一份报告中指出,2026年推理工作负载已占全部AI算力三分之二,而2023年的三分之一到2025年的一半,实现了快速跃升。

但这个高潜爆发市场,推理任务对算力的要求与训练阶段存在根本性差异

RISC架构奠基人David Patterson与Google DeepMind高级工程师马晓宇今年年初在一篇论文中提到,训练阶段需要大规模并行计算来处理海量数据。如单次GPT-4级别的训练需要25,000张A100 GPU连续运行90天,是比拼峰值算力与资金的“军备竞赛”。

但推理阶段的逻辑完全不同,它本质是顺序化的自回归过程,每次只能生成一个token,模型参数需要频繁从GPU显存加载到计算单元,可用内存带宽才是token生成速度的决定因素,这使得内存带宽和端到端延迟成为核心瓶颈

另外,在成本结构上,训练时代是“一次性爆发”模式,推理则是持续性失血。每天数十亿次请求下,AI应用厂商们会十分重视成本控制,“每瓦特每美元的token产出”关乎AI应用的落地。

针对内存带宽和端到端延迟及成本功耗问题,业界有共识,定制芯片可以针对特定任务做优化,相比通用GPU有更好的表现。

目前,有多股力量都在进军推理算力市场。

万亿美元大饼背后,英伟达也开始焦虑了

传统的芯片厂商们如AMD和Intel都没有缺席,它们早已看中了推理市场的结构性增长机会。其中,AMD凭借MI350系列(含MI355X)的强大内存和推理性能,在总拥有成本上形成优势。权威供应链统计显示,Meta在2025年已采购17.3万片MI300系列芯片(后续将大规模转向MI350),微软采购9.6万片。Oracle也有最多部署13.1万颗MI355X的大单承诺。同时,Intel的Gaudi 3加速器正在企业级和云端推理市场快速突围。

头部云厂商此前是英伟达数据中心业务的主要收入贡献者,但在成本控制与供应链自主的考量下,正大力开启芯片自研动作。对这些大厂而言,在每天数十亿次推理请求的庞大规模下,自研成本更低的定制芯片不仅能每年节省数十亿美元,还能带来关键的供应链灵活性。

目前,从谷歌到亚马逊都已与博通深度合作,完成推理芯片的设计和量产。谷歌的TPU经过多次迭代,已获得Anthropic(部署超100万颗)和Meta(2026年2月签署数十亿美元多年期租用协议)的订单。而亚马逊的Trainium获得OpenAI 2GW容量的订单,Anthropic也向Amazon伸出了橄榄枝。Meta自研的MTIA系列(含MTIA 300及后续版本)已部署数十万颗芯片,全面支撑全平台推荐系统推理。

与此同时,一些专业化推理芯片公司也在加速发力这一市场。例如已被英伟达2025年底收购整合的Groq,其LPU因首token延迟远低于GPU及定价更低等因素,在2025年曾吸引大量开发者与企业尝试。

除了这些对手,中国作为推理市场大客户,国内的推理算力生态也在崛起。业界观察到,目前国内已经从华为一家演化为百花齐放局面,市面上壁仞的推理专用芯片极具成本优势,沐曦、摩尔线程等厂商都已经在AI智能体企业圈内大受推荐。

多路对手围攻之下,市场调研机构认为,AI服务器市场将从英伟达“一家独大”走向“多元化竞争”。XPU(既非GPU也非CPU的专用加速器)的增长率将超过GPU。科技分析机构byteiota综合分析师观点甚至指出,到2028年英伟达在推理市场份额将从80%大幅下降,被ASIC蚕食70~75%的生产推理工作负载。

“推理领域没有 CUDA 护城河(There is no CUDA moat in inference)。”华尔街日报日前报道过新兴芯片厂商Cerebras Systems的CEO Andrew Feldman的看法。某种程度上这可能也是英伟达当下最大的焦虑来源。

02

剑指万亿市场,英伟达的护城河守卫战

不过同时,英伟达也采取了一系列动作和举措来应对推理时代挑战。GTC大会上,无论是老黄的演讲内容还是一系列新品和动作,都展示了英伟达对推理时代的野心。

两个多小时的演讲中,有人统计过,“训练(training)”被提到仅10余次,“推理(inference)”一词则出现了将近40次。

他还用一万亿美金营收预测数据,来向外界表明,英伟达在推理时代将继续保持存在感——

“去年此时我提到过,到2026年,Blackwell 和 Rubin 的需求规模有望达到5000亿美元。今天,我想告诉大家:站在这里,到2027年,我们看到的高确定性需求,至少已经是一万亿美元级别。而且我相信,真实需求还会更高”。

万亿美元大饼背后,英伟达也开始焦虑了

而这背后,老黄提到从2025年开始,英伟达就在全力押注推理能力,确保英伟达不仅擅长训练,也擅长训练后、擅长推理、擅长整个 AI 生命周期。

本次大会,英伟达展示了英伟达应对推理时代挑战的完整战略布局,黄仁勋将推理过程拆解为“prefill”(预填充)和“decode”(解码)两个截然不同的阶段,并为每个阶段配备专门优化的硬件架构。

有人点评这是在通过对推理计算的本质重新定义,来夺回英伟达在推理时代的话语权

新一代旗舰 GPU——Vera Rubin GPU,专门负责“prefill”(预填充)阶段,推理性能相比上一代提升3.3~5 倍,能将用户请求转化为 token。

Groq 3 LPX的加入,被视为英伟达补齐低时延推理短板的关键一步。2025年12月,英伟达斥资200亿美元,通过非传统收购整合了Groq的低延迟推理技术及核心团队,这笔交易成为其历史上规模最大的一笔。Groq主打极致低延迟与性能确定性,其创始人Jonathan Ross是谷歌TPU的关键推手。

Groq 3 LPU也是双方合作后的首款产品,由三星代工,预计2026年Q3出货。这是一款专为decode阶段设计的芯片,它绕开了传统GPU的HBM内存瓶颈,首token延迟低于0.1毫秒,推理性能提升达35倍。黄仁勋还表示“GPU负责prefill、LPU负责decode”的分工是推理时代的最优架构。

智能体时代到来,英伟达还专为智能体工作流设计打造了全新CPU——Vera CPU,采用常用于手机、平板等的LPDDR5低功耗内存,将定位从通用算力处理器转向智能体任务调度员,不再盲目堆砌内存带宽,而是以更低功耗实现数据高效、精准调度。黄仁勋称,其性能是全球主流CPU的两倍,将是一项价值数十亿美元级的业务,“我们从未想过会单独销售 CPU,但现在确实卖得很多。”

由此,英伟达也打破了通用GPU打天下的叙事,转向了场景化分工。目前,整套系统中形成了分工三角:GPU 负责重计算,CPU 负责调度编排,LPU负责极速输出。再配合英伟达自研的Dynamo调度软件,可灵活应对不同AI任务对成本、延迟和吞吐量的复杂要求,在高价值Token生成场景中,每兆瓦Token吞吐量较上一代Blackwell提升35倍。

黄仁勋还进一步给出部署建议:高吞吐负载可100%使用Vera Rubin;编码、高价值工程类Token生成负载,可配置25%Groq与75%Vera Rubin的组合。

万亿美元大饼背后,英伟达也开始焦虑了

除了软硬件层面的发布,英伟达还构建了一个新的叙事,“AI工厂”——

“我们不是单独优化芯片,而是在做极端协同设计:芯片、系统、网络、软件、算法、部署方式,全栈协同。未来,所有云服务商、AI 公司和大型企业,都会像今天研究制造业产线一样,研究自己的 token 工厂效率。因为数据中心已经不再只是‘存放文件的地方’,而是一个生产 token 的工厂。token,正在成为新的商品;而 AI 计算,正在变成新的收入来源。”

这套叙事下,竞争不再是单一的芯片维度,而是包含了从芯片到液冷机架到网络互联和AI工厂操作系统,英伟达占据了从能源、芯片、基础设施到模型的多个层级,客户能“一站式”获得训练+推理全生命周期的最优成本。黄仁勋还阐述“Token工厂经济学”,强调“每瓦特每美元的token产出”这一全新衡量标准。

外界认为,英伟达正通过一整套交付模式,用系统优势来用抹平单一维度的成本优势,从而应对推理市场竞争。

2026年GTC,英伟达仍然是AI算力市场的主导者,不过它也正进入一场防御性战事的开场。这场推理保卫战,也是新时代的生存和主导权之战,一切才刚刚开始。

本文来自网络,不代表大火龙新闻网立场,转载请注明出处:http://m.soe0.cn/106469.html

作者: wczz1314

为您推荐

联系我们

联系我们

13000001211

在线咨询: QQ交谈

邮箱: email@wangzhan.com

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部