作者|Xuushan 编辑|伊凡
“买得越多,省得越多,赚得越多。”
英伟达 GTC 大会上黄仁勋打响了今年 AI 界带货最强 Slogan。
在加利福尼亚州圣何塞 SAP 中心,一身标志性皮衣的黄仁勋快步上台,表示今年的 GTC 大会,是 AI 超级碗——AI 正在解决更多行业与公司的更多问题,作为科技行业的风向标,这场大会涉及 1000 场会议、2000 名演讲者和近 400 家参展商,超 25000+ 参会人员。门票在会前被炒到了万元高价,并且早已售罄。
此次 GTC 大会对英伟达来说,是至关重要的一战。
外界所关注的,AI 的热潮是否已经达到顶峰?AI 芯片的销售是否放缓?当 DeepSeek 证明了另一条性价比更高的计算路线时,还在坚持大算力的英伟达还能否坐稳 AI 基建王者的宝座?
会前投资者的种种质疑在黄仁勋为 GTC 准备长达 120 分钟的演讲之后逐渐消散。英伟达不仅直接公开了四年三代 GPU 架构路线图,Blackwell Ultra、Rubin、Rubin Ultra、Feynman 等芯片悉数上台,而且还提及了 AI、数据中心、机器人、CUDA 生态等诸多进展。
不过,投资者对此反应平淡,主题演讲结束后,英伟达的股价略有波动,股价下跌 3.5%。英伟达生态内的概念股,如台积电、中电港、胜宏科技、鸿博股份君则有小幅下降。其中,英伟达国内算力板第一供应商胜宏科技,股价下跌 5.75%。
业界表明,股价下跌的原因主要由于黄仁勋的演讲基本在华尔街的意料之中,许多新的技术进展已在今年的 CES 中有所涉及,而黄仁勋提及的关于量子计算、具身智能的部分,很难在短期内看到有实质增长的可能。
以下是今日 GTC 大会主题演讲干货提炼:
1、芯片全家桶全面升级:Blackwell 芯片销量提速,将是 Hopper 的 3 倍;Blackwell Ultra 将是首个拥有 288GB HBM3e 的 GPU,并配有 GB300 NVL72 机架、HGX B300 NVL16 机架组合系统方案,将是今年下半年的主推产品;
首次公布未来三年技术蓝图:2026 年推出 Rubin 架构(FP4 算力达 100P Flops),2027 年 Rubin Ultra 支持 576 个 GPU 集群,Rubin 的 AI 工厂性能或能达到 Hopper 的 900 倍;2028 年发布 Feynman 架构;
英伟达还与台积电联合封装光网络芯片,并于今年下半年将推出新版以太网芯片;
3、推出 AI 推理模型系列:推出 AI 推理服务软件 Dynamo,旨在为部署推理 AI 模型的 AI 工厂最大化其 token 收益,可将 DeepSeek-R1 模型生成 tokens 数量提升 30 倍以上,每秒处理超 30000tokens;推出全新 Llama Nemotron 推理模型,并帮助企业构建企业级 AI 数据平台;
4、开源机器人模型:与谷歌 DeepMind、迪士尼联手打造的机器人上台互动;亮相全球首个开源且完全可定制的基础模型 NVIDIA Isaac GR00T N1,让通用人形机器人实现推理及各项技能;
5、巩固 CUDA 生态:推出搭载 GH200 超级芯片的 CUDA-X 库,让 CUDA-X 与最新的超级芯片架构协同工作实现,计算工程工具的速度可提高 11 倍,计算量可扩大 5 倍;首次设立量子计算日,并升级 cuQuantum 库,推动量子计算研究。
会上,英伟达还多次提及中国 AI 大模型 DeepSeek,提及 DeepSeek 整体有利于英伟达更快速推动生态建设,并不会对英伟达造成负面影响,黄仁勋对此前大幅跳水的股价做出回应。事实上,通过每年迭代一代架构的速度,英伟达将 AI 算力密度提升周期逐渐缩短。
生成式 AI 第三年,英伟达通过 GTC 2025 大会正式宣告其构建 AI 全栈基建生态的野心,从硬件代际差、生态垄断性和行业标准制定权,英伟达围绕“技术 - 商业”双闭环的护城河逐渐完善,短期时间内,英伟达在 AI 基建领域几乎毫无对手。
“去年的一切都是错的,Scaling Law(扩展定律)远没有结束。”黄仁勋直言,扩展定律正在以超过人们预期的方向发展。当 AI 从过去依赖经验和预训练数据进行学习并推理,转向采用思维链的方式,生成完整推理步骤,对算力的需求指数级提升。
在现场他用 Llama 3.3 70B 和 DeepSeek R1 模型进行演示,向他们同时提出一个排座位的问题。传统的 Llama 模型仅适用 439tokens 进行训练,最后给出一个错误的答案,而推理模型 DeepSeek R1 则使用了 8559tokens 进行反复思考,是 Llama 的20 倍,其中调用的计算资源也是 Llama 的150 倍,最终给出一个正确的答案。
黄仁勋认为数据仍是一切核心,尽管是 R1 也花费了 6080 亿的训练数据,而下一代的模型提升或许需要数万亿的数据。Scaling Law 所引领的大算力思路在英伟达的叙事中,仍然奏效。甚至,此次大会上,英伟达提出的 Scaling Law 的三大阶段:Pre-Training Scaling、Post-Training Scaling、Test-Time Scaling“Long Thinking”阶段。整个行业也将会从 Agentic AI(AI 代理)逐步转向 Physical AI(物理 AI:指的是让机器人、自动驾驶汽车和智能空间等自主系统能够感知、理解和执行真实世界中的复杂动作。由于它能够生成见解和动作,因此也经常被称为“生成物理 AI”。)。
“我希望大家走在对的方向上”,黄仁勋此次回应,或许也是对此前 AI 奇点已到,数据不再是 AI 模型提升的关键等一系列回应的正面回应。今年以来,英伟达的股价跌超 13%,市值与 2025 年 1 月 7 日盘中创下的历史高点相比,市值已经蒸发近 8200 亿美元。在这场股价保卫战上,黄仁勋选择直面市场对英伟达股价与增长潜力的质疑。
表明了数据和算力仍是 AI 时代最关键的两大方向之后,黄仁勋开始秀起了自己家的百宝箱。从 2025 年,英伟达将会在四年时间内先后推出 Blackwell、Rubin、Feynman 三大架构系列芯片。
Blackwell Ultra 将承担今年下半年主力产品,该系列其包括 GB300 NVL72 机架级解决方案以及 NVIDIA HGX B300 NVL16 系统。GB300 NVL72 机架将把 72 个 Blackwell Ultra GPU 与 36 个基于 Arm Neoverse 的 Grace CPU 相连,Blackwell Ultra 预计将比前代产品(H100)提供1.5 倍的 FP4 推理能力,可以显著加速 AI 推理能力。
可以看出,Blackwell Ultra 相比上一代产品有些提升,但整体性能提升也没有很惊喜,算是小版本升级。
芯片性能的“大升级”或在明年,承载英伟达希望的Rubin 系列,将在 2026 年问世。此前,黄仁勋称其计算能力能够实现“巨大飞跃”。Rubin 主要是以发现暗物质的天文学家 Vera Rubin 的名字命名。
今天,英伟达则进一步透露有关 Rubin 系列最新信息。明年,Rubin 将作为 GPU 的旗舰芯和 Vera 作为 CPU 旗舰芯同期发布。
用一个比喻或许就能表现出英伟达在 AI 时代的野心——英伟达正在构建一个从市区、高速公路再到郊区的庞大 AI 帝国。
CPU 是市区,GPU 是正在开发的高新区,在这两者之间,需要通过一个叫做 PCIE 的通道连接,车流量就是数据量。如果数据量大,就需要扩大道路,或增加车道。只有 CPU 能够决定这个分配。一直以来,CPU 生态被 Arm 和英特尔的 X86 长期垄断。现在,英伟达对他们发起了挑战。
Vera Rubin 是英伟达 CPU+GPU 战略的重要落子,其将于2026 年下半年发布,将配备一个名为 Vera 的定制 Nvidia 设计 CPU。Nvidia 声称,与其前身 Grace Blackwell 相比,Vera Rubin 的性能有了显著提升,尤其是在 AI 推理和训练任务方面。
其中,Vera 有 88 个定制 ARM 结构的内核和 176 个线程。同时,Vera 还会有一个 1.8TB/s NVLink 的内核接口,用于与 Rubin GPU 连接。与传统的互联技术相比,英伟达的这种互联技术的速度更快,能够通过的“车辆”更多。Vera 将会取代现有的 Grace CPU。据英伟达透露,Vera 的新架构设计将会比 Grace CPU 快两倍。在 2021 年的 GTC 大会上,英伟达推出了其第一款 CPU——Grace,以 Arm 架构为核心。
看回 Rubin 系列,Rubin 这次仍然是拼接式的设计,也就是它其实是两个 GPU 在电路板上拼接在一起,组成了一个新的 GPU。性能上,与 B300 相比,Rubin 计算性能提高了3.3 倍,能提供 1.2 ExaFLOPS FP8 训练。
Vera Rubin 可提供 50 petaflops 浮点运算的 FP4 推理性能,是 Blackwell Ultra 在类似机架配置的 3.3 倍。
2027 年,Rubin Ultra 将内含 4 个 GPU,支持 576 个 GPU 集群,在机架层面,将会比 Rubin NVL144 配置强大约四倍。同时,英伟达计划在。此外,Feynman 同样将会采用 Vera CPU。
从最新的技术路线图中可以看出,目前英伟达的 GPU 更新基本维持在两年一个大版本升级,一年一个小迭代的节奏上行稳步推进,而 CPU 方向新品节奏稍缓,或许 3 年左右才会有较大的一个版本升级。
但无论如何,英伟达自研的 GPU+CPU 生态已经逐渐完善,根据摩根斯坦利统计,英伟达占据了全球 AI 专用芯片将近 77% 的市场份额。同时英伟达还一直是台积电的 VVVIP 客户,几乎拿下了台积电的大半产能,拥有强大的供应链优势。英伟达的 Rubin 采用了台积电 3nm 工艺、CoWoS(Chip on Wafer Substrate)封装技术。最先进的制造和封装工艺,意味着这款芯片的性能将大幅度提升,英伟达也将在与台积电的合作中积累丰富的先进制程 IP。一位芯片从业人士告诉硅兔君,先进制程的产能一般是有限的,大客户能够获得内测以及订单的优先级。
来源:Wind、五矿证券研究所
“AI 正在经历一个拐点,它将变得更智能、更有用。”
黄仁勋回忆道两年前,ChatGPT 出现的时候,很多复杂的问题和很多简单的问题,它都难以回答。无论训练多少次,研究过多少信息,但对所有问题,它都只思考一次,就像人类的脱口而出一样。但现在有了推理,AI 也有了反复思索的能力,思维链的技术能够逐步完善。
黄仁勋认为未来每个企业都会有两个工厂,一个是他们建造的工厂,而另一个则是他们的 AI 工厂,主要为了科研或者是培训。他在主题演讲一开始就提到 Agentic AI 以及 Physical AI 将会是今年讨论的核心。
如果 AI 在未来将会无孔不入地深入到各行业的每一根毛细血管,那么英伟达正在建立一个更大更强的 CUDA 生态,这个生态,未来将成为各行业的生长土壤——只要这个行业与 AI 相关——用的人越多,生态越强、软硬件适配度越好。
迄今为止,英伟达已构建了 900 多个特定领域的 CUDA-X 库和 AI 模型,降低加速计算的准入门槛。今年,CUDA-X 将走入更前沿的工程学科,像是天文学、粒子物理学、量子物理学、汽车、航空航天和半导体设计。
Llama Nemotron 模型系列包括 Nano、Super 和 Ultra 三种规模。Nano 模型可在 PC 和边缘设备上提供最高准确性;Super 模型能够在单个 GPU 上提供最佳的准确性和最高的吞吐量;而 Ultra 模型将在多 GPU 服务器上实现最高代理准确性。
期望值回落,
【免责声明】市场有风险,投资需谨慎。本文不构成投资建议,用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。