火爆华尔街的万字报告:比特币和英伟达暴跌背后
2025-02-02 18:36
作者:Jeffrey Emanuel@软件工程师、专业投资者一位担任过分析师、软件工程师的专业投资者写了一篇看空英伟达的文章,被推特大 V 大量转发,成为英伟达股票暴跌的一大「罪魁祸首」。英伟达市值蒸发了近 6000 亿美元,这是迄今特定上市公司最大的单日跌幅。这位 Jeffrey Emanuel 的投资者主要观点无非就是 DeepSeek 戳破了华尔街、大型科技公司和英伟达制造的牛皮,英伟达被高估了。「每家投行都建议买入英伟达,像是盲人指路,完全不知道自己在说些什么。」Jeffrey Emanuel 表示,英伟达要维持目前的增长轨迹和利润率,面临的道路比其估值所暗示的要崎岖得多。有五个不同的攻击英伟达的方向——架构创新、客户垂直整合、软件抽象化、效率突破和制造民主化——至少有一个成功对英伟达的利润率或增长率产生重大影响的可能性似乎很高。以目前的估值来看,市场并未考虑到这些风险。据一些行业投资人士表示,因为这篇报告,Emanuel 突然间成了华尔街的红人,很多对冲基金付给他每小时 1,000 美元,希望听听他对英伟达和 AI 的看法。忙得嗓子都冒烟了,但数钱眼都花了。作为一名曾在各种多头 / 空头对冲基金(包括在 Millennium 和 Balyasny 工作过)担任过约 10 年投资分析师的人,同时也是一个自 2010 年以来一直在研究深度学习的数学和计算机迷(当时 Geoff Hinton 还在谈论受限玻尔兹曼机,一切编程仍使用 MATLAB,研究人员仍在试图证明他们可以在分类手写数字方面获得比使用支持向量机更好的结果),我认为我对人工智能技术的发展及其与股票市场股权估值的关系有一个相当独特的看法。在过去的几年中,我更多地以开发者的身份工作,并拥有几个流行的开源项目,用于处理各种形式的 AI 模型 / 服务(例如,请参阅 LLM Aided OCR、Swiss Army Llama、Fast Vector Similarity、Source to Prompt 和 Pastel Inference Layer 等几个最近的例子)。基本上,我每天都在密集的使用这些前沿模型。我有 3 个 Claude 帐户,这样就不会把请求用完了,而且在 ChatGPT Pro 上线几分钟后我就注册了它。我还努力了解最新的研究进展,并仔细阅读各大人工智能实验室发布的所有重要技术报告论文。因此,我认为自己对这个领域以及事物的发展情况有相当好的了解。与此同时,我一生中做空了大量股票,并两次获得价值投资者俱乐部的最佳创意奖(如果你一直在关注,则为 TMS 多头和 PDH 空头)。我这么说不是为了炫耀,而是为了证明我能够就这个问题发表意见,而不会让技术人员或专业投资者感到我幼稚得无可救药。当然,肯定有很多人比我更精通数学 / 科学,也有很多人比我更擅长股票市场的做多 / 做空投资,但我认为,能够像我这样处于维恩图中间位置的人并不多。尽管如此,每当我与对冲基金界的朋友和前同事见面聊天时,话题很快就会转到英伟达。一家公司从默默无闻发展到市值超过英国、法国或德国股市总和的现象并不是每天都能遇到的!这些朋友自然想知道我对这个问题的看法。因为我坚信这项技术将带来长期变革性影响——我真的相信它将在未来 5-10 年内彻底改变我们经济和社会的方方面面,这基本上是史无前例的——所以我很难断言英伟达的发展势头会在短期内会放缓或停止。但即使在过去一年多的时间里,我认为估值过高,不适合我,但最近的一系列发展还是让我有点倾向于我的直觉,即对前景持更谨慎的态度,并在共识似乎被过度定价时提出质疑。俗话说「智者在开始时相信,愚者在结束时相信」,这句话之所以出名是有原因的。在我们讨论让我犹豫不决的进展之前,让我们先简要回顾一下英伟达股票的牛市行情,现在基本上每个人都知道 NVDA 股票的牛市行情。深度学习和人工智能是自互联网以来最具变革性的技术,并有望从根本上改变我们社会中的所有事物。就行业总资本支出中用于训练和推理基础设施的部分而言,英伟达几乎已经处于以某种方式接近垄断的地位。一些世界上规模最大、利润最高的公司,如微软、苹果、亚马逊、Meta、谷歌、甲骨文等,都决定不惜一切代价保持在这一领域的竞争力,因为它们根本承担不起落后于人的后果。资本支出金额、用电量、新建数据中心的面积,当然还有 GPU 的数量,都出现了爆炸式增长,而且似乎没有放缓的迹象。英伟达能够凭借面向数据中心的高端产品赚取高达 90% 以上的惊人毛利率。我们只是触及了牛市的表面。现在还有更多方面,即使原本已经非常乐观的人也会变得更加乐观。除了类人机器人的崛起(我怀疑当它们能够迅速完成大量目前需要非熟练(甚至熟练)工人完成的任务时,大多数人会感到惊讶,例如洗衣、清洁、整理和烹饪;在工人团队中完成装修浴室或建造房屋等建筑工作;管理仓库和驾驶叉车等),还有其他大多数人甚至还没有考虑过的其他因素。聪明人谈论的一个主要话题是「新扩展定律」的兴起,它为人们思考计算需求将如何随时间推移而增长提供了新的范式。自 2012 年 AlexNet 出现和 2017 年 Transformer 架构发明以来,推动人工智能进步的原始扩展定律是预训练扩展定律:我们用作训练数据的 token 价值越高(现在达到数万亿),我们训练的模型的参数数量越多,我们用这些 token 训练这些模型所消耗的计算能力(FLOPS)越高, 在各种各样非常有用的下游任务中,最终模型的性能会越好。不仅如此,这种改进在一定程度上是可以预知的,以至于像 OpenAI 和 Anthropic 这样的领先人工智能实验室甚至可以在开始实际训练之前就非常清楚地知道他们最新的模型会有多好——在某些情况下,他们甚至能够预测最终模型的基准值,误差不超过几个百分点。这种「原始扩展定律」非常重要,但总是让那些用它来预测未来的人心存疑虑。首先,我们似乎已经用尽了世界上积累的高质量训练数据集。当然,这并非完全正确——仍然有许多旧书和期刊尚未被正确数字化,即使被数字化了,也没有获得作为训练数据的适当许可。问题是,即使你把所有这些东西都归功于你——比如说从 1500 年到 2000 年「专业」制作的英语书面内容的总和,当你谈论一个近 15 万亿标记的训练语料库时,从百分比的角度来看,这并不是一个巨大的数量,而训练语料库的规模是当前前沿模型的规模。为了快速检查这些数字的真实性:到目前为止,谷歌图书已经数字化了大约 4000 万本书;如果一本普通书有 5 万到 10 万字,或 6.5 万到 13 万个标记,那么光是书就占了 2.6T 到 5.2T 的标记,当然其中很大一部分已经包含在大型实验室使用的训练语料库中,无论严格意义上是否合法。还有很多学术论文,仅 arXiv 网站就有超过 200 万篇论文。美国国会图书馆有超过 30 亿页的数字化报纸。加起来,总数可能高达 7T token,但由于其中大部分实际上包含在训练语料库中,因此剩余的「增量」训练数据在整体计划中可能并不那么重要。当然,还有其他方法可以收集更多的训练数据。例如,你可以自动转录每一个 YouTube 视频,并使用这些文本。虽然这可能会有所帮助,但它的质量肯定比一本备受推崇的有机化学教科书低得多,而后者是了解世界的有用知识来源。因此,在原始规模定律方面,我们一直面临着「数据墙」的威胁;尽管我们知道可以不断向 GPU 投入更多的资本支出,建立更多的数据中心,但大规模生产有用的新人类知识却要困难得多,这些知识是对已有知识的正确补充。现在,一个有趣的应对方法是「合成数据」的兴起,即文本本身就是 LLM 的输出。虽然这似乎有点荒谬,但「通过自己的供应来提高模型质量」确实在实践中非常有效,至少在数学、逻辑和计算机编程领域是如此。当然,原因在于这些领域我们可以机械地检查和证明事物的正确性。因此,我们可以从庞大的数学定理或 Python 脚本中取样,然后实际检查它们是否正确,只有正确的数据才会被纳入我们的数据库。通过这种方式,我们可以极大地扩展高质量训练数据的集合,至少在这些领域是如此。除了文本,我们还可以用其他各种数据来训练人工智能。例如,如果我们把 1 亿人的整个基因组测序数据(一个人未压缩的数据量约为 200GB 至 300GB)都拿来训练人工智能,会怎么样?这显然是一个很大的数据量,尽管其中绝大部分数据在两个人之间几乎完全相同。当然,由于各种原因,与书籍和互联网上的文本数据进行比较可能会产生误导:但它仍然是另一个巨大的信息来源,我们可以在未来对它进行训练,这也是我将其纳入的原因。因此,虽然我们有望获得越来越多的额外训练数据,但如果你看看近年来训练语料库的增长速度,就会发现我们很快就会在「普遍有用的」知识数据可用性方面遇到瓶颈,而这类知识可以帮助我们更接近最终目标,即获得比约翰·冯·诺伊曼聪明 10 倍的人工超级智能,成为人类已知每个专业领域的世界级专家人类。除了可用数据有限之外,预训练扩展定律的支持者心中一直潜藏着其他一些担忧。其中之一就是,在完成模型训练后,如何处理所有这些计算基础设施?训练下一个模型?当然,你可以这样做,但考虑到 GPU 速度和容量的快速提升,以及电力和其他运营成本在经济计算中的重要性,使用 2 年前的集群来训练新的模型真的有意义吗?当然,你更愿意使用你刚刚建造的全新的数据中心,它的成本是旧数据中心的 10 倍,而且由于技术更先进,性能是旧数据中心的 20 倍。问题是,在某些时候,你确实需要摊销这些投资的前期成本,并通过(希望是正的)运营利润流来收回成本,对吗?市场对于人工智能如此兴奋,以至于忽略了这一点,让 OpenAI 这样的公司从一开始就不断累积运营亏损,同时却在后续投资中获得了越来越高的估值(当然,值得称赞的是,它们也展示了非常快速增长的收入)。但最终,要想在整个市场周期内维持这种状况,这些数据中心的成本最终需要收回,最好还能有利润,这样经过一段时间后,它们在风险调整的基础上就能与其他投资机会相抗衡。好了,这就是预训练扩展定律。那么这个「新」扩展定律是什么呢?嗯,这是人们在过去一年里才开始关注的东西:推理时间计算扩展。在此之前,你在过程中花费的绝大部分计算都是用于创建模型的前期训练计算。一旦有了训练好的模型,对该模型进行推理(即提出问题或让 LLM 为您执行某种任务)只需使用一定数量的计算。重要的是,推理计算总量(以各种方式衡量,例如 FLOPS、GPU 内存占用等)远低于预训练阶段所需的计算量。当然,当您增加模型的上下文窗口大小以及一次生成的输出量时,推理计算量确实会增加(尽管研究人员在这方面取得了惊人的算法改进,而最初人们预计的扩展规模是二次方)。但基本上,直到最近,推理计算的强度通常比训练计算低得多,并且基本上与处理的请求数量成线性比例——例如,对 ChatGPT 文本补全的需求越多,推理计算消耗就越多。随着去年推出的革命性思维链(Chain-of-Thought,简称 COT)模型的出现,最引人注目的是 OpenAI 的旗舰模型 O1(但最近 DeepSeek 的新模型 R1 也采用了这种技术,我们将在后面详细讨论),一切都发生了变化。这些新的 COT 模型不再将推理计算量与模型生成的输出文本长度直接成比例(对于更大的上下文窗口、模型大小等,会按比例增加),而是生成中间「逻辑标记」;可以将其视为模型在尝试解决您的问题或完成指定任务时的一种「临时存储器」或「内部独白」。这代表了推理计算方式的一次真正变革:现在,你在这个内部思维过程中使用的 token 越多,你提供给用户的最终输出质量就越好。实际上,这就像给一名工人更多的时间和资源来完成一项任务,这样他们就可以反复检查自己的工作,用多种不同的方法完成同样的基本任务,并验证结果是否相同;将结果「插入」公式中,以检查它是否真的解出了方程等。事实证明,这种方法的效果几乎令人惊叹;它利用了人们期待已久的「强化学习」的力量,以及 Transformer 架构的强大功能。它直接解决了 Transformer 模型中一个最大的弱点,即「产生幻觉」的倾向。基本上,Transformer 在预测每一步的下一个标记时的工作方式是,如果它们在初始响应中开始走上一条错误的「道路」,它们就会变得几乎像一个推诿的孩子,试图编造一个故事来解释为什么它们实际上是正确的,即使它们应该使用常识在途中意识到它们所说的话不可能是正确的。因为模型总是试图保持内在一致性,并使每个连续生成的标记自然地来自前面的标记和上下文,所以它们很难进行路线修正和回溯。通过将推理过程分解为许多中间阶段,它们可以尝试许多不同的方法,看看哪些有效,并不断尝试路线修正和尝试其他方法,直到它们能够达到相当高的置信度,即它们不是在胡说八道。这种方法最特别的地方在于,除了它确实有效之外,你使用的逻辑 /COT token 越多,效果越好。突然间,你多了一个额外的转盘,随着 COT 推理 token 数量的增加(这需要更多的推理计算,无论是浮点运算还是内存),你给出正确答案的概率就越高——代码第一次运行时没有错误,或者逻辑问题的解决方案没有明显错误的推论步骤。我可以根据大量第一手经验告诉你,尽管 Anthropic 的 Claude3.5 Sonnet 模型在 Python 编程方面非常出色(确实非常出色),但每当您需要生成任何冗长而复杂的代码时,它总会犯一个或多个愚蠢的错误。现在,这些错误通常很容易修复,事实上,通常只需将 Python 解释器生成的错误作为后续推理提示(或者更实用的是,使用所谓的 Linter 将代码编辑器在代码中发现的完整「问题」集粘贴到代码中),无需任何进一步的解释,就可以修复它们。当代码变得非常长或非常复杂时,有时需要花费更长的时间来修复,甚至可能需要手动进行一些调试。我第一次尝试 OpenAI 的 O1 模型时,就像是一个启示:我惊讶于代码第一次就完美的程度。这是因为 COT 流程会在模型给出的答案中最终响应 token 之前自动发现并修复问题。事实上,OpenAI 的 ChatGPT Plus 订阅服务(每月 20 美元)中使用的 O1 模型与新的 ChatGPT Pro 订阅服务(价格是前者的 10 倍,即每月 200 美元,这在开发者社区引起了轩然大波)中 O1-Pro 模型使用的模型基本相同;主要区别在于,O1-Pro 在做出回应之前会思考更长的时间,生成更多的 COT 逻辑标记,并且 每次响应都要消耗大量推理计算资源。这一点非常引人注目,因为即使对于 Claude3.5 Sonnet 或 GPT4o 来说,即使给出约 400kb 以上的上下文,一个非常冗长且复杂的提示,通常也需要不到 10 秒的时间才能开始响应,而且往往不到 5 秒。而同样的提示给 O1-Pro 可能需要 5 分钟以上的时间才能得到响应(尽管 OpenAI 确实会在等待过程中向您显示一些在此过程中生成的「推理步骤」;重要的是,OpenAI 出于商业秘密相关原因,决定向您隐藏其生成的确切推理标记,而是向您显示高度简化的摘要)。正如你可能想象的那样,在许多情况下,准确性至关重要——你宁愿放弃并告诉用户你根本无法做到,也不愿给出可能被轻易证明是错误的答案,或者给出涉及幻觉事实或其他似是而非推理的答案。任何涉及金钱 / 交易、医疗和法律的事情,仅举几例。基本上,只要推理成本相对于与人工智能系统交互的人类知识工作者的小时全额薪酬是微不足道的,那么在这种情况下,调用 COT 计算就变得完全不需要考虑了(主要缺点是它会使响应延迟大大增加,因此在某些情况下,你可能更希望通过获得延迟更短、准确度或正确性更低的响应来加快迭代)。几周前,人工智能领域传出一些振奋人心的消息,其中涉及 OpenAI 尚未发布的 O3 模型,该模型能够解决一系列此前被认为在短期内无法用现有人工智能方法解决的问题。OpenAI 能够解决这些最棘手的问题(包括极其困难的“基础”数学问题,即使是非常熟练的专业数学家也很难解决),是因为 OpenAI 投入了大量的计算资源——在某些情况下,花费 3000 多美元的计算能力来解决一个任务(相比之下,使用常规的 Transformer 模型,如果没有思维链,单个任务的传统推理成本不太可能超过几美元)。无需人工智能天才也能意识到,这种进展创造了一种全新的扩展定律,它与最初的预训练扩展定律完全不同。现在,您仍然想通过巧妙地利用尽可能多的计算资源和尽可能多的万亿高质量训练数据来训练最好的模型,但这只是这个新世界故事的开始;现在,您可以轻松地使用数量惊人的计算资源,仅从这些模型中进行推断,以获得非常高的置信度,或者尝试解决需要「天才级」推理的极其棘手的问题,以避免所有潜在的陷阱,这些陷阱可能会导致普通法学硕士误入歧途。即使你像我一样相信人工智能的未来前景几乎难以想象,但问题仍然存在:「为什么一家公司要从这项技术中获取大部分利润呢?」 历史上确实有许多重要的新技术改变了世界,但主要赢家并不是那些在最初阶段看起来最有前途的公司。尽管莱特兄弟的飞机公司发明并完善了这项技术,但如今这家公司的市值还不到 100 亿美元,尽管它已经演变成多家公司。虽然福特公司如今拥有 400 亿美元的可观市值,但这只是英伟达当前市值的 1.1%。要理解这一点,就必须真正了解英伟达为何能占据如此大的市场份额。毕竟,他们并不是唯一一家生产 GPU 的公司。AMD 生产性能不俗的 GPU,从数据上看,其晶体管数量、工艺节点等与 Nvidia 相当。当然,AMD GPU 的速度和先进程度不及 Nvidia GPU,但 Nvidia GPU 也并非快 10 倍或类似。事实上,就每 FLOP 的原始成本而言,AMD GPU 只有 Nvidia GPU 的一半。从其他半导体市场来看,例如 DRAM 市场,尽管该市场高度集中,只有三家全球性公司(三星、美光、SK- 海力士)具有实际意义,但 DRAM 市场的毛利率在周期底部为负值,在周期顶部约为 60%,平均值在 20% 左右。与之相比,Nvidia 最近几个季度的整体毛利率约为 75%,这主要是受到利润率较低且商品化程度较高的消费级 3D 图形类产品的拖累。那么,这怎么可能呢?嗯,主要原因与软件有关——在 Linux 上「直接可用」且经过严格测试且高度可靠的驱动程序(不像 AMD,其 Linux 驱动程序以质量低且不稳定而臭名昭著),以及高度优化的开源代码,例如 PyTorch,经过调整后可在 Nvidia GPU 上很好地运行。不仅如此,程序员用来编写针对 GPU 优化的低级代码的编程框架 CUDA 完全归 Nvidia 所有,并已成为事实上的标准。如果您想聘请一群极富才华的程序员,他们知道如何利用 GPU 加速工作,并愿意支付他们 65 万美元 / 年的薪水,或者任何具有这种特殊技能的人的现行工资水平,那么他们很可能会「思考」并使用 CUDA 工作。除了软件优势,Nvidia 的另一个主要优势是所谓的互连——本质上,它是一种将数千个 GPU 高效连接在一起的带宽,从而可以共同利用它们来训练当今最前沿的基础模型。简而言之,高效训练的关键在于让所有 GPU 始终处于充分利用状态,而不是空转等待,直到收到下一步训练所需的下一批数据。带宽要求非常高,远远高于传统数据中心应用所需的典型带宽。这种互连无法使用传统的网络设备或光纤,因为它们会带来过多的延迟,无法提供每秒数 TB 的带宽,而这是让所有 GPU 保持持续忙碌所需的。英伟达在 2019 年以 69 亿美元的价格收购了以色列公司 Mellanox,这是一个非常明智的决定,而正是这次收购为他们提供了行业领先的互连技术。请注意,与推理过程(包括 COT 推理)相比,互连速度与训练过程(必须同时利用数千个 GPU 的输出)的关系更为密切,推理过程只需使用少量 GPU——您所需要的只是足够的 VRAM 来存储已训练模型的量化(压缩)模型权重。可以说,这些是英伟达「护城河」的主要组成部分,也是它能够长期保持如此高利润率的原因(还有一个「飞轮效应」,即他们积极地将超常利润投入到大量研发中,这反过来又帮助他们以比竞争对手更快的速度改进技术,因此他们在原始性能方面始终处于领先地位)。但正如前面指出的,在所有其他条件相同的情况下,客户真正关心的往往是每美元的性能(包括设备的前期资本支出成本和能源使用,即每瓦特的性能),尽管 Nvidia 的 GPU 确实是最快的,但如果单纯以 FLOPS 衡量,它们并不是性价比最高的。但问题是,其他因素并不相同,AMD 的驱动程序很烂,流行的 AI 软件库在 AMD GPU 上运行得并不好,在游戏领域之外,你找不到真正擅长 AMD GPU 的 GPU 专家(为什么他们要费心呢,市场上对 CUDA 专家的需求更大?),由于 AMD 糟糕的互连技术,你不能有效地将数千个 GPU 连接在一起—— 这一切都意味着 AMD 在高端数据中心领域基本上没有竞争力,而且短期内似乎也没有很好的发展前景。好吧,听起来 Nvidia 前景一片大好,对吧?现在您知道为什么它的股票估值如此之高了!但还有其他什么隐忧吗?好吧,我认为值得引起重大关注的隐忧并不多。有些问题在过去几年中一直潜伏在幕后,但考虑到增长的速度,它们的影响微乎其微。但它们正准备可能向上发展。其他问题是最近(如过去两周)才出现的,可能会显著改变近期 GPU 需求增长的轨迹。从宏观层面来看,你可以这样思考:Nvidia 在相当长的一段时间内都在一个非常小众的领域运营;他们的竞争对手非常有限,而且这些竞争对手的盈利能力不强,增长速度也不足以构成真正的威胁,因为他们没有足够的资本来真正对 Nvidia 这样的市场领导者施加压力。游戏市场很大,而且还在增长,但并没有带来惊人的利润或特别惊人的年增长率。在 2016-2017 年左右,一些大型科技公司开始增加在机器学习和人工智能方面的招聘和支出,但从总体上看,这从来都不是它们真正重要的项目——更像是「探月计划」的研发支出。但 2022 年 ChatGPT 发布后,人工智能领域的竞争真正开始,虽然距离现在只有两年多时间,但就发展速度而言,这似乎已经过去了很久。突然间,大公司准备以惊人的速度投入数十亿美元。参加 Neurips 和 ICML 等大型研究会议的研究人员数量激增。以前可能研究金融衍生产品的聪明学生转而研究 Transformers,非执行工程职位(即不管理团队的独立贡献者)的百万美元以上薪酬待遇成为领先人工智能实验室的常态。改变一艘大型游轮的方向需要一段时间;即使你动作非常快,花费数十亿美元,也需要一年或更长时间来建造全新的数据中心,订购所有设备(交货时间会延长),并完成所有设置和调试。即使是最聪明的程序员也需要很长时间才能真正进入状态,熟悉现有的代码库和基础设施。但你可以想象,在这个领域投入的资金、人力和精力绝对是天文数字。Nvidia 是所有参与者中最大的目标,因为它们是当今利润的最大贡献者,而不是在人工智能主宰我们生活的未来。因此,最重要的结论是「市场总会找到出路」,他们会找到替代性的、彻底创新的新方法来制造硬件,利用全新的理念来绕过障碍,从而巩固英伟达的护城河。例如,Cerebras 公司所谓的「晶圆级」人工智能训练芯片,将整个 300mm 硅晶圆用于一个绝对巨大的芯片,该芯片在单个芯片上包含数量级更多的晶体管和内核(请参阅他们最近的博客文章,了解他们如何解决过去阻碍这种方法在经济上实用的产量问题)。为了说明这一点,如果您将 Cerebras 最新的 WSE-3 芯片与 Nvidia 的旗舰数据中心 GPU H100 进行比较,Cerebras 芯片的总芯片面积为 46225 平方毫米,而 H100 仅为 814 平方毫米(按照行业标准,H100 本身就是一个巨大的芯片);这是 57 倍的倍数!Cerebras 芯片没有像 H100 那样在芯片上启用 132 个「流式多处理器」内核,而是拥有约 90 万个内核(当然,每个内核都更小,功能也更少,但相比之下,这个数字仍然非常庞大)。具体来说,在人工智能领域,Cerebras 芯片的 FLOPS 运算能力约为单个 H100 芯片的 32 倍。由于 H100 芯片的售价接近 4 万美元,可想而知 WSE-3 芯片的价格也不便宜。那么,这有什么意义呢?Cerebras 没有试图采用类似的方法与 Nvidia 正面交锋,也没有试图与 Mellanox 的互联技术相媲美,而是采用了一种全新的方法来绕过互联问题:当所有东西都在同一块超大型芯片上运行时,处理器之间的带宽问题就变得不那么重要了。你甚至不需要相同级别的互连,因为一块巨型芯片就可以取代成吨的 H100。而且 Cerebras 芯片在人工智能推理任务中表现也非常出色。事实上,你今天就可以在这里免费试用,并使用 Meta 非常著名的 Llama-3.3-70B 模型。它的响应速度基本上是即时的,每秒约 1500 个 token。从比较的角度来看,与 ChatGPT 和 Claude 相比,每秒 30 个 token 以上的速度对用户来说相对较快,甚至每秒 10 个 token 的速度也足够快,基本上可以在生成响应的同时阅读它。Cerebras 并不是唯一一家公司,还有其他公司,例如 Groq(不要与埃隆·马斯克的 X AI 训练的 Grok 模型系列混淆)。Groq 采用另一种创新方法来解决相同的基本问题。他们没有试图直接与英伟达的 CUDA 软件堆栈竞争,而是开发了所谓的「张量处理单元」(TPU),专门用于深度学习模型所需的精确数学运算。他们的芯片围绕「确定性计算」的概念设计,这意味着与传统 GPU 不同,其芯片每次都以完全可预测的方式执行操作。这听起来可能只是一个小小的技术细节,但实际上对芯片设计和软件开发都产生了巨大影响。由于时间完全确定,Groq 可以优化其芯片,这是传统 GPU 架构无法做到的。因此,在过去的 6 个多月里,他们一直在展示 Llama 系列模型和其他开源模型每秒超过 500 个 token 的推理速度,远远超过了传统 GPU 设置所能达到的速度。与 Cerebras 一样,这款产品现已上市,您可以在此免费试用。使用具有「推测解码」功能的 Llama3 模型,Groq 能够每秒生成 1320 个 token,与 Cerebras 相当,远远超过了使用常规 GPU 的性能。现在,你可能会问,当用户似乎对 ChatGPT 的速度(不到每秒 1000 个 token)相当满意时,每秒达到 1000 多个 token 的意义何在。事实上,这确实很重要。当您获得即时反馈时,迭代速度会更快,并且不会像人类知识工作者那样失去焦点。如果你通过 API 以编程方式使用模型,那么它可以启用全新类别的应用程序,这些应用程序需要多阶段推理(前阶段的输出用作后续阶段提示 / 推理的输入),或者需要低延迟响应,例如内容审核、欺诈检测、动态定价等。但更根本的是,响应请求的速度越快,循环速度就越快,硬件就越忙。虽然 Groq 的硬件非常昂贵,一台服务器的成本高达 200 万至 300 万美元,但如果需求足够大,让硬件一直保持忙碌状态,那么每完成一个请求的成本就会大大降低。就像 Nvidia 的 CUDA 一样,Groq 的优势很大一部分来自其专有的软件堆栈。他们能够采用 Meta、DeepSeek 和 Mistral 等其他公司免费开发和发布的开源模型,并通过特殊方式对其进行分解,使其在特定硬件上运行速度更快。与 Cerebras 一样,他们做出了不同的技术决策来优化流程的某些特定方面,从而以一种完全不同的方式开展工作。以 Groq 为例,他们完全专注于推理层面的计算,而不是训练:他们的所有特殊硬件和软件只有在已经训练过的模型上进行推理时,才能发挥巨大的速度和效率优势。但如果人们期待的下一个重大扩展定律是推理级计算,而 COT 模型的最大缺点是必须生成所有中间逻辑标记才能做出响应,从而导致延迟过高,那么即使是一家只做推理计算的公司,只要其速度和效率远超英伟达,也将在未来几年内带来严重的竞争威胁。至少,Cerebras 和 Groq 可以蚕食当前股票估值中对于英伟达未来 2-3 年收入增长的过高预期。除了这些特别创新但相对不为人知的初创公司竞争对手之外,英伟达的一些最大客户本身也带来了严峻的竞争,他们一直在制造专门针对人工智能训练和推理工作负载的定制芯片。其中最著名的是谷歌,该公司自 2016 年以来一直在开发自己的专有 TPU。有趣的是,尽管谷歌曾短暂地向外部客户出售 TPU,但过去几年里,谷歌一直在内部使用其所有 TPU,而且它已经推出了第六代 TPU 硬件。亚马逊也在开发自己的定制芯片,称为 Trainium2 和 Inferentia2。亚马逊正在建设配备数十亿美元英伟达 GPU 的数据中心,与此同时,他们也在其他使用这些内部芯片的数据中心投资数十亿美元。他们有一个集群,正在为 Anthropic 上线,该集群有超过 40 万块芯片。亚马逊因完全搞砸了内部人工智能模型开发而饱受批评,将大量内部计算资源浪费在最终没有竞争力的模型上,但定制芯片是另一回事。同样,他们并不一定需要自己的芯片比英伟达的更好、更快。他们需要的只是足够好的芯片,但要以盈亏平衡的毛利率来制造芯片,而不是 Nvidia 在其 H100 业务上赚取的约 90% 以上的毛利率。OpenAI 还宣布了他们制造定制芯片的计划,他们(与微软一起)显然是 Nvidia 数据中心硬件的最大用户。似乎这还不够,微软自己宣布了自己的定制芯片!而苹果公司作为全球最有价值的技术公司,多年来一直以高度创新和颠覆性的定制芯片业务颠覆着人们的预期,如今,在每瓦性能方面,其定制芯片业务已经彻底击败了英特尔和 AMD 的 CPU,而每瓦性能是移动(手机 / 平板电脑 / 笔记本电脑)应用中最重要的因素。多年来,他们一直在生产自己内部设计的 GPU 和「神经处理器」,尽管他们尚未真正证明这些芯片在其自定义应用之外的实用性,例如 iPhone 相机中使用的基于高级软件的图像处理。虽然苹果公司的关注点似乎与这些其他参与者有所不同,其关注点在于移动优先、消费者导向和「边缘计算」,但如果苹果公司最终在与 OpenAI 的新合同上投入足够的资金,为 iPhone 用户提供人工智能服务,那么你必须想象他们有团队在研究如何制造自己的定制芯片用于推理 / 训练(尽管考虑到他们的保密性,你可能永远不会直接知道这件事!)。现在,Nvidia 的超级扩展器客户群呈现出强大的幂律分布已经不是什么秘密了,其中少数顶级客户占据了高利润收入的绝大部分。当这些 VIP 客户中的每一个都在专门为人工智能训练和推理制造自己的定制芯片时,我们应该如何看待这项业务的未来?在思考这些问题时,你应该记住一个非常重要的事实:英伟达在很大程度上是一家基于知识产权的公司。他们不生产自己的芯片。制造这些令人难以置信的设备真正特殊的秘诀可能更多地来自台积电和 ASML,后者制造了用于制造这些前沿工艺节点芯片的特殊 EUV 光刻机。这一点至关重要,因为台积电会将最先进的芯片卖给任何愿意提供足够的前期投资并保证一定数量的客户。他们不在乎这些芯片是用于比特币挖矿专用集成电路、图形处理器、热塑性聚氨酯、手机系统级芯片等。Nvidia 资深芯片设计师的年收入是多少,这些科技巨头肯定能拿出足够的现金和股票,吸引其中一些最优秀的人才跳槽。一旦他们拥有团队和资源,他们就可以在 2 到 3 年内设计出创新的芯片(也许甚至没有 H100 先进 50%,但凭借 Nvidia 的毛利率,他们还有很大的发展空间),而且多亏了台积电,他们可以使用与 Nvidia 完全相同的工艺节点技术将这些芯片转化为实际的硅片。似乎这些迫在眉睫的硬件威胁还不够糟糕,过去几年软件领域也出现了一些进展,虽然起步缓慢,但如今发展势头强劲,可能会对 Nvidia 的 CUDA 软件主导地位构成严重威胁。首先是 AMD GPU 的糟糕 Linux 驱动程序。还记得我们讨论过 AMD 多年来为何不明智地允许这些驱动程序如此糟糕,却坐视大量资金流失吗?有趣的是,臭名昭著的黑客乔治·霍茨(George Hotz,因在青少年时期越狱原版 iPhone 而闻名,目前是自动驾驶初创公司 Comma.ai 和人工智能计算机公司 Tiny Corp 的首席执行官,Tiny Corp 还开发了开源的 tinygrad 人工智能软件框架)最近宣布,他厌倦了处理 AMD 糟糕的驱动程序,迫切希望能够在其 TinyBox 人工智能计算机中使用成本较低的 AMD GPU( 有多种型号,其中一些使用 Nvidia GPU,而另一些则使用 AMD GPU)。事实上,他在没有 AMD 帮助的情况下为 AMD GPU 制作了自己的自定义驱动程序和软件堆栈;2025 年 1 月 15 日,他通过公司的 X 账户发推说:「我们距离 AMD 完全自主的堆栈 RDNA3 汇编器仅一步之遥。我们有自己的驱动程序、运行时、库和模拟器。(全部约 12000 行!)」鉴于他的过往记录和技能,他们很可能在未来几个月内完成所有工作,这将带来许多激动人心的可能性,即使用 AMD GPU 来满足各种应用的需求,而目前公司不得不为 Nvidia GPU 支付费用。好吧,这只是 AMD 的一个驱动程序,而且还没有完成。还有什么呢?好吧,软件方面还有其他一些领域的影响更大。首先,现在许多大型科技公司和开源软件社区正在共同努力,开发更通用的 AI 软件框架,其中 CUDA 只是众多「编译目标」之一。也就是说,您使用更高级别的抽象来编写软件,系统本身可以自动将这些高级别结构转换为超级优化的低级代码,在 CUDA 上运行效果极佳。但由于是在这种更高级别的抽象层完成的,因此可以轻松地将其编译为低级代码,从而在许多其他 GPU 和 TPU 上运行良好,这些 GPU 和 TPU 来自各种供应商,例如各大科技公司正在开发的大量定制芯片。这些框架中最著名的例子是 MLX(主要由苹果公司赞助)、Triton(主要由 OpenAI 赞助)和 JAX(由谷歌开发)。MLX 尤其有趣,因为它提供了一个类似 PyTorch 的 API,可以在 Apple Silicon 上高效运行,展示了这些抽象层如何使 AI 工作负载能够在完全不同的架构上运行。与此同时,Triton 越来越受欢迎,因为它允许开发人员编写高性能代码,这些代码可以编译为在各种硬件目标上运行,而无需了解每个平台的底层细节。这些框架允许开发人员使用强大的抽象功能编写代码,然后自动针对大量平台进行编译——这听起来是不是更有效率?在实际运行代码时,这种方法能够提供更大的灵活性。在 20 世纪 80 年代,所有最受欢迎、最畅销的软件都是用手工调制的汇编语言编写的。例如,PKZIP 压缩实用程序就是手工制作的,以最大限度地提高速度,以至于用标准 C 编程语言编写并使用当时最好的优化编译器编译的代码版本,其运行速度可能只有手工调整的汇编代码的一半。其他流行的软件包,如 WordStar、VisiCalc 等,也是如此。随着时间的推移,编译器变得越来越强大,每当 CPU 架构发生变化时(例如,从英特尔发布 486 到奔腾,等等),手写汇编程序通常不得不被丢弃并重新编写,只有最聪明的程序员才能胜任这项工作(就像 CUDA 专家在就业市场上比「普通」软件开发人员更胜一筹一样)。最终,事情逐渐趋于一致,手工汇编的速度优势被用 C 或 C++ 等高级语言编写代码的灵活性大大超过,因为后者依靠编译器使代码在给定的 CPU 上以最佳状态运行。如今,很少有人用汇编语言编写新代码。我相信人工智能训练和推理代码最终也会发生类似的转变,原因大致相同:计算机擅长优化,而灵活性和开发速度越来越成为重要的因素——尤其是如果它还能大幅节省硬件成本,因为您无需继续支付「CUDA 税」,而这项税收为英伟达带来了 90% 以上的利润。然而,另一个可能会发生巨大变化的领域是 CUDA 本身可能最终成为一种高级抽象——一种类似于 Verilog(作为描述芯片布局的行业标准)的「规范语言」,熟练的开发人员可以使用它来描述涉及大规模并行的高级算法(因为他们已经熟悉它,它结构合理,是通用语言等),但与通常的做法不同,这些代码不是编译后用于 Nvidia GPU,而是作为源代码输入 LLM,LLM 可以将其转换为新的 Cerebras 芯片、新的 Amazon Trainium2 或新的 Google TPUv6 等可以理解的任何低级代码。这并不像你想象的那么遥远;使用 OpenAI 最新的 O3 模型,可能已经触手可及,而且肯定会在一两年内普遍实现。也许最令人震惊的发展是前几周发生的。这则新闻彻底震撼了人工智能界,尽管主流媒体对此只字未提,但它在推特上却成为知识分子的热门话题:一家名为 DeepSeek 的中国初创公司发布了两款新模型,其性能水平基本可与 OpenAI 和 Anthropic 的最佳模型相媲美(超越了 Meta Llama3 模型和其他较小的开源模型,如 Mistral)。这些模型分别名为 DeepSeek-V3(基本上是对 GPT-4o 和 Claude3.5 Sonnet 的回应)和 DeepSeek-R1(基本上是对 OpenAI 的 O1 模型的回应)。为什么这一切如此令人震惊?首先,DeepSeek 是一家据说只有不到 200 名员工的小公司。据说他们最初是一家类似于 TwoSigma 或 RenTec 的量化交易对冲基金,但在中国加强监管该领域后,他们利用自己的数学和工程专长转向人工智能研究。但事实是,他们发布了两份非常详细的技术报告,分别是 DeepSeek-V3 和 DeepSeekR1。这些是技术含量很高的报告,如果你对线性代数一窍不通,可能就很难看懂。但你应该尝试的是在 AppStore 上免费下载 DeepSeek 应用,使用谷歌账户登录并安装,然后试一试(你也可以在安卓系统上安装),或者直接在桌面上用浏览器试试。确保选择「DeepThink」选项以启用思维链(R1 模型),并让它用简单的语言解释技术报告中的部分内容。首先,这个模型是绝对合法的。人工智能基准测试中有很多虚假成分,这些测试通常被操纵,使模型在基准测试中表现出色,但在实际测试中表现不佳。谷歌在这方面无疑是最大的罪魁祸首,他们总是吹嘘自己的 LLM 有多神奇,但事实上,这些模型在现实世界测试中表现糟糕,甚至无法可靠地完成最简单的任务,更不用说具有挑战性的编码任务了。DeepSeek 模型则不同,其响应连贯、有力,与 OpenAI 和 Anthropic 的模型完全处于同一水平。其次,DeepSeek 不仅在模型质量方面取得了重大进展,更重要的是在模型训练和推理效率方面取得了重大进展。通过非常接近硬件,并通过将一些独特且非常巧妙的优化组合在一起,DeepSeek 能够以一种效率显著提高的方式使用 GPU 训练这些令人难以置信的模型。根据一些测量,DeepSeek 的效率比其他前沿模型高出约 45 倍。DeepSeek 声称训练 DeepSeek-V3 的全部成本仅为 500 多万美元。按照 OpenAI、Anthropic 等公司的标准,这根本不算什么,因为这些公司早在 2024 年就达到了单个模型训练成本超过 1 亿美元的水平。这怎么可能?这家中国小公司怎么可能完全超越我们领先的人工智能实验室的所有最聪明的人,这些实验室拥有 100 倍以上的资源、员工人数、工资、资本、GPU 等?中国不是应该被拜登对 GPU 出口的限制所削弱吗?好吧,细节相当技术性,但我们至少可以概括地描述一下。也许事实证明,DeepSeek 相对较弱的 GPU 处理能力恰恰是提高其创造力和聪明才智的关键因素,因为「需求是发明之母」嘛。一项重大创新是他们先进的混合精度训练框架,该框架允许他们在整个训练过程中使用 8 位浮点数(FP8)。大多数西方人工智能实验室使用「全精度」32 位数字进行训练(这基本上指定了描述人工神经元输出时可能的渐变数量;FP8 中的 8 位可以存储比您想象中更广泛的数字——它不仅限于常规整数中 256 个不同大小的等量,而是使用巧妙的数学技巧来存储非常小和非常大的数字——尽管自然精度不如 32 位。)主要的权衡是,虽然 FP32 可以在很大的范围内以惊人的精度存储数字,但 FP8 为了节省内存和提高性能而牺牲了一些精度,同时仍为许多 AI 工作负载保持足够的精度。DeepSeek 通过开发一个聪明的系统解决了这个问题,该系统将数字分解为用于激活的小块和用于权重的块,并在网络的关键点策略性地使用高精度计算。与其他实验室先进行高精度训练,然后再进行压缩(在此过程中会损失一些质量)不同,DeepSeek 的 FP8 原生方法意味着他们可以在不影响性能的情况下节省大量内存。当您使用数千个 GPU 进行训练时,每个 GPU 的内存需求大幅减少,这意味着总体需要的 GPU 数量大大减少。另一个重大突破是他们的多标记预测系统。大多数基于 Transformer 的 LLM 模型通过预测下一个标记来推断——一次一个标记。DeepSeek 想出了如何预测多个标记,同时保持单标记预测的质量。他们的方法在这些额外的标记预测中达到了约 85-90% 的准确率,有效地将推断速度提高了一倍,而不会牺牲太多质量。巧妙之处在于,他们保持了预测的完整因果链,因此模型不仅仅是猜测,而是进行结构化的、上下文相关的预测。他们最具创新性的发展之一是他们所谓的多头潜在注意力(MLA)。这是他们在处理所谓的键值索引方面的突破,键值索引基本上是单个 token 在 Transformer 架构中的注意力机制中的表示方式。虽然从技术角度来说这有点过于复杂,但可以说这些 KV 索引是训练和推理过程中 VRAM 的主要用途之一,也是为什么需要同时使用数千个 GPU 来训练这些模型的部分原因——每个 GPU 的最大 VRAM 为 96GB,而这些索引会把这些内存吃个精光。他们的 MLA 系统找到了一种方法来存储这些索引的压缩版本,这些索引在捕获基本信息的同时使用更少的内存。最精彩的部分是这种压缩直接构建在模型学习的方式中——这不是他们需要做的某个单独步骤,而是直接构建在端到端训练管道中。这意味着整个机制是「可微分的」,并且能够直接使用标准优化器进行训练。之所以能成功,是因为这些模型最终找到的底层数据表示远低于所谓的「环境维度」。因此,存储完整的 KV 索引是一种浪费,尽管其他人基本上都是这么做的。不仅因为存储了超出实际需求的海量数据而浪费大量空间,导致训练内存占用和效率大幅提高(再次强调,训练世界级模型所需的 GPU 数量大大减少),而且实际上可以提高模型质量,因为它可以起到「调节器」的作用,迫使模型关注真正重要的内容,而不是将浪费的容量用于适应训练数据中的噪声。因此,您不仅节省了大量内存,而且模型的性能甚至可能更好。至少,您不会因为节省大量内存而严重影响性能,而这通常是您在人工智能训练中面临的权衡。他们还通过 DualPipe 算法和自定义通信内核在 GPU 通信效率方面取得了重大进展。该系统智能地重叠计算和通信,在任务之间仔细平衡 GPU 资源。他们只需要大约 20 个 GPU 的流多处理器(SM)进行通信,其余的则用于计算。其结果是 GPU 利用率远高于典型的训练设置。他们做的另一件非常聪明的事情是使用所谓的混合专家(MOE)Transformer 架构,但围绕负载平衡进行了关键创新。您可能知道,人工智能模型的大小或容量通常以模型包含的参数数量来衡量。参数只是一个数字,用于存储模型的某些属性;例如,特定人工神经元相对于另一个神经元的「权重」或重要性,或者特定标记根据其上下文(在「注意力机制」中)的重要性等。Meta 最新的 Llama3 模型有几种大小,例如:10 亿参数版本(最小)、70B 参数模型(最常用的)、甚至还有 405B 参数的大型模型。对于大多数用户来说,这种最大的模型实用性有限,因为你的电脑需要配备价值数万美元的 GPU,才能以可接受的速度运行推理,至少如果你部署的是原始的全精度版本。因此,这些开源模型在现实世界中的大多数使用和兴奋点都在 8B 参数或高度量化的 70B 参数级别,因为这是消费级 Nvidia 4090 GPU 可以容纳的,现在你可以花不到 1000 美元买到它。那么,这些有什么意义呢?从某种意义上说,参数的数量和精度可以告诉你模型内部存储了多少原始信息或数据。请注意,我并不是在谈论推理能力,或者模型的「智商」:事实证明,即使是参数数量很少的模型,在解决复杂的逻辑问题、证明平面几何定理、SAT 数学问题等方面,也能表现出卓越的认知能力。但是,那些小型模型不一定能够告诉你司汤达每部小说中每一个情节转折的方方面面,而真正的大型模型则有可能做到这一点。这种极端知识水平的「代价」是,模型变得非常笨重,难以训练和推理,因为为了对模型进行推理,你总是需要同时将 405B 个参数(或任何参数数量)中的每一个都存储在 GPU 的 VRAM 中。MOE 模型方法的优势在于,你可以将大型模型分解为一系列较小的模型,每个模型都拥有不同的、不重叠(至少不完全重叠)的知识。DeepSeek 的创新之处在于开发了一种他们称之为「无辅助损失」的负载均衡策略,该策略能够保持专家的高效利用,而不会出现负载均衡通常带来的性能下降。然后,根据推理请求的性质,您可以将推理智能地将路由到该集合中最能够回答该问题或解决该任务的较小模型中的「专家」模型。你可以把它想象成一个专家委员会,他们拥有各自的专业知识领域:一个可能是法律专家,另一个可能是计算机科学专家,还有一个可能是商业战略专家。因此,如果有人问线性代数的问题,你不会把它交给法律专家。当然,这只是非常粗略的类比,实际上并不像这样。这种方法的真正优势在于,它允许模型包含大量知识,而不会非常笨重,因为即使所有专家的参数总数很高,但只有一小部分参数在任何特定时间处于「活跃」状态,这意味着你只需要将权重的小子集存储在 VRAM 中即可进行推理。以 DeepSeek-V3 为例,它有一个绝对庞大的 MOE 模型,包含 671B 个参数,比最大的 Llama3 模型还要大得多,但其中只有 37B 个参数在任何特定时间处于活跃状态——足以容纳两个消费级 Nvidia 4090 GPU(总成本不到 2000 美元)的 VRAM,而不需要一个或多个 H100 GPU,每个售价约 4 万美元。有传言称 ChatGPT 和 Claude 都使用 MoE 架构,有消息透露 GPT-4 共有 1.8 万亿个参数,分布在 8 个模型中,每个模型包含 2200 亿个参数。尽管这比将 1.8 万亿个参数全部放入 VRAM 要容易得多,但由于使用的内存量巨大,仅运行模型就需要多个 H100 级 GPU。除了上述内容,技术论文还提到了其他几项关键优化。其中包括其极其节省内存的训练框架,该框架可避免张量并行,在反向传播期间重新计算某些操作,而不是存储它们,并在主模型和辅助预测模块之间共享参数。所有这些创新的总和,当分层在一起时,导致了网上流传的约 45 倍的效率提升数字,我完全愿意相信这些数字是正确的。DeepSeek 的 API 成本就是一个有力的佐证:尽管 DeepSeek 的模型性能几乎达到同类最佳,但通过其 API 进行推理请求的费用比 OpenAI 和 Anthropic 的同类模型低 95%。从某种意义上说,这有点像将 Nvidia 的 GPU 与竞争对手的新定制芯片进行比较:即使它们不是那么好,但性价比却高得多,因此,只要你能确定性能水平,并证明它足以满足你的要求,而且 API 可用性和延迟也足够好(到目前为止,尽管由于这些新模型的性能而出现了令人难以置信的需求激增,但人们对 DeepSeek 的基础设施表现感到惊讶)。但与 Nvidia 的情况不同,Nvidia 的成本差异是由于他们在数据中心产品上获得了 90% 以上的垄断毛利,而 DeepSeek API 相对于 OpenAI 和 Anthropic API 的成本差异可能只是因为它们的计算效率提高了近 50 倍(在推理方面甚至可能远远不止于此——在训练方面,效率提高了约 45 倍)。事实上,OpenAI 和 Anthropic 是否从 API 服务中获得了丰厚利润尚不清楚——他们可能更关注收入增长,以及通过分析收到的所有 API 请求来收集更多数据。在继续之前,我必须指出,很多人猜测 DeepSeek 在 GPU 数量和训练这些模型所花费的 GPU 时间上撒了谎,因为他们实际上拥有比他们声称的更多的 H100,因为这些卡有出口限制,他们不想给自己惹麻烦,也不想损害自己获得更多这些卡的机会。虽然这当然有可能,但我认为他们更有可能说的是实话,他们只是通过在训练和推理方法上表现出极高的聪明才智和创造力,才取得了这些令人难以置信的结果。他们解释了他们的做法,我猜想他们的结果被其他实验室的其他研究人员广泛复制和证实只是时间问题。更新的 R1 模型和技术报告可能会更令人震惊,因为它们在思维链上击败了 Anthropic,现在除了 OpenAI 之外,基本上只有它们使这项技术大规模运作。但请注意,OpenAI 在 2024 年 9 月中旬才发布 O1 预览模型。那只是大约 4 个月前的事情!有一点你必须牢记,OpenAI 对这些模型在低层次上的实际运作方式讳莫如深,除了微软等签署了严格保密协议的合作伙伴外,不会向任何人公开实际的模型权重。而 DeepSeek 的模型则完全不同,它们完全开源,且许可宽松。他们发布了非常详细的技术报告,解释了这些模型的工作原理,并提供了代码,任何人都可以查看并尝试复制。凭借 R1,DeepSeek 基本上破解了人工智能领域的一个难题:让模型逐步推理,而不依赖于大量监督数据集。他们的 DeepSeek-R1-Zero 实验表明了这一点:使用纯强化学习与精心设计的奖励函数,他们设法让模型完全自主地发展复杂的推理能力。这不仅仅是解决问题——模型有机地学会了生成长链思维、自我验证其工作,并将更多计算时间分配给更困难的问题。这里的技术突破是他们新颖的奖励建模方法。他们没有使用复杂的神经奖励模型,因为这种模型可能导致「奖励黑客」(即模型通过虚假方式提高奖励,但实际并不能提高模型的真实性能),而是开发了一种基于规则的巧妙系统,将准确性奖励(验证最终答案)与格式奖励(鼓励结构化思维)相结合。事实证明,这种更简单的方法比其他人尝试过的基于流程的奖励模型更强大、更可扩展。特别令人着迷的是,在训练过程中,他们观察到了所谓的「顿悟时刻」,即模型在遇到不确定性时自发地学会中途修改其思维过程。这种突发行为并不是预先编好的程序,而是模型与强化学习环境相互作用自然产生的。模型会真正地停下来,标记推理中的潜在问题,然后采用不同的方法重新开始,而这一切都不是经过明确训练的。完整的 R1 模型建立在这些见解的基础上,在应用其强化学习技术之前,引入他们所谓的「冷启动」数据——一小组高质量的示例。他们还解决了推理模型中的一大难题:语言一致性。之前尝试的思维链推理通常会导致模型混合使用多种语言或产生不连贯的输出。DeepSeek 通过在 RL 训练期间巧妙地奖励语言一致性解决了这一问题,以较小的性能损失换取更易读且更一致的输出。结果令人难以置信:在 AIME 2024(最具挑战性的高中数学竞赛之一)上,R1 的准确率达到 79.8%,与 OpenAI 的 O1 模型相当。在 MATH-500 上,它达到了 97.3%,在 Codeforces 编程竞赛中取得了 96.3% 的分数。但也许最令人印象深刻的是,他们设法将这些能力提炼为更小的模型:他们的 14B 参数版本比许多大几倍的模型表现更好,这表明推理能力不仅与原始参数数量有关,还与你如何训练模型处理信息有关。最近在 Twitter 和 Blind(一家企业谣言网站)上流传的小道消息是,这些模型完全出乎 Meta 的意料,它们的表现甚至超过了仍在训练中的新 Llama4 模型。显然,Meta 内部的 Llama 项目已经引起了高层技术主管的注意,因此他们有大约 13 个人在研究 Llama,而他们每个人的年薪总和都超过了 DeepSeek-V3 模型的训练成本总和,而 DeepSeek-V3 模型的性能比 Llama 更好。你如何一本正经地向扎克伯格解释?当更好的模型只用 2000 个 H100 训练,成本还不到 500 万美元时,扎克伯格却向 Nvidia 投入数十亿美元购买 10 万个 H100,他怎么能保持微笑?但您最好相信,Meta 和其他大型人工智能实验室正在拆解这些 DeepSeek 模型,研究技术报告中的每个单词和他们发布的开源代码中的每一行,拼命尝试将这些相同的技巧和优化整合到他们自己的训练和推理流程中。那么,这一切的影响是什么?好吧,天真地认为训练和推理计算的总需求应该除以某个大数字。也许不是 45,而是 25 甚至 30?因为无论你之前认为你需要多少,现在都少了很多。乐观主义者可能会说:「你只是在谈论一个简单的比例常数,一个单一的倍数。当你面对指数增长曲线时,这些东西会很快消失,最终不会那么重要。」这确实有一定道理:如果人工智能真的像我所期望的那样具有变革性,如果这项技术的实际效用是以数万亿来衡量的,如果推断时间计算是新的扩展定律,如果我们将拥有大量人形机器人,它们将不断进行大量的推断,那么也许增长曲线仍然非常陡峭和极端,英伟达仍然遥遥领先,它仍然会成功。但 Nvidia 在未来几年内会有很多好消息,以维持其估值,当你把这些因素都考虑进去时,我至少开始对以 2025 年预计销售额的 20 倍来购买其股票感到非常不安。如果销售增长稍微放缓会怎样?如果增长率不是 100% 以上,而是 85% 呢?如果毛利率从 75% 下降到 70%,这对半导体公司来说仍然很高,会发生什么?从宏观层面来看,英伟达面临着前所未有的竞争威胁,这使得其 20 倍远期销售和 75% 的毛利率越来越难以证明其高估值是合理的。该公司在硬件、软件和效率方面的优势都出现了令人担忧的裂缝。全世界——地球上成千上万最聪明的人,在数不清的数十亿美元资本资源的支持下——正试图从各个角度攻击他们。在硬件方面,Cerebras 和 Groq 的创新架构表明,英伟达的互联优势(其数据中心统治地位的基石)可以通过彻底重新设计来规避。Cerebras 的晶圆级芯片和 Groq 的确定性计算方法无需 NVIDIA 复杂的互连解决方案即可提供令人信服的性能。更传统的是,NVIDIA 的每个主要客户(谷歌、亚马逊、微软、Meta、苹果)都在开发定制芯片,这些芯片可能会蚕食高利润的数据中心收入。这些不再是实验项目——仅亚马逊一家就正在为 Anthropic 构建大规模基础设施,其中包含超过 40 万块定制芯片。软件护城河似乎同样脆弱。MLX、Triton 和 JAX 等新的高级框架正在削弱 CUDA 的重要性,而改进 AMD 驱动程序的努力可能会开发出更便宜的硬件替代方案。高级抽象的趋势反映了汇编语言如何让位于 C/C++,这表明 CUDA 的主导地位可能比想象的更短暂。最重要的是,我们看到基于 LLM 的代码翻译技术正在兴起,它能够自动移植 CUDA 代码,使其在任何硬件目标上运行,从而有可能消除英伟达(NVIDIA)最强大的锁定效应之一。也许最具破坏性的是 DeepSeek 最近在效率方面取得的突破,它以大约 1/45 的计算成本实现了与模型性能相当的性能。这表明整个行业一直在大量超额配置计算资源。再加上通过思维链模型出现更高效的推理架构,计算的总需求可能大大低于目前的预测。这里的经济学原理很有说服力:当 DeepSeek 能够达到 GPT-4 级别的性能,而 API 调用费用却降低 95% 时,这表明要么英伟达的客户正在不必要地烧钱,要么利润率必须大幅下降。台积电将为任何资金雄厚的客户生产具有竞争力的芯片,这为英伟达的架构优势设定了上限。但更根本的是,历史表明,市场最终会找到绕过人为瓶颈的方法,从而产生超额利润。综合来看,这些威胁表明,英伟达要维持目前的增长轨迹和利润率,面临的道路比其估值所暗示的要崎岖得多。有五个不同的攻击方向——架构创新、客户垂直整合、软件抽象化、效率突破和制造民主化——至少有一个成功对英伟达的利润率或增长率产生重大影响的可能性似乎很高。以目前的估值来看,市场并未考虑到这些风险。亲爱的读者们,请星标《碳链价值》,不然会收不到最新推送。我们精心创作和精选的每一篇内容希望都能为读者们带来理性思考与启发。
【免责声明】市场有风险,投资需谨慎。本文不构成投资建议,用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。