[返回军事纵横首页]·[所有跟帖]·[ 回复本帖 ] ·[热门原创] ·[繁體閱讀]·[版主管理]
看空英伟达股票
送交者: 真者[☆★★声望品衔11★★☆] 于 2025-02-01 22:11 已读 8851 次 11 赞  

真者的个人频道

看空英伟达股票 6park.com

【作者】[美] 杰弗里.伊曼纽尔 【来源】valueinvestorsclub.com【编译】真者 6park.com


【编译者按】 杰弗里.伊曼纽尔的这篇爽文让英达伟股票一天丧失了6000亿美元。 6park.com

我曾在多家多空对冲基金(包括Millennium基金和 Balyasny基金)担任过10年的普通投资分析师,同时也是一个数学和计算机方面的书呆子,从 2010年起就开始研究深度学习(那时辛顿 Geoff Hinton还在谈论受限玻尔兹曼机 Restricted Boltzmann Machines,所有东西都还在用 MATLAB编程、 研究人员还在试图证明,他们在手写数字分类方面能取得比支持向量机更好的结果),我想,我对人工智能技术的发展以及这与股市中股票估值的关系有着不同寻常的视角。 6park.com

在过去的几年里,我更多地从事开发工作,并拥有几个流行的开源项目,用于使用各种形式的人工智能模型/服务(例如,请参阅 LLM Aided OCR、Swiss Army Llama、Fast Vector Similarity、Source to Prompt 和 Pastel Inference Layer等最新示例)。基本上,我每天都在尽可能密集地使用这些前沿模型。我有3个Claude账户,这样就不会没有事做了,而且在 ChatGPT Pro推出后的几分钟内就注册了它。 6park.com

我还努力跟上最新的研究进展,仔细阅读各头牌人工智能实验室发布的所有重要技术报告论文。因此,我认为我对这一领域和事物的发展有很好的了解。与此同时,我一生中做空了大量股票,并两次获得价值投资者俱乐部的最佳点子奖(如果你在家里记住的话,我做多的是TMS,做空的是PDH)。 6park.com

我这么说并不是为了炫耀,而是为了帮助自己树立一个良好的形象,让自己成为一个可以就这个问题发表意见的人,而不会让技术专家或专业投资者觉得我天真得无可救药。虽然肯定有很多人比我更懂数学/科学,也有很多人比我更擅长股票市场的多空投资,但我怀疑是否有很多人能够像我一样处于维恩图的中间位置。 6park.com

尽管如此,每当我与对冲基金界的朋友和前同事见面聊天时,话题很快就会转向 Nvidia。一家公司从默默无闻到身价超过英国、法国或德国股市总和的情况并不是每天都有!这些朋友自然想知道我对这个话题的看法。因为我这个坚定的信徒对这项技术的长期变革性影响深信不疑--我真的相信它将在未来5-10年内从根本上改变我们经济和社会的方方面面,这在历史上基本没有先例---所以我很难提出 Nvidia的发展势头会放缓或很快停止的论点。 6park.com

尽管在过去一年左右的时间里,我一直认为公司的估值对我来说过于高昂,但最近的一系列事态的发展让我有些改变了自己的一贯本能,那就是更多地从逆向思维的角度来看待问题,并在共识似乎已经超出定价范围的时候对其提出质疑。“智者信其始,愚者信其终 "这句话成名是有道理的。 6park.com

牛市案例 6park.com

在谈让我感到不安的发展之前,让我们先简单回顾一下NVDA股票的牛市案例,现在基本上是每个人和他的兄弟都知道了。深度学习和人工智能是自互联网以来最具变革性的技术,将改变我们社会的一切。在用于训练和推理基础设施的行业资本支出总额中所占份额方面,Nvidia以某种方式接近于垄断地位。 6park.com

世界上一些最大、最赚钱的公司,如微软、苹果、亚马逊、元、谷歌、甲骨文等,都决定必须不惜一切代价在这一领域保持竞争力,因为他们根本无法承受落后的代价。资本支出的金额、千兆瓦的用电量、新建数据中心的面积,当然还有 GPU的数量,都呈爆炸式增长,而且似乎没有放缓的迹象。而 Nvidia能够在最高端、面向数据中心的产品上获得90%以上的超高毛利率。 6park.com

我们只是触及了牛市的表面。现在还有许多其他方面的因素,这些因素甚至让原本就非常看好的人变得越来越看好。除了人形机器人的崛起(我猜想,当人形机器人能够迅速完成大量目前需要非熟练工人(甚至熟练工人)完成的任务时,会让大多数人大吃一惊),还有其他一些因素是大多数人根本没有考虑到的。 6park.com

你会听到聪明人谈论的一件大事是 “新扩展定律 ”的兴起,它创造了一种新的思维模式,即计算力需求将如何随着时间的推移而增加。自2012年AlexNet出现和2017年Transformer架构发明以来,最初的伸缩定律一直在推动人工智能的进步,它就是AI预训练的缩放定律:我们可以用作训练数据的符记(token)越多,价值数十亿(现在是数万亿),我们训练的模型的参数就越大,我们在这些符记上训练这些模型所耗费的算力FLOPS就越多,由此产生的模型在大量非常有用的下游任务上的性能就越好。 6park.com

不仅如此,这种改进在某种程度上是可知的,以至于 OpenAI和 Anthropic等领先的人工智能实验室甚至在开始进行实际训练运行之前,就对其最新模型的性能有了相当好的了解--在某些情况下,对最终模型基准的预测会在几个百分点之内。这种 “原始缩放定律”(original scaling law)一直以来都非常重要,但用它来预测未来的人总是心存疑虑。 6park.com

首先,我们似乎已经耗尽了全世界积累的高质量训练数据集。当然,事实并非如此--仍有许多旧书和期刊尚未得到适当的数字化处理,即使已经数字化,也没有获得适当的许可来用作训练数据。问题在于,即使你把所有这些东西--比如说从1500年到2000年 “专业 ”制作的英语书面内容的总和--都归入训练数据,当你讨论的是一个有近15万亿词条的训练语料库(这是目前前沿模型的规模)时,按百分比计算,这也不是一个巨大的数字。 6park.com

对这些数字做一个简单的现实检验: 迄今为止,谷歌图书已经数字化了约 4000万本图书;如果一本典型的书有5万到 10万字,或 6.5万到13万个词组,那么仅这些书本身就有2.6万亿到5.2万亿个的词组,当然其中很大一部分已经包含在大型实验室使用的训练语料库中,无论它是否严格地合法。学术论文也很多,仅arXiv网站就有超过2百万篇论文。美国国会图书馆拥有超过30亿页数字化报纸。总计起来,可能有多达7万亿个符记,但由于其中大部分实际上已经包含在训练语料库中,因此剩余的 “增量 ”训练数据可能在总体上并不那么重要。 6park.com

当然,还有其他方法可以收集更多的训练数据。例如,你可以自动转录每一段油管视频,然后使用这些文本。虽然这在边际上可能会有所帮助,但其质量肯定比不上一本备受推崇的《有机化学》教科书。因此,当涉及到最初的缩放定律时,我们总是面临着一堵若隐若现的 “数据墙”;尽管我们知道,我们可以不断向GPU投入越来越多的资本支出,并建设越来越多的数据中心,但要批量生产人类有用的新知识却难上加难。现在,对此的一个有趣的反应是“合成数据”的兴起,合成数据本身就是大型语言模型的输出文本。虽然通过“自给自足”来提高模型质量似乎毫无意义,但实际上,它在实践中似乎非常有效,至少在数学、逻辑和计算机编程领域是如此。 6park.com

当然,原因在于这些领域我们可以机械地检查和证明事物的正确性。因此,我们可以从大量可能的数学定理或Python脚本中抽取样本,然后实际检查它们是否正确,只有在正确的情况下才纳入我们的语料库。通过这种方式,我们可以非常显著地扩大高质量训练数据的收集范围,至少在这些领域是如此。 6park.com

除了文本,我们还可以在其他所有类型的数据上训练人工智能。例如,如果我们对1亿人进行全基因组测序(单个人类的未压缩数据约为200GB到300GB),会怎么样?这显然是一个很大的数据量,尽管其中绝大部分数据在任何两个人之间都几乎是相同的。当然,由于种种原因,与书籍和互联网上的文本数据相比,这可能会产生误导: 6park.com

--原始基因组大小与标记数不能直接比较 6park.com

--基因组数据的信息内容与文本大不相同 6park.com

--高度冗余数据的训练价值不明确 6park.com

--处理基因组数据的计算要求不同 6park.com

但它仍然是另一个巨大的多样化信息来源,我们将来可以用它来训练庞大的模型,这也是我把它包括进来的原因。 6park.com

因此,尽管我们有希望捕捉到越来越多的额外训练数据,但如果看看近年来训练语料库的增长速度,我们很快就会发现,在 “一般有用 ”知识的数据可用性方面,我们已经快要碰壁了,而这些知识可以让我们更接近获得人工超级智能的终极目标,它比约翰.冯.诺依曼聪明10倍,而且绝对是人类已知的所有专业领域的世界级专家。 6park.com

除了有限的可用数据量外,预训练缩放定律的支持者们还一直对其他一些问题耿耿于怀。其中一个重要问题是,在完成模型训练后,你该如何处理所有的计算基础设施?训练下一个模型?当然,你可以这么做,但考虑到GPU速度和容量的飞速提升,以及电费和其他开支在经济计算中的重要性,使用两年前的硬件集群来训练新模型真的有意义吗?当然,你更愿意使用刚刚建成的全新数据中心,因为它的成本是旧数据中心的10倍,而且由于采用了更好的技术,其功能要强大20倍。问题是,在某个时候,你确实需要摊销这些投资的前期成本,并通过(希望是正的)营业利润收回成本,对吗? 6park.com

市场对人工智能如此兴奋,幸运的是它忽略了这一点,让像 OpenAI这样的公司从一开始就出现了惊人的累计营业亏损,同时在后续投资轮中获得越来越令人瞠目结舌的估值(尽管,值得称赞的是,他们也能够展示出非常快速增长的收入)。但最终,为了使这种情况在整个市场周期内持续下去,这些数据中心的成本确实需要最终收回,希望能够获得利润,随着时间的推移,这些利润在风险调整后可以与其他投资机会相媲美。 6park.com

新范式 6park.com

好的,这就是预训练缩放定律。那么这个“新”的缩放定律是什么?嗯,这是人们在过去一年里真正开始关注的事情:推理时间计算缩放(inference time compute scaling)。以前,您在此过程中消耗的所有计算中的绝大部分都是首先用于创建模型的前期训练计算。一旦您有了训练好了的模型,对该模型进行推理(即提出问题或让大型语言模型为您执行某种任务)就会使用一定数量的计算。 6park.com

至关重要的是,推理计算的总量(以各种方式衡量,例如FLOPS、GPU内存占用等)远远少于预训练阶段所需的量。当然,当你增加模型的上下文窗口大小和一次性从中生成的输出量时,推理计算量确实会增加(尽管研究人员在这方面取得了惊人的算法改进,相对于人们最初预期的二次扩展)。但本质上,直到最近,推理计算通常比训练计算的密集程度要低得多,并且基本上随着你处理的请求数量线性扩展——例如,ChatGPT对文本完成的需求越多,你使用的推理计算就越多。 6park.com

随着去年推出的革命性思维链 (COT)模型的出现,最引人注目的是OpenAI的旗舰O1模型(但最近 DeepSeek的新R1模型也出现了,我们将在后面详细讨论),这一切都发生了变化。推理计算量不再与模型生成的输出文本长度成正比(针对更大的上下文窗口、模型大小等进行扩展),这些新的 COT模型还会生成中间“逻辑标记”;可以将其视为模型在尝试解决您的问题或完成其分配的任务时的一种便笺簿或“内部独白”。 6park.com

这代表了推理计算工作方式的真正巨大变化:现在,您在这个内部思维链过程中使用的标记越多,您可以为用户提供的最终输出质量就越好。实际上,这就像给予人类工人更多的时间和资源来完成一项任务,这样他们就可以再三检查他们的工作,以多种不同的方式执行相同的基本任务并验证它们是否以相同的方式出现;将他们得出的结果“插入”到公式中以检查它是否确实可以解方程,等等。 6park.com

事实证明,这种方法的效果非常好;它本质上是利用了人们期待已久的所谓“强化学习”的力量和 Transformer架构的力量。它直接解决了Transformer模型最大的弱点,即它容易“产生幻觉”。 6park.com

基本上,Transformer在预测每一步的下一个符记时的工作方式是,如果它们在最初的反应中走上了一条糟糕的“道路”,它们就会变得像一个爱搪塞的孩子,试图编造一个故事来解释为什么它们实际上是正确的,即使它们应该在中途用常识意识到它们所说的话不可能是正确的。 6park.com

因为模型总是寻求内部一致性,并让每个连续生成的符记自然地从前面的符记和上下文中流出,所以它们很难纠正路线和回溯。通过将推理过程有效地分解为多个中间阶段,他们可以尝试许多不同的事情,看看哪些是有效的,并不断尝试纠正方向和尝试其他方法,直到他们能够达到相当高的信心阈值,相信他们没有胡说八道。 6park.com

除了这种方法确实有效之外,也许最特别之处在于,你使用的逻辑/COT符记越多,效果就越好。突然间,你现在有了可以转动的额外拨盘,这样,随着你增加COT推理符记的数量(这需要更多的推理计算,无论是FLOPS还是内存),你给出正确反应的可能性就越大——第一次运行的代码没有错误,或者没有明显错误的推理步骤的逻辑问题解决方案。 6park.com

我可以从大量的第一手经验中告诉你,尽管 Anthropic的 Claude3.5 Sonnet模型在Python编程方面表现很好——而且确实非常好——但每当你需要生成任何长而复杂的东西时,它总是会犯一个或多个愚蠢的错误。现在,这些错误通常很容易修复,事实上,你通常可以通过简单地输入 Python解释器生成的错误来修复它们,而无需任何进一步的解释,作为后续推理提示(或者,更有用的是,使用所谓的 Linter,粘贴代码编辑器在代码中发现的完整“问题”集),这仍然是一个令人讨厌的额外步骤。当代码变得非常长或非常复杂时,有时可能需要更长的时间来修复,甚至可能需要手动进行一些手动调试。 6park.com

我第一次尝试OpenAI的 O1模型时,感觉就像是得到了启示:我惊讶于代码在第一次输出时就如此完美。这是因为COT流程会自动发现并修复问题,而这些问题甚至无法在模型给出的答案中成为最终反应符记。 6park.com

事实上,OpenAI ChatGPT Plus订阅中使用的O1模型(每月20美元)与他们新的 ChatGPT Pro 订阅中使用的 O1-Pro模型基本相同,后者的价格是前者的10倍(每月200美元,这引起了开发者社区广泛的不快);主要区别在于O1-Pro在反应之前会思考更长时间,从而生成更多的COT逻辑标记,并且每次反应都会消耗大量的推理计算。 6park.com

这非常引人注目,因为即使是 Claude3.5 Sonnet或 GPT4o的非常长且复杂的提示,给出的上下文超过400kb,通常也只需不到10秒就能开始反应,通常不到5秒。而同样的 O1-Pro提示可能需要5分钟以上才能得到反应(尽管 OpenAI确实会向您展示在您等待的过程中生成的一些“推理步骤”;至关重要的是,OpenAI决定(大概是出于商业机密的原因)向您隐藏它生成的确切推理符记,而是向您显示这些符记的高度简化摘要)。 6park.com

您可能可以想象,在众多场景下,准确性至关重要——您宁愿放弃并告诉用户您根本做不到,也不愿给出一个很容易被证明是错误的答案,或者包含幻觉事实或其他似是而非的推理。任何涉及金钱/交易、医疗、法律的事情,仅举几例。 6park.com

基本上,只要推理成本相对于与AI系统交互的人类知识工作者每小时的总薪酬来说微不足道,那么拨打COT计算就变得完全没有问题(主要缺点是它大大增加了反应的延迟,因此在某些情况下,您可能更愿意通过获得不太准确或不太正确的低延迟反应来更快地进行迭代)。 6park.com

几周前,人工智能领域传出了一些最令人兴奋的消息,这些消息与OpenAI尚未发布的新O3模型有关,该模型能够解决大量以前被认为在短期内无法用现有人工智能方法解决的任务。它之所以能够解决这些最困难的问题(其中包括极其困难的“基础”数学问题,即使是高技能的专业数学家也很难解决),是因为OpenAI为这些问题投入了大量的计算资源——在某些情况下,花费价值3000美元以上的计算能力来解决单个任务(相比之下,使用没有思维链的常规 Transformer模型,单个任务的传统推理成本不太可能超过几美元)。 6park.com

不用一个人工智能的天才都能意识到,这一发展创造了一种完全独立于原始预训练缩放定律的新缩放定律。现在,您仍然希望通过巧妙地利用尽可能多的计算和尽可能多的高质量训练数据来训练出最好的模型,但这只是这个新世界故事的开始;现在,您可以轻松使用大量计算,以非常高的置信度从这些模型中进行推理,或者在尝试解决需要“天才级”推理的极其棘手的问题时,避免所有可能导致普通的大型语言模型误入歧途的潜在陷阱。 6park.com

但为什么所有好处都要被Nvidia拿去? 6park.com

即使你和我一样相信人工智能光辉的未来前景几乎难以想象,但问题仍然存在,“为什么一家公司应该从这项技术中获取大部分利润”?历史上确实有很多案例,一项非常重要的新技术改变了世界,但主要的赢家并不是在这个过程的初始阶段看起来最有前途的公司。莱特兄弟的飞机公司如今在许多不同的公司中都拥有各种不同的化身,尽管他们发明并完善了这项技术,远远领先于其他所有人,但其价值不超过100亿美元。尽管福特公司今天的市值高达400亿美元,但这仅相当于Nvidia目前市值的 1.1%。 6park.com

要理解这一点,首先要真正理解为什么 Nvidia目前占据了如此大的市场份额。毕竟,他们并不是唯一一家生产 GPU的公司。AMD生产的GPU质量不错,理论上晶体管数量相当,采用类似的工艺节点制造,等等。当然,它们的速度和先进程度不如Nvidia的GPU,但这并不意味着 Nvidia GPU的速度比 Nvidia快10倍或类似。事实上,就每FLOP的美元成本而言,AMD GPU的价格大约是Nvidia GPU的一半。 6park.com

看看其他半导体市场,例如DRAM市场,尽管它也高度整合,只有3家重要的全球参与者(三星、美光、SK-Hynix),但 DRAM市场的毛利率从周期底部的负值到周期顶部的约 60% 不等,平均在 20%左右。相比之下,Nvidia最近几个季度的整体毛利率约为 75%,这受到利润率较低且商品化程度更高的消费级3D图形类别的拖累。 6park.com

那么这怎么可能呢?主要原因与软件有关——更好的驱动程序“可以直接在 Linux上运行”,并且经过高度测试和可靠(不像AMD,其 Linux驱动程序质量低下且不稳定),以及流行库(如 PyTorch)中经过高度优化的开源代码,这些库已经过调整,可以在 Nvidia GPU上很好地运行。 6park.com

但事情远不止于此——程序员用来编写针对 GPU优化的低级代码的编程框架CUDA完全由 Nvidia 专有,并且已成为事实上的标准。如果你想雇佣一群非常有才华的程序员,他们知道如何让GPU运行得非常快,并支付他们 65万美元/年或任何具有该特定专业知识的人的现行工资,那么他们很可能会“思考”并使用 CUDA。 6park.com

除了软件优势之外,Nvidia的另一个主要优势是所谓的互连——本质上是将数千个GPU有效连接在一起的带宽,以便它们可以共同用于训练当今领先的基础模型。简而言之,高效训练的关键是始终尽可能充分利用所有GPU——而不是等待空闲,直到它们收到计算训练过程下一步所需的下一块数据。 6park.com

带宽要求极高——远高于传统数据中心用例所需的典型带宽。您实际上无法使用传统网络设备或光纤进行这种互连,因为这会带来太多延迟,并且无法提供让所有GPU持续忙碌所需的纯每秒万亿字节级带宽。 6park.com

Nvidia于2019年做出了一个非常明智的决定,以区区69亿美元的价格收购了以色列公司 Mellanox,这次收购为他们带来了业界领先的互连技术。请注意,互连速度与训练过程更相关,因为训练过程需要同时整合数千个GPU的输出,而推理过程(包括COT推理)只需要少数几个 GPU — 您只需要足够的VRAM来存储已训练模型的量化(压缩)模型权重。 6park.com

因此,这些可以说是 Nvidia“护城河”的主要组成部分,也是它能够长期保持如此高利润的原因(其中也有一个“飞轮”方面的原因,即他们积极地将超额利润投入到大量研发中,这反过来又帮助他们以比竞争对手更快的速度改进技术,因此他们在原始性能方面始终处于领先地位)。 6park.com

但正如前面指出的那样,在其他所有条件相同的情况下,客户真正关心的是每美元的性能(包括设备的前期资本支出成本和能源使用,即每瓦性能),尽管 Nvidia的GPU无疑是最快的,但仅以 FLOPS来衡量,它们并不是最好的性价比。 6park.com

但问题是,其他所有事情都不一样,而且AMD的驱动程序很烂,流行的AI软件库在AMD GPU上运行得也不好,在游戏世界之外你找不到真正擅长AMD GPU的 GPU专家(当市场对CUDA专家的需求更大时,他们为什么要费心呢?),由于 AMD的互连技术很差,你无法有效地将数千个GPU连接在一起——所有这些都意味着AMD在高端数据中心领域基本上没有竞争力,而且在短期内似乎没有很好的前景。 6park.com

好吧,这一切听起来对 Nvidia来说都很乐观,对吧?现在您可以看到为什么股票的估值如此之高!但地平线上还有哪些其他阴云呢?嗯,我认为很少有值得特别关注的。有些威胁在过去几年一直潜伏在幕后,但考虑到市场增长速度之快,它们规模太小,无法产生影响,但它们正准备向上发展。其他威胁则是最近才出现的(例如,过去两周),可能会极大地改变 GPU需求增量的近期轨迹。 6park.com

主要威胁 6park.com

从非常高的层次来看,你可以这样想:Nvidia在一个相当小众的领域运营了很长时间;他们的竞争对手非常有限,而且竞争对手的利润率或增长速度都不足以构成真正的威胁,因为他们没有足够的资本来真正对 Nvidia这样的市场领导者施加压力。游戏市场规模庞大且不断增长,但并没有惊人的利润率或特别惊人的同比增长率。 6park.com

一些大型科技公司在2016-2017年左右开始加大招聘力度,加大对机器学习和人工智能的投入,但从总体上看,这对任何一家公司来说都不是一个真正重要的项目——更像是一项“登月”式的研发支出。但是,随着 2022年ChatGPT的发布,人工智能大竞赛正式拉开帷幕——虽然从发展的角度来看,这似乎是一辈子以前的事了,但距离现在只有两年多一点——这种情况发生了巨大变化。 6park.com

突然之间,大公司准备以惊人的速度投入数十亿美元。参加 Neurips和 ICML等大型研究会议的研究人员数量急剧增加。所有之前可能研究金融衍生品的聪明学生都转而研究 Transformers,非执行工程职位(即非管理团队的独立贡献者)的薪酬待遇超过100万美元成为领先 AI实验室的常态。 6park.com

改变一艘大型游轮的方向需要一段时间;即使你行动迅速并投入数十亿美元,也需要一年或更长时间才能建成绿地数据中心并订购所有设备(交货时间不断膨胀)并使其全部设置好并运行。即使是聪明的程序员,也需要很长时间才能真正发挥自己的才能并熟悉现有的代码库和基础设施。 6park.com

但现在,你可以想象,在这个领域投入了绝对惊人的资金、智力和努力。而 Nvidia是所有玩家中最大的目标,因为他们是今天赚取最大利润的人,而不是在某个人工智能控制着我们的整个生活的假设的未来。 6park.com

因此,从高层次上讲,基本上就是“市场找到了出路”;他们找到了替代的、彻底创新的硬件构建方法,利用全新的想法来绕过有助于支撑 Nvidia护城河的障碍。 6park.com

硬件层面的威胁 6park.com

例如,Cerebras所谓的“晶圆级”AI训练芯片,将整个300毫米硅晶圆专用于绝对庞大的芯片,单个芯片上的晶体管和内核数量级更高(请参阅他们最近的博客文章,其中解释了他们如何解决过去阻碍这种方法经济实用的“产量问题”)。 6park.com

为了更好地理解这一点,如果将Cerebras最新的 WSE-3芯片与 Nvidia的旗舰数据中心 GPU H100 进行比较,Cerebras芯片的总芯片面积为46225平方毫米,而 H100仅为 814平方毫米(而 H100 本身按照行业标准被认为是一个巨大的芯片);这是约 57倍的倍数!而且,与 H100不同,Cerebras芯片上启用了 132个“流式多处理器”核心,而是有大约 90万个核心(当然,每个核心都更小,功能也少得多,但相比之下,这个数字仍然大得令人难以置信)。更具体地说,Cerebras 芯片在 AI环境中的 FLOPS大约是单个 H100芯片的32倍。由于H100的售价接近4万美元,因此可以想象 WSE-3芯片并不便宜。 6park.com

那么,这一切为什么重要呢?Cerebras并没有试图使用类似的方法与 Nvidia正面交锋,并试图与 Mellanox互连技术相匹敌,而是使用了一种彻底创新的方法来解决互连问题:当所有东西都运行在同一个超大芯片上时,处理器间带宽不再是一个问题。您甚至不需要具有相同级别的互连,因为一个巨型芯片可以取代大量的H100。 6park.com

而且 Cerebras芯片在AI推理任务中也表现得非常好。事实上,您可以在这里免费试用,并使用 Meta非常受人尊敬的 Llama-3.3-70B型号。它基本上可以即时反应,每秒约 1500个符记。从这个角度来看,根据与 ChatGPT和Claude的比较,任何超过每秒 30个符记的速度对用户来说都感觉相对敏捷,甚至每秒10个符记的速度也足够快,您基本上可以在生成反应时读取反应。 6park.com

Cerebras并非孤军奋战,还有其他公司,比如Groq(不要将其与埃隆·马斯克的 X AI训练的 Grok 模型系列混淆)。Groq采取了另一种创新方法来解决同样的基本问题。他们没有试图直接与 Nvidia的 CUDA软件堆栈竞争,而是开发了所谓的“张量处理单元”(TPU),专门用于深度学习模型需要执行的精确数学运算。他们的芯片是围绕一种称为“确定性计算”的概念设计的,这意味着,与操作的确切时间可能有所不同的传统 GPU不同,他们的芯片每次都以完全可预测的方式执行操作。 6park.com

这听起来可能只是一个小技术细节,但实际上它对芯片设计和软件开发都有着巨大的影响。由于时间是完全确定的,Groq可以以传统 GPU架构无法实现的方式优化其芯片。因此,在过去 6个多月的时间里,他们一直在使用 Llama系列模型和其他开源模型展示每秒超过500个符记的推理速度,远远超过了传统 GPU设置所能达到的速度。与 Cerebras一样,这款产品现已上市,您可以在此处(console.groq.com/playground)免费试用。 6park.com

使用具有“推测解码”的类似 Llama3模型,Groq能够每秒生成1320个符记,与 Cerebras相当,远远超过使用常规 GPU所能达到的速度。现在,您可能会问,当用户似乎对 ChatGPT非常满意时,实现每秒 1000 多个符记有什么意义呢?ChatGPT的运行速度还不到该速度的 10%。事实是,这确实很重要。当你获得即时反馈时,它可以更快地进行迭代,并且不会失去作为人类知识工作者的注意力。如果你通过API以编程方式使用该模型,而这越来越多地成为需求的来源,那么它可以启用需要多阶段推理(其中前几个阶段的输出用作提示/推理的连续阶段的输入)或需要低延迟响应的全新应用程序类别,例如内容审核、欺诈检测、动态定价等。 6park.com

但更重要的是,你处理请求的速度越快,你循环的速度就越快,硬件的繁忙程度就越高。虽然 Groq的硬件非常昂贵,单台服务器的价格为200万到300万美元,但如果你有足够的需求让硬件一直忙碌,那么完成每个请求的成本就会低得多。 6park.com

和 Nvidia的CUDA一样,Groq的优势很大一部分来自于他们自己的专有软件堆栈。他们能够采用 Meta、DeepSeek 和 Mistral等其他公司免费开发和发布的相同开源模型,并以特殊方式分解它们,使它们在特定硬件上运行速度显著加快。 6park.com

和 Cerebras一样,他们做出了不同的技术决策来优化流程的某些特定方面,这使他们能够以完全不同的方式做事。就 Groq而言,这是因为他们完全专注于推理级计算,而不是训练:他们所有特殊的硬件和软件只有在对已经训练好的模型进行推理时才能提供巨大的速度和效率优势。 6park.com

但是,如果人们所期待的下一个大扩展定律是推理级计算——如果 COT模型的最大缺点是必须生成所有这些中间逻辑符记才能做出反应而导致的高延迟——那么即使是一家只进行推理计算但速度和效率都比Nvidia快得多的公司——也可能在未来几年带来严重的竞争威胁。至少,Cerebras和Groq可以削弱当前股票估值中对 Nvidia未来2-3年收入增长的高预期。 6park.com

除了这些特别创新、但相对不为人知的初创竞争对手之外,Nvidia的一些最大客户也带来了严峻的竞争,他们一直在制造专门针对 AI训练和推理工作负载的定制芯片。其中最知名的可能是谷歌,该公司自 2016年以来一直在开发自己的专有TPU。有趣的是,尽管谷歌曾短暂地向外部客户出售 TPU,但过去几年来,谷歌一直在内部使用其所有TPU,而且它已经使用了第六代TPU硬件。 6park.com

亚马逊也一直在开发自己的定制芯片Trainium2和Inferentia2。在亚马逊建造拥有数十亿美元 Nvidia GPU 的数据中心的同时,他们也在使用这些内部芯片的其他数据中心投资数十亿美元。他们有一个硬件集群正在为 Anthropic上线,该集群拥有超过40万个芯片。 6park.com

亚马逊因完全搞砸了其内部AI模型开发而受到大量批评,将大量内部计算资源浪费在最终没有竞争力的模型上,但定制芯片又是另一回事。同样,他们不一定需要他们的芯片比Nvidia的更好更快。他们需要的是他们的芯片足够好,但要以盈亏平衡的毛利率来制造它们,而不是 Nvidia在其 H100业务上赚取的约90%以上的毛利率。 6park.com

OpenAI还宣布了制造定制芯片的计划,他们(与微软一起)显然是Nvidia数据中心硬件的最大单一用户。似乎这还不够,微软自己也宣布了他们自己的定制芯片! 6park.com

而苹果,作为世界上最有价值的科技公司,多年来一直以其高度创新和颠覆性的定制硅片操作超出预期,现在在每瓦性能方面完全击败了英特尔和AMD的CPU,这是移动(手机/平板电脑/笔记本电脑)应用中最重要的因素。多年来,他们一直在制造自己内部设计的 GPU和“神经处理器”,尽管他们还没有真正展示这种芯片在他们自己的定制应用程序之外的实用性,比如 iPhone相机中使用的基于软件的高级图像处理。 6park.com

虽然苹果的重点似乎与其他参与者在移动优先、面向消费者、“边缘计算”方面有些正交,但如果它最终在与 OpenAI的新合同上投入足够的资金,为iPhone用户提供人工智能服务,你必须想象他们有团队正在研究制作自己的定制硅片用于推理/训练(尽管鉴于他们的保密性,你可能永远不会直接知道它!)。 6park.com

现在,Nvidia的超大规模客户群呈现出强大的幂律分布,这已经不是什么秘密了,其中少数顶级客户占据了高利润收入的最大份额。当这些 VIP客户中的每一个都在为 AI训练和推理构建自己的定制芯片时,人们应该如何看待这项业务的未来? 6park.com

在考虑所有这些时,您应该记住一件非常重要的事情:Nvidia在很大程度上是一家基于IP的公司。他们不生产自己的芯片。制造这些令人难以置信的设备的真正秘诀可以说更多地来自台积电(实际的晶圆厂)和 ASML,后者制造了台积电用来制造这些尖端工艺节点芯片的特殊 EUV 光刻机。这至关重要,因为台积电会将他们最先进的芯片卖给任何有足够前期投资并愿意保证一定数量的人。他们不在乎它是用于比特币挖矿ASIC、GPU、TPU,还是手机 SoC等。 6park.com

Nvidia的高级芯片设计师每年能挣很多钱,其中一些最优秀的设计师肯定会被其他科技巨头以足够的现金和股票挖走。一旦他们有了团队和资源,他们就可以在2到3年内设计出创新的芯片(再提一下,这些芯片可能还不到 H100先进程度的50%,但考虑到 Nvidia的毛利率,还有很大的发挥空间),而且多亏了台积电,他们可以使用与 Nvidia完全相同的工艺节点技术将这些芯片变成真正的硅片。 6park.com

软件的威胁 6park.com

似乎这些迫在眉睫的硬件威胁还不够严重,过去几年软件领域出现了一些发展,虽然起步缓慢,但现在正在真正发力,可能对 Nvidia CUDA的软件主导地位构成严重威胁。其中第一个就是 AMD GPU的糟糕 Linux驱动程序。还记得我们谈到AMD多年来如何莫名其妙地允许这些驱动程序糟糕透顶,尽管白白地看着这笔钱被人赚了? 6park.com

有趣的是,臭名昭著的黑客霍兹(George Hotz)(因在十几岁时破解第一代iPhone而闻名,目前是自动驾驶初创公司 Comma.ai和人工智能计算机公司Tiny Corp的首席执行官,该公司还制作了开源 tinygrad人工智能软件框架)最近宣布,他厌倦了处理AMD的糟糕驱动程序,并迫切希望能够在他们的 TinyBox人工智能计算机中利用成本较低的AMD GPU(有多种版本,其中一些使用 Nvidia GPU,一些使用 AMD GPU)。 6park.com

好吧,他正在为 AMD GPU制作自己的定制的驱动程序和软件堆栈,而AMD自己并没有提供任何帮助;2025年1月15日,他通过公司的 X帐户发推文称:“我们距离 AMD上完全自主的堆栈 RDNA3 汇编程序只有一步之遥。我们有自己的驱动程序、运行时、库和模拟器。(全部约 1万2千行!)” 鉴于他的过往记录和技能,他们很可能会在未来几个月内完成所有这些工作,这将为使用 AMD GPU 进行各种应用程序提供许多令人兴奋的可能性,而目前这些应用程序公司不得不为 Nvidia GPU付费。 6park.com

好吧,这只是AMD的一个驱动程序,甚至还没有完成。还有什么?好吧,软件方面还有其他一些影响更大的领域。首先,许多大型科技公司和整个开源软件社区现在都在齐心协力开发更通用的 AI 软件框架,而 CUDA只是众多“编译目标”之一。 6park.com

也就是说,你使用更高级别的抽象来编写软件,系统本身可以自动将这些高级构造转换为在CUDA 上运行良好的超级优化的低级代码。但由于它是在这种更高的抽象级别上完成的,因此它可以轻松地编译成在来自各种提供商的许多其他 GPU和TPU上运行良好的低级代码,例如来自每个大型科技公司的大量定制芯片。 6park.com

这些框架最著名的例子是 MLX(主要由 Apple赞助)、Triton(主要由 OpenAI赞助)和 JAX(由 Google开发)。MLX特别有趣,因为它提供了一个类似 PyTorch的 API,可以在 Apple Silicon 上高效运行,展示了这些抽象层如何使 AI工作负载能够在完全不同的架构上运行。与此同时,Triton变得越来越受欢迎,因为它允许开发人员编写高性能代码,这些代码可以编译为在各种硬件目标上运行,而无需了解每个平台的低级细节。 6park.com

这些框架允许开发人员使用高性能抽象编写一次代码,然后自动针对大量平台 - 这听起来不是更好的做事方式吗?这将为您在实际运行代码的方式方面提供更大的灵活性? 6park.com

在1980年代,所有最流行、最畅销的软件都是用手工调整的汇编语言编写的。例如,PKZIP压缩实用程序是手工编写的,以最大限度地提高速度,以至于用标准 C编程语言编写的编码版本,使用当时最好的优化编译器编译,运行速度可能只有手工调整的汇编代码的一半。其他流行的软件包(如 WordStar、VisiCalc 等)也是如此。 6park.com

随着时间的推移,编译器变得越来越好,每当CPU架构发生变化时(例如,从英特尔发布 486,然后是奔腾,等等),那个手工编写的汇编程序通常必须被抛弃并重写,这是只有最聪明的程序员才能做到的(有点像 CUDA专家在就业市场上与“普通”软件开发人员处于不同的水平)。最终,事情趋于一致,以至于手工编写的汇编程序的速度优势被能够用C或 C++等高级语言编写代码的灵活性大大抵消,在这些语言中,您依靠编译器使程序在给定的CPU上真正以最佳方式运行。 6park.com

如今,很少有新代码是用汇编语言编写的。我相信人工智能训练和推理代码最终也会发生类似的转变,原因也类似:计算机擅长优化,而灵活性和开发速度正日益成为重要的因素——尤其是如果它还能让你大幅节省硬件费用,因为你不需要继续支付 Nvidia带来90%以上利润的“CUDA 税”。 6park.com

另一个你可能会看到事情发生巨大变化的领域是,CUDA最终可能会成为一种高级抽象——一种类似于 Verilog(用作描述芯片布局的行业标准)的“规范语言”,熟练的开发人员可以使用它来描述涉及大规模并行性的高级算法(因为他们已经熟悉它,它构造得非常好,它是通用语言等),但随后,你不必像平常一样将该代码编译用于 Nvidia GPU,而是可以将其作为源代码输入到大型语言模型中,然后将其移植到新的Cerebras芯片、新的Amazon Trainium2或新的Google TPUv6等可以理解的任何低级代码中。这并不像你想象的那么遥远;使用 OpenAI最新的 O3模型,它可能已经触手可及,而且肯定会在一两年内普遍实现。 6park.com

理论上的威胁 6park.com

也许之前提到的最令人震惊的发展发生在最近几周。这个消息彻底震撼了人工智能世界,尽管主流媒体上完全没有报道,但它却主导了推特上知识渊博人士的讨论:一家名为 DeepSeek的中国小型初创公司发布了两个新模型,它们的性能水平基本上与 OpenAI和Anthropic的最佳模型相当(超越了Meta Llama3模型和其他较小的开源模型参与者,如 Mistral)。这些模型被称为 DeepSeek-V3(基本上是他们对 GPT-4o 和 Claude3.5 Sonnet的回答和DeepSeek-R1(基本上是他们对OpenAI的O1模型的回答)。 6park.com

为什么这一切如此令人震惊?嗯,首先,DeepSeek是一家小型中国公司,据报道员工人数不到 200人。据说他们最初是一家类似于TwoSigma或 RenTec的量化交易对冲基金,但在习近平打击该领域后,他们利用自己的数学和工程能力转向人工智能研究。谁知道这些是真是假,还是他们只是中共或中国军方的某种幌子。但事实是,他们已经发布了两份非常详细的技术报告,分别是DeepSeek-V3和 DeepSeekR1。 6park.com

这些是繁琐的技术报告,如果你对线性代数了解不多,可能就看不懂太多。但你真正应该尝试的是下载 AppStore上(apps.apple.com/us/app/deepseek-ai-assistant/id6737597349)的免费 DeepSeek应用,使用 Google帐户登录安装并试用(你也可以在此处在 Android上play.google.com/store/apps/details?id=com.deepseek.chat&hl=en_US&pli=1 安装),或者简单地在浏览器中在台式电脑上(https://chat.deepseek.com/sign_in)试用。确保选择“DeepThink”选项以启用思路链(R1模型),并要求它用简单的术语解释技术报告的部分内容。 6park.com

这将同时向你展示一些重要的事情: 6park.com

首先,这个模型绝对是货真价实。AI基准测试中有很多狗屎,这些基准测试经常被操纵,因此模型在基准测试中表现很好,但在现实世界的测试中却很糟糕。在这方面,谷歌无疑是最糟糕的,他们不断吹嘘他们的大型语言模型有多么棒,但他们在任何现实世界的测试中都表现得很糟糕,甚至无法可靠地完成最简单的任务,更不用说具有挑战性的编码任务了。这些DeepSeek模型不是这样的——它们的反应是连贯的、令人信服的,并且绝对与OpenAI和Anthropic的反应处于同一水平。 6park.com

第二,DeepSeek不仅在模型质量方面取得了长足进步,更重要的是在模型训练和推理效率方面也取得了长足进步。通过极其接近硬件并将一些独特的、非常巧妙的优化层层叠加,DeepSeek能够以显著更高效的方式使用 GPU训练这些令人难以置信的模型。根据一些测量,其效率比其他前沿模型高出约45倍。DeepSeek声称训练 DeepSeek-V3的全部成本略高于500万美元。按照OpenAI、Anthropic等的标准,这绝对不算什么,早在2024年,它们单个模型的训练成本就已达到 1亿美元以上。 6park.com

这怎么可能?这家小小的中国公司怎么能完全抢走我们领先的人工智能实验室里所有最聪明的人的风头,而这些实验室拥有 100 倍以上的资源、员工人数、工资单、资本、GPU 等?拜登对GPU出口的限制难道不应该让中国陷入瘫痪吗?好吧,细节相当技术性,但我们至少可以从高层次描述它们。也许事实证明,DeepSeek相对缺乏GPU处理能力是使其更具创造性和更聪明的关键因素,需求是发明之母。 6park.com

一项重大创新是他们复杂的混合精度训练框架,使他们能够在整个训练过程中使用8-bit浮点数 (FP8)。大多数西方人工智能实验室使用“全精度”32-bit浮点数字进行训练(这基本上指定了描述人工神经元输出的可能等级数;FP8中的8-bit让您可以存储比您预期的更广泛的数字 - 它不仅限于256个不同的相等大小的量级,就像您使用常规整数获得的那样,而是使用巧妙的数学技巧来存储非常小和非常大的数字 - 虽然自然精度低于32位。)主要的权衡是,虽然 FP32可以在巨大的范围内以令人难以置信的精度存储数字,但 FP8牺牲了部分精度以节省内存并提高性能,同时仍保持足够的精度以满足许多人工智能工作负载。 6park.com

DeepSeek通过开发一个巧妙的系统解决了这个问题,该系统将数字分解成小块以进行激活,将块分解为权重,并在网络的关键点策略性地使用高精度计算。与其他以高精度进行训练然后进行压缩(在此过程中会损失一些质量)的实验室不同,DeepSeek的原生FP8方法意味着他们可以节省大量内存而不会影响性能。当您在数千个 GPU上进行训练时,每个GPU的内存需求大幅减少意味着总体上需要的GPU数量会大大减少。 6park.com

另一个重大突破是他们的多符记预测系统。大多数基于Transformer的大型语言模型通过预测下一个符记(一次一个符记)来进行推理。DeepSeek想出了如何预测多个符记,同时保持单符记预测的质量。他们的方法在这些额外的符记预测上实现了大约 85-90%的准确率,有效地将推理速度提高了一倍,而没有牺牲太多质量。巧妙之处在于他们保持了预测的完整因果链,因此模型不仅仅是猜测——它正在做出结构化的上下文预测。 6park.com

他们最具创新性的开发之一是他们所谓的多头潜在注意力 (MLA)。这是他们在处理所谓的键值索引方面取得的突破,这基本上是单个符记在 Transformer架构中的注意力机制中的表示方式。虽然从技术角度来说这有点太高级了,但可以说这些 KV索引是 VRAM在训练和推理过程中的主要用途,也是为什么需要同时使用数千个 GPU 来训练这些模型的原因之一——每个GPU最多有96GB的 VRAM,而这些索引会把这些内存耗尽。 6park.com

他们的 MLA系统找到了一种存储这些索引的压缩版本的方法,这种方法可以捕获基本信息,同时占用更少的内存。最妙的是,这种压缩直接内置在模型的学习方式中——这不是他们需要做的某个单独步骤,而是直接内置在端到​​端训练频道中。这意味着整个机制是“可微分的”,并且能够直接使用标准优化器进行训练。所有这些都有效,因为这些模型最终会找到比所谓的“环境维度”低得多的底层数据表示。因此,存储完整的KV索引是一种浪费,尽管这基本上是其他人所做的。 6park.com

您不仅会因为没有存储了比所需多得多的数字而浪费大量空间,从而大大提高训练内存占用和效率(还有,大幅减少训练世界级模型所需的GPU数量),而且实际上还可以提高模型质量,因为它可以充当“规则调整器”,迫使模型关注真正重要的东西,而不是使用浪费的容量来适应训练数据中的噪音。因此,您不仅可以节省大量内存,而且模型甚至可能表现更好。至少,您不会因为节省大量内存而遭受性能的大幅下降,这通常是您在AI训练中面临的权衡。 6park.com

他们还通过“双管”算法和自定义通信内核在GPU通信效率方面取得了重大进展。该系统智能地重叠计算和通信,仔细平衡这些任务之间的 GPU资源。他们只需要大约20个GPU的流式多处理器 (SMs) 进行通信,其余的则用于计算。结果是GPU利用率比典型的训练设置高得多。 6park.com

他们做的另一件非常聪明的事情是使用所谓的混合专家 (MOE) Transformer架构,但在负载平衡方面进行了关键创新。您可能知道,AI模型的大小或容量通常是根据模型包含的参数数量来衡量的。参数只是一个存储模型某些属性的数字;特定人工神经元相对于另一个人工神经元的“权重”或重要性,或特定标记根据其上下文(在“注意机制”中)的重要性,等等。 6park.com

Meta的最新 Llama3模型有几种大小,例如:10亿参数版本(最小)、70B参数模型(最常部署的模型),甚至还有 405B参数的大型模型。对于大多数用户来说,这种最大的模型实用性有限,因为您需要在计算机上安装价值数万美元的GPU才能以可接受的速度运行推理,至少如果您在简单的全精度版本中部署它的话。因此,这些开源模型在现实世界中的大多数使用和兴奋点都在8B参数或高度量化的70B参数级别,因为这正是消费级 Nvidia 4090 GPU可以容纳的,您现在可以用不到 1000美元的价格购买它。 6park.com

那么,为什么这些都很重要呢?从某种意义上说,参数数量和精度可以告诉你模型内部存储了多少原始信息或数据。请注意,我不是在谈论推理能力,也不是模型的“智商”:事实证明,即使是参数数量出奇地少的模型,在解决复杂的逻辑问题、证明平面几何定理、SAT数学问题等方面,也能表现出非凡的认知能力。 6park.com

但这些小模型不一定能告诉你司汤达每部小说中每个情节转折的方方面面,而真正的大模型却有可能做到这一点。这种极端知识水平的“代价”是,模型变得非常难以训练和推理,因为你总是需要同时将这 405B个参数中的每一个(或任何参数数量)存储在GPU的 VRAM 中,才能对模型进行任何推理。 6park.com

MOE模型方法的优点在于,您可以将大模型分解为一组较小的模型,每个模型都了解不同的、不重叠(至少是完全不重叠)的知识。DeepSeek在这方面的创新是开发他们所谓的“无辅助损失”负载平衡策略,该策略可保持专家的有效利用,而不会出现负载平衡通常带来的性能下降。然后,根据推理请求的性质,您可以智能地将推理路由到该组较小模型中最能回答该问题或解决该任务的“专家”模型。 6park.com

您可以粗略地将其视为一个由拥有自己专业知识领域的专家组成的委员会:一个可能是法律专家,另一个可能是计算机科学专家,另一个可能是商业战略专家。因此,如果出现有关线性代数的问题,您不会将其交给法律专家。这当然是一个非常宽泛的类比,在实践中实际上并不是这样运作的。 6park.com

这种方法的真正优势在于,它允许模型包含大量知识而不会非常笨重,因为即使所有专家的参数总数很高,但在任何给定时间,这些参数中只有一小部分是“活动的”,这意味着您只需将这一小部分权重存储在VRAM中即可进行推理。就 DeepSeek-V3而言,它们拥有一个绝对庞大的 MOE模型,包含671B个参数,因此它比最大的Llama3模型还要大得多,但在任何给定时间,这些参数中只有 37B 处于活动状态——足以装入两个消费级 Nvidia 4090GPU的 VRAM(总成本不到 2000美元),而不需要一个或多个H100 GPU,它每个GPU的成本约为 4万美元。 6park.com

据传,ChatGPT和Claude都使用 MoE架构,一些泄露的消息表明 GPT-4总共有1.8万亿个参数,分布在8个模型中,每个模型包含2200亿个参数。尽管这比试图将所有 1.8万亿个参数装入VRAM更容易实现,但由于使用了巨额内存,仅运行该模型仍然需要多个H100级GPU。 6park.com

除了已经描述的内容之外,技术论文还提到了其他几个关键的优化。这些包括极其节省内存的训练框架,避免了张量并行,在反向传播期间重新计算某些操作而不是存储它们,并在主模型和辅助预测模块之间共享参数。所有这些创新加在一起,已经带来了约 45倍的效率提升数字,这些数字在网上流传开来,我完全愿意相信这些数字是正确的。 6park.com

一个非常有力的指标是 DeepSeek的 API成本:尽管DeepSeek的模型性能几乎是同类中最好的,但通过其API进行推理请求的费用比 OpenAI 和 Anthropic的同类模型低 95%左右。从某种意义上说,这有点像将 Nvidia的GPU与竞争对手的新定制芯片进行比较:即使它们不那么好,但性价比要高得多,因此根据应用程序的不同,它仍然是轻而易举去选择的事,只要您可以限定性能水平并证明它足以满足您的要求,并且 API可用性和延迟足够好(到目前为止,尽管由于这些新型号的性能而出现了令人难以置信的需求激增,但人们对 DeepSeek基础设施的良好表现感到惊讶)。 6park.com

但与 Nvidia的情况不同,Nvidia的成本差异是其数据中心产品获得 90%以上的垄断毛利率的结果,而 DeepSeek API 相对于OpenAI 和 Anthropic API的成本差异可能仅仅是它们的计算效率高出近 50 倍(在推理方面甚至可能远远高于这个数字——~45倍的效率是在训练方面)。事实上,甚至不清楚 OpenAI 和 Anthropic是否从他们的 API服务中获得了巨大的利润——他们可能更感兴趣的是收入增长和通过分析收到的所有 API请求来收集更多数据。 6park.com

在继续之前,如果我不提到许多人猜测 DeepSeek在训练这些模型的 GPU数量和 GPU小时数方面撒谎,那我就太失职了,因为他们实际上拥有的 H100数量远远超过他们应该拥有的数量,因为这些卡受到出口限制,他们不想给自己带来麻烦或损害他们获得更多这些卡的机会。虽然这确实有可能,但我认为他们说的更有可能是实话,他们只是通过极其聪明和富有创意的训练和推理方法才取得了这些令人难以置信的成果。他们解释了他们的做法,我认为他们的研究结果被其他实验室的其他研究人员广泛复制和证实只是时间问题。 6park.com

真正能够思考的模型 6park.com

较新的R1模型和技术报告甚至可能更加令人震惊,因为他们能够在思想链上击败 Anthropic,现在基本上是除OpenAI之外唯一能够大规模使用这项技术的公司。但请注意,O1预览模型是 OpenAI 于2024年9月中旬发布的。这只是大约 4个月前的事!你必须记住的一点是,OpenAI对这些模型在低水平上的实际工作方式非常保密,并且不会向除微软等签署重型NDA的合作伙伴以外的任何人发布实际的模型权重。与 OpenAI不同,这些 DeepSeek模型都是完全开源的,并且获得了许可。他们发布了非常详细的技术报告,解释了它们的工作原理,以及任何人都可以查看和尝试复制的代码。 6park.com

借助R1,DeepSeek基本上破解了人工智能的圣杯之一:让模型逐步推理,而无需依赖大量监督数据集。他们的 DeepSeek-R1-Zero实验展示了一些非凡的成果:使用纯强化学习和精心设计的奖励函数,他们成功让模型完全自主地开发出复杂的推理能力。这不仅仅是解决问题——模型有机地学会了生成长链思维、自我验证其工作,并为更难的问题分配更多的计算时间。 6park.com

这里的技术突破是他们对奖励建模的新颖方法。他们没有使用可能导致“奖励黑客”的复杂神经奖励模型(即模型找到虚假的方式来提高奖励,但实际上并不会带来更好的现实世界模型性能),而是开发了一个巧妙的基于规则的系统,该系统将准确性奖励(验证最终答案)与格式奖励(鼓励结构化思维)相结合。事实证明,这种更简单的方法比其他人尝试过的基于过程的奖励模型更强大、更可扩展。 6park.com

特别令人着迷的是,在训练过程中,他们观察到了所谓的“顿悟时刻”,在这个阶段,模型自发地学会在遇到不确定性时中途修改其思维过程。这种突发行为不是明确编程的;它是自然产生的,源自模型与强化学习环境之间的交互。模型会真正停止自身运行,标记其推理中的潜在问题,并以不同的方法重新启动,而所有这些都没有经过明确的训练。 6park.com

完整的R1模型基于这些见解,在应用强化学习技术之前引入了他们所谓的“冷启动”数据(一小组高质量示例)。他们还解决了推理模型的主要挑战之一:语言一致性。以前尝试进行思路链推理时,模型经常会混合语言或产生不连贯的输出。DeepSeek通过在强化学习训练期间巧妙地提供语言一致性奖励解决了这个问题,以较小的性能损失换取更易读、更一致的输出。 6park.com

结果令人难以置信:在最具挑战性的高中数学竞赛之一 AIME2024上,R1的准确率达到 79.8%,与 OpenAI 的 O1模型相当。在 MATH-500上,它达到了 97.3%,在Codeforces编程竞赛中获得了 96.3百分位。但也许最令人印象深刻的是,他们设法将这些功能提炼为更小的模型:他们的 14B 参数版本的表现优于许多其大小几倍的模型,这表明推理能力不仅与原始参数数量有关,还与如何训练模型来处理信息有关。 6park.com

后果 6park.com

最近 Twitter和 Blind(一家企业谣言网站)上的传言是,这些模型让 Meta措手不及,而且它们的表现比仍在训练中的新 Llama4模型更好。显然,Meta内部的 Llama项目引起了高级技术主管的大量关注,因此他们有大约 13个人在从事Llama项目,每个人每年的总薪酬都高于表现优于它的 DeepSeek-V3模型的总培训成本。你如何面不改色地向扎克伯格解释这一点?扎克伯格为何在向 Nvidia投入数十亿美元购买10万台 H100的同时保持微笑,而一个更好的模型仅用 2000台 H100 训练而成,花费略高于500万美元? 6park.com

但你最好相信,Meta和其他所有大型人工智能实验室都在拆开这些DeepSeek模型,研究这些技术报告中的每一个字和他们发布的开源代码的每一行,拼命地试图将这些相同的技巧和优化集成到他们自己的训练和推理管道中。那么这一切的影响是什么呢?好吧,天真地认为,训练和推理计算的总需求应该除以某个大数字。也许不是除以45,但可能是除以25甚至30?因为无论你在这些模型发布之前认为你需要什么,现在都少了很多。 6park.com

现在,乐观主义者可能会说:“你谈论的只是一个比例常数,一个倍数。当你面对指数增长曲线时,这些东西很快就会被淘汰,最终变得不那么重要了。”这确实有一定道理:如果人工智能真的像我预期的那样具有变革性,如果这项技术在现实世界中的效用以万亿为单位,如果推理时间计算是新的扩展法则,如果我们将拥有大批人形机器人四处奔波,不断进行大量推理,那么也许增长曲线仍然如此陡峭和极端,而 Nvidia拥有足够大的领先优势,它仍然会奏效。 6park.com

但 Nvidia在未来几年的定价中体现了许多好消息,以使该估值有意义,当你开始将所有这些因素叠加在一起形成一幅完整的马赛克时,它至少让我对花费约 20 倍于 2025 年预计销售额的价格购买其股票感到非常不安。如果你看到销售增长略有放缓,会发生什么?如果结果是 85%而不是 100%以上呢?如果毛利率从75%到70%不等呢——这对于一家半导体公司来说还是太高了? 6park.com

总结 6park.com

从高层次来看,NVIDIA面临着前所未有的竞争威胁,这使得其20倍远期销售额和75%毛利率的溢价估值越来越难以证明其合理性。该公司在硬件、软件和效率方面的所谓护城河都出现了令人担忧的裂痕。全世界——地球上数以千计的最聪明的人,在数十亿美元的资本资源的支持下——正试图从各个角度攻击他们。 6park.com

在硬件方面,Cerebras和 Groq的创新架构表明,NVIDIA的互连优势——其数据中心主导地位的基石——可以通过彻底的重新设计来规避。Cerebras的晶圆级芯片和 Groq的确定性计算方法无需 NVIDIA复杂的互连解决方案即可提供令人信服的性能。更传统的是,每个主要的 NVIDIA 客户(谷歌、亚马逊、微软、Meta、苹果)都在开发定制芯片,这可能会蚕食高利润数据中心的收入。这些不再是实验项目——仅亚马逊一家就为 Anthropic建设了拥有超过 40万个定制芯片的庞大基础设施。 6park.com

软件护城河似乎同样脆弱。MLX、Triton 和 JAX等新的高级框架正在抽象化 CUDA的重要性,而改进 AMD驱动程序的努力可能会解锁更便宜的硬件替代品。向更高级别抽象的趋势反映了汇编语言如何让位于 C/C++,这表明 CUDA 的主导地位可能比想象的更为短暂。最重要的是,我们看到了LLM 驱动的代码转换的出现,它可以自动将 CUDA代码移植到任何硬件目标上运行,从而有可能消除 NVIDIA最强大的锁定效应之一。 6park.com

也许最具破坏性的是 DeepSeek最近的效率突破,以大约 1/45的计算成本实现了可比的模型性能。这表明整个行业一直在大量过度配置计算资源。再加上通过思路链模型出现的更高效的推理架构,对计算的总体需求可能远低于目前的预测。这里的经济学原理是引人注目的:当 DeepSeek可以达到 GPT-4级别的性能,同时 API调用费用降低 95%时,这表明要么 NVIDIA的客户正在不必要地烧钱,要么利润率必须大幅下降。 6park.com

台积电将为任何资金充足的客户生产具有竞争力的芯片,这一事实自然限制了NVIDIA 的架构优势。但从根本上讲,历史表明,市场最终会找到绕过人为瓶颈的方法,从而产生超额利润。这些威胁加在一起表明,NVIDIA在维持其当前增长轨迹和利润率方面面临的困难要比其估值所暗示的要大得多。有五个不同的攻击向量——架构创新、客户垂直整合、软件抽象、效率突破和制造业民主化——至少有一个成功对NVIDIA的利润率或增长率产生重大影响的可能性似乎很高。按目前的估值,市场没有将这些风险中的任何一个计入价格。 6park.com

希望你喜欢阅读这篇文章。如果你在对冲基金工作,并有兴趣就 NVDA或其他与 AI相关的股票或投资主题向我咨询,我已经签约成为 GLG和 Coleman Research的专家。 6park.com

作者 杰弗里.伊曼纽尔 (Jeffrey Emanuel)引发英伟达6000亿美元股价暴跌和硅谷恐慌的博主 6park.com

本文于2025年1月25日发表在valueinvestorsclub.com 和 youtubetranscriptoptimizer.com 6park.com


评分完成:已经给 真者 加上 50 银元!

喜欢真者朋友的这个贴子的话, 请点这里投票,“赞”助支持!
[举报反馈]·[ 真者的个人频道 ]·[-->>参与评论回复]·[用户前期主贴]·[手机扫描浏览分享]·[返回军事纵横首页]
真者 已标注本帖为原创内容,若需转载授权请联系网友本人。如果内容违规或侵权,请告知我们。

所有跟帖:        ( 主贴楼主有权删除不文明回复,拉黑不受欢迎的用户 )


用户名:密码:[--注册ID--]

标 题:

粗体 斜体 下划线 居中 插入图片插入图片 插入Flash插入Flash动画


     图片上传  Youtube代码器  预览辅助

打开微信,扫一扫[Scan QR Code]
进入内容页点击屏幕右上分享按钮

楼主本栏目热帖推荐:

>>>>查看更多楼主社区动态...






[ 留园条例 ] [ 广告服务 ] [ 联系我们 ] [ 个人帐户 ] [ 版主申请 ] [ Contact us ]