👉🐷DeepSeek光速反转?
大家好,今天是2025年1月28日星期二,恰逢国内大年初一,这里祝大家新春快乐,给大家拜年了。承蒙厚爱,周末所写的DeepSeek技术分析报告在网络上广为流传,也称为本站阅读量最大的一期日报。希望以后有机会能给大家带来更多结合科技和投资方面的深度分析。再次谢谢大家的点赞、转发和支持。
虽然关于DeepSeek训练速度、推理效果等基本问题应该被我们差不多搞清楚,但是纵观全网依然还是有一些误会。有机会的话,我会在接下来几天找时间录一期Youtube视频,对上期日报内容进行更加精炼的小结,供不方便阅读文字的朋友们了解。我也会在视频中加入最近关于此事的最新进展,特别是马斯克、OpenAI、Lecun Yann和微软均已就DeepSeek事件做出相应回复。
光速反转?今天半导体走出了一回令所有人意外的反转。在周一早盘英伟达大跌11%时,我就已加仓买入NVDL和一些NVDA2月底Call,为抄底做准备。不过当时因为周末日报刚写完,实在太困就睡了过去。等下午醒来一看,不得了,NVDA竟然最大下探到18%,跌幅较上午接近翻倍。该股也打破了自去年9月以来由自己创造的纳斯达克个股最大单日跌幅记录,抹去市值近6000亿——这甚至超过了Stargate投资额的总和。
市场的反应显然过度了。根据我们的理解,DeepSeek依然选择和NVDA深度合作;从所谓Jevons悖论来看,效能的提高反而会导致更广泛的消耗,而不是相反——打印机就是一个很好的例子。因此不论从什么方面去理解,NVDA都不应该无缘由拿下18%的跌幅。从周一的收盘价计算,NVDA甚至已经跌回2024年6月,等于公司半年白忙了。
这并不合理。我们认为,周一NVDA大跌,主要是多个因素共同促进导致: DeepSeek改变了模型训练的范式,大幅降低训练成本。这不可避免地改变了估值逻辑,让本就过热的AI赛道风声鹤唳。与此同时,Meta在没有显著利好新闻的情况下逆势上涨,这可能是Meta拥有Llama一系列开源模型。Meta和NVDA之间的的一涨一跌,很可能是华尔街选择“空半导体,多开源模型”,下意识扎堆避险导致。但我认为这种情况在市场充分消化该消息后会逆转。 然而,仅凭DeepSeek一个模型又如何能撬动万亿市场?更何况它本身开源,美国各大AI公司很快就能复现。另一个利空消息可能才是本次暴跌的幕后黑手。周一,特朗普宣布要对美国之外的半导体产品加征关税,关税幅度从25%到100%不等。政策虽尚在讨论之中,但显然对台湾半导体产业链构成重大打击。这可能也是TSM在周一被一同抛售的原因。NVDA虽然是一家美国公司,且可以通过涨价将成本转移到一众CSP身上,但作为半导体龙头,被ETF和算法连带抛售也属情理之中。本周,恰逢大批CSP公布财报。周三,微软、Meta都不得不在电话会议中回答是否继续加大投资,以及AI算力的回报合理性问题。如果CSP们暗示将减少26年以后高端GPU预算,那么NVDA将继续承压。这种不确定性很可能加剧了抛售力度。周三的FOMC也市场从上周起就处于被动状态。在失去买盘的情况下,市场容易因风吹草动造成大幅下跌:这也就是所谓的“进入亚稳态后,因偶发扰动突然坍缩,选择方向”。关于NVDA的出口禁止令继续发酵。根据估计,如果完全禁止向新加坡出口,英伟达最大可能损失高达22%,由于该公司股价长期被实际营收所支撑,EPS暴跌显然是致命打击。神奇的是,极端负面的市场情绪在周二来了一次惊天逆转。在开盘后半小时的多空博弈犹豫不决之后,NVDA大福反弹,最终日内涨超9%,每股涨约10美金。两倍做多ETF NVDL大涨18%;NVDL是NVDA最好的抄底工具,也是周一,周二我盘前的购买的标的。
从技术面看,这或许可以解释成NVDA触及100日均线后正常反弹。不过我个人认为,更可能是交易员们在消化了一天的动荡之后,终于回过神来。DeepSeek带来的行业冲击可能并没有之前想的那么糟糕:
首先,DeepSeek很可能拥有远超2048颗H800芯片的算力,业内普遍认为他们可能有5万张H100显卡,而且近年来购买显卡的花费已超数亿美元。并且,V3和R1训练过程应远超600万美金。按行业内常见的10次以上实验以优化参数计算,本次研发最低也消耗上千万美金,绝非一般团队能支撑。周二,OpenAI团队终于对DeepSeek做出正面回应,称该公司独立发现了一些OpenAI早在使用的“秘密”,暗示RL推理训练已被美国AI公司广泛采用。并在回复中继续称,“现阶段提高模型智能比降本增效更重要”,AGI才是最终目标,未来会继续加大算力投资。此消息来自OpenAI的核心研究员,想必是极大的安抚了市场情绪。一些研究人员指出,DeepSeek之所以能用简单的RL算法获得比肩o1的推理能力,数据泄露可能是一个主要因素。近年来,随着大批成熟LLM模型问世,在工程师的精心调教下(如Prompt Engineering),模型输出已包含大量思维链信息。这些数据不可避免的流入互联网,成为新模型训练语料的一部分。DeepSeek新模型天然和思维链对齐,训练起来自然更有优势。这可能是虽早有其他团队尝试pure RL,但却均告失败的原因。周二,DeepSeek服务器突遭DDoS攻击,出现限制新用户注册、回答速度大幅下降等一系列产品问题。这可能也让市场意识到:没有足够的算力,模型再小显卡也不够用的现实。正如我们上期日报所说,FLOPS永远是王道。模型再快,还是要有足够的算力来同时服务全球60亿人。没有人会嫌弃更大的算力,这也和微软、OpenAI CEO以及Lecun Yann的看法类似。更新:据金融时报报道,OpenAI指控DeepSeek在去年秋季透过API大幅盗取GPT数据,这将为市场在DeepSeek上的反应带来更多不确定因素。此外,阿里巴巴宣布研发出一款表现超越DeepSeek的大语言模型,若属实,这将让市场重新审核这一系列事件对AI的意义。后市如何可能需要更多耐心。对此我有自己的看法,也欢迎入群共同讨论。总而言之,周二的反弹是欢迎的。这一反弹是否能够持续,需要等待周三
|