硅谷AI霸权和神话的破灭开端：浅谈DeepSeek R1的意义 -6parkbbs.com

川普登基，美国科技圈大佬破天荒云集现场。川普第一天确实也做了很多大事，本文无关，就不展开了。 6park.com

但同是昨晚，科技圈还有另外一件大事，其背后意义的深远，或许还没完全揭晓。那就是DeepSeek自V3模型之后，再度发布自家的R1推理大模型（选择同一天是不是故意的）。重要的是，这是一个可以和OpenAI世界最强O1推理大模型直接PK的大模型，完全开源，可商用，同时还加上一篇详细解释训练过程的优秀论文。 6park.com

鉴于很多美国人还在被川普的表现震惊着，DeepSeek R1发布的真正意义可能还要过一两天才会全面发酵。 6park.com

但核心圈子已经完全爆炸了。在Reddit论坛上，还有各路youtube博主都是各种震惊体：What？一个免费开源的和OpenAI O1 媲美的大模型？还附带能本地跑起来的蒸馏小模型版本？ 6park.com

今天国内外各大科技v已经争相发文讲解R1的细节，推荐大家可以看以下以讲解AI论文著称的Wes Roth的“震惊”视频，可以帮助很快了解R1大模型的基本知识点： 6park.com

为什么DeepSeek的R1这么重要，不仅仅是因为它弯道超车实现了OpenAI 价值每用户200刀/月订阅费的O1大模型性能，且速度快5倍，价格便宜30倍； 6park.com

也不仅仅因为它彻底开源可商用--这意味着任何企业都可以直接拿来做自己的私有化部署-- 甚至还有个人可以在本地部署的R1小型版本 - 对每个科技企业和个人，这都是天大的礼物。 6park.com

最重要的是，DeepSeek R1革新了自GPT以来通用大模型训练的方式 6park.com

前OpenAI大神，现已经离职去搞AI教育的Andrej Karpathy在快2年前的 2023年微软大会上讲解的OpenAI大模型训练原理，仍然是至今为止最好的理解大模型训练基础机制的讲稿： 6park.com

简单的说，OpenAI定义了大模型训练的四个阶段：预训练，监督微调，奖励建模，强化学习。 6park.com

自从OpenAI 公布ChatGPT以来，以上这四大训练步骤基本就是常识，大模型的训练都大差不差按照这四步训练法来。 6park.com

到后来，美国科技大厂都只堆算力，无脑买卡建数据中心给大模型喂数据，相信“大力出奇迹”，数据就是一切；甚至于到今年，美国那边曾一度吃香的深度学习博士开始找不到工作了。这大概有一个原因：大公司认为大模型不再需要继续研究算法了，只需要堆算力堆数据就够了。 6park.com

反而言之，如果算力不够，就可以躺平，直接不做大模型了：非我之过，实无卡也。 6park.com

但是，这一次，DeepSeek直接提出了一个全新的优雅训练思路，简而言之，就是去除/极端弱化了其中第二个步骤“SFT监督微调”，直接上强化学习。并且是反复多次的强化学习，逼近最好结果。 6park.com

这是什么概念呢， “监督微调”就是把人类的正确做题结果（问题+答案）用来调教大模型。这是此前通用大模型优化性能的很重要的一步。 6park.com

而现在DeepSeek说，我们完全不用人类知识去调教大模型，让AI自己和自己PK寻找变强的路径，我们只看结果。 6park.com

这很像当年下围棋的AlphaGo，第一版AlphaGo就是用人类棋谱训练的，我们可以类比常规用SFT监督微调来训练大模型；而后续版本的AlphaGo Zero，则完全抛弃了人类先验的围棋知识，只是规定规则和胜负结果，然后AI互相对弈来实现模型的迭代进化。 6park.com

一切很顺理成章：既然可以这样这么强化学习训练出下围棋的Alpha Zero，那么也应该可以这么训练出通用大模型。 6park.com

明显是向AlphaGo Zero致敬，在DeepSeek的论文中，也出现了R1 Zero这个纯AI迭代得到的中间研究模型。（最终产出的R1 是用同一个训练思路，基于DeepSeek V3多次强化训练得到） 6park.com

有趣的是，同一天Kimi团队也发布了自己号称媲美O1的大模型，其论文同样揭露了依靠强化学习实现的思路（这是商量好的吗）但Kimi只拿出了论文，没有放出可以验证的模型，所以嘛。。。 6park.com

关于这一次DeepSeek R1横空出世的意义。简单说说一些个人的想法。 6park.com

在ChatGPT惊天问世2年之后，DeepSeek R1是国产LLM大模型第一次追平世界最强大模型的性能。相关评测已经满天飞，子弹可以再飞一会，但根据外网一片异口同声的“已测，牛逼~”反馈，这事情错的概率很小了。 6park.com

这个追赶，还是在美国极限打压之下的追赶。而再考虑到API以极高的性价比远远胜出，国产大模型可以说正式完成了对O1的超越。 6park.com

当然，我们可以说OpenAI还有压箱底的GPT5没拿出来，Anthropic或许也有个Claude4.0。 6park.com

但超越了一次，谁说不会有第二次。从0到1难，还是从1到2难呢？ 6park.com

让我们直白一点，给一个论断吧，DeekSeek R1是硅谷AI霸权和神话的破灭开端。 6park.com

所谓霸权，也就是类似各路硅谷大咖，包括一些硅谷投资人大咖，那些曾经都自带光环的名字，开口闭口要防止中国学习美国大模型技术；还有硅谷AI新贵公司们在行动上对中国使用者的严防死守：OpenAI的API还能翻墙，Claude针对中国地区封号的方式，用过的都知道，要多恶心就多恶心。 6park.com

没办法，捏着鼻子也要用，毕竟对很多技术人来说，希望用最好的。 6park.com

现在呢，国产大模型不但有可能是最好的之一，而且毫无疑问是性价比最高的，数十倍的便宜。 6park.com

外网已经有视频推荐用DeepSeek R1 + Cline来实现最强的AI编程助手。 6park.com

如上面视频的Wes Roth博主在最后所说，美国人整天提防AI技术不给中国人，到最后反而是中国人开源了最强大模型。无论如何，他预料不到这个结果。 6park.com

打脸打得很爽。 6park.com

其实不止老外吧，一些国人也在被打脸；这两年看了太多这样的论调，信誓旦旦说中国大模型就是比美国落后好几年。 6park.com

在一些AI技术群里，最常见的是“唯硅谷论”，只要是硅谷的一个小技术集会的言论，说什么都是香的；而且分享这些的同学偶尔还有自觉不自觉带着一股优越感的，那个意思基本是，“你看，硅谷聚会有这些信息，硅谷才是AI的圣地，我来分享一下，国内能学习跟上就不错啦”。 6park.com

不止搞技术的，很多媒体的也习惯性散布悲观言论，总之就是中国AI落后了，显卡算力也被限制了，通用大模型能不被拉太远就可以了。 6park.com

一些国内大佬也潜意识里选择躺平，反正算力没有了，我们的大模型落后一些也是情有可原的。 6park.com

但DeepSeek团队的年轻人似乎不信邪。没有算力，是不是可以从训练方式上突破呢？为什么OpenAI的训练方式就一定是金科玉律呢? 6park.com

在这点上，反而是老美更清醒一点，Google的施密特的表态，从起初“中国可能只落后2年”，后来是“只落后1年”，在DeepSeek V3出来后评价“各有千秋”。现在DeepSeek R1出来了，很想知道施密特会怎么说。 6park.com

还记得一个小插曲，在DeepSeek V3出来后，OpenAI的Sam Altman酸溜溜额发帖说，复制别人是容易的，言下之意是DeepSeek利用了他们家的模型来训练；某些公知也跟风说，如果美国大模型不让国人访问，DeepSeek V3就打造不出来了。 6park.com

荒谬的言论很多时候可以混淆视听。但辩解千次，都不如拿出一个绝对的结果有力量。 6park.com

OK，现在我已经比你厉害了，你说一下我是怎么抄你的呢？ 6park.com

所以要感谢DeepSeek团队，拿出了这个让国人扬眉吐气的结果。从现在起，谁敢再说中国大模型抄袭美国？谁敢再说中国大模型落后美国X年？ 6park.com

从今天开始，城主认为中国大模型进展已经没有短板了。AI视频生成模型这个重要领域, 国产已经是事实上的世界最强；而之前稍逊一筹的通用大模型，从今天开始，不说超越硅谷，说平起平坐，没人能反对了吧。 6park.com

今后，硅谷大咖说的话我们要听，国产年轻AI团队说的话一样值得听。 6park.com

更加佩服DeepSeek的是，这么一个世界最顶尖的成果，直接开源了。油管上X上已经很多老外发声，点赞DeepSeek才是那个真正继承了OpenAI最初使命和火种的团队。 6park.com

这个评价可不是一般的高了。 6park.com

这个事情是否还有更深的意义，大家可以继续琢磨一下：如果硅谷的AI霸权已经被稀释了，不可超越的神话已经破灭了，那美国芯片还要不要防着中国，防着还有什么意义呢？最大的意义是不是让中国过两年憋出光刻机，憋出自己的芯片和算力生态。。。 6park.com

1月20号从各个方面而言都是一个有趣的日子。很久以后回头，我们才能更明白这一天的意义。

所有跟帖: ( 主贴楼主有权删除不文明回复，拉黑不受欢迎的用户 )

打开微信，扫一扫[Scan QR Code]
进入内容页点击屏幕右上分享按钮

楼主本栏目热帖推荐：

>>>>查看更多楼主社区动态...