强大且廉价！DeepSeek崛起，重塑大模型格局？ -6parkbbs.com

6park.com

近期，一款名为DeepSeek的中国大模型，不但惊艳了全世界，简直要让行业“抖三抖”！

就在上周四，著名的硅谷人工智能数据服务公司Scale AI首席执行官Alexandr Wang在瑞士达沃斯世界经济论坛上表示，中国领先的人工智能实验室DeepSeek在圣诞节当天发布了一个“惊天动地的模型”，然后又推出了一个强大的专注于推理的人工智能模型DeepSeek-R1，该模型与OpenAI最近发布的o1模型竞争。 6park.com

6park.com

实证DeepSeek，有多神奇？

这是一个什么概念呢？要知道，近两年来，OpenAI旗下的ChatGPT几乎已经成了大模型的代名词，而o1模型更是ChatGPT里的“当红炸子鸡”！

据财经早餐此前文章，即使是今年9月发布的o1 preview版本（非满血版o1），不但具有了奥数金牌潜在能力，在物理、生物、化学问题的基准测试中，更是直接超过了人类博士水平。而今年12月发布的“满血版”o1，功能更是达到了一个新的高度，成为几乎所有大模型的对标对象！

但是DeepSeek的出现，让o1感觉到了阵阵寒意：功能实在太强大了！不但能做数学题，还能写文章，真可谓是“文理通才”！

对此笔者进行了一番小小的测试：打开DeepSeek主页，便可以看到熟悉的人机交互界面，并且在右下角还有“深度思考”，意味着，提问者可以看到DeepSeek思考的全过程，这让大模型显得更像一个有血有肉的“人”，而不是一台冰冷的机器，一处深不见底的黑洞！ 6park.com

6park.com

图片来源：DeepSeek界面（下同）

到底多强大呢？先来一道经典的奥数题“小试牛刀”—— 6park.com

6park.com

在历经长达数秒的思考后，DeepSeek给出了最终答案： 6park.com

6park.com

如果说这道题目比较传统，那么换了一道比较“搞脑子”的奥数题，DeepSeek在思考了99秒后，依然给出了正确答案，有兴趣的财友可以自己试一下： 6park.com

6park.com

测过了数学题，我们再来测一测作文能力：之前公众号“雷叔写故事”请DeepSeek以“用鲁迅的风格，写一些国产半导体行业”，这次笔者干脆来个“萧规曹随”，用同样的题目，以此看看DeepSeek是否已经“江郎才尽”！

在历经了10秒的思考后，DeepSeek交出了一篇题为《未庄新事》的答卷，并将鲁迅笔下的诸多人物融为一体，至于文章质量如何，请各位看官自行评判！ 6park.com

6park.com

这么“惊艳”的功能，价格究竟是多少呢？在试用期，完！全！免！费！没有中间商赚差价只要手机号注册，就可以享受其所有功能（千万别被各种打着其名头的收费程序骗了），最大程度降低使用门槛！

DeepSeek现在尚未公布训练R1的完整成本，但它公布了API的定价，每百万输入tokens只要1~4元，每百万输出 tokens只要16元。这个收费大约只有OpenAI o1运行成本的三十分之一。

收费“断崖式”下降的背后，是开源带来训练机制的全面革新，带来训练成本的“断崖下降”——这或许意味着，开源将重新成为大模型的优选道路！ 6park.com

6park.com

专一已死，开源当立？

数据源才是根本！

让我们先来对比一下DeepSeek和其他模型的成本：

据公众号“知识分子”等介绍，去年12月底，DeepSeek发布的DeepSeek-V3开源基础模型性能，与GPT-4o和Claude Sonnet 3.5等顶尖模型相近，但训练成本极低：整个训练在2048块英伟达H800 GPU集群上完成，仅花费约557.6万美元，不到其他顶尖模型训练成本的十分之一。

相比之下，GPT-4o等模型的训练成本约为1亿美元，至少在万个GPU量级的计算集群上训练，而且使用的是性能更为优越的H100 GPU。例如，同为顶尖大模型，去年发布的Llama 3.1在训练过程中使用了16,384块H100 GPU，消耗了DeepSeek-V3 11倍的计算资源，成本超过6000万美元。 6park.com

6park.com

成本控制方面DeepSeek-R1“遥遥领先”

图片来源：官网

在低价优质的基础上，DeepSeek-R1还实现了部分开源。官方声明同步开源了模型权重，允许研究者和开发者在自己的项目中自由使用该模型，或在其基础上进行进一步的研究和开发。

更重要的是，DeepSeek-R1系列支持商业用途，并且允许用户对模型进行任何形式的修改和衍生创作——据“新智元”，已经有一些团队成功实现了“模型复刻”，也证明了开源的威力！

正如图灵奖得主、Meta AI首席科学家杨乐昆（Yann LeCun）所说，“给那些看到 DeepSeek 的表现后，觉得‘中国在 AI 方面正在超越美国’的人，你们的解读是错的。正确的解读应该是，‘开源模型正在超越专有模型’。” 6park.com

6park.com

图片来源：杨乐昆

众所周知，一分价格一分货，用不到十分之一的成本，实现了如此惊艳的效果，DeepSeek究竟有何“秘密武器？”

据技术文档，DeepSeek-V3训练提效的原因主要包括：低精度计算、小参数量和高质量数据等。最重要的是，该模型使用数据蒸馏技术（Distillation）生成的高质量数据提升了训练效率。

“数据蒸馏”是大数据技术中的一个概念，指的是通过一系列算法和策略，将原始的、复杂的数据进行去噪、降维、提炼等操作，从而得到更为精炼、有用的数据。说穿了，就是“站在巨人的肩膀上”。

在此可以举一个类似的例子：两个水平相当的销售，如果一个人手中拿的是高意向名单，另外一个人拿的是底层名单（没有经过筛选的），毫无疑问，前者的成单率一定会远远高于后者！

不过，蒸馏技术并不是十全十美。有学者认为，蒸馏技术虽然可以提高模型训练效率，但借此开发的模型无法超越基础模型的能力，在多模态数据方面效果不好，而且会导致研发人员为了快速取得成果而放弃对基础模型的探索。

不管DeepSeek未来如何发展，目前而言，作为半路杀出的程咬金，其迅猛势头已经引起了全行业的关注：一家非美国的AI公司，形成的“冲击波”将如何搅动世界？各方众说纷纭。 6park.com

6park.com

人工智能的未来，谁与争锋？

“花小钱，办大事”的DeepSeek，首先引发的是硅谷大厂的担心：一旦这种模式大规模推广，以往靠“堆算力”提高模型精度的“军备竞赛”将可能被证伪，进而带崩一众大厂的股价，不可等闲视之！

随着大模型的竞争越来越卷，去年OpenAI、Meta、Google以及马斯克的xAI，各大AI巨头都开始打造自己的万卡（GPU）集群，万卡集群似乎成了训练顶尖大模型的入场券。

对此Alexandr Wang同时表示，过去十年来，美国可能在人工智能竞赛中领先中国，但在圣诞节那天，一切都变了。“我们发现，目前DeepSeek是表现最好的，或者与最好的美国大模型大致相当；这个领域的竞争越来越激烈，而不是越来越弱”。并将美中之间的人工智能竞赛描述为一场“AI战争”。

Wang还表示，未来十年内，生成式AI市场的总收入有望达到或超过1万亿美元；美国将需要大量的计算能力和大量的基础设施，需要释放美国的能源来支持人工智能的繁荣。

面对竞争者的来势汹汹，美国当然坐不住了：在大模型上继续发力！

此前，特朗普总统宣布与OpenAI、甲骨文和软银成立合资企业，向美国人工智能基础设施投资数十亿美元。特朗普、软银首席执行官孙正义、甲骨文联合创始人拉里·埃里森和OpenAI首席执行官山姆·阿尔特曼在白宫揭幕了Stargate“星际之门”项目。

主要的初始技术合作伙伴将包括微软、英伟达和甲骨文，以及半导体公司Arm。他们表示，该项目将投资1000亿美元启动，并在未来四年内投资高达5000亿美元。同时，马斯克的 xAI 也正在大规模扩展其超级计算机，以容纳超过100万个 GPU，以帮助训练其 Grok AI 模型。

对此Wang表示，他认为需要两到四年的时间，才能实现真正的通用人工智能（AGI），而他自己对AGI的定义是“强大的AI系统，能够像你我一样使用计算机......能够成为一名具备超强能力的远程工作者”。

究竟什么才算AGI？这是一个被广泛引用但定义模糊的概念：用于AI领域，表示AI的一个分支追求在广泛任务上等于或超过人类智力的技术。正因为前景如此诱人，AGI也是一个争论激烈的话题，一些行业领导者表示“我们即将实现它”，而另一些则表示“这根本不可能”。

由前OpenAI研究高管创立，由亚马逊支持的的AI初创公司Anthropic，在过去一年中加大了技术开发力度，去年10月，这家初创公司表示，其AI代理能够像人类一样使用计算机来完成复杂的任务。还表示，该公司的技术能够像电脑操作者“解释计算机屏幕上的内容、选择按钮、输入文本、浏览网站以及通过任何软件和实时互联网浏览来执行任务”。

Anthropic的首席科学官贾里德·卡普兰（Jared Kaplan）表示，这种工具可以“以与我们基本相同的方式使用计算机，”甚至可以完成“数十甚至数百步”的任务。而OpenAI计划很快推出类似的功能。

当被问及目前哪些美国初创公司正在引领人工智能竞赛时，Wang表示，每个模型都有自己的优势——例如，OpenAI的模型擅长推理，而Anthropic的模型擅长编码；这个领域的竞争越来越激烈。 6park.com

6park.com

尾声

DeepSeek的异军突起，势必在大模型领域引起新一轮的血雨腥风，那么究竟谁会笑到最后呢？且让我们拭目以待，也请大家在评论区多多发表高见~

所有跟帖: ( 主贴楼主有权删除不文明回复，拉黑不受欢迎的用户 )

打开微信，扫一扫[Scan QR Code]
进入内容页点击屏幕右上分享按钮

楼主本栏目热帖推荐：

>>>>查看更多楼主社区动态...