就在上周四,著名的硅谷人工智能数据服务公司Scale AI首席执行官Alexandr Wang在瑞士达沃斯世界经济论坛上表示,中国领先的人工智能实验室DeepSeek在圣诞节当天发布了一个“惊天动地的模型”,然后又推出了一个强大的专注于推理的人工智能模型DeepSeek-R1,该模型与OpenAI最近发布的o1模型竞争。 6park.com
实证DeepSeek,有多神奇?
这是一个什么概念呢?要知道,近两年来,OpenAI旗下的ChatGPT几乎已经成了大模型的代名词,而o1模型更是ChatGPT里的“当红炸子鸡”!
据财经早餐此前文章,即使是今年9月发布的o1 preview版本(非满血版o1),不但具有了奥数金牌潜在能力,在物理、生物、化学问题的基准测试中,更是直接超过了人类博士水平。而今年12月发布的“满血版”o1,功能更是达到了一个新的高度,成为几乎所有大模型的对标对象!
但是DeepSeek的出现,让o1感觉到了阵阵寒意:功能实在太强大了!不但能做数学题,还能写文章,真可谓是“文理通才”!
对此笔者进行了一番小小的测试:打开DeepSeek主页,便可以看到熟悉的人机交互界面,并且在右下角还有“深度思考”,意味着,提问者可以看到DeepSeek思考的全过程,这让大模型显得更像一个有血有肉的“人”,而不是一台冰冷的机器,一处深不见底的黑洞! 6park.com
6park.com
图片来源:DeepSeek界面(下同)
到底多强大呢?先来一道经典的奥数题“小试牛刀”—— 6park.com
6park.com
在历经长达数秒的思考后,DeepSeek给出了最终答案: 6park.com
6park.com
如果说这道题目比较传统,那么换了一道比较“搞脑子”的奥数题,DeepSeek在思考了99秒后,依然给出了正确答案,有兴趣的财友可以自己试一下: 6park.com
6park.com
测过了数学题,我们再来测一测作文能力:之前公众号“雷叔写故事”请DeepSeek以“用鲁迅的风格,写一些国产半导体行业”,这次笔者干脆来个“萧规曹随”,用同样的题目,以此看看DeepSeek是否已经“江郎才尽”!
在历经了10秒的思考后,DeepSeek交出了一篇题为《未庄新事》的答卷,并将鲁迅笔下的诸多人物融为一体,至于文章质量如何,请各位看官自行评判! 6park.com
6park.com
这么“惊艳”的功能,价格究竟是多少呢?在试用期,完!全!免!费!没有中间商赚差价只要手机号注册,就可以享受其所有功能(千万别被各种打着其名头的收费程序骗了),最大程度降低使用门槛!
DeepSeek现在尚未公布训练R1的完整成本,但它公布了API的定价,每百万输入tokens只要1~4元,每百万输出 tokens只要16元。这个收费大约只有OpenAI o1运行成本的三十分之一。
收费“断崖式”下降的背后,是开源带来训练机制的全面革新,带来训练成本的“断崖下降”——这或许意味着,开源将重新成为大模型的优选道路! 6park.com
6park.com
专一已死,开源当立?
数据源才是根本!
让我们先来对比一下DeepSeek和其他模型的成本:
据公众号“知识分子”等介绍,去年12月底,DeepSeek发布的DeepSeek-V3开源基础模型性能,与GPT-4o和Claude Sonnet 3.5等顶尖模型相近,但训练成本极低:整个训练在2048块英伟达H800 GPU集群上完成,仅花费约557.6万美元,不到其他顶尖模型训练成本的十分之一。
相比之下,GPT-4o等模型的训练成本约为1亿美元,至少在万个GPU量级的计算集群上训练,而且使用的是性能更为优越的H100 GPU。例如,同为顶尖大模型,去年发布的Llama 3.1在训练过程中使用了16,384块H100 GPU,消耗了DeepSeek-V3 11倍的计算资源,成本超过6000万美元。 6park.com
6park.com
成本控制方面DeepSeek-R1“遥遥领先”
图片来源:官网
在低价优质的基础上,DeepSeek-R1还实现了部分开源。官方声明同步开源了模型权重,允许研究者和开发者在自己的项目中自由使用该模型,或在其基础上进行进一步的研究和开发。
更重要的是,DeepSeek-R1系列支持商业用途,并且允许用户对模型进行任何形式的修改和衍生创作——据“新智元”,已经有一些团队成功实现了“模型复刻”,也证明了开源的威力!
正如图灵奖得主、Meta AI首席科学家杨乐昆(Yann LeCun)所说,“给那些看到 DeepSeek 的表现后,觉得‘中国在 AI 方面正在超越美国’的人,你们的解读是错的。正确的解读应该是,‘开源模型正在超越专有模型’。” 6park.com
6park.com
图片来源:杨乐昆
众所周知,一分价格一分货,用不到十分之一的成本,实现了如此惊艳的效果,DeepSeek究竟有何“秘密武器?”
据技术文档,DeepSeek-V3训练提效的原因主要包括:低精度计算、小参数量和高质量数据等。最重要的是,该模型使用数据蒸馏技术(Distillation)生成的高质量数据提升了训练效率。
“数据蒸馏”是大数据技术中的一个概念,指的是通过一系列算法和策略,将原始的、复杂的数据进行去噪、降维、提炼等操作,从而得到更为精炼、有用的数据。说穿了,就是“站在巨人的肩膀上”。
在此可以举一个类似的例子:两个水平相当的销售,如果一个人手中拿的是高意向名单,另外一个人拿的是底层名单(没有经过筛选的),毫无疑问,前者的成单率一定会远远高于后者!
不过,蒸馏技术并不是十全十美。有学者认为,蒸馏技术虽然可以提高模型训练效率,但借此开发的模型无法超越基础模型的能力,在多模态数据方面效果不好,而且会导致研发人员为了快速取得成果而放弃对基础模型的探索。
不管DeepSeek未来如何发展,目前而言,作为半路杀出的程咬金,其迅猛势头已经引起了全行业的关注:一家非美国的AI公司,形成的“冲击波”将如何搅动世界?各方众说纷纭。 6park.com
6park.com
人工智能的未来,谁与争锋?
“花小钱,办大事”的DeepSeek,首先引发的是硅谷大厂的担心:一旦这种模式大规模推广,以往靠“堆算力”提高模型精度的“军备竞赛”将可能被证伪,进而带崩一众大厂的股价,不可等闲视之!
随着大模型的竞争越来越卷,去年OpenAI、Meta、Google以及马斯克的xAI,各大AI巨头都开始打造自己的万卡(GPU)集群,万卡集群似乎成了训练顶尖大模型的入场券。
对此Alexandr Wang同时表示,过去十年来,美国可能在人工智能竞赛中领先中国,但在圣诞节那天,一切都变了。“我们发现,目前DeepSeek是表现最好的,或者与最好的美国大模型大致相当;这个领域的竞争越来越激烈,而不是越来越弱”。并将美中之间的人工智能竞赛描述为一场“AI战争”。
Wang还表示,未来十年内,生成式AI市场的总收入有望达到或超过1万亿美元;美国将需要大量的计算能力和大量的基础设施,需要释放美国的能源来支持人工智能的繁荣。
面对竞争者的来势汹汹,美国当然坐不住了:在大模型上继续发力!
此前,特朗普总统宣布与OpenAI、甲骨文和软银成立合资企业,向美国人工智能基础设施投资数十亿美元。特朗普、软银首席执行官孙正义、甲骨文联合创始人拉里·埃里森和OpenAI首席执行官山姆·阿尔特曼在白宫揭幕了Stargate“星际之门”项目。
主要的初始技术合作伙伴将包括微软、英伟达和甲骨文,以及半导体公司Arm。他们表示,该项目将投资1000亿美元启动,并在未来四年内投资高达5000亿美元。同时,马斯克的 xAI 也正在大规模扩展其超级计算机,以容纳超过100万个 GPU,以帮助训练其 Grok AI 模型。
对此Wang表示,他认为需要两到四年的时间,才能实现真正的通用人工智能(AGI),而他自己对AGI的定义是“强大的AI系统,能够像你我一样使用计算机......能够成为一名具备超强能力的远程工作者”。
究竟什么才算AGI?这是一个被广泛引用但定义模糊的概念:用于AI领域,表示AI的一个分支追求在广泛任务上等于或超过人类智力的技术。正因为前景如此诱人,AGI也是一个争论激烈的话题,一些行业领导者表示“我们即将实现它”,而另一些则表示“这根本不可能”。
由前OpenAI研究高管创立,由亚马逊支持的的AI初创公司Anthropic,在过去一年中加大了技术开发力度,去年10月,这家初创公司表示,其AI代理能够像人类一样使用计算机来完成复杂的任务。还表示,该公司的技术能够像电脑操作者“解释计算机屏幕上的内容、选择按钮、输入文本、浏览网站以及通过任何软件和实时互联网浏览来执行任务”。
Anthropic的首席科学官贾里德·卡普兰(Jared Kaplan)表示,这种工具可以“以与我们基本相同的方式使用计算机,”甚至可以完成“数十甚至数百步”的任务。而OpenAI计划很快推出类似的功能。
当被问及目前哪些美国初创公司正在引领人工智能竞赛时,Wang表示,每个模型都有自己的优势——例如,OpenAI的模型擅长推理,而Anthropic的模型擅长编码;这个领域的竞争越来越激烈。 6park.com
6park.com
尾声
DeepSeek的异军突起,势必在大模型领域引起新一轮的血雨腥风,那么究竟谁会笑到最后呢?且让我们拭目以待,也请大家在评论区多多发表高见~