赶在放假前,支棱起来的国产 AI 大模型厂商井喷式发布了一大堆春节礼物。
前脚 DeepSeek-R1 正式发布,号称性能对标 OpenAI o1 正式版,后脚 k1.5 新模型也正式登场,表示性能做到满血版多模态 o1 水平。、如果再加上此前强势登场的智谱 GLM-Zero,阶跃星辰推理模型 Step R-mini,星火深度推理模型 X1,年末上大分的国产大模型拉开了真刀真枪的帷幕,也给以 OpenAI 为代表的海外厂商狠狠上了一波压力。
DeepSeek-R1 :在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1 正式版
月之暗面 k1.5:数学、代码、视觉多模态和通用能力全面超越 GPT-4o 和 Claude 3.5 Sonnet
智谱 GLM-Zero:擅长处理数理逻辑、代码和需要深度推理的复杂问题
阶跃 Step-2 mini:极速响应,平均首字时延仅 0.17 秒,还有 Step-2 文学大师版
星火 X1:数学能力亮眼,有全面思考过程,拿捏小学、初中、高中、大学全学段数学
井喷不是偶然的爆发,而是积蓄已久的力量,可以说,国产 AI 模型在春节前夕的突围,将有望重新定义 AI 发展的世界坐标。
中国版「源神」爆火海外,这才是真·OpenAI
昨晚率先发布的 DeepSeek-R1 现在已经上架 DeepSeek 官网与 App,打开就能用。
9.8 和 9.11 哪个大以及 Strawberry 里有几个 r 的难题在第一次测试中就顺利过关,别看思维链略显冗长,但正确答案事实胜于雄辩。
面对弱智吧难题「跳多高才能跳过手机上的广告」的拷问, 响应速度极快的 DeepSeek-R1 不仅能够避开语言陷阱,还提供了不少规避广告的的建议,十分人性化。
几年前,有一道名为「如果昨天是明天,今天就是星期五,实际今天是星期几」的逻辑推理题走红网络。
在面临同样问题的拷问后,OpenAI o1 给出的答案是周日,DeepSeek-R1 则是周三,但就目前来看,至少 DeepSeek-R1 更靠近答案。
据介绍,DeepSeek-R1 在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1 正式版,理论上更偏向于理科生。
正好赶上小红书上中美两国网友在友好交流数学作业,我们也让 DeepSeek-R1 帮忙解疑答惑。
插个冷知识,上回 DeepSeek 海外爆火时就有网友发现,其实 DeepSeek 也支持图片识别,我们可以直接让它分析试卷图片。
拢共两道题,第一道题选 C,第二道题选 A,并且,「自信满满」的 DeepSeek-R1 推测第二道题原题的选项中无 18,结合选项推测原题可能存在笔误。
在随后的线性代数证明题中,DeepSeek-R1 提供的证明步骤逻辑严谨,同一道题目还提供了多种验证方法,展现出深厚的数学功底。
始于性能,陷于成本,忠于开源。DeepSeek-R1 正式发布之后,也同步开源模型权重。我宣布,来自中国东方的 DeepSeek 才是真正的 OpenAI。
据悉,DeepSeek-R1 遵循 MIT License,允许用户通过蒸馏技术借助 R1 训练其他模型。DeepSeek-R1 上线 API,对用户开放思维链输出,通过设置 model='deepseek-reasoner' 即可调用。
并且,DeepSeek-R1 训练技术全部公开,论文指路��https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf
DeepSeek-R1 技术报告里提到一个值得关注的发现,那就是 R1 zero 训练过程里出现的「aha moment(顿悟时刻)」。
在模型的中期训练阶段,DeepSeek-R1-Zero 开始主动重新评估初始解题思路,并分配更多时间优化策略(如多次尝试不同解法)。换句话说,通过 RL 框架,AI 可能自发形成类人推理能力,甚至超越预设规则的限制。
并且这也将有望为开发更自主、自适应的 AI 模型提供方向,比如在复杂决策(医疗诊断、算法设计)中动态调整策略。正如报告所说,「这一时刻不仅是模型的『顿悟时刻』,也是研究人员观察其行为时的『顿悟时刻』。」
除了主打的大模型,DeepSeek 的小模型同样实力不俗。
DeepSeek 通过对 DeepSeek-R1-Zero 和 DeepSeek-R1 这两个 660B 模型的蒸馏,开源了 6 个小模型。其中,32B 和 70B 型号在多个领域达到了 OpenAI o1-mini 的水准。
并且,仅 1.5B 参数大小的 DeepSeek-R1-Distill-Qwen-1.5B 在数学基准测试中超越了 GPT-4o 和 Claude-3.5-Sonnet,AIME 得分为 28.9%,MATH 得分为 83.9%。
HuggingFace 链接:https://huggingface.co/deepseek-ai
在 API 服务定价方面,号称 AI 届拼多多的 DeepSeek 也采用了灵活的阶梯定价:每百万输入 tokens 根据缓存情况收费 1-4 元,输出 tokens 统一 16 元,再次大幅降低开发使用成本。
DeepSeek-R1 发布以后,也再次在海外 AI 圈引起轰动,收获了大量「自来水」。其中,博主 Bindu Reddy 更是给 Deepseek 冠上了开源 AGI 和文明的未来之称。
出色的评价源于模型在网友的实际应用中出色的表现。从 30 秒详细阐释勾股定理,到 9 分钟深入浅出地讲解量子电动力学原理并提供可视化呈现。DeepSeek-R1 没有任何差错。
甚至也有网友特别欣赏 DeepSeek-R1 所展示的思维链,认为「像极了人类的内心独白,既专业又可爱」。
英伟达高级研究科学家 Jim Fan 对 DeepSeek-R1 给予了高度评价。他指出这代表着非美国公司正在践行 OpenAI 最初的开放使命,通过公开原始算法和学习曲线等方式实现影响力,顺便还内涵了一波 OpenAI。
DeepSeek-R1 不仅开源了一系列模型,还披露了所有训练秘密。它们可能是首个展示 RL 飞轮重大且持续增长的开源项目。
影响力既可以通过『ASI 内部实现』或『草莓计划』等传说般的项目实现,也可以简单地通过公开原始算法和 matplotlib 学习曲线来达成。
在深入研究论文后,Jim Fan 特别强调了几个关键发现:
完全由强化学习驱动,没有任何 SFT(监督微调)。让人联想到 AlphaZero——从零开始掌握围棋、将棋和国际象棋,而不是先模仿人类大师的棋步。这是论文中最关键的发现。使用硬编码规则计算的真实奖励。
避免使用强化学习容易破解的学习奖励模型。随着训练进展,模型的思考时间逐步增加——这不是预先编写的程序,而是一种涌现特性!自我反思和探索行为的涌现。
GRPO 替代了 PPO:它移除了 PPO 的评论网络,改用多个样本的平均奖励。这是一种减少内存使用的简单方法。需要注意的是,GRPO 是作者团队提出的一种创新方法。
整体来看,这项工作展示了强化学习在大规模场景中实际应用的开创性潜力,并证明某些复杂行为可以通过更简单的算法结构实现,而无需进行繁琐的调整或人工干预。一图胜千言,更明显的对比如下:
就这样,DeepSeek 再次在海内外完成二次爆火,不仅是一次技术突破,更是中国乃至世界的开源精神的胜利,也因此收获了不少海外忠实拥趸。
新模型比肩 OpenAI o1,三个月三次突破,Kimi 让海外集体沸腾
同一天上线的还有 Kimi v1.5 多模态思考模型。
自去年 11 月 Kimi 推出 k0-math 数学模型,12 月发布 k1 视觉思考模型以来,这是第三次 K 系列的重要上新。
在短思考模式(short-CoT)的较量中,Kimi k1.5 展现出压倒性优势,其数学、代码、视觉多模态和通用能力全面超越了行业翘楚 GPT-4o 和 Claude 3.5 Sonnet。
在长思考模式(long-CoT)的竞争中,Kimi k1.5 的代码和多模态推理能力已经比肩 OpenAI o1 正式版,成为全球范围内首个在 OpenAI 之外实现 o1 级别多模态推理性能的模型。
伴随着模型的重磅发布,Kimi 还首次公开了完整的模型训练技术报告。
GitHub 链接:https://github.com/MoonshotAI/kimi-k1.5
据官方介绍,k1.5 模型的核心技术突破主要体现在四个关键维度:
长上下文扩展。我们将 RL 的上下文窗口扩展到 128k,并观察到随着上下文长度的增加,性能持续提升。我们的方法背后的一个关键思想是,使用部分展开(partial rollouts)来提高训练效率——即通过重用大量先前的轨迹来采样新的轨迹,避免了从头开始重新生成新轨迹的成本。我们的观察表明,上下文长度是通过 LLMs 持续扩展RL的一个关键维度。
改进的策略优化。我们推导出了 long-CoT 的 RL 公式,并采用在线镜像下降的变体进行稳健的策略优化。该算法通过我们的有效采样策略、长度惩罚和数据配方的优化进一步得到改进。
简洁的框架。长上下文扩展与改进的策略优化方法相结合,为通过 LLMs 学习建立了一个简洁的 RL 框架。由于我们能够扩展上下文长度,学习到的 CoTs 表现出规划、反思和修正的特性。增加上下文长度的效果是增加了搜索步骤的数量。因此,我们展示了可以在不依赖更复杂技术(如蒙特卡洛树搜索、价值函数和过程奖励模型)的情况下实现强大的性能。
多模态能力。我们的模型在文本和视觉数据上联合训练,具有联合推理两种模态的能力。该模型数学能力出众,但由于主要支持 LaTeX 等格式的文本输入,依赖图形理解能力的部分几何图形题则难以应对。
k1.5 多模态思考模型的预览版将陆续灰度上线官网和官方 App。值得一提的是,k1.5 的发布同样在海外引起了巨大的反响。也有网友对这个模型不吝赞美之词,让海外见证了中国 AI 实力的崛起。
实际上,年末国内推理模型的密集发布绝非偶然,这是 OpenAI 去年 10 月发布 o1 模型在全球 AI 领域掀起的涟漪终于传导至中国的显著标志。
短短数月从追赶到比肩,国产大模型用行动证明了中国速度。
菲尔兹奖得主、数学天才陶哲轩曾认为这类推理模型或许只需再经过一两轮迭代与能力提升,就能达到「合格研究生」的水准。而 AI 发展的远景远不止于此。
当前,我们正见证着 AI 智能体一个关键的转型时刻。从单纯的「知识增强」向「执行增强」跨越,开始主动参与决策制定和任务执行的过程。
与此同时,AI 也在突破单一模态的限制,向着多模态融合的方向快速演进。当执行遇上思考,AI才真正具备了改变世界的力量。
基于此,像人一样思考的模型正在为 AI 的实际落地开辟更多可能性。
表面上看,年末这波国内推理模型的密集涌现,或许带有「中国式跟随者创新」的影子。
但深入观察就会发现,无论是在开源策略的深度,还是在技术细节的精确度上,中国厂商依然走出了一条独具特色的发展道路。
文章来源:APPSO
喜欢amouravec朋友的这个帖子的话,👍 请点这里投票,"赞" 助支持!
帖子内容是网友自行贴上分享,如果您认为其中内容违规或者侵犯了您的权益,请与我们联系,我们核实后会第一时间删除。
打开微信,扫一扫[Scan QR Code]
进入内容页点击屏幕右上分享按钮
楼主本月热帖推荐:
>>>查看更多帖主社区动态...