[返回博论天下首页]·[所有跟帖]·[ 回复本帖 ] ·[热门原创] ·[繁體閱讀]·[版主管理]
懂技术的很容易明白,deepseek是原始创新
送交者: JollyRoger[★★★★周而不比★★★★] 于 2025-01-28 20:02 已读 1507 次 2 赞  

JollyRoger的个人频道

成本之外,白宫官员还暗示deepseek是chatgpt蒸馏来的

这种谣言攻击很毒,一般人不懂什么是distillation蒸馏。懂技术的很容易明白,为什么deepseek是原始创新。本来就是美国搞大模型研发的圈里人先开始惊叹的,之后才破圈的。

蒸馏,是说有个参数多能力高的“教师模型”,再有个原本参数少能力弱的“学生模型”,还有训练数据。如果直接对训练数据(有已经打好的真实标签)训练学生模型,效果不好,因为学不到精髓,样本表现好不代表实际使用好 。

这时,教师模型对这些样本跑的结果,能更好引导学生模型的训练。例如“软标签”,真实打标是(0,1,0)代表第二个结果对,第一第三不对。但是跑教师模型的输出是(0.2,0.7,0.3),这样还能判断是第二个对,但区别没那么硬,软化区别,反而训练表现更好。训练时,学生模型同时考虑软硬两套标签,能学会教师模型的能力,只损失一点,参数规模却少的多,有利于工业部署。

deepseek公布的论文里,r1是教师模型6700亿个参数,QWEN和LLama不同版本是六个学生模型,参数少15亿个到700亿个。训练样本是用r1精心选择的80万个。这样蒸馏后,六个学生模型的数学、编程、逻辑推理能力大幅提升。但是学生模型不可能能力超过教师模型,会差一些。

而deepseek r1的强大能力来源,是很清楚地有一个创新的训练办法,直接强化学习创新震撼了业界。一些数学和编程能力,r1比openai最强的闭源大模型o1还要厉害,肯定不是蒸馏能搞出来的。

白宫官员不懂技术,或者就是有意撒谎误导。现在美国有些慌,中国技术进步的速度出乎预料,太快了





喜欢JollyRoger朋友的这个贴子的话, 请点这里投票,“赞”助支持!
[举报反馈]·[ JollyRoger的个人频道 ]·[-->>参与评论回复]·[用户前期主贴]·[手机扫描浏览分享]·[返回博论天下首页]
帖子内容是网友自行贴上分享,如果您认为其中内容违规或者侵犯了您的权益,请与我们联系,我们核实后会第一时间删除。

所有跟帖:        ( 主贴楼主有权删除不文明回复,拉黑不受欢迎的用户 )


用户名:密码:[--注册ID--]

标 题:

粗体 斜体 下划线 居中 插入图片插入图片 插入Flash插入Flash动画


     图片上传  Youtube代码器  预览辅助

打开微信,扫一扫[Scan QR Code]
进入内容页点击屏幕右上分享按钮

楼主本栏目热帖推荐:

>>>>查看更多楼主社区动态...






[ 留园条例 ] [ 广告服务 ] [ 联系我们 ] [ 个人帐户 ] [ 版主申请 ] [ Contact us ]