懂技术的很容易明白,deepseek是原始创新
成本之外,白宫官员还暗示deepseek是chatgpt蒸馏来的
这种谣言攻击很毒,一般人不懂什么是distillation蒸馏。懂技术的很容易明白,为什么deepseek是原始创新。本来就是美国搞大模型研发的圈里人先开始惊叹的,之后才破圈的。
蒸馏,是说有个参数多能力高的“教师模型”,再有个原本参数少能力弱的“学生模型”,还有训练数据。如果直接对训练数据(有已经打好的真实标签)训练学生模型,效果不好,因为学不到精髓,样本表现好不代表实际使用好 。
这时,教师模型对这些样本跑的结果,能更好引导学生模型的训练。例如“软标签”,真实打标是(0,1,0)代表第二个结果对,第一第三不对。但是跑教师模型的输出是(0.2,0.7,0.3),这样还能判断是第二个对,但区别没那么硬,软化区别,反而训练表现更好。训练时,学生模型同时考虑软硬两套标签,能学会教师模型的能力,只损失一点,参数规模却少的多,有利于工业部署。
deepseek公布的论文里,r1是教师模型6700亿个参数,QWEN和LLama不同版本是六个学生模型,参数少15亿个到700亿个。训练样本是用r1精心选择的80万个。这样蒸馏后,六个学生模型的数学、编程、逻辑推理能力大幅提升。但是学生模型不可能能力超过教师模型,会差一些。
而deepseek r1的强大能力来源,是很清楚地有一个创新的训练办法,直接强化学习创新震撼了业界。一些数学和编程能力,r1比openai最强的闭源大模型o1还要厉害,肯定不是蒸馏能搞出来的。
白宫官员不懂技术,或者就是有意撒谎误导。现在美国有些慌,中国技术进步的速度出乎预料,太快了
|