懂技术的很容易明白，deepseek是原始创新 -6parkbbs.com

成本之外，白宫官员还暗示deepseek是chatgpt蒸馏来的

这种谣言攻击很毒，一般人不懂什么是distillation蒸馏。懂技术的很容易明白，为什么deepseek是原始创新。本来就是美国搞大模型研发的圈里人先开始惊叹的，之后才破圈的。

蒸馏，是说有个参数多能力高的“教师模型”，再有个原本参数少能力弱的“学生模型”，还有训练数据。如果直接对训练数据（有已经打好的真实标签）训练学生模型，效果不好，因为学不到精髓，样本表现好不代表实际使用好。

这时，教师模型对这些样本跑的结果，能更好引导学生模型的训练。例如“软标签”，真实打标是（0，1，0）代表第二个结果对，第一第三不对。但是跑教师模型的输出是（0.2，0.7，0.3），这样还能判断是第二个对，但区别没那么硬，软化区别，反而训练表现更好。训练时，学生模型同时考虑软硬两套标签，能学会教师模型的能力，只损失一点，参数规模却少的多，有利于工业部署。

deepseek公布的论文里，r1是教师模型6700亿个参数，QWEN和LLama不同版本是六个学生模型，参数少15亿个到700亿个。训练样本是用r1精心选择的80万个。这样蒸馏后，六个学生模型的数学、编程、逻辑推理能力大幅提升。但是学生模型不可能能力超过教师模型，会差一些。

而deepseek r1的强大能力来源，是很清楚地有一个创新的训练办法，直接强化学习创新震撼了业界。一些数学和编程能力，r1比openai最强的闭源大模型o1还要厉害，肯定不是蒸馏能搞出来的。

白宫官员不懂技术，或者就是有意撒谎误导。现在美国有些慌，中国技术进步的速度出乎预料，太快了

所有跟帖: ( 主贴楼主有权删除不文明回复，拉黑不受欢迎的用户 )

打开微信，扫一扫[Scan QR Code]
进入内容页点击屏幕右上分享按钮

楼主本栏目热帖推荐：

泰国放大招：给电诈团伙开户的银行、电信公司等都要受罚 01/29/25
为什么春节叫“过年”？古人在春节期间都吃什么？ 01/29/25
压岁钱其实不是“钱”？有关春节的冷知识 01/29/25
DeepSeek扭转AI战局？谁说我们不能在“1到100”阶段异军突起 01/29/25
DeepSeek有可能从ChatGPT“蒸馏”而来吗 01/29/25
DeepSeek是第二个姜萍么？ 01/29/25
台湾不敢哭出声！美国出手“穷台” 01/29/25
卢比奥更名鲁比奥，再走马上任，难道就能逃脱制裁？ 01/29/25
春晚，找到了新的舒适区 01/29/25
拘留所里的除夕 01/29/25
春晚回忆杀之女主持审美变迁：从国泰民安到 “审美迷失” 01/29/25
泽连斯基：只有让乌克兰参与谈判，特朗普才可能结束俄乌冲突 01/29/25

>>>>查看更多楼主社区动态...