[返回军事纵横首页]·[所有跟帖]·[ 回复本帖 ] ·[热门原创] ·[繁體閱讀]·[版主管理]
伯克利用30美金复现DeepSeek R1-Zero
送交者: 张旺教授[☆★★声望品衔12★★☆] 于 2025-01-29 16:41 已读 491 次 2 赞  

张旺教授的个人频道

伯克利用30美金复现DeepSeek R1-Zero
 通过强化学习(RL),BAIR成功复现了DeepSeek R1-Zero,3B参数语言模型在CountDown游戏中展现惊人推理能力。以下是他们的探索成果:  CountDown游戏挑战 目标:通过基本算术操作将数字组合成目标数值。 方法:采用DeepSeek R1-Zero的算法,从基础语言模型(LM)+提示+奖励出发,进行RL训练。
 结果:效果拔群! 模型从最初的随机输出逐步发展出搜索、验证、自我修正能力: • 自验证能力:模型提出解法、自我检查并反复修正直至正确。 • 渐进学习策略:从“胡猜”到逐步学习出解决策略
 快速试验结果:
 基础模型质量是关键: • 测试了Qwen-2.5-Base的不同规模(0.5B到7B) • 1.5B开始模型学会搜索与验证,性能显著提升。 • 0.5B模型只能猜测答案,没有自检能力。
 Instruct模型 vs. Base模型: • Instruct模型收敛更快,输出更结构化,但最终性能与Base模型一致。 • 说明不需要额外的指令微调,支持R1-Zero的设计选择。
 RL算法的影响较小: • 尝试了PPO、GRPO和PRIME,所有算法均能有效训练出长链推理(Long CoT)。 • 尚未深入调参,但目前算法选择对结果影响不大  推理行为因任务而异: • CountDown:模型学习到搜索和自验证能力。 • 数字乘法任务:模型学会按分配律分解问题,逐步解决。
 启示: • RL可以让小模型具备强大的推理与自验证能力。 • 模型规模与任务类型决定推理能力的高度。 • Extra instruction tuning 并非必要,简化了训练流程。
 用RL解锁语言模型的推理潜力,DeepSeek R1-Zero的复现向你证明可能性!
贴主:张旺教授于2025_01_29 16:42:35编辑
喜欢张旺教授朋友的这个贴子的话, 请点这里投票,“赞”助支持!
[举报反馈]·[ 张旺教授的个人频道 ]·[-->>参与评论回复]·[用户前期主贴]·[手机扫描浏览分享]·[返回军事纵横首页]
帖子内容是网友自行贴上分享,如果您认为其中内容违规或者侵犯了您的权益,请与我们联系,我们核实后会第一时间删除。

所有跟帖:        ( 主贴楼主有权删除不文明回复,拉黑不受欢迎的用户 )


用户名:密码:[--注册ID--]

标 题:

粗体 斜体 下划线 居中 插入图片插入图片 插入Flash插入Flash动画


     图片上传  Youtube代码器  预览辅助

打开微信,扫一扫[Scan QR Code]
进入内容页点击屏幕右上分享按钮

楼主本栏目热帖推荐:

>>>>查看更多楼主社区动态...






[ 留园条例 ] [ 广告服务 ] [ 联系我们 ] [ 个人帐户 ] [ 版主申请 ] [ Contact us ]