伯克利用30美金复现DeepSeek R1-Zero
伯克利用30美金复现DeepSeek R1-Zero
通过强化学习(RL),BAIR成功复现了DeepSeek R1-Zero,3B参数语言模型在CountDown游戏中展现惊人推理能力。以下是他们的探索成果:
CountDown游戏挑战
目标:通过基本算术操作将数字组合成目标数值。
方法:采用DeepSeek R1-Zero的算法,从基础语言模型(LM)+提示+奖励出发,进行RL训练。
结果:效果拔群!
模型从最初的随机输出逐步发展出搜索、验证、自我修正能力:
• 自验证能力:模型提出解法、自我检查并反复修正直至正确。
• 渐进学习策略:从“胡猜”到逐步学习出解决策略
快速试验结果:
基础模型质量是关键:
• 测试了Qwen-2.5-Base的不同规模(0.5B到7B)
• 1.5B开始模型学会搜索与验证,性能显著提升。
• 0.5B模型只能猜测答案,没有自检能力。
Instruct模型 vs. Base模型:
• Instruct模型收敛更快,输出更结构化,但最终性能与Base模型一致。
• 说明不需要额外的指令微调,支持R1-Zero的设计选择。
RL算法的影响较小:
• 尝试了PPO、GRPO和PRIME,所有算法均能有效训练出长链推理(Long CoT)。
• 尚未深入调参,但目前算法选择对结果影响不大
推理行为因任务而异:
• CountDown:模型学习到搜索和自验证能力。
• 数字乘法任务:模型学会按分配律分解问题,逐步解决。
启示:
• RL可以让小模型具备强大的推理与自验证能力。
• 模型规模与任务类型决定推理能力的高度。
• Extra instruction tuning 并非必要,简化了训练流程。
用RL解锁语言模型的推理潜力,DeepSeek R1-Zero的复现向你证明可能性!
贴主:张旺教授于2025_01_29 16:42:35编辑
|