文章主要内容和创新点
主要内容
本文提出了一种名为MOTIF(Modular Thinking via Reinforcement Fine-tuning) 的方法,旨在通过强化学习微调大语言模型(LLMs),使其能够通过多轮推理突破上下文长度限制,提升推理能力。
- 核心思路:MOTIF采用模块化思维策略,让模型在多轮推理中逐步进行思考、总结部分进展,最终在最后一轮输出答案。每一轮的输入包含原始问题和上一轮的总结,通过这种方式扩展有效上下文长度。
- 训练与实验:使用Qwen2.5-3B-Instruct模型,基于GSM8K数据集(小学数学问题)进行参数高效微调(LoRA),并在MATH500和AIME2024基准测试中验证。
- 实验结果:相比传统GRPO训练,MOTIF在MATH500和AIME2024上的准确率分别提升3.8%和3.3%,且仅使用15%的训练样本,体现出更高的样本效率。
创新点
- 提出MOTIF方法,首次将强化学习应用于多轮推理架构的LLM训练,实现模块化思维(多轮分步思考与总结)。
- 采用基于结果的奖励函数