MOTIF: Modular Thinking via Reinforcement Fine-tuning in LLMs

在这里插入图片描述

文章主要内容和创新点

主要内容

本文提出了一种名为MOTIF(Modular Thinking via Reinforcement Fine-tuning) 的方法,旨在通过强化学习微调大语言模型(LLMs),使其能够通过多轮推理突破上下文长度限制,提升推理能力。

  • 核心思路:MOTIF采用模块化思维策略,让模型在多轮推理中逐步进行思考、总结部分进展,最终在最后一轮输出答案。每一轮的输入包含原始问题和上一轮的总结,通过这种方式扩展有效上下文长度。
  • 训练与实验:使用Qwen2.5-3B-Instruct模型,基于GSM8K数据集(小学数学问题)进行参数高效微调(LoRA),并在MATH500和AIME2024基准测试中验证。
  • 实验结果:相比传统GRPO训练,MOTIF在MATH500和AIME2024上的准确率分别提升3.8%和3.3%,且仅使用15%的训练样本,体现出更高的样本效率。
创新点
  1. 提出MOTIF方法,首次将强化学习应用于多轮推理架构的LLM训练,实现模块化思维(多轮分步思考与总结)。
  2. 采用基于结果的奖励函数
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值