樱花的浪漫
梦想还是要有的,更要成为一名不懈追求梦想的人
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Unified Multimodal Chain-of-Thought Reward Modelthrough Reinforcement Fine-Tuning
2505.03318v1https://arxiv.org/pdf/2505.03318v1 近年来,多模态奖励模型(RMs)[Wang et al. 2024 2025, Zang et al. 2025, Xiong et al. 2024, He et al. 2024, Xu et al. 2024, Liu et al. 2025a, Li et al. 2025] 在将视觉模型输出与人类偏好对齐方面表现出色,为模型训练提供了关键的奖励信号[Wang et al. 2024 2025原创 2025-08-03 10:54:39 · 16 阅读 · 0 评论 -
Reinforcing General Reasoning without Verifiers
DeepSeek-R1-Zero [10] 最近展示了使用可验证奖励的强化学习(RL)训练大型语言模型(LLMs)可以极大地提高推理能力。在这个可验证奖励的强化学习(RLVR)框架 [17] 中,LLM 生成一个推理过程(即,思维链,CoT),然后给出最终答案。一个基于规则的程序随后提取并评估最终答案,如果最终答案是正确的,则将奖励1分配给响应,否则为0。该模型使用 GRPO [37] 进行 RL 训练——这是 PPO [36] 的一种简化变体。原创 2025-08-02 10:28:16 · 29 阅读 · 0 评论 -
Mixture-of-Recursions: Learning Dynamic RecursiveDepths for Adaptive Token-Level Computation
将Transformer网络扩展到数千亿参数已经解锁了令人印象深刻的少样本泛化和推理能力(Brown等,2020;Chowdhery等,2023;Llama团队,2024;Gemini团队,2024;Gemini团队,2025)。然而,伴随而来的内存占用和计算需求使得在超大规模数据中心之外进行训练和部署变得具有挑战性(Patterson等,2021;Momenti等,2024)。这促使研究人员寻求替代的“高效”设计(Tay等,2022;Wan等,2023)。原创 2025-07-31 11:35:40 · 9 阅读 · 0 评论 -
BEYOND BINARY REWARDS: TRAINING LMS TOREASON ABOUT THEIR UNCERTAINTY
GPQA(Rein et al., 2024)、Math500(Hendrycks et al., 2021)、GSM8K(Cobbe et al., 2021)和Big-Math(Albalak et al., 2025)评估了在复杂、多步骤或科学推理中的校准,其中不确定性在多个步骤中累积。为了在这一领域定位我们提出的RLCR方法,我们调查了LLMs中置信度估计的四种趋势:(i)事后验证,(ii)基于采样的替代方案,(iii)内部信号探测,以及(iv)基于RL的校准。原创 2025-07-29 11:17:41 · 26 阅读 · 0 评论 -
Binary Classifier Optimization for Large Language Model Alignment
在生产环境中部署大型语言模型(LLMs)时,对齐LLMs一直是一个关键因素,因为预训练的LLMs容易产生不良输出。Ouyang等人(2022)引入了基于人类反馈的强化学习(RLHF),该方法涉及基于单个提示的各种完成及其比较来训练奖励模型,然后优化LLM以最大化这些奖励。随后,直接偏好优化(DPO)(Rafailo et al., 2023)被提出作为一种替代方案,它通过直接基于选择和拒绝的完成之间的偏好来优化模型,从而避免了训练奖励模型的需要。原创 2025-07-28 10:53:21 · 280 阅读 · 0 评论 -
RM-R1: Reward Modeling as Reasoning
奖励模型(RMs)在大型语言模型(LLM)的后训练中扮演着关键角色,特别是在具有人类反馈的强化学习(RLHF)中,它们作为人类评估者的可扩展代理。(1)基于标量的奖励模型(ScalarRM)和(2)生成式奖励模型(GenRM)。基于标量的方法将奖励建模视为分类问题,通常在语言模型的基础上训练一个序列分类器。相比之下,生成式方法保留原始的语言模型解码头,并利用模型的生成能力来产生自由形式的成对判断。虽然基于标量的方法直接且通常有效,但它们是不透明的,不提供中间推理步骤来证明模型的决策。原创 2025-07-26 09:49:16 · 29 阅读 · 0 评论 -
Gradient-Adaptive Policy Optimization:Towards Multi-Objective Alignment of Large Language Models
大型语言模型(LLMs)(Anthropic, 2023;OpenAI, 2024)已经在广泛的实际应用中展示了显著的能力(Bubeck et al., 2023),包括内容创作(Yuan et al., 2022)、编程辅助(Chen et al., 2021;Gao et al., 2023)和数学推理(Wei et al., 2022)。随着LLMs在日常AI系统中的日益整合,确保它们与人类偏好(如有帮助、无害和诚实)的一致性已成为一个关键挑战。原创 2025-07-24 10:07:31 · 32 阅读 · 0 评论 -
Implicit Reward as the Bridge: A Unified View of SFTand DPO Connections
后训练是将大型语言模型(LLMs)应用于现实世界中的关键阶段。在从众多预训练语料库中积累了一般先验知识之后,后训练旨在利用LLMs的潜力以满足不同需求,例如遵循自然语言指令[1, 2, 3, 4, 5]。在后训练领域中,偏好信号已成为特别有价值的反馈形式,吸引了大量的研究关注[11, 1]。尽管这种顺序范式被广泛采用,但在理论视角下,这两种方法如何根本性地相互关联仍然存在显著差距。原创 2025-07-21 20:02:03 · 241 阅读 · 0 评论 -
Asymmetric REINFORCE for off-PolicyReinforcement Learning:Balancing positive and negative rewards
强化学习(RL)长期以来一直被应用于通过人类反馈(Christiano 等,2017;Ouyang 等,2022;Dubey 等,2024)来调整大型语言模型(LLMs)以符合用户的偏好;最近,它还被用于以更通用的方式增强模型,特别是开发它们的推理、编码和工具使用能力(Shao 等,2024;Guo 等,2025;Meta,2025;由于RL理论上允许模型超越现有训练数据的限制(参见例如 Silver 等(2016);原创 2025-07-19 10:17:17 · 22 阅读 · 0 评论 -
Com2: A Causal-Guided Benchmark for Exploring Complex CommonsenseReasoning in Large Language Model
基于Com²,我们首先评估了广泛的现有LLMs,然后进行深入分析。原创 2025-07-17 21:09:30 · 28 阅读 · 0 评论 -
GENERALIST REWARD MODELS: FOUND INSIDE LARGELANGUAGE MODELS
将大型语言模型(LLMs)与复杂的人类价值观(如乐于助人和诚实)对齐,仍然是人工智能发展中的一个核心挑战。这项任务的主要范式是来自人类反馈的强化学习(RLHF)[Christiano et al., 2017;这个流程严重依赖于一个奖励模型(RM),该模型经过人类偏好的训练来对模型输出进行评分,最终对齐的LLM的质量基本上由这个RM的质量决定。因此,创建一个最先进的RM以前需要构建大规模、高质量的人类偏好数据集,这显然既缓慢、昂贵又难以扩展。这种对人类标注的依赖催生了对替代对齐方法的研究。原创 2025-07-16 21:16:18 · 108 阅读 · 0 评论 -
MARFT: Multi-Agent Reinforcement Fine-Tuning
大型语言模型(LLMs)正越来越多地被部署为新一代自治智能体,能够执行需要决策、推理以及与复杂和动态环境互动的智能任务(Jin等,2024;Hong等,2024;Qian等,2024)。这些基于LLM的智能体正在迅速改变人机交互,并扩展自治系统的边界。除了强大的自然语言理解和生成能力(Chowdhary,2020),LLMs还可以执行检索增强生成(RAG)(Lewis等,2021),当与外部工具或API集成时,可以在计算机和移动平台上完成更复杂的任务(Erdogan等,2024;Zhang等,2025)。原创 2025-07-11 16:42:07 · 35 阅读 · 0 评论 -
Tuning Language Models by Proxy
尽管大型预训练语言模型的通用能力越来越强,但它们仍然可以从额外的微调中受益,以更好地实现所需的行为。例如,它们通常被微调以遵循指令(Ouyang等人,2022年)、特定的兴趣领域(Gururangan等人,2020年)或特定任务(Raffel等人,2020年)。然而,微调这些模型变得越来越资源密集,或者在模型权重是私有的情况下变得不可能(例如,GPT-4;OpenAI,2023年)。因此,如何有效地为不同用户和应用定制越来越大的语言模型仍然是一个挑战。原创 2025-07-06 16:25:12 · 88 阅读 · 0 评论 -
BPO: Towards Balanced Preference Optimization between KnowledgeBreadth and Depth in Alignment
带人类反馈的强化学习(Reinforcement Learning with Human Feedback,简称 RLHF)(Christiano 等,2017)在近年来大型语言模型(LLMs)的成功中发挥了关键作用。其目标是在大型语言模型的后训练阶段,通过利用大量人类标注者的成对反馈,使其与人类的价值观和偏好相一致。另一研究方向则从数据角度出发,旨在提升一致性过程。原创 2025-07-04 11:55:54 · 32 阅读 · 0 评论 -
EPO: Hierarchical LLM Agents with Environment PreferenceOptimization
长期决策和规划任务依然是基于大型语言模型(LLM)的智能体面临的一大挑战(Valmeekam 等,2023;Liu 等,2023;Silver 等,2024)。这些任务需要智能体进行多步骤的规划,同时保持行为的一致性和目标导向,这对于通常被设计用于即时和局部预测的大型语言模型来说颇为困难。此外,针对具身智能体的大型语言模型微调面临的一个关键难题是大规模标注数据的需求(Reed 等,2022)。原创 2025-07-04 11:06:58 · 44 阅读 · 0 评论 -
Plan-Grounded Large Language Models forDual Goal Conversational Settings
引导用户完成诸如烹饪或 DIY 之类的手动任务(Choi 等,2022),对于当前的大型语言模型(LLMs)来说是一个新颖且具有挑战性的领域。该问题之所以棘手,是因为现有的大型语言模型仅接受过遵循用户指令的训练,而在这一新场景下,指令会在对话的双方之间流动。(i)遵循一系列步骤计划,以及(ii)回答用户提出的各种指令。为应对这些联合目标,大型语言模型需要在程序性计划的背景下,同时与计划对齐并遵循用户指令,如图 1 所示。原创 2025-07-04 10:14:30 · 413 阅读 · 0 评论 -
A Deep Dive into the Trade-Offs of Parameter-EfficientPreference Alignment Techniques
大型语言模型(LLMs)在诸如总结、常识推理和开放式生成等各项任务上取得了类似人类的性能表现(Zhao et al., 2023)。这些LLMs拥有数十亿参数,并且是在从网络抓取的数万亿token上进行预训练的。LLMs的有利用途之一是以自主代理的形式出现,让它们遵循用户指令并符合特定的偏好要求(Wang et al., 2023a)。然而,预训练模型往往无法遵循指令,需要使用特别编排的偏好对齐数据集和方法来进行对齐,以实现泛化(Mishra et al., 2021)。原创 2025-07-03 10:16:45 · 23 阅读 · 0 评论 -
Instantly Learning Preference Alignment via In-context DPO
在大型语言模型(LLM)行业中,人类偏好对齐(HPA)至关重要,因为它可以防止LLM生成与人类价值观相悖的内容。目前,HPA的主流方法主要依赖于微调,例如RLHF(Stiennon等人,2020;Ouyang等人,2022;Zhu等人,2023)、RAFT(Dong等人,2023a)、RRHF(Yuan等人,2023)或DPO(Rafailov等人,2023)。然而,微调的巨大计算和标注成本不容忽视。因此,采用外部监督解码的无调参方法越来越受欢迎。原创 2025-07-02 10:12:46 · 26 阅读 · 0 评论 -
TTRL:Test-Time Reinforcement Learning
因此,策略模型自身估计的奖励信号可能为学习提供了更合适的指导。图 9:“幸运命中”的一个案例。我们展示了一个基本的数值预测场景,以比较在两种条件下奖励计算:当估计的标签不正确时与使用真实标签时。如图 9 所示,尽管估计的标签不正确,但一些错误预测仍然与错误标签不同,因此收到了正确的奖励(表示为 0)。原创 2025-06-30 11:32:33 · 244 阅读 · 0 评论 -
Test-Time Preference Optimization:On-the-Fly Alignment via Iterative Textual Feedback
大型语言模型(OpenAI,2023;Dubey 等,2024;Jiang 等,2024;Zhu 等,2024;Qwen 等,2025)在一系列下游任务中展现出令人印象深刻的性能。然而,由于这些模型是基于大量未标注文本进行训练的,如果不进行适当的对齐,它们可能会偶尔生成意外或不安全的回应。因此,许多方法旨在将大型语言模型与人类偏好对齐,以确保其输出既有助又有用。原创 2025-06-28 15:57:27 · 42 阅读 · 0 评论 -
DRIVEVLM: The Convergence of Autonomous Driving and Large Vision-Language Models
场景描述(E):由天气状况(E_weather)、时间(E_time)、道路状况(E_road)和车道状况(E_lane)组成。场景分析(S):涵盖对象级分析和场景级总结。元动作(A):代表任务级操作的动作序列。决策描述(D):对驾驶决策的详细说明。轨迹航点(W):勾勒出自车规划轨迹的航点。原创 2025-06-25 20:21:27 · 42 阅读 · 0 评论 -
大模型强化微调GRPO——DeepSeekMath: Pushing the Limits of MathematicalReasoning in Open Language Models
英语和中文数学推理:我们对模型在英语和中文基准测试上进行了全面评估,涵盖从小学水平到大学水平的数学问题。英语基准测试包括 GSM8K(Cobbe 等,2021 年)、MATH(Hendrycks 等,2021 年)、SAT(Azerbayev 等,2023 年)、OCW 课程(Lewkowycz 等,2022 年)、MMLU-STEM(Hendrycks 等,2020 年)。原创 2025-06-24 14:54:54 · 217 阅读 · 0 评论 -
DriveLM: Driving with Graph Visual Question Answering代码实战
在感知阶段,核心问题包括当前场景中的重要物体有哪些、物体 X 的运动状态如何以及物体 X 的视觉描述等,这些问题旨在全面理解场景中的物体信息。预测阶段关注物体 X 的未来状态、物体 X 是否会出现在自车的行驶方向上,以及自车到达下一个可能位置时应首先 / 其次 / 第三注意哪些物体,以实现对环境变化的预判。规划阶段则聚焦于基于物体 X 的观察自车可采取哪些动作、自车哪些动作会导致与物体 X 碰撞,以及在该场景下自车的安全动作是什么,从而生成合理的驾驶决策。对于自车应注意物体的顺序问题,按匹配情况计算得分。原创 2025-06-16 17:42:30 · 251 阅读 · 0 评论 -
KTO: Model Alignment as Prospect Theoretic Optimization
本报告介绍了一种基于前景理论(Prospect Theory)的大型语言模型对齐方法 ——KTO(Kahneman-Tversky Optimization)。该方法通过设计人类感知损失函数(HALO),直接最大化模型生成的效用,而非依赖人类偏好数据的对数似然,旨在解决现有对齐方法(如 PPO、DPO)依赖高成本偏好数据的局限性。报告将从 KTO 的创新思路、理论基础、原理、核心代码、性能对比及消融实验等方面展开详细阐述。原创 2025-06-07 21:19:11 · 220 阅读 · 0 评论 -
DPO算法微调实战
步骤描述1. 数据准备输入 prompt,带有 chosen 和 rejected 两个回答2. 模型前向获取策略模型和参考模型在这两个回答上的 log 概率3. 计算目标函数用对比对数比构造 sigmoid 损失函数4. 反向传播只更新策略模型的参数,参考模型保持冻结微调运行过程:通过网盘分享的文件:大模型链接: https://pan.baidu.com/s/1kZNFLPNevEKQnLGzhcDmrg?pwd=gfw7 提取码: gfw7。原创 2025-06-04 22:59:10 · 721 阅读 · 0 评论 -
DPO 算法
传统的 RLHF 通过奖励模型和 KL 散度约束来优化策略,而 DPO 直接利用偏好数据进行最大似然优化,避免了复杂的强化学习过程和奖励模型的显式训练,简化了流程,提高了效率。该模型有以下基本假设:每个项目或实体都有一个潜在的能力值,这个值反映了该项目在与其他项目比较时获胜的概率。Bradley - Terry 模型是一种用于比较和排序多个项目或实体的统计模型。它最初由 Ralph Bradley 和 Milton Terry 在 1952 年提出,主要用于体育比赛中的胜负预测。原创 2025-06-03 22:11:35 · 206 阅读 · 0 评论 -
PPO: Proximal Policy Optimization Algorithms
在多个 MuJoCo 环境上对 PPO(Clip)与其他算法(如 A2C、A2C+Trust Region、CEM、Vanilla PG、Adaptive TRPO 等)进行了性能对比,训练时长为一百万时间步,结果如图 3 所示,展示了不同算法在 HalfCheetah-v1、Hopper-v1、InvertedDoublePendulum-v1、InvertedPendulum-v1、Reacher-v1、Swimmer-v1、Walker2d-v1 等环境中的表现。ChatGPT 的训练分为三个步骤。原创 2025-06-03 14:53:29 · 59 阅读 · 0 评论 -
A3C算法在超级马里奥实战中的应用研究
在深度学习和人工智能领域,强化学习技术的应用正不断推动着机器智能的边界。超级马里奥(Super Mario)作为一款经典的电子游戏,因其复杂的动态环境和多样化的游戏任务,成为深度强化学习的重要测试平台。本文以A3C(Asynchronous Advantage Actor-Critic)算法为核心,探讨其在超级马里奥游戏中的应用。通过理论分析和实战验证,展示A3C算法在解决游戏复杂性、实现智能决策方面的优势与挑战。原创 2024-12-31 15:43:25 · 384 阅读 · 0 评论 -
用A3C玩转超级马里奥
A3C(Asynchronous Advantage Actor-Critic)是一种深度强化学习算法,基于 Actor-Critic 框架进行改进,其核心目标是通过异步并行训练方式提高计算效率,同时利用优势函数(Advantage Function)减少方差并提升策略优化的稳定性。原创 2024-12-31 15:15:33 · 649 阅读 · 0 评论 -
【课程论文系列实战】:基于PPO算法的月球登陆器模拟研究
(1)研究背景在航天任务中,着陆器自主控制是影响任务成功率的关键技术。月球着陆任务要求控制器根据实时状态,调节推进器的推力和方向,平稳地将着陆器降落到指定位置,同时考虑燃料的最小消耗。然而,由于环境复杂、不确定性强,基于规则的控制方法难以满足实时任务需求。强化学习(Reinforcement Learning, RL)作为机器学习中的一大类方法,通过智能体与环境的交互学习策略,能够自主优化控制行为,为解决复杂控制问题提供了新的思路。原创 2024-12-20 22:44:11 · 346 阅读 · 0 评论 -
Situation-Dependent Causal Influence-Based Cooperative Multi-agentReinforcement Learning
交通信号灯控制(如城市交通优化)自动驾驶车辆协调(如多车辆路径规划与避障)机器人控制(如多机器人协作任务)在多智能体强化学习的研究中,传统方法通常采用完全独立的训练,即每个智能体独立学习,将其他智能体视为环境的一部分。然而,这种方法忽略了智能体之间的交互作用,尤其在非平稳环境中表现不佳。为应对上述问题,“集中训练与分散执行”(Centralized Training with Decentralized Execution, CTDE)框架应运而生。原创 2024-12-06 17:21:30 · 81 阅读 · 0 评论 -
DQN系列算法详解
Q-Learning是一种强化学习算法,目的是通过选择能带来最大长期收益的行为来完成任务。做事包含瞬时奖励和记忆经验奖励:瞬时奖励:记忆经验奖励:DQN的引入:(1)状态定义:(2)Q和R的初始化 (3)迭代过程第一轮迭代 在得到最终 Q 表后,智能体可以通过选择 Q 值最高的路径,找到从任意状态出发,到达出口(状态5)的最优逃脱路径。 目录1. Q-learning1.1 概述 1.2 核心流程1.3 案例:密室逃脱2. DQN2.1 DQN的工作原理2.2 DQN的特点3. D原创 2024-11-18 21:57:26 · 210 阅读 · 0 评论 -
DQN代码详解
在 MountainCar-v0 环境中,智能体的目标是尽可能快地将一辆小车从山谷的一端(起始位置)驾驶到山谷的另一端(目标位置),通过学习如何利用环境中的动力学来实现目标。智能体只能施加力量(加速)来推动小车,且受到物理规律的限制:小车无法直接达到目标,需要先通过加速反复地上下山谷来获得足够的动能。原创 2024-11-18 21:58:12 · 287 阅读 · 0 评论 -
SlowFast Networks for Video Recognition论文精读
作者提出了用于视频识别的快速网络。模型包括。原创 2022-10-08 12:00:41 · 674 阅读 · 0 评论 -
softfast项目环境配置
官方github: GitHub - facebookresearch/SlowFast: PySlowFast: video understanding codebase from FAIR for reproducing state-of-the-art video models. 配置文件:我们选择AVA相关配置文件进行模型的测试,需要修改以下位置,LABEL_FILE_PATH是label以及对应的动作的对应关系,可以从github上下载INPUT_VIDEO:输入视频路径原创 2022-10-15 09:31:04 · 556 阅读 · 0 评论 -
C3D论文精读
1)与二维相比,三维卷积网更适合时空特征学习;2)所有层具有3×3×3的小卷积核的同构架构是3D卷积网的最佳架构之一;3)学习到的特征,即C3D(卷积3D),使用一个简单的线性分类器,在4个不同的基准上优于最先进的方法,并在其他2个基准上与当前的最佳方法相比较。一个有效的视频理解算法有四个属性: (i)它需要是通用的,这样它就可以很好地表示不同类型的视频,同时具有区别性。例如,互联网视频可以是风景、自然场景、体育、电视节目、电影、宠物、食物等;(ii)原创 2022-10-16 10:57:02 · 2501 阅读 · 0 评论 -
Learning Normal Dynamics in Videos with Meta Prototype Network源码详解
网址:数据集为经过分帧为图片的数据集,如果使用自己的数据集,需要分帧。原创 2022-10-25 18:07:56 · 1426 阅读 · 0 评论 -
slowfast核心思想解读
场景:动作在变,环境不变需要解决的问题:如何获取动作信息和环境信息?对于环境信息,我们可以取视频中的某一帧出来,利用卷积等方式提取特征,即可获取环境信息。对于动作信息,我们可以采样出视频中的包含时间信息的图像序列,通过3D卷积等方式提取特征。但是,我们需要考虑一个问题,即速度,假如我们对每一帧进行处理,网络复杂度比较大,无法满足实时处理的需求。但是,对于一个动作,虽然是一个连续的过程,我们也可以通过有间隔的采样去表示这个动作。这样就能够减少大量的运算。原创 2022-10-08 16:46:01 · 1467 阅读 · 0 评论 -
slowfast源码详解
首先取出video_idx, sec_idx, sec, center_idx,center_idx,center_idx指的是该秒对应的图片帧的索引,以第一个视频第1秒为例,前面的video_idx, sec_idx均为0,sec应为902,对应标签文件中开始的视频时间(902秒),center_idx应为30,因为视频在准备数据的时候做了切分,截取了第15分钟到第25分钟的视频,同时每一秒包含30帧图像。此外,为了进行特征融合,在h,w维度k均为7,stride保持一致。并对小数进行双线性插值。原创 2022-10-15 20:22:46 · 3051 阅读 · 1 评论 -
C3D源码解读(基于3D卷积的动作识别)
UCF数据集下载地址:https://www.crcv.ucf.edu/data/UCF101.php。原创 2022-10-16 17:33:42 · 3151 阅读 · 0 评论