前言:《Skyreels-v2: Infinite-length film generative model》中详细介绍了训练Flow-DPO的原理、方法、数据收集策略等,内容非常翔实,是训练Flow-DPO非常难得的一份参考资料。
目录
RLHF 相关工作
基于人类反馈的强化学习(RLHF)在将大型语言模型与人类偏好对齐方面的成功激发了它对视觉生成任务的适应。有两种主要的代表性优化算法:
(1)奖励加权回归(Reward-Weighted Regression, RWR)方法采用强化学习利