全面深入解读Movie Gen技术原理(5部曲):个性化视频生成(3)

  • ​引言

  • 简介

  • 生成个性化视频模型

  • 预训练

    • 预训练数据

    • 预训练方法

  • 监督微调

  • 评估

  • 结果

  • 总结

引言

最是人间留不住,朱颜辞镜花辞树。小伙伴们好,我是微信公众号《小窗幽记机器学习》的小编:缅A消费的小女孩。紧接此前Movie Gen解读系列:

突发!Meta重磅发布Movie Gen入局视频生成赛道!

全面深入解读Movie Gen技术原理(5部曲):概述 (1)

万字长文深度解读Movie Gen技术原理(5部曲):图像视频联合生成(2)

继续基于Meta官方发布的92页Movie Gen技术报告详细解读Movie Gen模型。今天这篇作文主要介绍Movie Gen中的:生成个性化视频

AI科技爱科学

简介

本文介绍Movie Gen如何探讨了个性化视频生成这一重要研究领域。Movie Gen的研究员提出了一种新颖的模型架构,通过将个性化信息整合到视频生成过程中,实现了最先进的效果。以下将介绍模型结构、训练方法、评估标准以及定量结果。这项研究不仅在技术上取得了突破,还具有广泛的实际应用前景,为个性化高质量视频生成开辟了新的可能性。

后续将进一步解读Movie Gen的视频精准编辑声音生成。感兴趣的小伙伴可以留意下本微信公众号:

小窗幽记机器学习

记录机器学习过程中的点点滴滴和坑坑洼洼

公众号

4. 生成个性化视频

生成准确捕捉个人特征的高质量个性化视频具有重要的实际应用。本节详细介绍了将个性化整合到视频生成中所取得的最先进成果。4.1节介绍对应的模型架构,4.2.1节和4.3节阐述了训练方法,4.4节解释了个性化的评估标准,4.5节展示了定量的评测结果。

4.1 模型

为实现个性化文本到视频生成(PT2V),在30B Movie Gen Video模型的基础上除了文本提示外,还引入了从输入参考图像中提取的身份信息作为条件输入。图20展示了从T2V Movie Gen Video权重初始化的PT2V模型架构。通过在条件中拼接视觉token,实现统一框架的集成,从而能够扩展模型规模。类似于(He et al., 2024b)的做法,使用可训练的Long-prompt MetaCLIP视觉编码器从带masked的人脸图像中提取身份特征,然后通过投影层将其与文本特征维度对齐。训练策略包括PT2V预训练阶段PT2V高质量微调

4.2 预训练

4.2.1 预训练数据

PT2V训练主要由同一人物贯穿所有帧的视频组成。从Movie Gen Video预训练数据集(3.2.1节)中筛选出这些训练集。首先基于包含人物相关概念的标题筛选原始T2V视频,然后每秒提取一帧过人脸检测器,保留只包含单人脸且连续帧间ArcFace余弦相似度得分超过0.5的视频。这一处理获得约 100万对文本-视频对,视频时长为4-16秒。根据source参考人脸,PT2V训练数据集可分为配对交叉配对数据。

配对数据:对每个选定的文本-视频对,从视频剪辑中均匀采样5帧,得到约1000万个配对训练样本。对每一帧,裁剪人脸区域并分割人脸区域,从而避免模型关注背景等非关键区域。

交叉配对数据:仅使用配对数据训练会导致模型倾向于学习到复制-粘贴的这种捷径解决方案(生成的视频始终抄袭参考图片面部的表情或头部姿势)。为解决这个问题,收集了参考图像来自同一人物不同视频的训练对。这些数据包括真实和合成的交叉配对数据样本。从预训练数据的一个子集中收集了约1万个真实交叉配对,这些数据包含同一场景的不同相机视角。对于合成交叉配对数据,使用预训练的个性化图像生成模型创建合成参考图像。具体而言,将模型应用于配对数据中每个视频的第一帧,生成具有不同表情、头部姿势和光照条件等的图像。为保持身份一致性,丢弃与参考图像相比ArcFace相似度得分低于0.7的生成图像。总共得到约100万个合成交叉配对数据样本。

4.2.2 预训练方法

PT2V预训练有三个目标:

  • 训练模型以参考图像为条件并保留身份

  • 生成长时长的个性化视频

  • 改善生成的人物表情和动作自然度

直接在长视频上训练模型一方面效率低下,另一方面常导致身份注入个性化模型缓慢。因为(1)训练速度几乎与潜在帧(token)数量的平方成正比,(2)长视频中参考图-视频弱的对应关系使得任务更具挑战性。图21详细介绍了预训练方法。

第一阶段:身份注入。为简化问题,以参考图像为条件,训练短视频。具体来说,将TAE嵌入截断为8个潜在帧(对应64个RGB视频帧),使用配对训练样本加速身份注入。冻结视觉编码器,仅训练Transformer主干网络。在这个阶段,模型可以快速地学会遵循参考图像,如图21中ArcFace的平均相似性得分所示。

第二阶段:长视频生成。继续训练具有更多潜在帧的PT2V模型,恢复生成长视频的能力。这一阶段显著提高了长视频生成的一致性,特别是背景和动作连贯性。

第三阶段:提高自然度。由于第一阶段和第二阶段的模型是在成对的图像视频样本上进行训练的,因此经常表现出很强的复制粘贴效应。例如,在生成的视频帧中,人倾向于直接盯着相机,导致面部表情不自然。所以,第三阶段使用交叉配对样本(参考图像不是来自于相应的目标视频)训练,改善视频自然度和面部表情。利用真实和合成的交叉配对数据,同时微调视觉编码器以从参考图像中提取更详细的身份特征。

4.3 监督微调

类似于T2V,通过高质量美学数据进行高质量微调,以进一步改善视频美学效果。

4.3.1 微调数据集

与Movie Gen Video进行后训练过程(详见第3.3节)类似,收集一小部分高质量的微调数据,以生成具有良好运动质量和高度美感的视频。为了达到与Movie Gen Video 相匹配的视觉质量和美学效果,从T2V微调集开始,收集包含单人物的视频。随后手动选择人物动作多样化的视频,确保数据集捕捉各种动作和行为。最终微调集包含约1000个高质量视频,配对和真实交叉配对参考图像使用比例为1:1。

4.4 评估

PT2V模型的评估涵盖三个方面:身份保留、视频质量和视频-文本对齐。后两个方面类似于3.5节的T2V A/B评估,其中视频质量可以进一步细分为整体质量、帧一致性、运动完整性和运动自然性。身份保留方面,评估人员需要对生成角色的人脸在最佳和最差帧中与参考人物的相似度(身份得分),以及生成帧中包含参考人物的人脸之间的视觉一致性(人脸一致性得分)进行评分。这两个评分采用绝对尺度进行评估,身份问题的评分包括“非常相似”、“有些相似”和“不相似”,而面部一致性问题的评分包括“非常一致”、“有些一致”和“不一致”。评估人员经过专门培训以遵循评分指南,并进行质量审核。

评估数据集:选择50个训练中未见过的个体作为评估数据中的参考面孔。这些参考面孔图像包括正面和侧面视图。对于每张图像,配以5-7个独特的提示语,共整理了330对图像-提示对用于评估。类似于T2V评估数据集,这些提示语涵盖了不同的人物活动和面部表情。同时使用与第3.4.1节相同的提示重写方法,以弥合训练和推理字幕之间的Gap。

4.5 结果

表13和表15a比较了监督微调后的个性化 Movie Gen Video与ID-Animator 的性能结果。结果显示,新方法在身份保留、视频质量和文本对齐等所有方面都大幅优于基线。表15b还与未进行视觉条件控制的Movie Gen Video在视频质量和文本对齐方面进行了比较。

图23展示了个性化Movie Gen Video生成的视频。前四个视频使用相同提示但不同身份生成,后四个使用相同身份但不同提示生成。生成的视频保留了身份特征,同时具有多样化的动作和摄像机视角。图22展示了个性化Movie Gen Video与ID-Animator的质量对比,前者在身份一致性和视频质量方面始终优于后者。

4.5.1 消融实验

此外,Meta官方还研究了个性化 Text-to-Video(30B)训练流程中关键设计选择的影响。

视觉条件嵌入训练的影响:结果显示,使用固定的视觉编码器会显著降低身份保留性能,降低16%。

交叉配对数据的影响:虽然交叉配对训练导致身份指标略有下降,但对改善面部表情和自然动作至关重要。人工标注显示,交叉配对训练模型在文本对齐方面提高了27.36%,整体质量提高了13.68%,尤其是动作自然度提高了26.14%。

高质量微调的影响:最终的高质量微调阶段对视频质量、文本对齐和身份保留的所有方面都产生了积极影响,尽管身份保留略有下降,但视频质量和自然度得到了显著改善。

总结

Movie Gen在个性化视频生成领域取得了显著进展。通过创新的模型设计和训练策略,Movie Gen成功地将个人身份信息融入视频生成过程,在身份保持、视频质量和文本对齐等多个方面都优于现有方法。此外,还探讨了视觉编码器训练、交叉配对数据和高质量微调等关键因素的影响。这些发现不仅推动了技术进步,也为未来个性化视频生成的应用和优化提供了重要参考。总的来说,这项工作为个性化视频生成领域开辟了新的研究方向,具有重要的理论价值和应用潜力。#视频生成 #AIGC #AI #多模态大模型

<think>嗯,用户想了解AI短视频生成的技术、实现方法工具。首先,我得整理现有的知识,看看有哪些技术可以用。根据提供的引用,有文本生成视频、图片生成视频、视频生成视频三种方法。引用[2]提到生成对抗网络(GANs)深度学习模型,特别是GANs的结构,生成器判别器。可能还需要提到其他模型,比如扩散模型,最近比较火的。然后,工作流程方面,引用[2][3]都有提到,可能需要分步骤说明,比如素材处理、模型选择、生成优化、后期处理。 工具方面,用户可能想知道具体的工具或库。引用[3]提到了上海AI Lab的书生·筑梦2.0,还有Python工具使用GPT-4Whisper。可能需要列举几个工具,比如Runway ML、Pika Labs,这些常见的AI视频生成工具。另外,开源框架如Stable Diffusion可能也需要提到,虽然主要是图像生成,但可以扩展到视频。 实现方法分,需要详细说明每种生成方式的技术细节。比如文本生成视频可能用自然语言处理技术,把文本转成视频元素;图片生成视频可能用图像动画化技术,比如让静态图片动起来;视频生成视频可能涉及风格迁移或内容修改,比如引用[3]中提到的从长视频生成短视频,包括检测发言者、垂直裁剪等步骤。 还要考虑用户的实际应用场景,他们可能想知道如何开始使用这些工具,是否需要编程基础,或者有没有现成的平台。比如提到的Runway ML可能有图形界面,适合非技术人员,而Python工具则需要一定的编程能力。 可能还需要提醒用户注意的问题,比如硬件要求,生成视频的质量,以及版权问题。例如,使用GANs生成视频可能需要大量计算资源,或者生成的内容是否有版权风险。 最后,生成相关问题的时候,要围绕技术原理、工具选择、优化方法、应用场景等方面提问,帮助用户进一步探索。比如,如何选择模型,如何优化生成速度,如何处理不同分辨率的视频等。 总之,需要结构清晰,分技术方法、工具、实现步骤、应用案例注意事项来回答,确保用户能一步步了解如何实现AI短视频生成,并提供相关资源供参考。</think>以下分四个分介绍AI短视频生成技术实现方法与工具,结合当前主流技术方案实际应用案例说明: ### 一、核心技术方法 1. **文本生成视频** 通过自然语言处理(NLP)解析文本内容,使用$VQGAN+CLIP$等模型生成关键帧序列。例如输入"宇航员漫步火星",系统将生成对应的场景元素动作序列[^2] 2. **图片生成视频** 基于扩散模型实现图像动画化,常用架构包括: $$ \text{VideoLDM}(x_t,t,y) = \epsilon_\theta(x_t,t,\tau(y)) $$ 其中$\tau(y)$是文本编码器,$\epsilon_\theta$控制去噪过程 3. **视频生成视频** 采用时空一致性生成技术,典型方案: - 视频风格迁移:保持原视频动作,替换视觉风格 - 内容重定向:如上海AI Lab的[书生·筑梦2.0]可实现长视频自动剪辑成竖版短视频[^3] ### 二、主流工具与框架 | 工具名称 | 类型 | 特点 | |----------------|------------|----------------------------------| | Runway ML | 云端平台 | 无需编程,支持文字/图片生成视频 | | Pika Labs | Web应用 | 免费生成4秒短视频 | | Stable Diffusion Video | 开源模型 | 可生成576×1024分辨率短视频 | | 书生·筑梦2.0 | 专业工具 | 支持长视频智能剪辑重构 | ### 三、实现步骤(以Python工具为例) ```python # 基于Whisper+GPT-4的短视频生成流程 import whisper from openai import OpenAI def generate_short(video_path): # 语音转文字 model = whisper.load_model("base") result = model.transcribe(video_path) # 亮点提取 client = OpenAI() response = client.chat.completions.create( model="gpt-4", messages=[{"role": "user", "content": f"提取关键片段:{result[&#39;text&#39;]}"}] ) # 视频剪辑与重构 return process_video(response.choices[0].message.content) ``` ### 四、应用场景与注意事项 **典型应用案例:** - 电商产品动态展示 - 教育知识可视化 - 社交媒体垂直内容创作(如自动生成抖音短视频[^3]) **注意事项:** 1. 硬件要求:至少需要16GB显存的GPU 2. 版权问题:生成内容需遵守平台规范 3. 质量优化:建议配合人工审核调整
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值