
vision
文章平均质量分 88
视觉模型最新研究进展
小李飞刀李寻欢
视频号:小明哥直播间
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
MEMO:用于富有表现力的对话视频生成的记忆引导扩散模型
摘要:MEMO是一种端到端音频驱动扩散模型,用于生成高质量对话视频。针对现有方法在音频-嘴唇同步、长期身份一致性和动态情感匹配方面的不足,MEMO提出两大创新模块:1)Memory-guided Temporal Module,通过线性注意力和记忆更新机制整合历史帧信息,减少误差累积;2)Emotion-aware Audio Module,结合多模态注意力与情感检测(8类),实现表情与音频情感的动态对齐。实验表明,MEMO在FVD(254.3)、Sync-D(7.4)等指标上优于基线,人类评估也验证其综合原创 2025-07-10 18:16:50 · 1212 阅读 · 0 评论 -
google VEO视频生成模型
谷歌Veo视频生成模型系列(Veo1-Veo3)通过迭代升级实现突破性进展。Veo3采用LatentDiffusionTransformer架构,支持4K/2分钟视频生成,具备音画同步、物理模拟(毫米级精度)和多模态融合能力。其创新包括:1)文本/图像双编码器精准理解用户意图;2)V2A模型实现音视频同步生成;3)数字水印技术解决版权争议。相比传统方案,Veo3将1分钟视频音效处理时间从2小时缩短至8秒,首次生成成功率提升40%,显著提高影视级内容创作效率。该技术群(277356808)持续开展多模态生成研原创 2025-07-10 17:40:05 · 608 阅读 · 0 评论 -
OmniTalker:基于上下文视听风格复刻的实时文本驱动说话人像生成
OmniTalker是一个端到端的文本驱动对话头生成框架,支持40多种语言的唇形同步,包括中英日等。其核心技术包括双模态并行生成(音频与视频同步)、跨模态融合机制确保音视频一致性,以及上下文风格嵌入实现零样本风格复制。模型采用流匹配技术提升效率,支持25FPS实时生成。相比传统级联方法,OmniTalker解决了音视频脱节、风格不匹配等问题,并通过联合建模语音与面部风格,实现更自然的对话效果。实验表明,该框架在音视频质量和同步性上均优于现有方法。原创 2025-07-09 16:47:11 · 877 阅读 · 0 评论 -
GroupMamba:高效的基于分组的视觉状态空间模型
在于:①。原创 2025-07-09 13:50:49 · 914 阅读 · 0 评论