腾讯开源新版本扩散图像视频生成模型速览：Hunyuan3D-2.1

最新推荐文章于 2025-08-05 11:07:17 发布

原创最新推荐文章于 2025-08-05 11:07:17 发布 · 857 阅读

17 ·

CC 4.0 BY-SA版权

文章标签：

#3d #开源 #语言模型 #人工智能 #算法 #音视频

前沿专栏收录该内容

361 篇文章

订阅专栏

一、引言

数字 3D 资产在现代生活和生产中有着广泛应用，如游戏、电影等领域，但创建 3D 资产的过程复杂、耗时且成本高昂。近年来，随着扩散模型在图像和视频生成领域的快速发展，3D 生成领域却相对停滞。基于此，文章提出了 Hunyuan3D 2.0，一个先进的大规模 3D 合成系统，用于生成高分辨率纹理化的 3D 资产，旨在填补开源 3D 社区在大规模基础生成模型方面的空白。

二、Hunyuan3D 2.0 架构

Hunyuan3D 2.0 包括两个基础组件：大规模形状生成模型 Hunyuan3D-DiT 和大规模纹理合成模型 Hunyuan3D-Paint，以及一个用户友好的生产平台 Hunyuan3D-Studio。

形状生成模型 Hunyuan3D-DiT ：基于可扩展的流基础扩散变换器构建，旨在根据给定的条件图像创建与之对齐的几何形状，为下游应用奠定基础。它通过训练自编码器 Hunyuan3D-ShapeVAE 来捕获网格上的细粒度细节，然后在 VAE 的潜在空间上构建双单流变换器。
纹理合成模型 Hunyuan3D-Paint ：利用强大的几何和扩散先验，为生成或手工制作的网格生成高分辨率和生动的纹理贴图。它采用新颖的基于网格条件的多视图生成流程，以及多种预处理和烘烤多视图图像的先进技巧。
生产平台 Hunyuan3D-Studio ：简化了 3D 资产的再创作过程，允许专业和业余用户高效地操纵甚至动画化他们的网格。

三、实验评估

文章对 Hunyuan3D 2.0 进行了系统评估，将其与多个领先的 3D 生成模型进行比较，包括商业闭源端到端产品、开源模型 Trellis 以及用于形状和纹理生成的单独模型等。

3D 形状生成评估 ：
- 形状重建比较 ：Hunyuan3D-ShapeVAE 在体积 IoU（V-IoU）和表面 IoU（S-IoU）等指标上优于 3DShape2VecSet、Michelangelo 和 Direct3D 等基线方法，能更准确地重建形状细节。
- 形状生成比较 ：Hunyuan3D-DiT 在 ULIP-T/I、Uni3D-T/I 等指标上表现最佳，生成的裸网格更符合图像提示，且无孔洞，为下游任务提供了坚实基础。
纹理贴图合成评估 ：Hunyuan3D-Paint 在 CMMD、FIDCLIP、CLIP-score 和 LPIPS 等指标上优于 TEXTure、Text2Tex、SyncMVD、Paint3D 和 TexPainter 等基线方法，能生成更符合条件的纹理贴图。
纹理化 3D 资产生成评估 ：Hunyuan3D 2.0 在生成纹理化 3D 资产的质量和条件遵循能力上超越了 Trellis 和其他闭源模型，在 FIDCLIP、CLIP-score 等指标上表现优异。
用户研究 ：邀请 50 名志愿者对 300 个未筛选结果进行主观评估，Hunyuan3D 2.0 在整体视觉质量、图像遵循度和整体满意度方面均优于比较方法。

四、Hunyuan3D-Studio 功能介绍

Hunyuan3D-Studio 提供了一系列 3D 生产流程工具，包括以下特色功能：

Sketch-to-3D ：能将 2D 草图转换为具有丰富细节的图像，再输入基础 3D 生成模型，生成高分辨率和高保真度的纹理化 3D 资产，降低了用户参与内容创作的门槛。
Low-polygon Stylization ：将 Hunyuan3D 2.0 生成的密集网格转换为低多边形网格，通过几何编辑和纹理保留步骤，在优化网格结构的同时保持纹理视觉质量。
3D Character Animation ：输入生成的角色，提取网格顶点和边的特征，利用图神经网络检测骨骼关键点并分配蒙皮权重，基于预测的骨骼蒙皮和运动模板，使用运动重定向驱动角色。

五、相关工作

3D 形状生成方面 ：3D 数据缺乏通用存储和表示格式，主要有体素、点云、多边形网格和隐式函数等表示方法。随着 3D ShapeNets、IF-Net 和 3D Gaussian Splatting 等工作出现，隐式函数和 3D 高斯分裂在形状生成中变得流行。Hunyuan3D 2.0 采用向量集表示 3D 形状的隐式函数，提高了形状生成性能。
纹理贴图合成方面 ：早期尝试利用类别信息在特定数据集上训练生成模型，后来 Stable Diffusion 的出现推动了大量文本到纹理的研究。Hunyuan3D-Paint 旨在精确遵循参考图像的每个细节，以提高生成纹理的质量。

六、结论

文章介绍了开源的从图像生成纹理网格的 3D 创建系统 Hunyuan3D 2.0，包括训练有新型重要采样方法的 Hunyuan3D-ShapeVAE，以及在此基础上开发的先进扩散变换器 Hunyuan3D-DiT，还有用于为生成的网格和用户制作的网格创建纹理的扩散模型 Hunyuan3D-Paint。Hunyuan3D 2.0 能从单个图像生成高分辨率、高保真的纹理化 3D 资产，有望成为开源社区大规模 3D 基础模型的坚实基准，并推动未来的研究工作。