一、引言
数字 3D 资产在现代生活和生产中有着广泛应用,如游戏、电影等领域,但创建 3D 资产的过程复杂、耗时且成本高昂。近年来,随着扩散模型在图像和视频生成领域的快速发展,3D 生成领域却相对停滞。基于此,文章提出了 Hunyuan3D 2.0,一个先进的大规模 3D 合成系统,用于生成高分辨率纹理化的 3D 资产,旨在填补开源 3D 社区在大规模基础生成模型方面的空白。
二、Hunyuan3D 2.0 架构
Hunyuan3D 2.0 包括两个基础组件:大规模形状生成模型 Hunyuan3D-DiT 和大规模纹理合成模型 Hunyuan3D-Paint,以及一个用户友好的生产平台 Hunyuan3D-Studio。
-
形状生成模型 Hunyuan3D-DiT :基于可扩展的流基础扩散变换器构建,旨在根据给定的条件图像创建与之对齐的几何形状,为下游应用奠定基础。它通过训练自编码器 Hunyuan3D-ShapeVAE 来捕获网格上的细粒度细节,然后在 VAE 的潜在空间上构建双单流变换器。
-
纹理合成模型 Hunyuan3D-Paint :利用强大的几何和扩散先验,为生成或手工制作的网格生成高分辨率和生动的纹理贴图。它采用新颖的基于网格条件的多视图生成流程,以及多种预处理和烘烤多视图图像的先进技巧。
-
生产平台 Hunyuan3D-Studio :简化了 3D 资产的再创作过程,允许专业和业余用户高效地操纵甚至动画化他们的网格。
三、实验评估
文章对 Hunyuan3D 2.0 进行了系统评估,将其与多个领先的 3D 生成模型进行比较,包括商业闭源端到端产品、开源模型 Trellis 以及用于形状和纹理生成的单独模型等。
-
3D 形状生成评估 :
-
形状重建比较 :Hunyuan3D-ShapeVAE 在体积 IoU(V-IoU)和表面 IoU(S-IoU)等指标上优于 3DShape2VecSet、Michelangelo 和 Direct3D 等基线方法,能更准确地重建形状细节。
-
形状生成比较 :Hunyuan3D-DiT 在 ULIP-T/I、Uni3D-T/I 等指标上表现最佳,生成的裸网格更符合图像提示,且无孔洞,为下游任务提供了坚实基础。
-
-
纹理贴图合成评估 :Hunyuan3D-Paint 在 CMMD、FIDCLIP、CLIP-score 和 LPIPS 等指标上优于 TEXTure、Text2Tex、SyncMVD、Paint3D 和 TexPainter 等基线方法,能生成更符合条件的纹理贴图。
-
纹理化 3D 资产生成评估 :Hunyuan3D 2.0 在生成纹理化 3D 资产的质量和条件遵循能力上超越了 Trellis 和其他闭源模型,在 FIDCLIP、CLIP-score 等指标上表现优异。
-
用户研究 :邀请 50 名志愿者对 300 个未筛选结果进行主观评估,Hunyuan3D 2.0 在整体视觉质量、图像遵循度和整体满意度方面均优于比较方法。
四、Hunyuan3D-Studio 功能介绍
Hunyuan3D-Studio 提供了一系列 3D 生产流程工具,包括以下特色功能:
-
Sketch-to-3D :能将 2D 草图转换为具有丰富细节的图像,再输入基础 3D 生成模型,生成高分辨率和高保真度的纹理化 3D 资产,降低了用户参与内容创作的门槛。
-
Low-polygon Stylization :将 Hunyuan3D 2.0 生成的密集网格转换为低多边形网格,通过几何编辑和纹理保留步骤,在优化网格结构的同时保持纹理视觉质量。
-
3D Character Animation :输入生成的角色,提取网格顶点和边的特征,利用图神经网络检测骨骼关键点并分配蒙皮权重,基于预测的骨骼蒙皮和运动模板,使用运动重定向驱动角色。
五、相关工作
-
3D 形状生成方面 :3D 数据缺乏通用存储和表示格式,主要有体素、点云、多边形网格和隐式函数等表示方法。随着 3D ShapeNets、IF-Net 和 3D Gaussian Splatting 等工作出现,隐式函数和 3D 高斯分裂在形状生成中变得流行。Hunyuan3D 2.0 采用向量集表示 3D 形状的隐式函数,提高了形状生成性能。
-
纹理贴图合成方面 :早期尝试利用类别信息在特定数据集上训练生成模型,后来 Stable Diffusion 的出现推动了大量文本到纹理的研究。Hunyuan3D-Paint 旨在精确遵循参考图像的每个细节,以提高生成纹理的质量。
六、结论
文章介绍了开源的从图像生成纹理网格的 3D 创建系统 Hunyuan3D 2.0,包括训练有新型重要采样方法的 Hunyuan3D-ShapeVAE,以及在此基础上开发的先进扩散变换器 Hunyuan3D-DiT,还有用于为生成的网格和用户制作的网格创建纹理的扩散模型 Hunyuan3D-Paint。Hunyuan3D 2.0 能从单个图像生成高分辨率、高保真的纹理化 3D 资产,有望成为开源社区大规模 3D 基础模型的坚实基准,并推动未来的研究工作。