腾讯开源新版本扩散图像视频生成模型速览:Hunyuan3D-2.1

一、引言

数字 3D 资产在现代生活和生产中有着广泛应用,如游戏、电影等领域,但创建 3D 资产的过程复杂、耗时且成本高昂。近年来,随着扩散模型在图像和视频生成领域的快速发展,3D 生成领域却相对停滞。基于此,文章提出了 Hunyuan3D 2.0,一个先进的大规模 3D 合成系统,用于生成高分辨率纹理化的 3D 资产,旨在填补开源 3D 社区在大规模基础生成模型方面的空白。

二、Hunyuan3D 2.0 架构

Hunyuan3D 2.0 包括两个基础组件:大规模形状生成模型 Hunyuan3D-DiT 和大规模纹理合成模型 Hunyuan3D-Paint,以及一个用户友好的生产平台 Hunyuan3D-Studio。

  • 形状生成模型 Hunyuan3D-DiT :基于可扩展的流基础扩散变换器构建,旨在根据给定的条件图像创建与之对齐的几何形状,为下游应用奠定基础。它通过训练自编码器 Hunyuan3D-ShapeVAE 来捕获网格上的细粒度细节,然后在 VAE 的潜在空间上构建双单流变换器。

  • 纹理合成模型 Hunyuan3D-Paint :利用强大的几何和扩散先验,为生成或手工制作的网格生成高分辨率和生动的纹理贴图。它采用新颖的基于网格条件的多视图生成流程,以及多种预处理和烘烤多视图图像的先进技巧。

  • 生产平台 Hunyuan3D-Studio :简化了 3D 资产的再创作过程,允许专业和业余用户高效地操纵甚至动画化他们的网格。

三、实验评估

文章对 Hunyuan3D 2.0 进行了系统评估,将其与多个领先的 3D 生成模型进行比较,包括商业闭源端到端产品、开源模型 Trellis 以及用于形状和纹理生成的单独模型等。

  • 3D 形状生成评估

    • 形状重建比较 :Hunyuan3D-ShapeVAE 在体积 IoU(V-IoU)和表面 IoU(S-IoU)等指标上优于 3DShape2VecSet、Michelangelo 和 Direct3D 等基线方法,能更准确地重建形状细节。

    • 形状生成比较 :Hunyuan3D-DiT 在 ULIP-T/I、Uni3D-T/I 等指标上表现最佳,生成的裸网格更符合图像提示,且无孔洞,为下游任务提供了坚实基础。

  • 纹理贴图合成评估 :Hunyuan3D-Paint 在 CMMD、FIDCLIP、CLIP-score 和 LPIPS 等指标上优于 TEXTure、Text2Tex、SyncMVD、Paint3D 和 TexPainter 等基线方法,能生成更符合条件的纹理贴图。

  • 纹理化 3D 资产生成评估 :Hunyuan3D 2.0 在生成纹理化 3D 资产的质量和条件遵循能力上超越了 Trellis 和其他闭源模型,在 FIDCLIP、CLIP-score 等指标上表现优异。

  • 用户研究 :邀请 50 名志愿者对 300 个未筛选结果进行主观评估,Hunyuan3D 2.0 在整体视觉质量、图像遵循度和整体满意度方面均优于比较方法。

四、Hunyuan3D-Studio 功能介绍

Hunyuan3D-Studio 提供了一系列 3D 生产流程工具,包括以下特色功能:

  • Sketch-to-3D :能将 2D 草图转换为具有丰富细节的图像,再输入基础 3D 生成模型,生成高分辨率和高保真度的纹理化 3D 资产,降低了用户参与内容创作的门槛。

  • Low-polygon Stylization :将 Hunyuan3D 2.0 生成的密集网格转换为低多边形网格,通过几何编辑和纹理保留步骤,在优化网格结构的同时保持纹理视觉质量。

  • 3D Character Animation :输入生成的角色,提取网格顶点和边的特征,利用图神经网络检测骨骼关键点并分配蒙皮权重,基于预测的骨骼蒙皮和运动模板,使用运动重定向驱动角色。

五、相关工作

  • 3D 形状生成方面 :3D 数据缺乏通用存储和表示格式,主要有体素、点云、多边形网格和隐式函数等表示方法。随着 3D ShapeNets、IF-Net 和 3D Gaussian Splatting 等工作出现,隐式函数和 3D 高斯分裂在形状生成中变得流行。Hunyuan3D 2.0 采用向量集表示 3D 形状的隐式函数,提高了形状生成性能。

  • 纹理贴图合成方面 :早期尝试利用类别信息在特定数据集上训练生成模型,后来 Stable Diffusion 的出现推动了大量文本到纹理的研究。Hunyuan3D-Paint 旨在精确遵循参考图像的每个细节,以提高生成纹理的质量。

六、结论

文章介绍了开源的从图像生成纹理网格的 3D 创建系统 Hunyuan3D 2.0,包括训练有新型重要采样方法的 Hunyuan3D-ShapeVAE,以及在此基础上开发的先进扩散变换器 Hunyuan3D-DiT,还有用于为生成的网格和用户制作的网格创建纹理的扩散模型 Hunyuan3D-Paint。Hunyuan3D 2.0 能从单个图像生成高分辨率、高保真的纹理化 3D 资产,有望成为开源社区大规模 3D 基础模型的坚实基准,并推动未来的研究工作。

Hunyuan3D 2.0 核心技术表格

在这里插入图片描述

### 关于 HunYuan 3D Version 2 的文档或使用指南 目前关于腾讯混元系列模型的公开资料主要集中在 HunYuan 3D-1.0 版本上[^1]。然而,对于 HunYuan 3D Version 2 (HunYuan 3D-2),尚未有官方发布的具体文档或详细的使用指南被广泛传播。以下是对可能涉及的内容以及基于现有版本推测的相关信息: #### 已知信息总结 1. **HunYuan 3D-1.0 功能概述** HunYuan 3D-1.0 是一个支持文本到 3D图像3D 生成功能的强大生成模型[^2]。它通过统一化的框架设计,在较短的时间内能够生成高质量的 3D 资产。 2. **技术背景与成本考量** 使用大规模模型进行三维生成的技术路线通常伴随着较高的计算资源需求。无论是神经辐射场 (NeRF) 还是其他形式的 3D 场景表示方法,这些模型都被认为是在当前领域中较为昂贵的选择之一[^3]。 3. **代码细节补充** 在一些具体的实现过程中,例如从文本到视频 (T2V) 或者图像到视频 (I2V) 的转换任务中,涉及到的关键参数如 `in_chans` 表明了输入数据结构的设计特点[^4]。这可能是未来版本进一步优化的方向之一。 #### 对 HunYuan 3D-2 的假设分析 尽管缺乏直接针对 HunYuan 3D-2 的描述性材料,可以合理猜测其改进方向如下: - 提升效率:减少运行时间和硬件消耗的同时保持甚至提高输出质量。 - 增强功能:扩展至更多模态间的转化能力,比如语音转 3D 形象等新型应用场景。 - 用户友好度增加:提供更简便易用的 API 接口和服务端解决方案以便开发者快集成到自己的产品当中去。 由于上述内容均为推断性质的结果,并未得到实际验证,请密切关注腾讯官方团队后续发布的新消息来获取最权威准确的信息源。 ```python # 示例代码片段展示如何加载预训练权重文件(仅作示意用途) import torch from transformers import AutoModelForVisionTo3DGeneration, AutoFeatureExtractor model_name_or_path = "path/to/hunyuan_3d_v2" feature_extractor = AutoFeatureExtractor.from_pretrained(model_name_or_path) model = AutoModelForVisionTo3DGeneration.from_pretrained(model_name_or_path) image_input = feature_extractor(images=example_image, return_tensors="pt").pixel_values outputs = model(image_input) predicted_3d_model = outputs.reconstructed_3d_object ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Open-source-AI

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值