在不久之前机器之心报道文章《3D领域DeepSeek「源神」启动!国产明星创业公司,一口气开源八大项目》中,我们曾介绍到,国内专注于构建通用 3D 大模型的创业公司 VAST 将持续开源一系列 3D 生成项目。
近日,新的开源项目它来了,包括针对任意三维模型生成完整可编辑部件的 HoloPart 与通用自动绑定框架 UniRig。
今天,就让我们一起围观下这两个新的3D开源项目。
HoloPart:为任意三维模型生成完整、可编辑的部件
论文标题:HoloPart: Generative 3D Part Amodal Segmentation
论文地址: abs/2504.07943
项目主页: HoloPart
代码地址: VAST-AI-Research/HoloPart
Demo: spaces/VAST-AI/HoloPart
huggingface daily paper:papers/2504.07943
3D 内容生产面临的一个关键痛点,是三维模型的部件及编辑挑战。
你是否曾尝试编辑网上下载的、扫描得到的、或是 AI 生成的三维模型?它们往往是「一整坨」的几何体,想要调整、驱动或重新赋予某个独立部件(比如椅子腿、角色眼镜)不同的材质都极其困难。
现有的三维部件分割技术能识别出属于不同部件的可见表面块,但往往得到的是破碎、不完整的碎片,这极大地限制了它们在实际内容创作中的应用价值。
HoloPart 引入了一项新任务:三维部件完整语义分割(3D Part Amodal Segmentation)——它不仅是将三维形状分解为可见的表面块,而是分解成其背后完整的、包含语义信息的部件,甚至能推断出被遮挡部分的几何结构,即使部分被遮挡也能生成完整部件。
开发者可以在huggingface上试玩。
「看见」完整部件
HoloPart 是一种新型扩散模型,由 VAST 和港大联合研发。受到非模式化感知(Amodal Perception,即人类即使在物体部分被遮挡时也能感知到完整物体的能力)的启发,研究团队通过一个实用的两阶段方法来实现:
初始分割:首先,利用现有的先进方法(如 SAMPart3D)获得初始的表面块(即不完整的部件)。
HoloPart 部件补全:这是关键所在。将不完整的部件块,连同整个形状的上下文信息一起,输入到新颖的 HoloPart 模型中。HoloPart 基于强大的扩散变换器(Diffusion Transformer)架构,能够生成该部件完整且合理的 3D 几何形状。
HoloPart 工作原理
HoloPart 不仅仅是「填补空洞」。它基于 TripoSG 三维生成基础模型的生成先验构建,通过在大型数据集(如 Objaverse)上进行广泛预训练,并在部件 - 整体数据上进行专门微调,从而获得了对三维几何的深刻理解。
针对部件补全这一特定任务,HoloPart 对 TripoSG 的扩散变换器架构进行了适配。其关键创新在于双重注意力机制:
局部注意力(Local Attention):聚焦于输入表面块的精细几何细节,确保补全后的部件与可见几何无缝衔接。
上下文感知注意力(Context - Aware Attention):关注整体形状以及该部件在其中的位置。这一关键步骤确保补全的部件在全局上是合理的——保持比例、语义和整体形状的一致性。
这使得 HoloPart 能够智能地重建隐藏的几何细节,即使对于复杂部件或存在严重遮挡的情况,也能尊重物体的整体结构。
在该项目中,研究团队还利用 ABO 和 PartObjaverse - Tiny 数据集建立了新的基准测试来评估这项新任务。实验证明,在处理这种具有挑战性的部件补全任务时,HoloPart 的性能显著优于现有的各种先进形状补全方法。
从效果上看,差异是肉眼可见的:其他方法在处理复杂结构时常常失败或产生不连贯的结果,而 HoloPart 则能持续生成高质量、高保真的完整部件,并与原始形状完美契合。
解锁下游应用
通过生成完整的部件,HoloPart 解锁了一系列以前难以甚至无法自动实现的强大应用:
直观编辑:轻松抓取、缩放、移动或替换完整部件(如图中的戒指、图中的汽车编辑)。
便捷的材质分配:将纹理或材质清晰地赋予给完整的组件。
适用于动画的资产:生成适合绑定和动画制作的部件。
更智能的几何处理:通过处理连贯的部件,实现更鲁棒的网格重划分 (Remeshing) 等几何操作。
部件感知的生成:这项工作为未来能够在部件层面创建或操纵三维形状的生成模型奠定了基础。
几何超分辨率:HoloPart 甚至展示了通过用高数量的 token 来表征部件,从而提升部件细节的潜力。
统一模型绑定万物:UniRig 通用自动绑定框架
论文标题:One Model to Rig Them All: Diverse Skeleton Rigging with UniRig
论文链接:works/UniRig/static/supp/UniRig.pdf
代码地址:VAST-AI-Research/UniRig
项目主页:works/UniRig/
HuggingFace 主页:VAST-AI/UniRig
核心方法:自回归预测与创新的 Tokenization
UniRig 的核心在于借鉴了驱动语言和图像生成领域进步的大型自回归模型的力量。
但 UniRig 预测的不是像素或文字,而是 3D 骨骼的结构——逐个关节地进行预测。这种序列化的预测过程是确保生成拓扑结构有效骨骼的关键。
实现这一目标的关键创新是骨骼树 Tokenization (Skeleton Tree Tokenization) 方法。
将具有复杂关节相互依赖关系的层级化骨骼结构,表示为适合 Transformer 处理的线性序列并非易事。UniRig 的方案高效地编码了:
关节坐标:骨骼关节的离散化空间位置。
层级结构:明确的父子关系,确保生成有效的树状结构。
骨骼语义:使用特殊 Token 标识骨骼类型(例如,Mixamo 等标准模板骨骼,用于头发 / 布料模拟的动态弹簧骨骼),这对于下游任务和实现逼真动画至关重要。
这种优化的 Tokenization 方案,与朴素方法相比,序列长度减少约 30%,使得基于 OPT 架构的自回归模型能够有效地学习骨骼结构的内在模式,并以形状编码器处理后的输入模型几何信息作为条件。
不止骨骼:精准蒙皮与属性预测
在预测出有效的骨骼后,UniRig 采用骨骼 - 表面交叉注意力 (Bone - Point Cross Attention) 机制来预测每个顶点的蒙皮权重。该模块有效地捕捉了每根骨骼对其周围模型表面的复杂影响,融合了来自模型和骨骼的几何特征,并通过关键的测地线距离信息增强了空间感知能力。
此外,UniRig 还能预测骨骼特定属性(如弹簧骨骼的刚度和重力影响),使得基于学习参数的、更符合物理规律的次级运动成为可能。研究团队在训练中通过可微分的物理模拟对此进行了评估,以增强最终结果的真实感。
Rig - XL 数据集:以数据驱动泛化能力
强大的模型离不开高质量数据的支撑。为了训练 UniRig 以获得广泛的适用性,研究团队还整理构建了 Rig-XL——一个全新的、包含超过 14000 个多样化已绑定 3D 模型的大规模数据集。
Rig - XL 源自 Objaverse - XL 等资源并经过精心清洗,涵盖多个类别(双足、四足、鸟类、昆虫、静态物体等),为训练一个真正具备泛化能力的绑定模型提供了必要的规模和多样性。研究团队还利用 VRoid 数据集进一步优化模型在处理包含弹簧骨骼的精细动漫风格角色上的性能。
业界最优的性能表现
UniRig 显著提升了自动绑定技术的现有水平:
高精度:在多个关键指标上远超现有学术界和商业方法,在具有挑战性数据集上,绑定精度(关节预测)提升 215%,动画精度(动画下的网格变形)提升 194%。
强通用性:在广泛的模型类别上展现出鲁棒性能——精细角色、动物、复杂的有机和无机形态——这些都是以往方法经常遇到困难的领域。
高鲁棒性:生成拓扑合理的骨骼和真实的蒙皮权重,在动画驱动下产生优于先前学术方法及常用商业工具的变形效果。
高效率:优化的 Tokenization 和模型架构带来了实用的推理速度(1-5 秒)。
0 条