照片 → 可动 3D 资产(端到端管线复现)
真实家电照片 → TRELLIS2 image→3D → VLM 运动学条件 → 条件化 B → 开到上限 · 2026-06-17
这是论文 Fig.1 的招牌能力——从一张真实照片直接生成可动 3D 资产。
管线: 照片 →
TRELLIS2(g区官方权重)image→3D
生成 mesh →
VLM(GPT5.5)推断运动学条件
(部件+关节+点提示) →
条件化 B 模型
出分割+关节 → 开到预测上限。每件三联:
输入照片 | 生成3D+B分割(rest) | B articulated(开到上限,红=关节轴)
。
Dishwasher(洗碗机)
Oven(烤箱)
Microwave(微波炉)
Refrigerator(冰箱)
WashingMachine(洗衣机)
StorageFurniture(储物柜)
Table(双抽屉桌)
诚实标注
•
管线真打通
: 7/7 真实照片均成功 image→3D→条件化→articulated(TRELLIS2 从 g区搬入, 跨 transformers 版本补丁后在 llmenv 跑通)。
•
视觉质量有限(如实)
: ① 生成 mesh 偏块状(点云渲染, 非 shaded mesh); ②
B 在生成 mesh 上分割偏弱
(多为单色/欠分割)——与难例诊断一致(底座对复杂家电分割弱 + 此处无 GT 条件、靠 VLM); ③ 关节开合可见但幅度温和。
• 不及论文 Fig.1 精致, 但
端到端能力已复现
; 提升点同诊断: 强化部件发现 + 降合成占比重训。
EPPUR · 照片→可动3D资产 · 2026-06-17 · TRELLIS2(g区官方) + 条件化B(20k) · 真实照片来自 PAct real_world_examples