照片 → 可动 3D 资产(端到端管线复现)

真实家电照片 → TRELLIS2 image→3D → VLM 运动学条件 → 条件化 B → 开到上限 · 2026-06-17
这是论文 Fig.1 的招牌能力——从一张真实照片直接生成可动 3D 资产。 管线: 照片 → TRELLIS2(g区官方权重)image→3D 生成 mesh → VLM(GPT5.5)推断运动学条件(部件+关节+点提示) → 条件化 B 模型出分割+关节 → 开到预测上限。每件三联: 输入照片 | 生成3D+B分割(rest) | B articulated(开到上限,红=关节轴)

Dishwasher(洗碗机)

Oven(烤箱)

Microwave(微波炉)

Refrigerator(冰箱)

WashingMachine(洗衣机)

StorageFurniture(储物柜)

Table(双抽屉桌)

诚实标注

管线真打通: 7/7 真实照片均成功 image→3D→条件化→articulated(TRELLIS2 从 g区搬入, 跨 transformers 版本补丁后在 llmenv 跑通)。
视觉质量有限(如实): ① 生成 mesh 偏块状(点云渲染, 非 shaded mesh); ② B 在生成 mesh 上分割偏弱(多为单色/欠分割)——与难例诊断一致(底座对复杂家电分割弱 + 此处无 GT 条件、靠 VLM); ③ 关节开合可见但幅度温和。
• 不及论文 Fig.1 精致, 但端到端能力已复现; 提升点同诊断: 强化部件发现 + 降合成占比重训。
EPPUR · 照片→可动3D资产 · 2026-06-17 · TRELLIS2(g区官方) + 条件化B(20k) · 真实照片来自 PAct real_world_examples