沿用 chair/laptop/button/lock 四张真实图的六路对比模式,对 gym_real.jpg 运行 PhysX-Anything、PartPacker、OmniPart、PAct、SINGAPO 与 TRELLIS2。该图是多器械真实场景,集中暴露单物体/单实例假设下的误识别、过分割和部件合并问题。
官方四段链直接处理 `gym_real.jpg`。VLM 将多器械健身房画面误识别为 `Cart / WheelingDevice`,并生成 base + 两个 wheel-like movable groups;这是单物体假设在复杂真实场景上的典型失败。
按官方 flow 对同一张 `gym_real.jpg` 直接推理,输出完整 GLB 与 `27` 个 part GLB。多实例器械被当成一个复杂物体处理,因此分件数量明显膨胀。
用本地跳过 RMBG 的官方 app path 运行。SAM/OmniPart 在多器械画面上保留了 `22` 个 region,显著过分割;页面展示 textured/segmented/exploded 三类 GLB 和 mask 可视化。
先走 Appendix-D 风格 VLM + SAM2 mask labeling,再送入 PAct 官方推理。VLM 识别为 adjustable weight bench,但最终只导出 `4` 个节点,关节类型为 `fixed / prismatic`,大块区域仍然合并。
使用手工 graph prior 跑 SINGAPO,目标是从多器械画面中抽一个代表性 bench 结构。输出 `5` 个节点,关节类型为 `fixed / prismatic`;无 mesh part,因此页面展示 bbox 与 kinematic tree。
直接用 TRELLIS2 512 pipeline 从 `gym_real.jpg` 生成整体网格,未做 part/kinematic decomposition。复杂多实例画面会被压成一个整体 3D asset。