PNM 留一 n=20: 轴 ≤15° = 94%/97%(两轮) · containment = 0.97-0.98 (c≥0.9 占 85-90%) · bloat ≈ 2.05 · ~4k tokens/关节。详见 E1+E3 逐件可视化页。
ud4scenesmith/tools/hssd_articulated_render/。相关页: 官方铰链子集
| 方法 | 结论 | 关键数字 / 根因 |
|---|---|---|
| Particulate (前馈 mesh→全套关节) | 失败为主 | 带纹理 HSSD 单 mesh 分割塌: 28 件仅 ~4 件干净 (~14%)。Blender 渲染肉眼验证后撤下旧 18 件烂页, 只发精选。全量页 · 精选页 |
| Articulate-AnyMesh (原地切原 mesh 保纹理) | 退化 | VLM(gpt-5.4) 2D SoM 语义分割正确(fridge 门 70k 点全对), 但 instance-seg 在多连通分量 mesh 上塌缩成只剩 base(fridge 15 cc / HSSD door 106 cc, use_cc True/False 都塌)。infra 可用, 病灶在 postprocess。 |
| SINGAPO (单图→铰链) | 部分可用 | HSSD chest 真跑通(渲染验证抽屉滑出), 但锁死 7 类储物家电 — 盖不住 174 类目标。 |
| S2O (WACV2026, 基线复现) | 基线立住 | 环境全搭好(4 个 CUDA 扩展, ME 0.5.4 + H100/nvcc11.8)。29 件 HSSD 储物对比: P3-SAM 分割 f1=0.538 vs S2O=0.121; 其 motion 模块 = door/drawer/lid 规则引擎。 |
| 深调研 (23 源对抗核实) | 定方向 | "保原外观的端到端静态→铰链化"在文献中不存在。保原的 P3-SAM/PartField 只切不估关节 → 解耦: 分割 + 轻关节模块。 |
教训: 单 mesh(尤其带纹理/多连通分量)的实例级部件分割是全行业短板; "语义懂"≠"几何切得动"。
HSSD 174 类无净空 GT → 在 PartNet-Mobility 内部留一: 拿 X 当"无标注目标", 与 X 自身 GT 关节算出的真 swept-AABB 比。大运动件(expand>1.5) n=105 / VLM 实验 n=20。
| 路线 | 结果 | 数字 | 死因诊断 |
|---|---|---|---|
| R1 纯检索替换(最近邻净空迁移) | 死 | IoU 0.454 < B1 类别均值 0.50 | 逻辑夹死: 准搬需先分割 X, 分割了就能直接几何扫掠, 不需要 Y。 |
| B2 信息源分解(诊断实验) | 定位瓶颈 | B0 静止盒 0.318 / B1 0.420 / B2c 几何轴 0.491 / B2b GT轴+先验limit 0.920 / B2a 全GT ≈1.0 | 瓶颈唯一 = 关节轴方向; limit/origin/type/分割全便宜(类别先验够用)。 |
| B2v VLM 吐 raw 轴向量(few-shot 点云多视图) | 证伪 | 0.434 ≈ B1; 轴中位 0° 但 39% 件离散翻轴 90°; 75k tokens 无增量 | VLM 知道答案(过半全对)但连续向量出题输出不稳 — 水平/竖直铰链混淆。 |
| route2b 功能 VLM(点云渲染, 6 面离散选择) | 证伪 | IoU 0.06; 方向 oracle 仅 0.488 | matplotlib 点云太抽象 → VLM 把笔记本/微波炉判成 "spins"(识别都不过关)。 |
| route2c 功能 VLM(真 Blender + containment 指标) | 证伪 | motion 词全对(swings/flips/swivels); 但面 recall=0.38 / precision=0.35; containment 0.28 < 几何 0.58 | 三 pilot 一致结论: VLM 懂运动, 但做不了"语义→图中坐标系"的落地(frame grounding), 无论连续还是离散出题。 |
调研三发现: ① Articulate-Anything(ICLR25) 在 PNM 把关节预测 8.7-12% → 75%, 机制 = VLM 不吐坐标而在 {类型 × 语义轴±xyz × bbox八顶点pivot × 开向} 离散空间写程序, 消融显示 critic 渲染验证仅 +2.4% — 收益在参数化本身; ② Particulate(CVPR26) 是唯一前馈"mesh入全套关节出"且权重公开(待解剖); ③ "保守净空 + containment/bloat 协议" = 文献真空(PhyScene 只把开态扩展 bbox 当布局 guidance)。
| 方法 | 轴误差中位 | ≤15° | 翻轴>45° |
|---|---|---|---|
| AA 式离散程序 (run1/run2) | 0.0° | 94% / 97% | 6% / 3% |
| B2v raw 向量(对照) | 0° | 61% | 39% |
| 纯几何 PCA(对照) | 4.2° | 56% | — |
34/34 解析成功, 类型一致率 100%。翻轴问题被打穿。残余失败=面内自由度(pivot 选边/转向正负, 两轮间随机)+VLM 自报 limit 不可靠(Box: VLM limit 0.28 vs 先验 0.72)。坐标系经实测核验(blender importer = R_x(90°)), prompt 数值与渲染图严格同框。
| 变体 | containment | bloat | c≥0.9 占比 |
|---|---|---|---|
| aaP: AA 轴+先验 limit(VLM 的 pivot/转向) | 0.61 / 0.70 | ~0.9 | 25% / 40% |
| U2: + 两转向并集 | 0.89 / 0.92 | ~1.45 | 70% / 75% |
| U3: + 4铰边×2转向并集 (交付) | 0.97 / 0.98 | 2.05 | 85-90% |
| 静止 bbox(下界) | 0.23 | — | 0% |
残余未达标 case(诚实): Faucet 手柄轴固有歧义(2 件 c=0.85); Microwave 7306 门被判侧开(实际下翻, 轴 90° 错)但并集仍 c=0.94; Box 48492 异形件 c=0.99 靠并集救回。碰撞过滤(2000 点采样)无增益已砍。






绿框=GT swept-AABB · 蓝框=U3 预测保守盒 · 20 件全量见 E1+E3 页
| 方向 | 打的靶 | 做法 / 文献支撑 | 预期 |
|---|---|---|---|
| ① 开向消歧(压 bloat 首选) | bloat 2.05 的主因=双转向并集 | 对两个转向各渲 2-3 个开启关键帧让 VLM 选 — AA critic 的"内开外开取反"模板原样可用; 或全 mesh 体素化碰撞过滤(2000 点太稀已证无效) | bloat 2.05→~1.4, containment 保持 |
| ② 真扫掠体表示 | AABB 对旋转扫掠天然过保守 | swept 凸包/体素并集代替 AABB(扫掠代码现成, 只换聚合) | bloat 再降 ~20-30% |
| ③ pivot 精确化 | 4 铰边并集的另一半 bloat | 门缝/接缝几何检测(法向不连续+接触带) 或 REACT3D 的 OBB 启发(rev=面内主方向+边缘 origin) | U3→U2 档的 bloat, containment 不掉 |
| ④ 路线 C: 自蒸馏轴回归 | VLM 成本(~4k tok/关节)与天花板 | 点云→逐部件轴回归; 训练数据 = PNM GT + Infinite Mobility 程序合成 + 用 E1 管线在 HSSD 上自产伪标签蒸馏 | 推理零 VLM 成本; 往 IoU≈B2b 0.92 走(不只 containment) |
| ⑤ E2 Particulate 解剖(未做) | 免 VLM 的前馈备胎 | 喂干净几何只取其关节头, 与 E1 ensemble 投票 | 分歧件标记送人工/critic |
| ⑥ limit 校准 | 先验 limit 的类内方差 | 类别先验 P90 + 模拟开启到碰撞为止(simulate-to-contact) | limit 个体化, bloat 微降 |
| ⑦ 上游分割(HSSD 落地最大风险) | P3-SAM f1=0.54 误差传导 | 连通性+对称性 part-merge 后处理; GAPartNet 位姿先验交叉验证(词表内类) | E4 产线良率 |
产物索引: clearance_retrieval_pilot_20260609/(route1/2/3 全脚本+结果 json+报告 md) · clearance_fullrun_20260606/(官方 5648 op-space + 477 类先验) · method_repos/s2o(基线) · 本页生成器 build_journey_page.py。本页为档案与样本可视化, 非 canonical 数据。