HSSD 铰链化 + 净空标注: 全过程档案

task3.2 · 2026-06-04 → 06-09 · 净空 = 物体铰链运动所需的保守预留空间(swept volume) · 目标 = HSSD 中官方未覆盖的 174 类多样铰链(swivel/fan/lid/folding/knob…, 非门抽屉) · 本页含全部实验结果与失败 case, 3D 预览见 §6

最终收敛配方 (06-09)

分割(P3-SAM / GT) → AA式 VLM 程序关节预测(bbox-grounded 离散出题, gpt-5.5) → 类别先验 limit{4铰边×2转向} 扫掠并集 = 保守净空盒

PNM 留一 n=20: 轴 ≤15° = 94%/97%(两轮) · containment = 0.97-0.98 (c≥0.9 占 85-90%) · bloat ≈ 2.05 · ~4k tokens/关节。详见 E1+E3 逐件可视化页

§1 起点: HSSD 官方铰链资产盘点 (06-04/05)

相关页: 官方铰链子集

§2 静态 mesh → 铰链化: 方法尝试史 (大量失败, 06-05/08)

方法结论关键数字 / 根因
Particulate (前馈 mesh→全套关节)失败为主 带纹理 HSSD 单 mesh 分割塌: 28 件仅 ~4 件干净 (~14%)。Blender 渲染肉眼验证后撤下旧 18 件烂页, 只发精选。全量页 · 精选页
Articulate-AnyMesh (原地切原 mesh 保纹理)退化 VLM(gpt-5.4) 2D SoM 语义分割正确(fridge 门 70k 点全对), 但 instance-seg 在多连通分量 mesh 上塌缩成只剩 base(fridge 15 cc / HSSD door 106 cc, use_cc True/False 都塌)。infra 可用, 病灶在 postprocess。
SINGAPO (单图→铰链)部分可用 HSSD chest 真跑通(渲染验证抽屉滑出), 但锁死 7 类储物家电 — 盖不住 174 类目标。
S2O (WACV2026, 基线复现)基线立住 环境全搭好(4 个 CUDA 扩展, ME 0.5.4 + H100/nvcc11.8)。29 件 HSSD 储物对比: P3-SAM 分割 f1=0.538 vs S2O=0.121; 其 motion 模块 = door/drawer/lid 规则引擎。
深调研 (23 源对抗核实)定方向 "保原外观的端到端静态→铰链化"在文献中不存在。保原的 P3-SAM/PartField 只切不估关节 → 解耦: 分割 + 轻关节模块

教训: 单 mesh(尤其带纹理/多连通分量)的实例级部件分割是全行业短板; "语义懂"≠"几何切得动"。

§3 净空标注主线: 先把便宜的全做掉 (06-05/06)

§4 失败博物馆: 路线逐一证伪 (06-09, PNM 留一可证伪评测)

HSSD 174 类无净空 GT → 在 PartNet-Mobility 内部留一: 拿 X 当"无标注目标", 与 X 自身 GT 关节算出的真 swept-AABB 比。大运动件(expand>1.5) n=105 / VLM 实验 n=20。

路线结果数字死因诊断
R1 纯检索替换(最近邻净空迁移)IoU 0.454 < B1 类别均值 0.50逻辑夹死: 准搬需先分割 X, 分割了就能直接几何扫掠, 不需要 Y。
B2 信息源分解(诊断实验)定位瓶颈B0 静止盒 0.318 / B1 0.420 / B2c 几何轴 0.491 / B2b GT轴+先验limit 0.920 / B2a 全GT ≈1.0瓶颈唯一 = 关节轴方向; limit/origin/type/分割全便宜(类别先验够用)。
B2v VLM 吐 raw 轴向量(few-shot 点云多视图)证伪0.434 ≈ B1; 轴中位 0° 但 39% 件离散翻轴 90°; 75k tokens 无增量VLM 知道答案(过半全对)但连续向量出题输出不稳 — 水平/竖直铰链混淆。
route2b 功能 VLM(点云渲染, 6 面离散选择)证伪IoU 0.06; 方向 oracle 仅 0.488matplotlib 点云太抽象 → VLM 把笔记本/微波炉判成 "spins"(识别都不过关)。
route2c 功能 VLM(真 Blender + containment 指标)证伪motion 词全对(swings/flips/swivels); 但面 recall=0.38 / precision=0.35; containment 0.28 < 几何 0.58三 pilot 一致结论: VLM 懂运动, 但做不了"语义→图中坐标系"的落地(frame grounding), 无论连续还是离散出题。

§5 收敛: AA 式程序出题 + 保守并集 (E1+E3, 06-09)

调研三发现: ① Articulate-Anything(ICLR25) 在 PNM 把关节预测 8.7-12% → 75%, 机制 = VLM 不吐坐标而在 {类型 × 语义轴±xyz × bbox八顶点pivot × 开向} 离散空间写程序, 消融显示 critic 渲染验证仅 +2.4% — 收益在参数化本身; ② Particulate(CVPR26) 是唯一前馈"mesh入全套关节出"且权重公开(待解剖); ③ "保守净空 + containment/bloat 协议" = 文献真空(PhyScene 只把开态扩展 bbox 当布局 guidance)。

E1: AA 机制移植 (route3_aa_pilot.py, 同 B2v 那批 n=20, 跑两轮)

方法轴误差中位≤15°翻轴>45°
AA 式离散程序 (run1/run2)0.0°94% / 97%6% / 3%
B2v raw 向量(对照)61%39%
纯几何 PCA(对照)4.2°56%

34/34 解析成功, 类型一致率 100%。翻轴问题被打穿。残余失败=面内自由度(pivot 选边/转向正负, 两轮间随机)+VLM 自报 limit 不可靠(Box: VLM limit 0.28 vs 先验 0.72)。坐标系经实测核验(blender importer = R_x(90°)), prompt 数值与渲染图严格同框。

E3: 残余歧义保守并集 (route3b_union.py, 纯几何零 VLM)

变体containmentbloatc≥0.9 占比
aaP: AA 轴+先验 limit(VLM 的 pivot/转向)0.61 / 0.70~0.925% / 40%
U2: + 两转向并集0.89 / 0.92~1.4570% / 75%
U3: + 4铰边×2转向并集 (交付)0.97 / 0.982.0585-90%
静止 bbox(下界)0.230%

残余未达标 case(诚实): Faucet 手柄轴固有歧义(2 件 c=0.85); Microwave 7306 门被判侧开(实际下翻, 轴 90° 错)但并集仍 c=0.94; Box 48492 异形件 c=0.99 靠并集救回。碰撞过滤(2000 点采样)无增益已砍。

冰箱双门: 并集修复开向歧义 (aaP 0.30→U3 1.00)
Box 盖(rest 半开): c=1.0, bloat 1.94
失败case: Faucet 手柄歧义 c=0.85
失败case: 微波炉门轴 90° 错, 并集兜底 c=0.94
笔记本屏: c=1.0 (B2b 天花板本身仅 0.73)
异形 Box: aaP 0.44 → U3 0.99

绿框=GT swept-AABB · 蓝框=U3 预测保守盒 · 20 件全量见 E1+E3 页

§6 3D 可交互预览 (拖动旋转 / 滚轮缩放)

可动部件 其余 GT 预测

§7 下一步: 提精度的候选方向

方向打的靶做法 / 文献支撑预期
① 开向消歧(压 bloat 首选)bloat 2.05 的主因=双转向并集对两个转向各渲 2-3 个开启关键帧让 VLM 选 — AA critic 的"内开外开取反"模板原样可用; 或全 mesh 体素化碰撞过滤(2000 点太稀已证无效)bloat 2.05→~1.4, containment 保持
② 真扫掠体表示AABB 对旋转扫掠天然过保守swept 凸包/体素并集代替 AABB(扫掠代码现成, 只换聚合)bloat 再降 ~20-30%
③ pivot 精确化4 铰边并集的另一半 bloat门缝/接缝几何检测(法向不连续+接触带) 或 REACT3D 的 OBB 启发(rev=面内主方向+边缘 origin)U3→U2 档的 bloat, containment 不掉
④ 路线 C: 自蒸馏轴回归VLM 成本(~4k tok/关节)与天花板点云→逐部件轴回归; 训练数据 = PNM GT + Infinite Mobility 程序合成 + 用 E1 管线在 HSSD 上自产伪标签蒸馏推理零 VLM 成本; 往 IoU≈B2b 0.92 走(不只 containment)
⑤ E2 Particulate 解剖(未做)免 VLM 的前馈备胎喂干净几何只取其关节头, 与 E1 ensemble 投票分歧件标记送人工/critic
⑥ limit 校准先验 limit 的类内方差类别先验 P90 + 模拟开启到碰撞为止(simulate-to-contact)limit 个体化, bloat 微降
⑦ 上游分割(HSSD 落地最大风险)P3-SAM f1=0.54 误差传导连通性+对称性 part-merge 后处理; GAPartNet 位姿先验交叉验证(词表内类)E4 产线良率

产物索引: clearance_retrieval_pilot_20260609/(route1/2/3 全脚本+结果 json+报告 md) · clearance_fullrun_20260606/(官方 5648 op-space + 477 类先验) · method_repos/s2o(基线) · 本页生成器 build_journey_page.py。本页为档案与样本可视化, 非 canonical 数据。