诊断结论(回执):
(a) 难例上 B 不优于 A —— 分割 A 完胜(0.666 vs B 0.46),B 仅在关节轴上更好(4.7° vs 7.5°)。与全 val 的 B>A 相反(全 val 优势来自 76% 易合成件)。
(b) 第一瓶颈 = VLM 结构推断(50% 失败) —— GPT5.5 在多小件家电上系统性漏件(咖啡机 16 部件只认出 6)。
① 量化(真实 20 件, 统一 Hungarian 公平口径)
| 指标 | B+GT(上界) | B+VLM(真实) | A 无条件 |
| 分割 mIoU 均值/中位 | 0.473 / 0.409 | 0.457 / 0.456 | 0.666 / 0.788 |
| 关节轴角 AE 中位 | — | 4.73° | 7.47° |
| B+GT direct(条件真实用法) | 0.439 / 0.367 | — | — |
分源同向: PNM B+GT 0.446 vs A 0.636;GAPartNet 0.506 vs 0.703 —— A 在两真实源都胜。注: A 的 mIoU 受 Hungarian(oracle 指派)偏惠,但 B+GT 即便 direct(0.44)也低于 A,且分源双胜 → "A 分割更稳"稳健,非纯度量假象。
② 失败归因(B+VLM, n=20)
| VLM 结构错(漏小件/错类型) | 分割错 | 轴错 | 成功 |
| 10 (50%) | 3 | 1 | 6 |
③ Fig.4 四列对照(A | B+VLM | B+GT | GT,行 rest|articulated,红=预测轴/黑=GT轴)
CoffeeMachine 103064(GT 16 部件,VLM 只认 6)

Oven 101908

WashingMachine 103361

Remote 101034(多按钮)

④ 诊断结论 → 下一步把卡投哪
1. VLM 结构是第一瓶颈(50%): 攻部件发现(更强VLM/多轮/纹理渲染/P3-SAM过分割+合并作先验),而非再训关节模型。
2. 底座对多部件真实家电分割本身弱(B+GT 上界仅 0.44): 条件化没解决高部件数;训练数据补高部件真实件(降 ArtiCraft 76% 占比)。
3. 轴不是瓶颈(AE 4.7° 且 B>A),不用再投。
4. 真实/合成反转: 真实难例 A 分割胜(0.67 vs 0.46);合成难例(10件)B 分割胜(0.49 vs 0.34)但 B 轴崩到 40°(A 16°)。B vs A 胜负随 域×指标 翻转,无全面优势;全 val 的"B>A"是合成驱动+单数字掩盖。两域共同瓶颈都是 VLM 结构(真实50%/合成70%)。