难例诊断 · INSTRUCT-PARTICULATE 底座(B/A/GT 三档)

诊断结论(回执):
(a) 难例上 B 不优于 A —— 分割 A 完胜(0.666 vs B 0.46),B 仅在关节轴上更好(4.7° vs 7.5°)。与全 val 的 B>A 相反(全 val 优势来自 76% 易合成件)。
(b) 第一瓶颈 = VLM 结构推断(50% 失败) —— GPT5.5 在多小件家电上系统性漏件(咖啡机 16 部件只认出 6)。

① 量化(真实 20 件, 统一 Hungarian 公平口径)

指标	B+GT(上界)	B+VLM(真实)	A 无条件
分割 mIoU 均值/中位	0.473 / 0.409	0.457 / 0.456	0.666 / 0.788
关节轴角 AE 中位	—	4.73°	7.47°
B+GT direct(条件真实用法)	0.439 / 0.367	—	—

分源同向: PNM B+GT 0.446 vs A 0.636;GAPartNet 0.506 vs 0.703 —— A 在两真实源都胜。注: A 的 mIoU 受 Hungarian(oracle 指派)偏惠,但 B+GT 即便 direct(0.44)也低于 A,且分源双胜 → "A 分割更稳"稳健,非纯度量假象。

② 失败归因(B+VLM, n=20)

VLM 结构错(漏小件/错类型)	分割错	轴错	成功
10 (50%)	3	1	6

③ Fig.4 四列对照(A | B+VLM | B+GT | GT,行 rest|articulated,红=预测轴/黑=GT轴)

CoffeeMachine 103064(GT 16 部件,VLM 只认 6)

Oven 101908

WashingMachine 103361

Remote 101034(多按钮)

④ 诊断结论 → 下一步把卡投哪

1. VLM 结构是第一瓶颈(50%): 攻部件发现(更强VLM/多轮/纹理渲染/P3-SAM过分割+合并作先验),而非再训关节模型。
2. 底座对多部件真实家电分割本身弱(B+GT 上界仅 0.44): 条件化没解决高部件数;训练数据补高部件真实件(降 ArtiCraft 76% 占比)。
3. 轴不是瓶颈(AE 4.7° 且 B>A),不用再投。
4. 真实/合成反转: 真实难例 A 分割胜(0.67 vs 0.46);合成难例(10件)B 分割胜(0.49 vs 0.34)但 B 轴崩到 40°(A 16°)。B vs A 胜负随域×指标翻转,无全面优势;全 val 的"B>A"是合成驱动+单数字掩盖。两域共同瓶颈都是 VLM 结构(真实50%/合成70%)。

EPPUR · INSTRUCT-PARTICULATE 难例诊断 · 2026-06-17 · 全为真实模型推理(B20k/A20k, val held-out, 零泄漏) · 报告 ip_repro/HARDCASE_REPORT_20260617.md