EPPUR · 铰接资产大模型 CoT(语义→关节→树→几何检验→分割→物理)

EPPUR · 2026-06-26 · gpt-5.5 vision · 输入门控(双态/单图)→ 语义→关节(定性)→语义树/运动学树→几何一致性检验→分割→物理 · 全程结构化文本,树用标准格式

一句话:用大模型 CoT 当推理脑,从图像产出结构化中间表示(语义树、运动学树、定性关节规格、几何检验、分割方案、物理),再交给几何/物理(fcl)接地验证。双态输入消歧、单图需显式歧义推理。

诚实定位:用 CoT 产中间表示本身不新(ArtGen / Articulate-Anything / URDF-Anything 都用 MLLM)。差异在:输入门控 + 关节只出定性、由几何接地(实测 VLM 出精确 3D 轴不可靠)+ 几何检验 verify→repair 闭环 + 真 range 由 fcl 裁决。CoT 输出是中间文本,每条须下游接地验证才算数。

1. 输入(清晰照片级微波炉:闭态资产 + gpt-image-2 想象开态)

想象开态(gpt-image-2):门绕左合页开~80°,露内腔+转盘,机身/面板保持

想象开态两个用途:① 关节运动参考(哪件动/往哪动)② 遮挡区/内腔参考(补全闭态看不见的腔壁)。早前用灰渲染做输入会干扰大模型,已换清晰输入。

2. CoT 阶段可视化

3. 思维链全文(gpt-5.5,双态,逐阶段)

S1 语义 countertop microwave,前铰门;part-of 树:body{cavity,keypad} / door{window,handle} / turntable (conf 0.90)

S2 功能/affordance 加热;唯一明确动件=前门,机身/键盘/转盘视作静止 (conf 0.94)

S3 关节(定性,不出 3D 坐标) 门 → revolute,轴竖直沿左合页缘,轴心=左前门缝,行程闭→外摆;共 1 关节 (conf 0.97)

S4 歧义(选+备选+置信) revolute vs 可拆=revolute(0.97);左 vs 右合页=左(0.96);外摆 vs 内/上掀=外摆(0.96);转盘动 vs 静=静(0.74,双态只消解了门、未消解转盘)

S5 树 语义树(part-of)+ 运动学树:body --[revolute, 竖直左合页]--> door (conf 0.97)

S6 几何一致性检验 → 驱动修复 查腔体别塌成实心块、壳水密、有无悬浮碎片(脱落键盘数字/把手);不全则开态补内腔+清碎片 (conf 0.94)。实测该件=2 分量/1 小碎片/水密,基本干净

S7 分割方案 期望 2 件(body+door),别把文字/标签过分割;门沿前开口+左合页缝切 (conf 0.95)

S8 物理 漆面金属/玻璃门/塑料把手(材质粗估);真 collision-free range 必由 fcl,不由 CoT (conf 0.99)

S9 其他 up=机身竖直;小台式尺度;近盒对称但键盘/左门破对称;接触对=门-框/门内面-腔唇/转盘-腔底;自遮挡=腔内/背壁/门内面/合页→需 amodal

4. 双态 vs 单图(同物体)= 消歧价值

判断	双态置信	单图置信
门是 revolute	0.97	0.82
左合页	0.96	0.73
摆动方向	0.96	0.71
轴朝向	0.97	0.73
行程	0.90	0.65(“90–180°看限位”)

单图同样推出左合页门,但置信全线更低且列出左/右/滑动备选 → 第二态(想象开态)把歧义压下去、置信抬上来。这正是 INSTRUCT-PARTICULATE 的核心动机。

5. 置信度:这些 conf 怎么来的 + 真置信器探究

诚实:第 3 节的 conf=0.x 是大模型自己报的(prompt 要它每条加置信)——未校准的自我评估,LLM 自报置信已知校准差(常过自信)。不能直接拿来做阈值。

探究"可定义的真置信器 = 自一致性"(同节点采样 K=5,看一致程度)+ 受控输入退化(同物体逐级模糊/缩小/遮挡):

关键发现(比"用自一致性当置信"更细): 微波炉太典型 → 模型用类别先验答题(微波炉门=左合页),根本没真看输入;L3 遮掉合页区答案不变 = 反事实测试证明答案是先验驱动、非输入接地。所以自一致性在先验主导的简单物体上会饱和、抓不到坏输入;它只在真歧义时有判别力。

修正后的多信号置信架构(实验得出)

信号	作用	实测
LLM 自报 conf	主观	未校准、过自信(退化下仅 0.93→0.86)
自一致性(采样一致)	真歧义时有效	先验主导时饱和=1.0(抓不到坏输入)
输入质量打分器(CV,独立于答案)	抓坏输入	必须单独有(语义打分器会被先验骗过)
输入接地测试(反事实遮挡)	查答案是否真看了证据	遮合页区→答案不变=先验驱动,标低接地
跨证据一致(双态/几何/fcl)	外部验证	定性轴 vs 真合页边、range vs fcl
训练校准器(verifier)	映射到真实正确率	可用 PNM GT 关节贴标签训

控制环(你的设计,接地后):综合多信号→低于阈值则:重采该节点 / 加指引 / 按输入质量分要更好输入或增思维复杂度 / 提高检索参考概率 / 上双态。注意"要更好输入/增复杂度"要由输入质量分触发(它能抓坏输入),不能只靠自一致性(会被先验骗)。