铰接资产生成的大模型 CoT 推理模块
EPPUR · 2026-06-26 · gpt-5.5 vision · 输入门控(双态/单图)→ 语义→关节(定性)→语义树/运动学树→几何一致性检验→分割→物理 · 全程结构化文本,树用标准格式
一句话:用大模型 CoT 当推理脑,从图像产出结构化中间表示(语义树、运动学树、定性关节规格、几何检验、分割方案、物理),再交给几何/物理(fcl)接地验证。双态输入消歧、单图需显式歧义推理。
诚实定位:用 CoT 产中间表示本身不新(ArtGen / Articulate-Anything / URDF-Anything 都用 MLLM)。差异在:输入门控 + 关节只出定性、由几何接地(实测 VLM 出精确 3D 轴不可靠)+ 几何检验 verify→repair 闭环 + 真 range 由 fcl 裁决。CoT 输出是中间文本,每条须下游接地验证才算数。
1. 输入(清晰照片级微波炉:闭态资产 + gpt-image-2 想象开态)
闭态(清晰照片级,gpt-image-2 生成 — 替换早前诡异的灰渲染)
想象开态(gpt-image-2):门绕左合页开~80°,露内腔+转盘,机身/面板保持
想象开态两个用途:① 关节运动参考(哪件动/往哪动)② 遮挡区/内腔参考(补全闭态看不见的腔壁)。早前用灰渲染做输入会干扰大模型,已换清晰输入。
2. CoT 阶段可视化
S1/S5 语义树 · S5 运动学树(URDF式)· S3 关节定性→接地到几何左缘竖直轴 · S4 双vs单置信 · S6/S7 几何检验实测+分割方案 · 阶段总览+设计修正
3. 思维链全文(gpt-5.5,双态,逐阶段)
S1 语义 countertop microwave,前铰门;part-of 树:body{cavity,keypad} / door{window,handle} / turntable (conf 0.90)
S2 功能/affordance 加热;唯一明确动件=前门,机身/键盘/转盘视作静止 (conf 0.94)
S3 关节(定性,不出 3D 坐标) 门 → revolute,轴竖直沿左合页缘,轴心=左前门缝,行程闭→外摆;共 1 关节 (conf 0.97)
S4 歧义(选+备选+置信) revolute vs 可拆=revolute(0.97);左 vs 右合页=左(0.96);外摆 vs 内/上掀=外摆(0.96);转盘动 vs 静=静(0.74,双态只消解了门、未消解转盘)
S5 树 语义树(part-of)+ 运动学树:body --[revolute, 竖直左合页]--> door (conf 0.97)
S6 几何一致性检验 → 驱动修复 查腔体别塌成实心块、壳水密、有无悬浮碎片(脱落键盘数字/把手);不全则开态补内腔+清碎片 (conf 0.94)。实测该件=2 分量/1 小碎片/水密,基本干净
S7 分割方案 期望 2 件(body+door),别把文字/标签过分割;门沿前开口+左合页缝切 (conf 0.95)
S8 物理 漆面金属/玻璃门/塑料把手(材质粗估);真 collision-free range 必由 fcl,不由 CoT (conf 0.99)
S9 其他 up=机身竖直;小台式尺度;近盒对称但键盘/左门破对称;接触对=门-框/门内面-腔唇/转盘-腔底;自遮挡=腔内/背壁/门内面/合页→需 amodal
原文:cot_dual_raw.md / cot_single_raw.md
4. 双态 vs 单图(同物体)= 消歧价值
| 判断 | 双态置信 | 单图置信 |
| 门是 revolute | 0.97 | 0.82 |
| 左合页 | 0.96 | 0.73 |
| 摆动方向 | 0.96 | 0.71 |
| 轴朝向 | 0.97 | 0.73 |
| 行程 | 0.90 | 0.65(“90–180°看限位”) |
单图同样推出左合页门,但置信全线更低且列出左/右/滑动备选 → 第二态(想象开态)把歧义压下去、置信抬上来。这正是 INSTRUCT-PARTICULATE 的核心动机。
5. 置信度:这些 conf 怎么来的 + 真置信器探究
诚实:第 3 节的 conf=0.x 是大模型自己报的(prompt 要它每条加置信)——未校准的自我评估,LLM 自报置信已知校准差(常过自信)。不能直接拿来做阈值。
探究"可定义的真置信器 = 自一致性"(同节点采样 K=5,看一致程度)+ 受控输入退化(同物体逐级模糊/缩小/遮挡):
受控退化 L0清晰→L3遮挡左半。自一致性(绿)恒 1.0 不降,自报(橙)只轻降——即使遮黑合页区,模型仍答"左合页"。
关键发现(比"用自一致性当置信"更细): 微波炉太典型 → 模型用类别先验答题(微波炉门=左合页),根本没真看输入;L3 遮掉合页区答案不变 = 反事实测试证明答案是先验驱动、非输入接地。所以自一致性在先验主导的简单物体上会饱和、抓不到坏输入;它只在真歧义时有判别力。
修正后的多信号置信架构(实验得出)
| 信号 | 作用 | 实测 |
| LLM 自报 conf | 主观 | 未校准、过自信(退化下仅 0.93→0.86) |
| 自一致性(采样一致) | 真歧义时有效 | 先验主导时饱和=1.0(抓不到坏输入) |
| 输入质量打分器(CV,独立于答案) | 抓坏输入 | 必须单独有(语义打分器会被先验骗过) |
| 输入接地测试(反事实遮挡) | 查答案是否真看了证据 | 遮合页区→答案不变=先验驱动,标低接地 |
| 跨证据一致(双态/几何/fcl) | 外部验证 | 定性轴 vs 真合页边、range vs fcl |
| 训练校准器(verifier) | 映射到真实正确率 | 可用 PNM GT 关节贴标签训 |
控制环(你的设计,接地后):综合多信号→低于阈值则:重采该节点 / 加指引 / 按输入质量分要更好输入或增思维复杂度 / 提高检索参考概率 / 上双态。注意"要更好输入/增复杂度"要由输入质量分触发(它能抓坏输入),不能只靠自一致性(会被先验骗)。
代码/报告:cot_run.py · cot_viz.py · cot_selfconsistency.py · cot_degrade.py · reports/EPPUR_COT_DESIGN_RUN_20260626.md