怎么看:每个 GIF 三栏分别用 GT 真值 / bbox-LLM 预测 / latent-LLM 预测 的关节(类型/轴/轴心/range)驱动同一套部件几何运动。三栏动得越像,说明该方法越接近真值。彩色=各部件,动件高亮。下方表格逐件列出三路关节参数及差异。
注:这是 latent-token 首版 pilot(8类cardinal主导, 见 RESULTS),非最终模型;此页用于逐件定性看清错在哪。
① Dishwasher 11887 revolute 门
| 来源 | 类型 | 轴方向 | range | 判读 |
| GT | revolute | [1,0,0] | [0,90°] | — |
| bbox-LLM | revolute | [1,0,0] | [0,90°] | 轴+range 全对 |
| latent-LLM | revolute | [0,1,0] | [0,90°] | 轴错(下翻→侧开) |
最直观的一例:GT/bbox 门绕水平 X 轴向下翻开;latent 把轴猜成竖直 Y,门侧向甩开(右栏竖立)。cardinal 数据上 bbox 反而更稳。
② StorageFurniture 35059 revolute 柜门
| 来源 | 类型 | 轴方向 | range | 判读 |
| GT | revolute | [0,1,0] | [0,−162°] | — |
| bbox-LLM | revolute | [0,1,0] | [0,90°] | 轴对, range 欠(90 vs 162)+符号 |
| latent-LLM | revolute | [0,1,0] | [0,90°] | 同上 |
两路轴都对,但都把开合幅度压到 90°(GT 是 −162°)且丢了方向符号——range 是公共弱项(与 EPPUR A7 一致)。
③ WashingMachine 103361 revolute 门 continuous 滚筒(斜轴)
| 来源 | part0 门 | part1 滚筒 轴 | 判读 |
| GT | revolute [0,1,0] −104° | continuous [0,−0.29,−0.96](斜) | — |
| bbox-LLM | revolute [0,1,0] −90° | [0,0,1](cardinal) | 斜轴→猜成正交 |
| latent-LLM | revolute [0,1,0] +90°(符号反) | [0,0,1](cardinal) | 斜轴→猜成正交 |
斜轴难题活教材:GT 滚筒轴是斜的 [0,−0.29,−0.96],bbox 和 latent 都塌成正交 [0,0,1]。这正是"斜轴上谁都没解决"的证据——也是为什么公平对比要专门上斜轴富集类。
④ Table 20043 prismatic 双抽屉
| 来源 | 类型 | 轴 | 抽屉1 / 抽屉2 行程 | 判读 |
| GT | prismatic | [0,0,1] | 0.186 / 0.195 | — |
| bbox-LLM | prismatic | [0,0,1] | 0.227 / 0.227 | 类型轴对, 行程略长 |
| latent-LLM | prismatic | [0,0,1] | 0.312 / 0.312 | 类型轴对, 行程拉过头 |
三路都正确判出抽屉滑出(prismatic, +z),差别在行程:latent 拉得最多(0.31 vs GT 0.19)。
结论
这 4 件(cardinal 主导)上,bbox-LLM ≥ latent-LLM:Dishwasher latent 轴翻错、Table latent 行程过头;两路在 range 和斜轴(WashingMachine 滚筒)上都失败。与定量结果一致:首版 latent-token 在 cardinal 数据上未占优。latent 该赢的斜轴战场(如 WashingMachine 滚筒这类)需用斜轴富集类(heldout_pnm Chair/Faucet/…)专门验证,且需修 latent 的轴心/pooling 退化。