三路运动对比:GT vs bbox-LLM vs latent-LLM

把三种来源预测的关节绑到同一部件 mesh 上同步驱动 · 表面采样点云 · 归一化帧 · 2026-06-16
怎么看:每个 GIF 三栏分别用 GT 真值 / bbox-LLM 预测 / latent-LLM 预测 的关节(类型/轴/轴心/range)驱动同一套部件几何运动。三栏动得越像,说明该方法越接近真值。彩色=各部件,动件高亮。下方表格逐件列出三路关节参数及差异。
注:这是 latent-token 首版 pilot(8类cardinal主导, 见 RESULTS),非最终模型;此页用于逐件定性看清错在哪

① Dishwasher 11887 revolute 门

来源类型轴方向range判读
GTrevolute[1,0,0][0,90°]
bbox-LLMrevolute[1,0,0][0,90°]轴+range 全对
latent-LLMrevolute[0,1,0][0,90°]轴错(下翻→侧开)
最直观的一例:GT/bbox 门绕水平 X 轴向下翻开;latent 把轴猜成竖直 Y,门侧向甩开(右栏竖立)。cardinal 数据上 bbox 反而更稳。

② StorageFurniture 35059 revolute 柜门

来源类型轴方向range判读
GTrevolute[0,1,0][0,−162°]
bbox-LLMrevolute[0,1,0][0,90°]轴对, range 欠(90 vs 162)+符号
latent-LLMrevolute[0,1,0][0,90°]同上
两路轴都对,但都把开合幅度压到 90°(GT 是 −162°)且丢了方向符号——range 是公共弱项(与 EPPUR A7 一致)。

③ WashingMachine 103361 revolute 门 continuous 滚筒(斜轴)

来源part0 门part1 滚筒 轴判读
GTrevolute [0,1,0] −104°continuous [0,−0.29,−0.96](斜)
bbox-LLMrevolute [0,1,0] −90°[0,0,1](cardinal)斜轴→猜成正交
latent-LLMrevolute [0,1,0] +90°(符号反)[0,0,1](cardinal)斜轴→猜成正交
斜轴难题活教材:GT 滚筒轴是斜的 [0,−0.29,−0.96],bbox 和 latent 塌成正交 [0,0,1]。这正是"斜轴上谁都没解决"的证据——也是为什么公平对比要专门上斜轴富集类。

④ Table 20043 prismatic 双抽屉

来源类型抽屉1 / 抽屉2 行程判读
GTprismatic[0,0,1]0.186 / 0.195
bbox-LLMprismatic[0,0,1]0.227 / 0.227类型轴对, 行程略长
latent-LLMprismatic[0,0,1]0.312 / 0.312类型轴对, 行程拉过头
三路都正确判出抽屉滑出(prismatic, +z),差别在行程:latent 拉得最多(0.31 vs GT 0.19)。

结论

这 4 件(cardinal 主导)上,bbox-LLM ≥ latent-LLM:Dishwasher latent 轴翻错、Table latent 行程过头;两路在 range 和斜轴(WashingMachine 滚筒)上都失败。与定量结果一致:首版 latent-token 在 cardinal 数据上未占优。latent 该赢的斜轴战场(如 WashingMachine 滚筒这类)需用斜轴富集类(heldout_pnm Chair/Faucet/…)专门验证,且需修 latent 的轴心/pooling 退化。
EPPUR · latent-token 路线 · 三路运动对比 · 2026-06-16 · 关节绑定+表面采样点云驱动, 全部在 data_prep 归一化帧