铰接研究主线 · 从 Instruct-Particulate 到 LLM 加关节再到复现

EPPUR · 2026-06-18 · Qwen3.5-9B 加关节 + INSTRUCT-PARTICULATE 复现 · 8×H100 · 全程诚实记录正负结果
主线一句话: ①读懂论文 INSTRUCT-PARTICULATE → ②先做"LLM 在 GT mesh 上加关节"探明几何能推什么(轴可推、limit 是天花板) → ③latent-token 探索 + PAct 头天花板证实"GT latent 运动信息充分、瓶颈在读取方式"(类型0.951/轴角3.1°)+ 论文推翻方向 → ④转向忠实复现(条件化消融 / 从零训复现"无条件→塌" / 难例诊断 / 照片→可动资产)。

详情页导航

关键结果一览

左: LLM-joint 零样本→微调(纯几何把轴角中位 90°→0°);中: IP 从零训复现"无条件→塌"(B>A 全指标, 轴误差近翻倍);右: 难例诊断 B/A 胜负在真实/合成间反转。

① 起点: 论文 INSTRUCT-PARTICULATE

前馈铰接 SOTA, 核心三点: 先 image→3D · 一个模型同时分割+关节 · 用 instruct(VLM 给的部件文本/点提示/树/类型)消歧"同一物体多种合理标注"。论文末: 输出"非 sim-ready 缺物理属性" = 项目物理层 #47 入口。

② LLM 在 GT mesh 上加关节(Qwen3.5-9B 微调)

实验关键结果
Cycle-1(8类,bbox)轴角中位 90°→0°; 类型 0.76→0.857; 轴心垂距 0.263→0.031
名泄漏被克服L0 含名 0.857 ≈ L1 去名 0.853 → 学到真几何非名字捷径
Cycle-2(46类)轴跨类泛化(垂距 0.015); 类型掉 0.32(continuous≈revolute, 几何判不出有无 limit)
GAPart affordance宏 F1 0.918(纯几何推可交互语义)
LOCO-46 跨类未见类 类型 acc 0.57→0.80(类别越多迁移越强)
limit 天花板LLM range 中位 0.06° 但均值 57.9°(记忆型非几何型); 类别先验反更差
结论: 轴方向/轴心 = 几何可推且跨类泛化; limit 具体值 = 几何天花板(记忆型)。

latent-token vs PAct 头天花板: 纯 LLM 与专用头吃同一份 GT part latent

part SLAT latent → geom token 注入 Qwen → LoRA。不与 bbox 比(bbox 推运动本就不健康: 丢朝向/斜轴盲区, 非有效基线)。两个读取器吃完全相同输入(同113件val/同GT/同帧): latent-token=纯LLM读取器; PAct-head on GT latent=同一latent直喂PAct流网络(末20步重噪)+运动头, null cond无图像 = "专用头看到真latent的天花板"(脚本 PAct/ip_pact_head_gt/, ckpt74000)。
val_L0(113件,8类)latent-token LLM(纯LLM)PAct-head 直读 GT latent参考 PAct协议(生成latent+图像)
类型 acc0.8570.95195.6%
轴角 中位/均值°0° / 13.9°3.1° / 7.2°7.7°
轴心垂距 中位/均值0.224 / 0.2960.217 / 0.26824%(不同口径)
PAct 头原生输出在 TRELLIS/Blender y-up 帧(轴角原始中位88.8°); 套用官方协议自身就用的 y↔z 帧变换(infer_test77_protocol.py 的 rot_matrix)后=3.1°, 逐类同被救活(除Dishwasher x轴铰本不变)。两列同帧可直接比, 也修掉旧表"度数vs7.7%归一不可比"。
核心结论: 同一份 GT latent, 专用头读出类型0.951/轴角3.1°运动信息在 latent 里是充分的, 非"信息不够"; 纯-LLM-token 接近但略逊(轴角中位0°更尖但均值13.9°+不稳) ⇒ 瓶颈在"如何从latent读运动", 不在信息量轴心垂距两边都~0.22=pivot公共硬骨头(同 EPPUR Stage-0)。latent-token 帧修复(coords [-1,1]→[-0.5,0.5])使垂距中位0.270→0.224(↓17%), 类型/轴角不变=帧不对齐是pivot弱的部分原因。

④ 复现 INSTRUCT-PARTICULATE

杠杆: 论文前作 Particulate(同作者)代码+权重在本地 → 最小加条件化(CLIP 部件文本+点提示注入 query token)。数据 12945 件(PNM+GAPartNet+ArtiCraft 全量), 8 卡零渲染 ~30min。

训练曲线

B 有条件 / A 无条件; warm-start 与从零(scratch)各一对。

4.2 从零训(头条): 复现"无条件→塌"

val 500(从零, 隔离条件化)B_scratch 有条件A_scratch 无条件
分割 mIoU 均值0.7120.626
轴角 AE 均值10.71°21.74°(近2×)
AE ≤15%82.3%65.4%
去 warm-start 后无条件显著塌 → 复现论文中心论点"条件化是必需的"。

4.3 难例诊断(20 真实疑难家电)

四列 A|B+VLM|B+GT|GT × rest|articulated。难例上 B 不优于 A(分割 A 胜/B 仅轴胜); 第一瓶颈 = VLM 结构推断(真实50%/合成70%失败), GPT5.5 漏小件(咖啡机16→6)。

4.4 照片→可动 3D 资产(论文 Fig.1 招牌, 端到端复现)

真实照片 → TRELLIS2 image→3D → VLM 条件 → 条件化 B → 开到上限。7/7 真实件跑通。诚实: 生成 mesh 块状、B 分割偏弱、关节开合温和, 不及论文 Fig.1 精致但能力已复现。

诚实总评 + 下一步

达到论文标准了吗? 没有(目标本就不是)。 复现了思路内核+能跑底座(条件化模型/核心消融/前馈管线/照片→可动/部分数据); 未复现数据引擎全规模/HY3D 117k/Lightwheel 基准/全训练量。注: val 76% 合成件更易, "AE 比论文低"≠更强。
下一步: ①攻部件发现(VLM 瓶颈) ②降合成占比重训(修分割弱) ③Phase 4 物理层 #47(碰撞 range/二轴闸门/sim-readiness)= 项目真贡献与论文。
EPPUR · 铰接研究主线综述 · 2026-06-18 · 文档 ip_repro/STORY_FULL_20260618.md · 全为真实实验(LLM 微调 + IP 复现, 8×H100)