主线一句话: ①读懂论文 INSTRUCT-PARTICULATE → ②先做"LLM 在 GT mesh 上加关节"探明几何能推什么(轴可推、limit 是天花板) → ③latent-token 探索 + PAct 头天花板证实"GT latent 运动信息充分、瓶颈在读取方式"(类型0.951/轴角3.1°)+ 论文推翻方向 → ④转向忠实复现(条件化消融 / 从零训复现"无条件→塌" / 难例诊断 / 照片→可动资产)。
详情页导航
关键结果一览
左: LLM-joint 零样本→微调(纯几何把轴角中位 90°→0°);中: IP 从零训复现"无条件→塌"(B>A 全指标, 轴误差近翻倍);右: 难例诊断 B/A 胜负在真实/合成间反转。
① 起点: 论文 INSTRUCT-PARTICULATE
前馈铰接 SOTA, 核心三点: 先 image→3D · 一个模型同时分割+关节 · 用 instruct(VLM 给的部件文本/点提示/树/类型)消歧"同一物体多种合理标注"。论文末: 输出"非 sim-ready 缺物理属性" = 项目物理层 #47 入口。
② LLM 在 GT mesh 上加关节(Qwen3.5-9B 微调)
| 实验 | 关键结果 |
| Cycle-1(8类,bbox) | 轴角中位 90°→0°; 类型 0.76→0.857; 轴心垂距 0.263→0.031 |
| 名泄漏被克服 | L0 含名 0.857 ≈ L1 去名 0.853 → 学到真几何非名字捷径 |
| Cycle-2(46类) | 轴跨类泛化(垂距 0.015); 类型掉 0.32(continuous≈revolute, 几何判不出有无 limit) |
| GAPart affordance | 宏 F1 0.918(纯几何推可交互语义) |
| LOCO-46 跨类 | 未见类 类型 acc 0.57→0.80(类别越多迁移越强) |
| limit 天花板 | LLM range 中位 0.06° 但均值 57.9°(记忆型非几何型); 类别先验反更差 |
结论: 轴方向/轴心 = 几何可推且跨类泛化; limit 具体值 = 几何天花板(记忆型)。
latent-token vs PAct 头天花板: 纯 LLM 与专用头吃同一份 GT part latent
part SLAT latent → geom token 注入 Qwen → LoRA。不与 bbox 比(bbox 推运动本就不健康: 丢朝向/斜轴盲区, 非有效基线)。两个读取器吃完全相同输入(同113件val/同GT/同帧): latent-token=纯LLM读取器; PAct-head on GT latent=同一latent直喂PAct流网络(末20步重噪)+运动头, null cond无图像 = "专用头看到真latent的天花板"(脚本 PAct/ip_pact_head_gt/, ckpt74000)。
| val_L0(113件,8类) | latent-token LLM(纯LLM) | PAct-head 直读 GT latent | 参考 PAct协议(生成latent+图像) |
| 类型 acc | 0.857 | 0.951 | 95.6% |
| 轴角 中位/均值° | 0° / 13.9° | 3.1° / 7.2° | 7.7° |
| 轴心垂距 中位/均值 | 0.224 / 0.296 | 0.217 / 0.268 | 24%(不同口径) |
PAct 头原生输出在 TRELLIS/Blender y-up 帧(轴角原始中位88.8°); 套用官方协议自身就用的 y↔z 帧变换(infer_test77_protocol.py 的 rot_matrix)后=3.1°, 逐类同被救活(除Dishwasher x轴铰本不变)。两列同帧可直接比, 也修掉旧表"度数vs7.7%归一不可比"。
核心结论: 同一份 GT latent, 专用头读出类型0.951/轴角3.1° ⇒ 运动信息在 latent 里是充分的, 非"信息不够"; 纯-LLM-token 接近但略逊(轴角中位0°更尖但均值13.9°+不稳) ⇒ 瓶颈在"如何从latent读运动", 不在信息量。轴心垂距两边都~0.22=pivot公共硬骨头(同 EPPUR Stage-0)。latent-token 帧修复(coords [-1,1]→[-0.5,0.5])使垂距中位0.270→0.224(↓17%), 类型/轴角不变=帧不对齐是pivot弱的部分原因。
④ 复现 INSTRUCT-PARTICULATE
杠杆: 论文前作 Particulate(同作者)代码+权重在本地 → 最小加条件化(CLIP 部件文本+点提示注入 query token)。数据 12945 件(PNM+GAPartNet+ArtiCraft 全量), 8 卡零渲染 ~30min。
训练曲线
B 有条件 / A 无条件; warm-start 与从零(scratch)各一对。
4.2 从零训(头条): 复现"无条件→塌"
| val 500(从零, 隔离条件化) | B_scratch 有条件 | A_scratch 无条件 |
| 分割 mIoU 均值 | 0.712 | 0.626 |
| 轴角 AE 均值 | 10.71° | 21.74°(近2×) |
| AE ≤15% | 82.3% | 65.4% |
去 warm-start 后无条件显著塌 → 复现论文中心论点"条件化是必需的"。
4.3 难例诊断(20 真实疑难家电)
四列 A|B+VLM|B+GT|GT × rest|articulated。难例上 B 不优于 A(分割 A 胜/B 仅轴胜); 第一瓶颈 = VLM 结构推断(真实50%/合成70%失败), GPT5.5 漏小件(咖啡机16→6)。
4.4 照片→可动 3D 资产(论文 Fig.1 招牌, 端到端复现)
真实照片 → TRELLIS2 image→3D → VLM 条件 → 条件化 B → 开到上限。7/7 真实件跑通。诚实: 生成 mesh 块状、B 分割偏弱、关节开合温和, 不及论文 Fig.1 精致但能力已复现。
诚实总评 + 下一步
达到论文标准了吗? 没有(目标本就不是)。 复现了思路内核+能跑底座(条件化模型/核心消融/前馈管线/照片→可动/部分数据); 未复现数据引擎全规模/HY3D 117k/Lightwheel 基准/全训练量。注: val 76% 合成件更易, "AE 比论文低"≠更强。
下一步: ①攻部件发现(VLM 瓶颈) ②降合成占比重训(修分割弱) ③Phase 4 物理层 #47(碰撞 range/二轴闸门/sim-readiness)= 项目真贡献与论文。