1. OT 到底解决什么
给定源分布 \(\mathbf a\)、目标分布 \(\mathbf b\) 和运输代价矩阵 \(\mathbf C\),OT 求一个 transport plan \(\mathbf P\)。\(\mathbf P_{ij}\) 表示把第 \(i\) 个源 token 的多少质量分配到第 \(j\) 个目标 token。约束保证每个源 token 都被解释,每个目标 token 也被填满。
在铰链物体里,token 可以是 mesh patch、part proposal、joint hypothesis 或语义节点。代价矩阵可以同时编码几何距离、法向一致性、语义相似度、运动可解释性。
2. 为什么需要 Sinkhorn
原始 OT 是线性规划,直接解会慢且不可微。加熵正则后得到:
\[
\min_{\mathbf P \in U(\mathbf a,\mathbf b)}
\langle \mathbf C,\mathbf P\rangle
+\varepsilon \sum_{ij}\mathbf P_{ij}(\log \mathbf P_{ij}-1)
\]
它能用 Sinkhorn 迭代高效求解,形式是 \(\mathbf P=\operatorname{diag}(\mathbf u)\mathbf K\operatorname{diag}(\mathbf v)\),其中 \(\mathbf K=\exp(-\mathbf C/\varepsilon)\)。
3. SceneTransporter 的关键启发
SceneTransporter 的精神不是“预测一个位姿就完事”,而是把场景变化看成 source structure 到 target structure 的可解释搬运。对我们来说,它启发了两层东西:part 间对应关系应当显式建模,运动变化应当沿着结构图传播。
如果只有独立 part 预测,PAct 容易出现“零件是对的但关节轴乱飞”。OT 可以作为连接 patch、part、joint 的软约束,让局部证据汇总成全局一致的 articulation graph。