1. OT 的直觉
OT 问的是:源分布里有一些“质量”,目标分布也需要这些质量,若把源 \(i\) 搬到目标 \(j\) 的代价是 \(C_{ij}\),怎样搬总成本最低?在我们的任务里,质量不一定是泥土;它可以是图像 patch 的证据、点云 cluster、mesh face、候选 part、joint hypothesis 或结构模板节点。
OT 比普通最近邻更适合铰链物体,因为它有全局守恒约束:每个源证据不能被无限重复使用,每个目标结构也不能凭空出现。这正好对应“一个门板只能服务一个门 link,一个把手不能同时解释成 drawer 和 door”。
2. 熵正则与 Sinkhorn
直接解 OT 是线性规划,慢而且不好放进神经网络。加熵正则后,解变得平滑可微:
\[
W_\varepsilon(\mathbf a,\mathbf b)=
\min_{\mathbf P\in U(\mathbf a,\mathbf b)}
\langle\mathbf C,\mathbf P\rangle+
\varepsilon\sum_{ij}\mathbf P_{ij}(\log \mathbf P_{ij}-1)
\]
令 \(\mathbf K=\exp(-\mathbf C/\varepsilon)\),通过交替归一化行列得到 \(\mathbf P=\operatorname{diag}(\mathbf u)\mathbf K\operatorname{diag}(\mathbf v)\)。这就是 Sinkhorn。它给我们一个连续可导的 soft matching。
3. Unbalanced OT
真实生成里,源和目标常常数量不相等:模型可能多生成一片板,也可能漏掉一个把手。严格守恒会把错误硬塞给某个目标。Unbalanced OT 用 KL 惩罚替代硬约束:
\[
\min_{\mathbf P\ge0}\langle C,P\rangle+\varepsilon H(P)+
\tau_aD_{\mathrm{KL}}(P\mathbf1\Vert a)+
\tau_bD_{\mathrm{KL}}(P^\top\mathbf1\Vert b)
\]
这允许少量质量消失或新生,适合处理过分割、欠分割和遮挡。