Champ | Notion

写在前面：这篇文章让我读的很难受，主要是作者似乎刻意得用了很多高级词汇😥，，，

Key Idea：用3D guidance（实际上投影到2D，包含了深度图，法线图，语义图。）代替2D角点图，加强shape alignment 和 pose guidance。

原pose sequence的问题（实际上是2D sketelon的问题）：关节点信息有歧义！

一个足球运动员，哪只脚在前，哪只脚在后？

Untitled

shape alignment ?

Untitled

Solution： SMPL（Skinned Multi-Person Linear Model）

网络架构

Untitled

可以看出网络大致和Animate Anyone差不多：ReferenceNet + CLIP + UNet

具体关注多出来的部分：

MLMF 代替 Pose Guider，作用都差不多，类似encoder。同时伴随输入的变化（pose sequence → 4 maps）
Parametric Shape Alignment，Alignment通过SMPL实现。
SMPL的：source video → depth images + normal maps+ semantic maps + auxiliary skeleton maps

MLMF 实际上是四个小型网络（对应不同的guidance）。每个网络是多个卷积+一个自注意力组成。Fusion即为简单的求和。注意，和ControlNet类似，这里的卷积要以零初始化。