Champ (fudan-generative-vision.github.io)

SMPL: a skinned multi-person linear model: ACM Transactions on Graphics: Vol 34, No 6 (2015年图形学论文,科学发现全靠考古)

写在前面:这篇文章让我读的很难受,主要是作者似乎刻意得用了很多高级词汇😥,,,

Key Idea: 用3D guidance(实际上投影到2D,包含了深度图,法线图,语义图。)代替2D角点图,加强shape alignment 和 pose guidance。

原pose sequence的问题(实际上是2D sketelon的问题): 关节点信息有歧义

一个足球运动员,哪只脚在前,哪只脚在后?

Untitled

shape alignment ?

Untitled

Solution: SMPL(Skinned Multi-Person Linear Model)

网络架构

Untitled

可以看出网络大致和Animate Anyone差不多:ReferenceNet + CLIP + UNet

具体关注多出来的部分:

  1. MLMF 代替 Pose Guider,作用都差不多,类似encoder。同时伴随输入的变化(pose sequence → 4 maps)
  2. Parametric Shape Alignment,Alignment通过SMPL实现。
  3. SMPL的:source video → depth images + normal maps+ semantic maps + auxiliary skeleton maps

MLMF 实际上是四个小型网络(对应不同的guidance)。每个网络是多个卷积+一个自注意力组成。Fusion即为简单的求和。注意,和ControlNet类似,这里的卷积要以零初始化。