Champ (fudan-generative-vision.github.io)
SMPL: a skinned multi-person linear model: ACM Transactions on Graphics: Vol 34, No 6 (2015年图形学论文,科学发现全靠考古)
写在前面:这篇文章让我读的很难受,主要是作者似乎刻意得用了很多高级词汇😥,,,
Key Idea: 用3D guidance(实际上投影到2D,包含了深度图,法线图,语义图。)代替2D角点图,加强shape alignment 和 pose guidance。
原pose sequence的问题(实际上是2D sketelon的问题): 关节点信息有歧义!
一个足球运动员,哪只脚在前,哪只脚在后?

shape alignment ?

Solution: SMPL(Skinned Multi-Person Linear Model)

可以看出网络大致和Animate Anyone差不多:ReferenceNet + CLIP + UNet
具体关注多出来的部分:
MLMF 实际上是四个小型网络(对应不同的guidance)。每个网络是多个卷积+一个自注意力组成。Fusion即为简单的求和。注意,和ControlNet类似,这里的卷积要以零初始化。