EMO(Emote Portrait Alive)
作者提出了一种基于Diffusion的audio2video的方法。前人的方法要么用视频作为guidence,要么用单张图的3D点云作为guidence。后者由于自由度受限,导致画面不够逼真。这两者都没有用到DIffusion。
本文的创新点:Diffusion+单张图+音频的e2e



Why facial locator and speed layer?回想Animate Anyone,制作数据集保证了pose和视频之间的对应关系,但在inference阶段,还需要另外调节pose和目标图片的对应关系。这里由于音频本身包含不了任何空间信息,所以在训练阶段就要额外加入对应的空间信息。 另外作者提出,不同的训练视频有不同的运动速度,为了保持这一部分的一致性,作者加入额外的头部运动速度信息。 这两部分被称为weak control。weak 相对 strong,能够实现更逼真的效果。
关于speed layer的具体实现:

其中c为中间值,r为半径,这作为设计时的超参数。
c. 因此得到[B,F,D],在B维度重复HW次,得到[BH*W,F,D],就可以作为cross attention的输入了。这里的重复实际上包含了每个像素点的速度是相同的。作者说实际视频的转动要远比这个估计要复杂,这个估计含有比加大的噪声/自由度。
stage1:
ReferenceNet,UNet(exclude temporal layer),facial locator
stage2:
speed layer + temporal layer