AI把特朗普变成了dancer，跟着蔡徐坤跳起了『鸡你太美』

KOM表情君 · 发表于 2020-12-16 04:08:28

" 好家伙！"
" 现在的 Paper 也是越来越皮了 "。正在开心摸鱼的同事，边说边给我发过来一段 Demo。
原来『宝藏男孩』特朗普又被玩坏了。

『被逼着』跟蔡徐坤跳起了 " 鸡你太美 "（谐音梗）。
（川宝：AI 不讲武德！）

跟二次元萝莉跳起了萌系宅舞。
（川宝：给我顶小红帽，跳的比她好 [ 傲娇脸 ] ）

跟印度小哥跳起了 Jackson 的经典舞步。
（川宝：快看我的舞姿是不是很性感？）
看完 Demo，正为找不到选题疯狂薅头发的小编我，一时也是惊住了：好家伙！今天的选题有了！！

火速让同事把资料推给了我。
原来逼着川宝大秀舞姿的是上海科技大学研究团队的最新 AI，这项 AI 名为——《Liquid Warping GAN with Attention：A Unified Frame work for Human Images Synthesis》

简单理解就是，基于特定框架的 AI，能够完成运动仿真、外观转换以及新视图合成等人体图像处理任务。上面特朗普的舞蹈 Demo 是 AI 合成的最终演示效果。（获取完整视频见文末）
接下来我们来扒一扒它背后的合成原理。
『注意型液化 GAN』模型
人体图像合成，在影视制作、游戏制作、角色动画 / 转换、虚拟服装试穿等方面有着巨大的潜在应用。
一般来讲，在给定一个源人体图像和参考图像下，它需要完成三项任务：
1、运动仿真：生成一个具有源人类纹理和参考人类姿势的图像。
2、新视图合成：从不同视角捕捉人体新图像并合成。
3、外观转换：在参照人体图像穿着衣服时，生成保持源面部身份的人类图像。（不同人可能穿同样的衣服）

在处理以上任务时，现有方法主要采用 2D 关键点来估计人体结构。
然而，它们仅表达位置信息，无法表征人的个性化形状并模拟肢体旋转。对此，研究人员提出了一套全新的模型处理框架：
它包括身体网格恢复模块（Body Mesh Recovery），流合成模块（Flow Composition），以及带有液体翘曲块（Liquid Warping Block ，LWB ) 的 GAN 模块三个部分。

Isi 为给定源图像，lr 为参考图像
其中，使用 3D 身体网格恢复模块用来解开人体姿势和形状，不仅可以模拟关节的位置和旋转，还可以表征个性化的身体形状；使用带有液体翘曲块（AttLWB）的 GAN，保留纹理，样式，颜色和脸部身份等源信息；将图像和特征空间中的源信息传播到合成参考，通过去噪卷积自动编码器提取源特征，以很好地表征源身份。
具体方法如下：
Body Mesh Recovery：其作用是预测运动姿态（肢体旋转）和形状参数，以及每个图像的三维网格。主要使用 HMR 进行三维姿态和形状估计。
Flow Composition：在已有估计基础上，利用摄像机视图，为每个源网格和参考网格绘制一个对应图和一个权重索引图。主要使用完全可微的渲染器—神经网格渲染器（NMR）来完成。
Attentional Liquid Warping GAN：该阶段负责合成高保真的人体图像。它需要完成：
1）合成背景图像。
采用 Three-stream 的方法：包括 GBG 流，对被遮罩的背景图像和在颜色信道中获得的掩模进行级联；源标识流 GSID，引导编码器提取能够保留源信息的特征；源标识流 GT-SF，由双线性取样器接收扭曲前景，对应映射作为输入，以合成最终结果。
2）基于可见部分预测不可见部分的颜色。
采用鉴别器进行识别，它是一个全局 - 局部内容导向（Global-Local Contentorientation）架构，包括全局鉴别器 DGlobal，身体鉴别器 DBody 和面部鉴别器三个部分。
3）从 SMPL 重建中生成衣服、头发等像素。
这里主要采用了注意力液化块（如下图），它在旧有方法上解决了在人体运动仿真中，源图像多视点输入，以及在外观传递中，服装的不同部位来自不同的人等问题。

除此之外，为了提高泛化能力，研究人员引入了一种一次 / 几次学习策略。
创建数据集
除了模型外，要想得到高保真输出效果，还需要有高质量的数据集。
研究人员建立了三个测试 / 训练数据集和一个评估数据集。分别为 Impersonator、MotionSynthetic、FashionVideo 和 Youtube-Dancer-18.
Impersonator（iPER），是一个具有多种样式、不同人物穿不同衣服的数据集。

它有 206 个视频、241564 帧画面。涉及 30 名受试者，每个受试者穿着不同的衣服（共 103 件衣服。），表演一个 A 形视频和一个随机动作的视频。
另外，iPER 还包括了他们的动作、服装、身高和体重分布等统计信息。

MotionSynthetic 运动合成数据集，创建该数据集的目的是便于对人体穿着的真实感进行综合评价，特别是通过合成的图像数据集，可以对不同的服装外观进行综合评价。
该数据集总共有 120 个网格，所有这些具有 UV 纹理图像的网格都已在 SMPL 中注册。对于每个网格，从 Mixamo 中选择一个姿势序列，从互联网上选择一个背景图像。基于网格、UV 图像、姿势序列和背景图像等信息，采用核磁共振（NMR）对合成图像进行渲染，总共得到 39529 帧。
再根据不同的网格划分为 8:2 的训练 / 测试集，如下图中的合成图像。

FashionVideo：它包含 500 个训练和 100 个测试视频，其中每个女模穿着 Fashion 的衣服，服装和质地千差万别，手势却很少。每个视频大约有 350 帧。另外，这个数据集缺乏背景的多样性，所有的背景都是黑色的。如图：

Youtube-Dancer-18：是作为评估数据集，对该方法的有效性和通用性进行检验。它全部是从 YouTube 平台下来来的，总共 18 个，每个视频持续 4 到 12 分钟。（如上图 Dancer）
需要说明的是，研究人员没有在这个数据集中训练模型，只是对 SN 帧进行了个性化采样，并直接对该数据集进行测试，以评估现有所有方法的泛化能力。
经过实验分析，与现有其他方法，该方法在运动仿真、外观转换以及新视图合成三项综合任务上均达到了最佳性能。我们再来看一组演示 Demo：

研究团队
如之前所述，这项 AI 研究团队来自上海科技大学。
高盛华，是上海科技大学副教授，博士生导师。也是该项研究的通讯作者。他 2008 年获得中国科技大学理学学士学位（优秀毕业生），2012 年获得南洋理工大学博士学位，2012 至 2014 年，在新加坡高级数字科学中心担任博士后。
他的研究兴趣包括计算机视觉和机器学习。

该项研究的一作是上海科技大学在读博士— Wen Liu。
他的研究方向主要集中在人体三维重建、图像合成、运动传递、新视角合成、神经绘制和视频异常检测等方面。

其他作者还有：深圳腾讯 AI 实验室的首席研究员 Lin Ma，主研计算机视觉、多模式深度学习领域；上海科技大学硕士 Zhixin Piao，主要研究课题是人体三维重建和运动传递；上海科技大学本科毕业生 Zhi Tu，研究课题是人体运动传递和医学图像分析；英国伦敦帝国理工学院博士罗文汉，其研究方向包括计算机视觉和机器学习的几个主题，如运动分析、图像 / 视频质量恢复、目标检测与识别、强化学习等。
论文地址：http://arxiv.org/pdf/2011.09055v2.pdf
YouTube 地址：http://www.youtube.com/watch?v=Zkrcx3_DtCw&feature=youtu.be
引用链接：
http://paperswithcode.com/paper/liquid-warping-gan-with-attention-a-unified#code
http://weibointl.api.weibo.com/share/189441008.html?weibo_id=4579529253719353

		自动登录	找回密码
密码			立即注册

AI把特朗普变成了dancer，跟着蔡徐坤跳起了『鸡你太美』

本帖子中包含更多资源

打赏支付方式：

相关帖子