028成都网蓉城论坛

 找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 426|回复: 0
打印 上一主题 下一主题

AI把特朗普变成了dancer,跟着蔡徐坤跳起了『鸡你太美』

[复制链接]

346

主题

346

帖子

777

积分

高级会员

Rank: 4

积分
777
跳转到指定楼层
楼主
发表于 2020-12-16 04:08:28 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
" 好家伙!"
" 现在的 Paper 也是越来越皮了 "。正在开心摸鱼的同事,边说边给我发过来一段 Demo。
原来『宝藏男孩』特朗普又被玩坏了。


『被逼着』跟蔡徐坤跳起了 " 鸡你太美 "(谐音梗)。
(川宝:AI 不讲武德!)


跟二次元萝莉跳起了萌系宅舞。
(川宝:给我顶小红帽,跳的比她好 [ 傲娇脸 ] )


跟印度小哥跳起了 Jackson 的经典舞步。
(川宝:快看我的舞姿是不是很性感?)
看完 Demo,正为找不到选题疯狂薅头发的小编我,一时也是惊住了:好家伙!今天的选题有了!!


火速让同事把资料推给了我。
原来逼着川宝大秀舞姿的是上海科技大学研究团队的最新 AI,这项 AI 名为——《Liquid Warping GAN with Attention:A Unified Frame work for Human Images Synthesis》


简单理解就是,基于特定框架的 AI,能够完成运动仿真、外观转换以及新视图合成等人体图像处理任务。上面特朗普的舞蹈 Demo 是 AI 合成的最终演示效果。(获取完整视频见文末)
接下来我们来扒一扒它背后的合成原理。
『注意型液化 GAN』模型
人体图像合成,在影视制作、游戏制作、角色动画 / 转换、虚拟服装试穿等方面有着巨大的潜在应用。
一般来讲,在给定一个源人体图像和参考图像下,它需要完成三项任务:
1、运动仿真:生成一个具有源人类纹理和参考人类姿势的图像。
2、新视图合成:从不同视角捕捉人体新图像并合成。
3、外观转换:在参照人体图像穿着衣服时,生成保持源面部身份的人类图像。(不同人可能穿同样的衣服)


在处理以上任务时,现有方法主要采用 2D 关键点来估计人体结构。
然而,它们仅表达位置信息,无法表征人的个性化形状并模拟肢体旋转。对此,研究人员提出了一套全新的模型处理框架:
它包括身体网格恢复模块(Body Mesh Recovery),流合成模块(Flow Composition),以及带有液体翘曲块(Liquid Warping Block ,LWB ) 的 GAN 模块三个部分。


Isi 为给定源图像,lr 为参考图像
其中,使用 3D 身体网格恢复模块用来解开人体姿势和形状,不仅可以模拟关节的位置和旋转,还可以表征个性化的身体形状;使用带有液体翘曲块(AttLWB)的 GAN,保留纹理,样式,颜色和脸部身份等源信息;将图像和特征空间中的源信息传播到合成参考,通过去噪卷积自动编码器提取源特征,以很好地表征源身份。
具体方法如下:
Body Mesh Recovery:其作用是预测运动姿态(肢体旋转)和形状参数,以及每个图像的三维网格。主要使用 HMR 进行三维姿态和形状估计。
Flow Composition:在已有估计基础上,利用摄像机视图,为每个源网格和参考网格绘制一个对应图和一个权重索引图。主要使用完全可微的渲染器—神经网格渲染器(NMR)来完成。
Attentional Liquid Warping GAN:该阶段负责合成高保真的人体图像。它需要完成:
1)合成背景图像。
采用 Three-stream 的方法:包括 GBG 流,对被遮罩的背景图像和在颜色信道中获得的掩模进行级联;源标识流 GSID,引导编码器提取能够保留源信息的特征;源标识流 GT-SF,由双线性取样器接收扭曲前景,对应映射作为输入,以合成最终结果。
2)基于可见部分预测不可见部分的颜色。
采用鉴别器进行识别,它是一个全局 - 局部内容导向(Global-Local Contentorientation)架构,包括全局鉴别器 DGlobal,身体鉴别器 DBody 和面部鉴别器三个部分。
3)从 SMPL 重建中生成衣服、头发等像素。
这里主要采用了注意力液化块(如下图),它在旧有方法上解决了在人体运动仿真中,源图像多视点输入,以及在外观传递中,服装的不同部位来自不同的人等问题。


除此之外,为了提高泛化能力,研究人员引入了一种一次 / 几次学习策略。
创建数据集
除了模型外,要想得到高保真输出效果,还需要有高质量的数据集。
研究人员建立了三个测试 / 训练数据集和一个评估数据集。分别为 Impersonator、MotionSynthetic、FashionVideo 和 Youtube-Dancer-18.
Impersonator(iPER),是一个具有多种样式、不同人物穿不同衣服的数据集。


它有 206 个视频、241564 帧画面。涉及 30 名受试者,每个受试者穿着不同的衣服(共 103 件衣服。),表演一个 A 形视频和一个随机动作的视频。
另外,iPER 还包括了他们的动作、服装、身高和体重分布等统计信息。


MotionSynthetic 运动合成数据集,创建该数据集的目的是便于对人体穿着的真实感进行综合评价,特别是通过合成的图像数据集,可以对不同的服装外观进行综合评价。
该数据集总共有 120 个网格,所有这些具有 UV 纹理图像的网格都已在 SMPL 中注册。对于每个网格,从 Mixamo 中选择一个姿势序列,从互联网上选择一个背景图像。基于网格、UV 图像、姿势序列和背景图像等信息,采用核磁共振(NMR)对合成图像进行渲染,总共得到 39529 帧。
再根据不同的网格划分为 8:2 的训练 / 测试集,如下图中的合成图像。


FashionVideo:它包含 500 个训练和 100 个测试视频,其中每个女模穿着 Fashion 的衣服,服装和质地千差万别,手势却很少。每个视频大约有 350 帧。另外,这个数据集缺乏背景的多样性,所有的背景都是黑色的。如图:


Youtube-Dancer-18:是作为评估数据集,对该方法的有效性和通用性进行检验。它全部是从 YouTube 平台下来来的,总共 18 个,每个视频持续 4 到 12 分钟。(如上图 Dancer)
需要说明的是,研究人员没有在这个数据集中训练模型,只是对 SN 帧进行了个性化采样,并直接对该数据集进行测试,以评估现有所有方法的泛化能力。
经过实验分析,与现有其他方法,该方法在运动仿真、外观转换以及新视图合成三项综合任务上均达到了最佳性能。我们再来看一组演示 Demo:


研究团队
如之前所述,这项 AI 研究团队来自上海科技大学。
高盛华,是上海科技大学副教授,博士生导师。也是该项研究的通讯作者。他 2008 年获得中国科技大学理学学士学位(优秀毕业生),2012 年获得南洋理工大学博士学位,2012 至 2014 年,在新加坡高级数字科学中心担任博士后。
他的研究兴趣包括计算机视觉和机器学习。


该项研究的一作是上海科技大学在读博士— Wen Liu。
他的研究方向主要集中在人体三维重建、图像合成、运动传递、新视角合成、神经绘制和视频异常检测等方面。


其他作者还有:深圳腾讯 AI 实验室的首席研究员 Lin Ma,主研计算机视觉、多模式深度学习领域;上海科技大学硕士 Zhixin Piao,主要研究课题是人体三维重建和运动传递;上海科技大学本科毕业生 Zhi Tu,研究课题是人体运动传递和医学图像分析;英国伦敦帝国理工学院博士罗文汉,其研究方向包括计算机视觉和机器学习的几个主题,如运动分析、图像 / 视频质量恢复、目标检测与识别、强化学习等。
论文地址:http://arxiv.org/pdf/2011.09055v2.pdf
YouTube 地址:http://www.youtube.com/watch?v=Zkrcx3_DtCw&feature=youtu.be
引用链接:
http://paperswithcode.com/paper/liquid-warping-gan-with-attention-a-unified#code
http://weibointl.api.weibo.com/share/189441008.html?weibo_id=4579529253719353

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
收藏收藏

这是一种鼓励!你懂的~

×

打赏支付方式:

打赏

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则





亲,赶快加入我们吧!
X

028|028|028|028|028|028|028|028|028|028|028|028|028|028|028|028|028|028|028|028|028|028|028|028|028|028|028|028|028|028|手机版|小黑屋|028成都网蓉城论坛 ( 苏ICP备18022364号-4

GMT+8, 2024-5-14 07:47 , Processed in 0.356099 second(s), 25 queries .

Powered by 028 X3.2

© 2001-2018 028

快速回复 返回顶部 返回列表