CVPR2019(二)
51. Learning Pyramid-Context Encoder Network for High-Quality Image Inpainting
目标:从一个损坏的图像恢复损失的区域
应用:老照片恢复,脸部编辑,目标移除,基于图像的渲染等
挑战:
对于高质量的图像修复,视觉和语义可靠性的要求较高
由于缺乏对图像语义的高级理解,基于示例的方法在语义填充方面容易失败
最近基于cnn的方法由于堆叠卷积而倾向于产生模糊纹理
52. Attention-aware Multi-stroke Style Transfer
目标:使用一个单一的可训练模型来传递任意艺术风格
质量:协调内容和程式化图像之间视觉注意的空间分布
泛化:通过一个前馈样式渲染多个画笔笔划
53. GIF2Video: Color Dequantization and Temporal Interpolation of GIF images
本文提出了 GIF2Video,首个基于深度学习提升自然场景下 GIF 成像质量的方法,其主要任务有两个:颜色反量化和帧插值。针对第一个任务,本文给出一个组合性网络架构 CCDNet,并通过综合损失函数训练它,颜色反量化被嵌入于 CCDNet 以指导网络学习和推理。对于第二个任务,本文采用 SuperSlomo 进行变长多帧插值以提升输入 GIF 的时序分辨率。
实验结果表明 GIF2Video 可以通过显著减少量化瑕疵而大幅提升输入 GIF 的成像质量。本文希望该方法可以激发更多灵感,发觉更多方法优化从 GIF 重建视频的任务,比如把图像序列看作一个 3D volume 或者应用循环神经网络提升帧内一致性。
54. An Attention Enhanced Graph Convolutional LSTM Network for Skeleton-Based Action Recognition
目标:基于骨骼的动作识别
输入:骨骼动作序列
输出:动作标签
Motivation:
骨骼数据包含了丰富的空间结构信息
时间连续性不仅存在于相同的关节(例如手,腕和肘)中,还存在于身体结构中
空间域和时域之间存在共存关系
结论:1)AGC-LSTM不仅可以捕获空间配置和时间动态的判别特征,还可以探索空间域和时域之间的共现关系。
2)时态分层架构提高了学习高级语义表示的能力,并显着降低了计算成本。
3)注意机制可以增强每个AGC-LSTM层中关键关节的信息
some conclusion:
(1). cv准则下的效果比cs准则下的效果好,这表明:不同人物在执行相同动作时的差异性比不同视角的差异性要大,即intra-class differences问题,这在其他任务上也比较常见
(2). 基于LSTM的效果不如基于CNN的效果
some preview:
- 基于LSTM的动作识别框架:
- 每一帧的关键点信息(展成一个特定长度的向量,关键点个数*关键点维度)送入LSTM,之后再在时序上对LSTM的输出做融合
- 基于CNN的动作识别框架
- 将skeleton序列表示为一张大小为(序列长度, 关键点个数, 关键点维度)的图像,如一段帧数为32且每帧包含16个关键点的二维信息的序列可以表示为(32, 16, 2)的tensor
-
什么是Co-occurrence
- 人的某个行为动作常常和骨架的一些特定关节点构成的集合,以及这个集合中节点的交互密切相关。如要判别是否在打电话,关节点“手腕”、“手肘”、“肩膀”和“头”的动作最为关键。不同的行为动作与之密切相关的节点集合有所不同,如对于“走路”的行为动作,“脚腕”、“膝盖”、“臀部”等关节点构成具有判别力的节点集合。我们将这种几个关节点同时影响和决定判别的特性称为共现性(Co-occurrence)
55. What and How You Performed? A Multitask Learning Approach to Action Quality Assessment
AQA涉及量化行动的执行情况
通过利用对行动及其质量的描述,可以改善行动质量评估(AQA)任务的绩效吗?当前的AQA和技能评估方法建议学习仅用于一项任务的特征 - 估计最终得分。在本文中,我们建议学习解释三个相关任务的时空特征 - 细粒度动作识别,评论生成和估计AQA分数。一个迄今为止最大的包括1412个潜水样本的多任务AQA数据集(https://github.com/ParitoshParmar/MTL-AQA)用于评估我们的方法。我们展示了我们的MTL方法优于使用两种不同架构的STL方法:C3D-AVG和MSCADC。 C3D-AVG-MTL方法实现了新的最先进性能,等级相关性为90.44%。进行详细的实验以显示MTL提供比STL更好的概括,并且来自动作识别模型的表示不足以用于AQA任务,而是应该学习。
56. Towards High-fidelity Nonlinear 3D Face Morphable Model
高保真三维面部重建
57. Does Learning Specific Features for Related Parts Help Human Pose Estimation
人体三维姿态估计
58. Dense 3D Face Decoding over 2500FPS
三维人脸重建
59. 3D Point Capsule Networks
无监督地学习稀疏3D点云的表示,同时保留空间排列/部分到整体的关系
60. Strand-accurate Multi-view Hair Capture
给定多视角的图像,重建出发丝级别准确度的三维头发几何造型
61. Why Relu Networks Yield High-confidence Prediction Far Away from the Trainning Data and How to Mitigate the Problem
为什么Relu Networks产生高信度预测远离训练数据以及如何缓解问题
62. Fast Human Post Estimation
人体姿态估计
63. Mask-Guided Portrait Editing with Conditional GANs
我们提出了一个基于传统GANs的框架来实现基于mask的肖像编辑,可以做到:
1)通过一个mask获得不同的真实脸部照片
2)通过编辑mask来改变照片的样子
3)可以实现改变头发颜色,上唇妆等功能
64. Dense Intrinsic Appearance Flow for Human Pose Transfer
从人物的照片以及一个目标造型骨骼,获得一个人物的新的照片(把这个人的姿势摆成这个骨骼的姿势)
65. Learning Linear Transformations for Fast Image and Video Style Transfer
图片视频风格转化
66. Deep Flow-Guided Video Inpainting
用时空一致的内容填充给定视频序列的缺失区域
可以从一个视频中删掉某个物体,去掉视频中的水印,也可以补全视频中被遮掉的部分
67. LiveSketch: Query Perturbations for Guided Sketch-based Visual Search
LiveSketch 是一个新的基于草图的视觉搜索引擎。用户使用LiveSketch迭代工作以优化其草绘查询,选择和集成系统建议的草图装饰以消除搜索意图的歧义,从而提高结果相关性。
LiveSketch通过深度特征编码器的反向传播建议这些更新,该编码器将草绘的查询映射到搜索嵌入。
用户画一个草图,然后系统会生成几个相关的草图,用户可以调整这些生成草图的线性组合来完善自己的草图,获得搜索结果。
68. Understanding the Limitations of CNN-based Absolute Camer Pose Regression
视觉定位是在已知场景下相机位姿准确估计的任务。该任务是一个在计算机视觉与机器人领域的关键问题,应用领域有自动驾驶、SFM和混合现实。传统方法中,3D 几何常用于解决该问题。近年来,基于CNN的端对端方法逐渐流行。这些方法从输入图像中直接回归相机的位姿。但是,这类方法很难达到与基于3D结构方法的位姿准确水平。为了理解这种现象,我们为相机位姿回归建立了一个理论模型。我们使用该模型预测了位姿归回技术失败的案例,并通过实验验证了我们的预测。我们进一步使用我们的模型展示了位姿回归更加与通过图像检索进行位姿逼近相关,而不是通过3D结构进行准确的位姿估计。一个重要的结论是**目前的方法并不是一直优胜于手工设计的图像检索的基线。**这清晰地表明了在位姿回归算法可以与基于结构的方法相竞争之前,仍然需要其他研究。