分割论文--2019CVPR
一.Adaptive Pyramid Context Network for Semantic Segmentation(自适应金字塔上下文网络的语义分割)-没有源码
**摘要:**本文首先介绍了分割任务中上下文特征的三个理想属性。特别是,我们发现,全球导向的本地联谊会(GLA)在构建有效的情境特征方面可以发挥至关重要的作用,而该属性在以前的工作中已被很大程度上忽略。在此基础上,本文提出了一种用于语义分割的自适应金字塔上下文网络(APCNet)。 APCNet使用多个精心设计的自适应上下文模块(ACM)自适应地构建多尺度上下文表示。具体来说,每个ACM利用全局图像表示作为指导来估计每个子区域的局部亲和力系数,然后使用这些亲和力来计算上下文向量。我们根据三个语义分割和场景解析数据集(包括PASCAL VOC 2012,Pascal-Context和ADE20K数据集)对APCNet进行经验评估。实验结果表明,APCNet在所有三个基准上均达到了最先进的性能,并且在不进行MS COCO预先训练和任何后处理的情况下,PASCAL VOC 2012测试集获得了创纪录的84.2%。
方法:
二.Knowledge Adaptation for Efficient Semantic Segmentation(有效语义分割的知识适应)–没有源码
**摘要:**我们提出了一种针对语义分割而量身定制的知识提炼方法,以提高紧凑型FCN的性能,且步幅较大。为了处理学生和教师网络的特征之间的不一致,我们利用预先训练的自动编码器在转移的潜在域中优化了特征相似性。此外,提出了一个亲和力蒸馏模块,以通过计算整个图像上的非局部相互作用来捕获远程依赖性。为了验证我们提出的方法的有效性,已经在三个流行的基准上进行了广泛的实验:Pascal VOC,Cityscapes和Pascal Context。基于高度竞争的基准,我们提出的方法可以将学生网络的性能提高2.5%(在城市景观测试集上,mIOU从70.2提高到72.7),并且只需8%的浮动操作(FLOPS)就可以训练出更好的紧凑模型达到可比性能的模型。
方法:
三.3D-SIS: 3D Semantic Instance Segmentation of RGB-D Scans(3D-SIS:RGB-D扫描的3D语义实例分割)–有源码
**摘要:**我们介绍3D-SIS1,这是一种用于商品中3D语义实例分割的新型神经网络架构
RGB-D扫描。我们方法的核心思想是从几何和彩色信号中共同学习,从而实现准确的实例预测。而不是独自经营在2D帧上,我们观察到大多数计算机视觉应用程序都具有可用的多视图RGB-D输入,我们利用它来构建3D实例分割的方法,从而有效地将这些多模式输入融合在一起。我们的网络通过将2D图像与基于以下内容的体积网格相关联,从而利用高分辨率RGB输入3D重建的姿势对齐。对于每个图像,我们首先通过一系列2D卷积为每个像素提取2D特征;然后,我们将生成的特征向量反向投影到3D网格中的关联体素。 2D和3D特征学习的这种结合可以显着提高目标检测和实例分割的准确性而不是最新的替代品。我们在综合和真实世界公共基准上都显示了结果,在真实世界数据上的mAP改善了13倍以上。
方法:
四.DeepCO3: Deep Instance Co-segmentation by Co-peak Search and Co-saliency Detection(DeepCO3:通过共峰搜索和共显着性检测进行深度实例共细分)–有源码
**摘要:**在本文中,我们解决了一个称为实例细分的新任务。给定一组图像共同覆盖特定类别的对象实例,则实例共细分旨在识别所有这些实例并对其进行分割,即为每个实例生成一个蒙版。这项任务很重要,因为实例级分割对于人类和许多视觉应用而言是更可取的。这也是具有挑战性的,因为没有可用的逐像素注释的训练数据,并且每个图像中的实例数是未知的。我们通过将其分为两个子任务(共峰搜索和实例蒙版分割)来解决此任务。在前一个子任务中,我们开发了一个基于CNN的网络来检测一对图像的共同峰值和共同显着性图。同峰有两个端点,每个端点一个,在响应图中是局部最大值,并且彼此相似。因此,两个端点可能被同一类别的一对实例覆盖。在后一个子任务中,我们设计一个排名函数,该函数将检测到的共峰值和共显着度图作为输入,并可以选择对象建议以产生最终结果。我们在四个数据集上评估了例如共分割的方法及其用于对象共定位的变体,并相对于最新方法取得了良好的性能。源代码和收集的数据集可从https://github.com/KuangJuiHsu/DeepCO3/获得。
方法:
五.SAIL-VOS: Semantic Amodal Instance Level Video Object Segmentation – A Synthetic Dataset and Baselines(SAIL-VOS:语义非模态实例级别的视频对象细分–综合数据集和基准)–没有源码
**摘要:**我们介绍了SAIL-VOS(语义非模态实例级视频对象分割),这是一个旨在激发语义非模态分割研究的新数据集。人类可以毫不费力地识别部分被遮挡的物体,并可靠地估计其超出可见范围的空间范围。但是,很少有现代计算机视觉技术能够推理出物体的被遮挡部分。这部分是由于以下事实:允许开发这些方法的图像数据集很少,而视频数据集不存在。为了解决此问题,我们提出了从真实感游戏GTA-V中提取的合成数据集。每帧都带有带有语义标签的密集注释的,像素精确的可见和无模式分割蒙版。带注释的对象超过180万个,注释的数量是现有数据集的100倍。我们通过量化几个基准的性能来证明数据集的挑战。数据和其他材料可在http://sailvos.web.illinois.edu获得。
方法:
六.Segmentation-driven 6D Object Pose Estimation(分割驱动的6D对象姿态估计)–有源码
**摘要:**估计刚性物体的6D姿势的最新趋势是训练深度网络以直接从图像中回归姿势或预测3D关键点的2D位置,可以使用PnP算法从中获得姿势。在这两种情况下,都将对象视为全局实体,并计算单个姿势估计。结果,所产生的技术可能容易受到较大的咬合。在本文中,我们介绍了一种细分驱动的6D姿势估计框架,其中对象的每个可见部分都以2D关键点位置的形式提供了局部姿势预测。然后,我们使用预测的置信度度量来将这些候选姿势组合为一组可靠的3D到2D对应关系,从中可以获得可靠的姿势估计。我们在具有挑战性的Occluded-LINEMOD和YCBVideo数据集上的表现超越了最新技术,这证明了我们的方法可以很好地处理彼此遮挡的多个纹理较差的对象。此外,它依靠足够简单的体系结构来实现实时性能。
方法:
七.Accel: A Corrective Fusion Network for Efficient Semantic Segmentation on Video(Accel:用于视频上有效语义分割的校正融合网络)–有源码
**摘要:**我们提出了一种新型的语义视频分割系统Accel,该系统通过结合两个网络分支的预测以较低的推理成本实现了较高的准确性:(1)一个参考分支,它提取参考关键帧上的高细节特征,并使用逐帧光学流估计,以及(2)更新分支,该分支计算当前帧上可调整质量的特征,并在每个视频帧上执行时间更新。更新分支的模块化可以在其中插入不同层深度的特征子网(例如ResNet-18到ResNet-101),从而可以在新的,最新的精度-吞吐量折衷范围上进行操作。在此曲线上,与最接近的可比单帧分割网络相比,Accel模型可实现更高的准确性和更快的推理时间。通常,Accel显着优于以前在有效的语义视频分割方面的工作,它纠正了与动态复杂的数据集相关的与扭曲相关的错误。 Accel是端到端的可培训且高度模块化的:参考网络,光流网络和更新网络可以根据应用需求分别进行独立选择,然后进行联合微调。结果是一个健壮的通用系统,可对视频进行快速,高精度的语义分割。
方法:
八.Interactive Image Segmentation via Backpropagating Refinement Scheme(通过反向传播修正方案进行交互式图像分割)–有源码
**摘要:**在这项工作中,提出了一种交互式图像分割算法,该算法可以接受有关目标对象和背景的用户注释。 我们通过测量每个像素到带注释位置的距离,将用户注释转换为交互图。 然后,我们在卷积神经网络中执行前向传递,后者输出初始分割图。 但是,用户注释的位置可能在初始结果中贴错标签。 因此,我们开发了反向传播修正方案(BRS),用于纠正错误标记的像素。 实验结果表明,该算法在四个具有挑战性的数据集上优于传统算法。 此外,我们通过将现有的卷积神经网络转换为用户交互的网络,证明了BRS在其他计算机视觉任务中的普遍性和适用性。
方法:
九.Geometry-Aware Distillation for Indoor Semantic Segmentation(用于室内语义分割的几何感知蒸馏)–没有源码
**摘要:**已经表明,共同推理来自RGB-D域的2D外观和3D信息对室内场景语义分割是有益的。然而,大多数现有方法需要精确的深度图作为输入来分割场景,这严重限制了它们的应用。在本文中,我们建议通过提炼几何感知嵌入来共同推断语义和深度信息,以消除这种强大的约束,同时仍然利用有用的深度域信息。此外,我们通过一个提出的几何感知传播框架以及随后的几个多级跳过特征融合块,使用这种学习的嵌入来提高语义分割的质量。通过将单个任务预测网络分离为语义分割和几何嵌入学习这两个联合任务,再加上所建议的信息传播和特征融合体系结构,我们的方法被证明在公开可用的语义分割方面优于最新的语义分割方法具有挑战性的室内数据集。
方法:
十.A Generative Appearance Model for End-to-end Video Object Segmentation(端到端视频对象分割的生成外观模型)–(没)有源码
**摘要:**视频对象分割的基本挑战之一是要找到目标和背景外观的有效表示。为此,性能最佳的方法是对卷积神经网络进行细微调整。除了价格昂贵之外,由于在线细调过程未集成到网络的最终培训中,因此无法真正对端到端进行此策略的培训。为了解决这些问题,我们提出了一种网络体系结构,该体系结构可在一次正向通过中学习目标和背景外观的强大表示。引入的外观模块学习目标和背景特征分布的概率生成模型。给定一个新的图像,它可以预测后验概率,从而提供高度区分性的提示,该提示将在以后的网络模块中进行处理。我们外观模块的学习和预测阶段都是完全可区分的,从而可以对整个细分渠道进行真正的端到端训练。综合实验证明了该方法在三个视频对象分割基准上的有效性。我们在DAVIS17上基于在线细调的方法缩小了差距,同时在单个GPU上以15 FPS的速度运行。此外,我们的方法优于大规模YouTube-VOS数据集上所有以前发布的方法。
方法:
十一.Panoptic Segmentation(全景分割)–有源码
**摘要:**我们提出并研究了一项名为全景分割(PS)的任务。全景分割统一了语义分割(将类别标签分配给每个像素)和实例分割(检测并分割每个对象实例)的典型任务。拟议的任务需要生成一个丰富而完整的连贯场景分割,这是迈向现实世界视觉系统的重要一步。尽管计算机视觉的早期工作解决了相关的图像/场景解析任务,但由于缺乏适当的度量标准或相关的识别挑战,这些任务目前并不流行。为了解决这个问题,我们提出了一种新颖的全景质量(PQ)度量标准,该度量标准以可解释且统一的方式捕获了所有类别(事物和事物)的性能。使用拟议的指标,我们在三个现有数据集上对PS的人机性能进行了严格的研究,揭示了有关任务的有趣见解。我们的工作目的是在更统一的图像分割视图中激发社区的兴趣。有关更多分析和最新结果,请检查本文的arXiv版本:https://arxiv.org/abs/1801.00868。
方法:
十二.A Cross-Season Correspondence Dataset for Robust Semantic Segmentation(跨季节对应数据集的鲁棒语义分割)–有源码
**摘要:**在本文中,我们提出了一种利用在不同图像条件下拍摄的图像之间的2D-2D点匹配来训练卷积神经网络进行语义分割的方法。 在整个比赛中加强标签的一致性,使最终的分割算法对季节性变化具有鲁棒性。 我们描述了如何通过几何匹配来自图像的3D模型中的点来在很少的人类交互作用下生成这些2D-2D匹配。 创建了两个跨季节对应数据集,可提供跨季节变化以及从白天到晚上的2D-2D匹配。 公开提供数据集以促进进一步的研究。 我们表明,在训练过程中添加对应关系作为额外的监督,可以提高卷积神经网络的分割性能,使其对季节变化和天气条件更加健壮。
十三.Attention-guided Unified Network for Panoptic Segmentation(注意力指导的统一网络进行全景分割)–没有源码
**摘要:**本文研究全景分割,这是最近提出的一项任务,该任务在实例级别分割前景(FG)对象,在语义级别分割背景(BG)内容。 现有方法大多分别处理这两个问题,但是在本文中,我们揭示了它们之间的潜在关系,特别是FG对象提供了辅助线索以帮助BG理解。 我们的方法被称为注意力引导统一网络(AUNet),是一个统一的框架,具有两个同时进行FG和BG分割的分支。 BG分支添加了两个注意源,即RPN和FG分段蒙版,分别提供对象级别和像素级别的注意。 我们的方法被推广到不同的骨干网,在FG和BG细分中均获得了一致的精度提升,并且在MS-COCO(PQ为46.5%)和Cityscapes(PPM为59.0%)基准中都设置了新的技术水平。
方法: