基于深度学习的图像分割技术

# 语义分割入门

# 什么是语义分割

图像分割是许多视觉理解系统中必不可少的组成部分，在医学影像分析、机器人感知、视频监控、自动驾驶等领域都有着十分重要的地位。图像分割任务可以理解为基于语义信息和实例信息的像素级别的分类问题。

# 语义分割的发展现状

FCN利用了全卷积网络产生特征，输入空间映射，实现了端到端的语义分割任务，成为深度学习技术应用于语义分割问题的基石。U-Net 通过上采样和 skip connection 融合高低层的特征信息，获得了更加精准的分割结果。SegNet 使用 Maxpooling indices 来增强位置信息，提高了 SegNet 的效率。

也有学者提出了 DeepLab 算法[3,20–22]，经过不断演进后共有四个版本。DeepLabv1 模型[3] 将深度卷积神经网络和概率图模型进行结合。作者指出：深度卷积神经网络下采样导致细节信息丢失，并且其结构会限制空间定位精度，该算法则使用空洞卷积以及条件随机场对模型进行了改进。空洞卷积，在保证较大感受野的同时不过分下采样丢失过多细节信息。条件随机场用于接收卷积神经网络的最后一层的响应进行后处理，以较少的时间内完成细粒度的定位。DeepLabv1 将卷积神经网络和条件随机场进行耦合，并且使用多尺度预测方法提高了边界定位精度，能够较好的恢复对象边缘信息，在 GPU 上能够达到 8 FPS 的速度。DeepLabv2[20] 将下采样的层全部替换为空洞卷积，以更高的采样密度来计算特征映射，其特征提取模块也从 VGG[9] 换到了 ResNet[11]，加强了网络的特征提取能力。作者还提出了基于空洞卷积的空间池化金字塔（ASPP）模块，以不同采样率的空洞卷积进行采样，以多个比例学习图像的上下文信息，丰富了特征的维度。DeepLabv3[21] 取消了前两个版本中的条件随机场的后处理，重点关注了四种利用上下文信息的网络模块，包括图像金字塔、编码器-解码器、上下文模块、空间金字塔池化。该算法加深了网络深度，同时调整了网络的下采样率，减少信息的丢失，级联模块进行特征提取后，将特征输入到结合图像级别特征的空间金字塔池化模块，完成了整个网络结构的搭建。作者在这些模块的搭建了进行了大量的实验验证，最终演化出最终的结构，在 PASCAL VOC 2012 数据集上的测试性能的达到了当时的最优水平。DeepLabv3+[22] 使用空洞卷积的 Xception[15] 进行特征采样，其网络结构见图 2.4。作者在 DeepLabv3 的基础上添加了 Decoder 模块，将 Xception 提取出的特征与 ASPP 模块采样后的特征进行特征融合后共同上采样恢复图像分辨率，使整个模型成为编码器-解码器结构。解码器模块可以获得更好的边界分割效果，有助于模型性能的提升。

RefineNet 精心设计了 Decoder 模块，并且增加了 residual connections，提升了网络的表达能力。讨论了空洞卷积的缺点。PSPNet 使用pyramid pooling整合context，使用auxiliary loss 提升网络的学习能力。DANet DANet是一种经典的应用self-Attention的网络，它引入了一种**自注意力机制来分别捕获空间维度和通道维度中的特征依赖关系。**提出了双重注意网络（DANet）来自适应地集成局部特征和全局依赖。在传统的扩张FCN之上附加两种类型的注意力模块，分别模拟空间和通道维度中的语义相互依赖性。

HRNet通过并行多个分辨率的分支，加上不断进行不同分支之间的信息交互，同时达到强语义信息和精准位置信息的目的。我觉得最大的创新点还是能够从头到尾保持高分辨率，而不同分支的信息交互是为了补充通道数减少带来的信息损耗。OCR 方法提出的物体上下文信息的目的在于显式地增强物体信息，通过计算一组物体的区域特征表达，根据物体区域特征表示与像素特征表示之间的相似度将这些物体区域特征表示传播给每一个像素。

PointRend 把语义分割以及实例分割问题（统称图像分割问题）当做一个渲染问题来解决。但本质上这篇论文其实是一个新型上采样方法，针对物体边缘的图像分割进行优化，使其在难以分割的物体边缘部分有更好的表现。