Muyun99's wiki Muyun99's wiki
首页
学术搬砖
学习笔记
生活杂谈
wiki搬运
资源收藏
关于
  • 分类
  • 标签
  • 归档
GitHub (opens new window)

Muyun99

努力成为一个善良的人
首页
学术搬砖
学习笔记
生活杂谈
wiki搬运
资源收藏
关于
  • 分类
  • 标签
  • 归档
GitHub (opens new window)
  • 论文摘抄

  • 论文阅读-图像分类

  • 论文阅读-语义分割

  • 论文阅读-知识蒸馏

  • 论文阅读-Transformer

  • 论文阅读-图卷积网络

  • 论文阅读-弱监督图像分割

    • Awesome weakly supervised semantic segmentation
    • Self-supervised Equivariant Attention Mechanism for Weakly Supervised Semantic Segmentation
    • Weakly-Supervised Image Semantic Segmentation Using Graph Convolutional Networks
    • Discriminative Region Suppression for Weakly-Supervised Semantic Segmentation
    • Weakly-Supervised Semantic Segmentation via Sub-category Exploration
    • AffinityNet Learning Pixel level Semantic Affinity with Image level Supervision for Weakly Supervised Semantic Segmentation
      • Learning Pixel-level Semantic Affinity with Image-level Supervision for Weakly Supervised Semantic Segmentation
    • Grad-CAM Visual Explanations from Deep Networks via Gradient-based Localization
    • Grad-CAM++ Improved Visual Explanations for Deep Convolutional Networks
    • Leveraging Auxiliary Tasks with Affinity Learning for Weakly Supervised Semantic Segmentation
    • Embedded Discriminative Attention Mechanism for Weakly Supervised Semantic Segmentation
    • Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation
    • Mining Cross-Image Semantics for Weakly Supervised Semantic Segmentation
    • NoPeopleAllowed The Three-Step Approach to Weakly Supervised SemanticSegmentation
    • Weakly Supervised Learning of Instance Segmentation with Inter-pixel Relations
    • Learning Deep Features for Discriminative Localization
    • Convolutional Random Walk Networks for Semantic Image Segmentation
    • Learning random-walk label propagation for weakly-supervised semantic segmentation
    • Puzzle-CAM Improved localization via matching partial and full features
    • Learning Visual Words for Weakly-Supervised Semantic Segmentation
    • 区域擦除 | Object Region Mining with Adversarial Erasing A Simple Classification to Semantic Segmentation Approach
    • CAM 扩散 | Tell Me Where to Look Guided Attention Inference Network
    • Self-Erasing Network for Integral Object Attention
    • Transformer CAM|Transformer Interpretability Beyond Attention Visualization
    • GETAM Gradient-weighted Element-wise Transformer Attention Map for Weakly-supervised Semantic segmentation
    • Class Re-Activation Maps for Weakly-Supervised Semantic Segmentation
  • 论文阅读-半监督图像分割

  • 论文阅读-带噪学习

  • 论文阅读-小样本学习

  • 论文阅读-自监督学习

  • 语义分割中的知识蒸馏

  • 学术文章搜集

  • 论文阅读-其他文章

  • 学术搬砖
  • 论文阅读-弱监督图像分割
Muyun99
2021-05-11

AffinityNet Learning Pixel level Semantic Affinity with Image level Supervision for Weakly Supervised Semantic Segmentation

# Learning Pixel-level Semantic Affinity with Image-level Supervision for Weakly Supervised Semantic Segmentation

# 单位:DGIST, POSTECH

# 作者:Jiwoon Ahn, Suha Kwak

# 发表:CVPR 2018

# 摘要

分割标签的不足是语义分割的主要问题,为了缓解这一问题,我们提出了一个全新的框架,给定image-level 类别标签即可生成分割标签。在这种弱监督的设置下,众所周知的是训练模型是对局部辨别的部分而不是整个物体区域进行判别。我们的解决方案是将这种局部反应传播到属于同一语义实体的附近区域。命名为 AffinityNet ,用来预测一对相邻图像坐标之间的语义亲和性,语义传播则利用AffinityNet 预测得到的 affinity 进行 Random Walk操作来实现。

更重要的是,用于训练AffinityNet的监督是由局部判别性部分分割提供的,它作为分割注释是不完整的,但对于学习小图像区域内的语义亲和力是足够的。

# 阅读

# 论文的目的及结论

# 论文的实验

# 论文的方法

方法分成两部分

  • 利用给定的image-level 的标签合成pixel-level的标签
  • 利用生成的分割标签训练分割模型

整个框架分为三个网络:一个网络用于计算CAMs,AffinityNet,以及一个分割模型,前两个用于生成训练图像的分割标签,最后一个利用生成的分割标签来完成语义分割任务。

# 3.1 计算CAMs

在其他弱监督方法中,CAMs 会被当做分割种子,局部显著区域,然后传播以覆盖到整个目标区域,在本论文中,CAMs 还被用作 AffinityNet 的监督信号。Follow 了 [40] 的方法来计算CAMs,该架构是一个典型的分类网络,具有全局平均池(GAP),然后是完全连接层,并通过一个具有图像级别标签的分类标准进行训练。

给定训练好的网络,groundtruth 的类别 ccc 的 CAMs 表示为 McM_cMc​ ,计算公式为 Mc(x,y)=wcTfcam(x,y)M_c(x,y)=w_c^Tf^{cam}(x,y)Mc​(x,y)=wcT​fcam(x,y)

wcw_cwc​ 是与类别 ccc 有关的分类权重,fcam(x,y)f^{cam}(x,y)fcam(x,y) 是指 (x,y) 处的 GAP 层前的特征向量。McM_cMc​ 被进一步归一化,使得最大响应等于 1:Mc(x,y)→Mc(x,y)/maxx,yMc(x,y)M_c(x,y)→M_c(x,y)/max_{x,y}M_c(x,y)Mc​(x,y)→Mc​(x,y)/maxx,y​Mc​(x,y)。对于和groundtruth 无关的类别来讲,我们都将其 McM_cMc​ 置为0。该文章也计算了一个背景响应图,计算公式是

image-20210531211306224

image-20210525184618007

# 3.2 学习 AffinityNet

AffinityNet 旨在预测训练图像上一对相邻坐标之间的类不可知的语义亲和力。预测得到的亲和力被用于random walk 的转移概率,random walk 将 CAMs 的激活分数传播到具有相同语义的附近区域,从而显著提升了 CAMs 的质量。

为了计算效率,AffinityNet 预测一个卷积的特征图 fafff^{aff}faff ,一对特征向量的语义亲和度由他们之间的 L1L_1L1​ 距离来定义,feature iii 和 feature jjj 的距离 WijW_{ij}Wij​公式如下,(xi,yi)(x_i,y_i)(xi​,yi​) 表示 ithi^{th}ith feature 在 feature map fafff^{aff}faff 上的坐标:

Wij=exp(−∣∣faff(xi,yi)−faff(xj,yj)∣∣)W_{ij} = exp(-||f^{aff}(x_i,y_i) - f^{aff}(x_j,y_j)||)Wij​=exp(−∣∣faff(xi​,yi​)−faff(xj​,yj​)∣∣)

image-20210525191441624

上图是AffinityNet 的整体架构,Backbone 后不同stage 的特征经过 1x1 卷积降维后 concat 到一起得到 fafff^{aff}faff

# 3.2.1 生成语义亲和度标签

为了用 image-level 的标签训练 AffinityNet,我们利用CAMs 作为监督信号。虽然 CAMs 通常来说都不是很精确,我们发现仔细处理他们也能获得对语义相似性的可靠监督信号

image-20210525213518413

基础的 idea 就是判别出那些可靠性较高的目标区域以及背景,从这些区域中采样训练样本。通过这种方式,一堆采样坐标间的语义相似性可以被较为可靠的确定。为了估计物体的置信区域,我们首先通过减少公式(2)中的 α来放大MbgM_{bg}Mbg​,使背景分数支配 CAMs 中物体的不重要的激活分数。在经过 dCRF 对 CAMs 做细化之后,通过收集那些目标类别的分数比其他类别及背景分数大的坐标来作为置信区域。在相反的实验设置(增大α\alphaα,减弱 MbgM_{bg}Mbg​) ,可靠的背景区域会以同样的方式识别出来,图像剩余的区域则被认为是中立区域(neutral),结果如上图所示

现在即生成了二类的affinity label,对于每一对像素的坐标(xi,yi)(x_i,y_i)(xi​,yi​) 以及 (xj,yj)(x_j,y_j)(xj​,yj​) 来讲,如果他们的类别相同,其affinity label 即为1,如果类别不同则为0。如果其中一个坐标是中立区域,我们就可以简单的在训练过程中忽略掉这一对点。利用这种方案使得我们能够收集相当多的成对亲和力标签,这些标签也足够可靠

# 3.2.2 AffinityNet Training

AffinityNet 通过近似二类的affinity label来训练。在训练期间由于以下两个原因只需要考虑足够相邻坐标的亲和力即可

  • 由于上下文的限制,预测两个非常远坐标的语义相似度是很难的
  • 为了只解决相邻的成对坐标,我们可以大大减少计算开销

所以用作训练的坐标对叫做PPP ,P={(i,j)∣d((xi,yi),(xj,yj))<λ,∀i≠j}P=\{(i,j)|d((x_i,y_i),(x_j,y_j)) < \lambda,\forall i \neq j\}P={(i,j)∣d((xi​,yi​),(xj​,yj​))<λ,∀i=j}

也就是说在半径范围内的点才被用作训练,但是这还是会导致类别不平衡问题,PPP 中类别分布明显偏向于 Positive类,而 Negative 类仅仅在对象边界附近采样,在 Positive 类别中,背景类别对的数量也明显大于物体对的数量,为了解决这个问题,文章将 PPP 分成了三个子集,将三个子集上的损失汇总起来。

image-20210525223634612

如上图所示,先将 PPP 分为 P+P^+P+ 和 P−P^-P−, 再将 P+P^+P+ 分为 Pfg+P_{fg}^+Pfg+​ 和 Pbg+P_{bg}^+Pbg+​

  • P+P^+P+ 代表 WijW_{ij}Wij​ 为 1 的 pair,Pfg+P_{fg}^+Pfg+​ 代表 object 的 Positive pair,Pfg−P_{fg}^-Pfg−​ 代表背景的 Positive pair
  • P−P^-P− 代表 WijW_{ij}Wij​ 为 0 的 pair

最终的 Loss 也分为三块,分别是 Lfg+L_{fg}^+Lfg+​,Lbg+L_{bg}^+Lbg+​,L−L^-L−,总损失为 L=Lfg++Lfg−+2L−L = L_{fg}^+ + L_{fg}^- + 2L^-L=Lfg+​+Lfg−​+2L−,值得注意的是,该损失是类别无关的,这可以使得 AffinityNet 学到更加 general 的表示用于区分目标和背景。

# 3.3 使用 AffinityNet 对 CAMs 做细化

用训好的 AffinityNet 对CAMs 做细化,AffinityNet 预测得到的局部语义相似度被转化为一个转移概率矩阵,确保random walk 可以了解图像中的语义边界,并鼓励其在这些边界内扩散激活分数。

对于输入图像,AffinityNet 生成一个卷积特征图以及式(3)所描述的语义相似度。经过计算的相似度形成一个相似度矩阵W,其对角线元素为1。 从相似度矩阵中得出的Random walk的过渡概率矩阵T如下所示:

image-20210525225603039

β\betaβ 是一个比 1 大的超参数,得到原始相似度矩阵 W 的Hadamard幂,忽略掉一些相似度,得到 WoβW^{o\beta}Woβ 矩阵

对角矩阵 D 是对 WoβW^{o\beta}Woβ 矩阵 做行归一化得到的

通过矩阵 T 的Random walk,语义传播的操作是通过将 T 与 CAMs 相乘来实现的,我们迭代地进行这种传播,直到达到预定的迭代次数。

image-20210525230043889

vec(⋅)vec(·)vec(⋅) 代表矩阵向量化,ttt 代表迭代的次数,

# 论文的背景

# 总结

# 论文的贡献
# 论文的不足
# 论文如何讲故事

# 参考资料

  • https://arxiv.org/abs/1803.10464

  • https://github.com/jiwoon-ahn/psa

上次更新: 2021/11/03, 23:35:28
Weakly-Supervised Semantic Segmentation via Sub-category Exploration
Grad-CAM Visual Explanations from Deep Networks via Gradient-based Localization

← Weakly-Supervised Semantic Segmentation via Sub-category Exploration Grad-CAM Visual Explanations from Deep Networks via Gradient-based Localization→

最近更新
01
Structured Knowledge Distillation for Semantic Segmentation
06-03
02
README 美化
05-20
03
常见 Tricks 代码片段
05-12
更多文章>
Theme by Vdoing | Copyright © 2021-2023 Muyun99 | MIT License
  • 跟随系统
  • 浅色模式
  • 深色模式
  • 阅读模式
×