Muyun99's wiki Muyun99's wiki
首页
学术搬砖
学习笔记
生活杂谈
wiki搬运
资源收藏
关于
  • 分类
  • 标签
  • 归档
GitHub (opens new window)

Muyun99

努力成为一个善良的人
首页
学术搬砖
学习笔记
生活杂谈
wiki搬运
资源收藏
关于
  • 分类
  • 标签
  • 归档
GitHub (opens new window)
  • 论文摘抄

  • 论文阅读-图像分类

  • 论文阅读-语义分割

  • 论文阅读-知识蒸馏

  • 论文阅读-Transformer

  • 论文阅读-图卷积网络

  • 论文阅读-弱监督图像分割

    • Awesome weakly supervised semantic segmentation
    • Self-supervised Equivariant Attention Mechanism for Weakly Supervised Semantic Segmentation
    • Weakly-Supervised Image Semantic Segmentation Using Graph Convolutional Networks
      • Weakly-Supervised Image Semantic Segmentation Using Graph Convolutional Networks
        • 01 摘要
        • 02 论文的目的及结论
        • 03 论文的实验
        • 04 论文的方法
        • 论文的背景
        • 总结
    • Discriminative Region Suppression for Weakly-Supervised Semantic Segmentation
    • Weakly-Supervised Semantic Segmentation via Sub-category Exploration
    • AffinityNet Learning Pixel level Semantic Affinity with Image level Supervision for Weakly Supervised Semantic Segmentation
    • Grad-CAM Visual Explanations from Deep Networks via Gradient-based Localization
    • Grad-CAM++ Improved Visual Explanations for Deep Convolutional Networks
    • Leveraging Auxiliary Tasks with Affinity Learning for Weakly Supervised Semantic Segmentation
    • Embedded Discriminative Attention Mechanism for Weakly Supervised Semantic Segmentation
    • Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation
    • Mining Cross-Image Semantics for Weakly Supervised Semantic Segmentation
    • NoPeopleAllowed The Three-Step Approach to Weakly Supervised SemanticSegmentation
    • Weakly Supervised Learning of Instance Segmentation with Inter-pixel Relations
    • Learning Deep Features for Discriminative Localization
    • Convolutional Random Walk Networks for Semantic Image Segmentation
    • Learning random-walk label propagation for weakly-supervised semantic segmentation
    • Puzzle-CAM Improved localization via matching partial and full features
    • Learning Visual Words for Weakly-Supervised Semantic Segmentation
    • 区域擦除 | Object Region Mining with Adversarial Erasing A Simple Classification to Semantic Segmentation Approach
    • CAM 扩散 | Tell Me Where to Look Guided Attention Inference Network
    • Self-Erasing Network for Integral Object Attention
    • Transformer CAM|Transformer Interpretability Beyond Attention Visualization
    • GETAM Gradient-weighted Element-wise Transformer Attention Map for Weakly-supervised Semantic segmentation
    • Class Re-Activation Maps for Weakly-Supervised Semantic Segmentation
  • 论文阅读-半监督图像分割

  • 论文阅读-带噪学习

  • 论文阅读-小样本学习

  • 论文阅读-自监督学习

  • 语义分割中的知识蒸馏

  • 学术文章搜集

  • 论文阅读-其他文章

  • 学术搬砖
  • 论文阅读-弱监督图像分割
Muyun99
2021-05-11

Weakly-Supervised Image Semantic Segmentation Using Graph Convolutional Networks

# Weakly-Supervised Image Semantic Segmentation Using Graph Convolutional Networks

# 单位:國立陽明交通大學

# 作者: Shun-Yi Pan, Cheng-You Lu, Shih-Po Lee, Wen-Hsiao Peng

# 发表:ICME 2021

# 01 摘要

基于 image-level 类别标签来做图像的语义分割,常用的方式是使用 Random Walk 来传播 CAM 的分数,用全监督的方式来训语义分割网络。但是 Random Walk 的前馈机制没有添加任何的正则化,本论文提出了 GCN-based 框架。将完整伪标签的生成 formulate 为一个半监督的学习任务,为每张训练图像都去学习 2 层的 GCN,用Laplacioan 以及 Entropy 正则化的损失。

# 02 论文的目的及结论

该论文希望用 GCN-based 特征传播范式来替代 Random Walk.

Random Walk 主要依赖特征域上像素间的亲和度,来传播 CAM 的激活分数。论文提出的范式学习 GCN 来正则化特征传播,不仅有上述的特征亲和力信息,还利用了输入图像的颜色信息。

此外,本论文认为伪标签的生成是一个离线过程,所以训练了一个单独的GCN来优化每个训练图像的特征传播。 选择 GCN 而不是 CNN 的目的是因为它们在特征样本之间有不规则的亲和关系。

# 03 论文的实验

WSGCN-I 使用 IR-Net 生成的亲和度矩阵 AAA 以及 节点特征 VVV

WSGCN-P 使用 PSA 生成的亲和度矩阵 AAA 以及 节点特征 VVV

WSGCN-I使用边界检测网络[4]构建亲和矩阵,并将位于边界检测网络最后一层和1×1卷积层之前的特征作为节点特征。WSGCN-P 在指定亲和度矩阵 A 时遵循 AffinityNet [3],并使用语义特征作为节点特征 V 进行亲和度评估。

image-20211013022658130

image-20211013022930855

image-20211013022940264

image-20211013023018926

image-20211013023030524

# 04 论文的方法

# 4.1 Framework Overview

image-20211013012856996

Affinity Network 来自 PSA 和 IR-Net,

Follow [3]和[10]来生成partial pseudo labels

在位置 (x,y) 上,伪标签 P(x,y) 会 assign 一个类别标签,C 是前景类别,cbgc^{bg}cbg 代表背景类别,还有 ignored 的标签

给定部分伪标签 P,我们认为生成完全伪标签 P 是 Graph 上的半监督学习问题。然后第一阶段的输出包括图像I的完整伪标签,在第二阶段用作训练语义分割网络的真实标签。下面详细介绍每个组件的操作。

# 4.2 Inference of Complete Pseudo Labels on a Graph

G=(V,E)G = (V,E)G=(V,E),GGG 是一个 图,由点集 VVV 和 边集 EEE 组成,一个边会包含两个点以及边的权重。

  • 节点总数 N=H/S∗W/SN = H/S * W/SN=H/S∗W/S
  • SSS 代表下采样的因子
  • 节点特征的选择在 4.1 小节有详细说明
  • viv_ivi​ 的伪标签表示为 pi=P(xi,yi)p_i =P(x_i,y_i)pi​=P(xi​,yi​)
  • 边的权重 AijA_{ij}Aij​ 度量节点 viv_ivi​ 和 vjv_jvj​ 的亲和度
  • 由于 GCN 可以选择广泛的亲和力措施,所以在实验中测试了两种不同的措施 [3,4]

image-20211013014538120

为了生产完整的Pseudo Label,论文提出了利用图 GGG 以及 2 层的 GCN 进行特征传播以及推理,推理的方式如上

点集 VVV 是节点特征的 D 维向量组成的矩阵 RN×DR^{N\times D}RN×D,

W1W_1W1​ 是 RD×16R^{D\times 16}RD×16, W2W_2W2​ 是 R16×(∣C∣+1)R^{16 \times (|C| + 1)}R16×(∣C∣+1),是两个可学习的网络参数

σr()\sigma_r()σr​() 和 σs()\sigma_s()σs​() 分别是 ReLU 和 softmax 的激活函数

Aundefined=A+IN\widetilde{A} = A + I_NA=A+IN​ ,其中 INI_NIN​ 表示identity matrix, A∈RN×NA\in R^{N \times N}A∈RN×N 是亲和度矩阵

背景类也要算上,所以是 ∣C∣+1|C| + 1∣C∣+1,

Q=[q1,q2,...,qN]T∈RN×(∣C∣+1)Q= [q_1,q_2,...,q_N]^T \in R^{N×(|C|+1)}Q=[q1​,q2​,...,qN​]T∈RN×(∣C∣+1),每一行表示像素 (xi,yi)(x_i,y_i)(xi​,yi​) 在特征域上语义类别的概率分布,这些概率分布会进行插值(使用双线性插值)后恢复到全分辨率,然后以通道方式应用 dCRF [13] 并在每个像素处取最大跨通道以获得完整的伪标签。

# 4.3 Training a GCN for Feature Propagation

论文将标签的细化建模为 Graph 的半监督问题,设计了四个损失。

  • foreground loss lfgl_{fg}lfg​
  • background loss lbgl_{bg}lbg​
  • entropy loss lentl_{ent}lent​
  • Laplacian loss llpl_{lp}llp​

总损失 l=lfg+lbg+β1lent+β2llpl = l_{fg} + l_{bg} +\beta_1l_{ent} + \beta_2l_{lp}l=lfg​+lbg​+β1​lent​+β2​llp​

β1\beta_1β1​ 和 β2\beta_2β2​ 就是超参数,前面两个就是在特征域上前景和背景像素的交叉熵。前景部分有partial pseudo labels P(x,y)∈CP(x,y)\in CP(x,y)∈C,背景像素为 P(x,y)=cbgP(x,y)=c^{bg}P(x,y)=cbg。将交叉熵分成前景组和背景组背后的基本原理是解决这两类像素之间的不平衡问题。

image-20211013021359535

对于特征域中那些伪标签 P(x,y)P(x,y)P(x,y) 被标记为 ignored 的像素,例如未标记的像素,我们施加以下熵损失,要求对其类别预测的不确定性应最小化。 换句话说,它鼓励那些未标记的像素的类别预测 qiq_iqi​ 近似于 one-hot vectors。

image-20211013021349329

其中̄ Cundefined=C∪{cbg}\widetilde{C}=C∪{\{c^{bg}\}}C=C∪{cbg},VigV_{ig}Vig​ 指的是未标记的像素。 此外,由于观察到具有相似颜色值的相邻像素通常具有相同的语义类别,我们引入了 Laplacian loss 以确保类别预测与图像内容的一致性。 这种先验知识以拉普拉斯损失的形式被纳入GCN的训练中。

image-20211013021414823

该 loss 旨在根据反映像素和像素的颜色值和位置的相似性的权重 ΦiΦ_iΦi​,最小化像素 iii 和周围 NiN_iNi​ 像素的类别预测之间的差异(在 l2l_2l2​ 正则化来度量)

image-20211013021841259

Φi,jΦ_{i,j}Φi,j​ 定义在上图,

  • fi=(xi,yi)f_i= (x_i,y_i)fi​=(xi​,yi​) 表示点的坐标

  • IiI_iIi​ 指的是像素 (xi,yi)(x_i,y_i)(xi​,yi​)处的颜色值

  • σ1=√3, σ2= 10 是超参数

  • NiN_iNi​ 定义为 5×55 \times 55×5 的窗口

Φ 依赖于 low-level 的颜色和空间信息来正则化 GCN 输出,要与亲和度矩阵 AAA 区分开来。亲和度矩阵 AAA 使用高级语义信息 [3, 4] 来指定用于特征传播的 GCN 的图结构,接下来将详细介绍

# 论文的背景

# 总结

# 论文的贡献

# 论文的不足
# 论文如何讲故事

# 参考资料

  • https://arxiv.org/abs/2103.16762

  • https://github.com/Xavier-Pan/WSGCN

上次更新: 2021/11/03, 23:35:28
Self-supervised Equivariant Attention Mechanism for Weakly Supervised Semantic Segmentation
Discriminative Region Suppression for Weakly-Supervised Semantic Segmentation

← Self-supervised Equivariant Attention Mechanism for Weakly Supervised Semantic Segmentation Discriminative Region Suppression for Weakly-Supervised Semantic Segmentation→

最近更新
01
Structured Knowledge Distillation for Semantic Segmentation
06-03
02
README 美化
05-20
03
常见 Tricks 代码片段
05-12
更多文章>
Theme by Vdoing | Copyright © 2021-2023 Muyun99 | MIT License
  • 跟随系统
  • 浅色模式
  • 深色模式
  • 阅读模式
×