Muyun99's wiki Muyun99's wiki
首页
学术搬砖
学习笔记
生活杂谈
wiki搬运
资源收藏
关于
  • 分类
  • 标签
  • 归档
GitHub (opens new window)

Muyun99

努力成为一个善良的人
首页
学术搬砖
学习笔记
生活杂谈
wiki搬运
资源收藏
关于
  • 分类
  • 标签
  • 归档
GitHub (opens new window)
  • 论文摘抄

  • 论文阅读-图像分类

  • 论文阅读-语义分割

  • 论文阅读-知识蒸馏

  • 论文阅读-Transformer

  • 论文阅读-图卷积网络

  • 论文阅读-弱监督图像分割

    • Awesome weakly supervised semantic segmentation
    • Self-supervised Equivariant Attention Mechanism for Weakly Supervised Semantic Segmentation
    • Weakly-Supervised Image Semantic Segmentation Using Graph Convolutional Networks
    • Discriminative Region Suppression for Weakly-Supervised Semantic Segmentation
    • Weakly-Supervised Semantic Segmentation via Sub-category Exploration
    • AffinityNet Learning Pixel level Semantic Affinity with Image level Supervision for Weakly Supervised Semantic Segmentation
    • Grad-CAM Visual Explanations from Deep Networks via Gradient-based Localization
    • Grad-CAM++ Improved Visual Explanations for Deep Convolutional Networks
    • Leveraging Auxiliary Tasks with Affinity Learning for Weakly Supervised Semantic Segmentation
    • Embedded Discriminative Attention Mechanism for Weakly Supervised Semantic Segmentation
    • Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation
    • Mining Cross-Image Semantics for Weakly Supervised Semantic Segmentation
    • NoPeopleAllowed The Three-Step Approach to Weakly Supervised SemanticSegmentation
    • Weakly Supervised Learning of Instance Segmentation with Inter-pixel Relations
    • Learning Deep Features for Discriminative Localization
    • Convolutional Random Walk Networks for Semantic Image Segmentation
    • Learning random-walk label propagation for weakly-supervised semantic segmentation
    • Puzzle-CAM Improved localization via matching partial and full features
    • Learning Visual Words for Weakly-Supervised Semantic Segmentation
      • Learning Visual Words for Weakly-Supervised Semantic Segmentation
        • 01 摘要
        • 02 论文的目的及结论
        • 03 论文的方法
        • 04 论文的实验
    • 区域擦除 | Object Region Mining with Adversarial Erasing A Simple Classification to Semantic Segmentation Approach
    • CAM 扩散 | Tell Me Where to Look Guided Attention Inference Network
    • Self-Erasing Network for Integral Object Attention
    • Transformer CAM|Transformer Interpretability Beyond Attention Visualization
    • GETAM Gradient-weighted Element-wise Transformer Attention Map for Weakly-supervised Semantic segmentation
    • Class Re-Activation Maps for Weakly-Supervised Semantic Segmentation
  • 论文阅读-半监督图像分割

  • 论文阅读-带噪学习

  • 论文阅读-小样本学习

  • 论文阅读-自监督学习

  • 语义分割中的知识蒸馏

  • 学术文章搜集

  • 论文阅读-其他文章

  • 学术搬砖
  • 论文阅读-弱监督图像分割
Muyun99
2021-10-16

Learning Visual Words for Weakly-Supervised Semantic Segmentation

# Learning Visual Words for Weakly-Supervised Semantic Segmentation

# 作者:Lixiang Ru, Bo Du, Chen Wu

# 单位:WHU

# 发表:IJCAI 2021

# 01 摘要

CAM通常只识别出最具鉴别力的物体范围,这是因为网络不需要发现物体全貌来识别图像级别的标签。论文提出同时学习图像级标签以及本地的visual word 标签来处理这个问题。

用一个可学习的 codebook 来编码输入图像的feature map,为了网络能够分类编码的细粒度的visual words,生成的 CAM 应当需要覆盖更多的语义区域,除此之外,提出了混合空间金字塔池化模块(hybrid spatial pyramid pooling module),能够保留 feature map 上的局部最大值以及全局平均值,可以捕获更多的目标细节以及更少的背景,在PASCAL VOC 2012 的val set上可以达到 67.2% mIoU,test set上可以达到 67.3% mIoU

# 02 论文的目的及结论

  • 用特征图上的 Visual Word 的特征来约束模型学到更多的语义区域
  • 提出 HSPP 结合 GAP 和 GMP 优点

# 03 论文的方法

image-20211016145934823

主要提出两个模块

  • VWE: Visual Word Encoder,编码 local visual words

  • HSPP: Hybrid spatial pyramid pooling layer,更好地聚合信息

# 3.1 VWE 模块

codebook 是一个 Matrix C∈Rk×dC\in R^{k\times d}C∈Rk×d

  • ddd 是 feature map 的维度
  • kkk 是词的数量

image-20211016150238331

SijS_{ij}Sij​ 是余弦距离,代表feature map 上 iii 位置上与 CCC 矩阵中 第 jjj 个词的相似度

image-20211016150411253

通过 softmax 做行上的归一化,来计算第 iii 个像素属于第 jjj 个词的概率,概率最大的词即作为 FiF_iFi​ 的 visual word label,对于输入图像来讲,visual word label 是一个 kkk 维的向量,

image-20211016151404827

在BoVW 模型中,每个visual word 的直方图分布通过出现的频次来衡量,然而,hard quantization 的方法会引入非连续性,并被证明会使训练过程难以完成。本篇论文通过累积 PPP 上的概率来计算每个词的频率,因此,第 jjj 个词的"软频率"就是如上式所示

传统的 BoVW 模型中,codebook 通常认为是所有 visual word 的聚类中心,但在本文的模型中,visual word 的特征表示是在训练过程中在线更新的。因此,码本 CCC 也是会在线更新的。

# 3.2 HSPP 模块

为了克服 GAP 和 GMP 的缺点,提出 HSPP 聚合多尺度的局部最大值以及全局平均值

image-20211016152238802

假设特征图维度是 h×w×dh\times w\times dh×w×d ,按照缩放因子 rrr 分成多尺度,每一份的维度为 h/r×w/r×dh/r \times w/r \times dh/r×w/r×d,缩放因子的取值为1,2,4.

image-20211016152536543

image-20211016152803950

image-20211016152810602

式五只能提取局部的最大响应,可能会造成目标区域的不完整,

# 3.3 损失设计

image-20211016152901538

image-20211016153031775

# 3.4 生成CAM

image-20211016153127315

image-20211016153220381

image-20211016153225754

image-20211016153231448

走两个分支,一个conv feature,一个word feature,最后取 max 共同生成CAM

# 04 论文的实验

将 ResNet50 用来提特征,使用 IRNet 做 CAM 的Refine,使用ResNet101 作为 backbone 的 DeepLabv2 产出最后的实验结果

image-20211016153535065

image-20211016153519404

image-20211016153549712

# 总结

# 论文的贡献
# 论文的不足
# 论文如何讲故事

# 参考资料

  • https://www.ijcai.org/proceedings/2021/0136.pdf
  • https://github.com/rulixiang/vwe
  • https://lixiangru.cn/assets/files/VWE_Poster.pd
上次更新: 2021/11/03, 23:35:28
Puzzle-CAM Improved localization via matching partial and full features
区域擦除 | Object Region Mining with Adversarial Erasing A Simple Classification to Semantic Segmentation Approach

← Puzzle-CAM Improved localization via matching partial and full features 区域擦除 | Object Region Mining with Adversarial Erasing A Simple Classification to Semantic Segmentation Approach→

最近更新
01
Structured Knowledge Distillation for Semantic Segmentation
06-03
02
README 美化
05-20
03
常见 Tricks 代码片段
05-12
更多文章>
Theme by Vdoing | Copyright © 2021-2023 Muyun99 | MIT License
  • 跟随系统
  • 浅色模式
  • 深色模式
  • 阅读模式
×