Decompose to Adapt Domain Disentanglement Faster-RCNN for Cross-domain Object Detection
# Decompose to Adapt: Domain Disentanglement Faster-RCNN for Cross-domain Object Detection
# 作者:Dongnan Liu, Chaoyi Zhang, Yang Song, Heng Huang, Chenyu Wang, Michael Barnett, Weidong Cai
# 摘要
无监督领域适应(UDA)技术的最新进展在跨域计算机视觉任务中取得了巨大成功,通过弥合领域分布的差距,增强了数据驱动的深度学习架构的通用性。对于基于 UDA 的跨域目标检测方法来说,大多数都通过对抗学习策略引入领域不变特征的生成,从而缓解了domain bias。由于对抗训练过程的不稳定性,这些方法的域判别器的分类能力是有限的。所以提取的特征仍然包含领域相关的因素,为了解决这个问题,文章设计了一个域解构的Faster R-CNN (DDF) 来消除特征中领域相关的信息。DDF方法通过Global Triplet Disentanglement(GTD)模块以及Instance Similarity DIsentanglement(ISD)模块分别促进了全局和局部阶段的特征解构。在四个数据及上,DDF表现出 sota的性能,并且具有广泛的适用性。
# 阅读
# 介绍
无监督的领域自适应(UDA)方法被提出用于从源域迁移那些领域无关的知识至目标域,这其中的大部分方法都会和对抗结构结合。在隐空间上领域无关和领域相关的特征是比较难解构的,主要原因是因为域分类器的分类能力不强,二者是因为对抗的训练存在不稳定性,其决策边界是不精确的。由此,其特征和特征都会偏向源域,降低性能。
很多方法致力于解决特征分解的问题,建立了基于自编码器的结构,结合潜在的编码独立机制,以及分类器的正则化来从特征中解耦出那些域相关的特征。然而这存在很多问题,解释了很多
我们的 DDF 可以在全局和局部的层面上进行特征解构,文中的全局特征即指Backbone 网络的输出,局部特征是指为定位和分类的 RoI 特征。设计了 GTD 模块与域判别器进行联合优化,其基于三元组特征解构机制,ISD 模块则基于共享及私有特征的相似性正则化来解决局部特征的分解。DDF方法在四个无监督域适应目标检测的任务上验证,并且达到sota的性能。
# 论文的目的及结论
# 论文的方法
# 3.1 框架总览
源域数据集表示为 ,目标域数据集表示为 。图 1 则是 DDF 方法的总框架,在每个iteration,源域的图像是 ,目标域的图像是 ,
- 首先,使用Backbone 提取全局特征,使用一个基础的固定权重的特征编码器 ,以及一个权重动态更新的域共享特征提取器
- 为了促成特征的解构,我们设计了一个域私有特征编码器 ,来获取域私有的特征,其表示为 以及 。对于全局特征的解构,、 、 以及 会被 GTD 模块优化,希望对齐源域和目标域域共享特征间的数据集分布,并扩大每个域内部域共享特征和域私有特征间的差异。利用 GTD 模块,全局层面的域私有的因素从域共享的特征中解构出来,用于检测任务的训练
- 在局部级别的特征解构,我们试验了一个 RPN 以及 RoIAlign 层来提取、 、 以及 局部的实例特征,如公式(2)所示
- MLP 是三层的全连接层,在公式~(2)中, 以及 表示实例级别的域共享特征, 以及 表示实例级别的域私有特征,最后着四个特征送入 ISD 模块基于特征相似度优化完成局部级别的特征解构,最终,实例级别的域共享特征()被用于目标的定位以及分类
# 3.2 GTD 模块
在之前的方法中,域共享特征 以及 都是通过在全局层面上优化对抗性判别器来保证的。如公式(3)所示, 代表交叉熵损失, 以及 代表特征提取器 以及域判别器 的参数。但由于对抗训练的不稳定性,特征不一定是完全领域不变的。现有的一些工作也在改进这一问题,但其需要非常大的 Batch-size。
图 2 即是 GTD 模块,域判别器 需要区分 和 两个特征,基于以上的假设,作者引入了域相关的分类loss 来增强 的分类能力, 代表了域私有编码器 的参数。
为了进一步拉开域共享特征和域私有特征之间的差距,同时引入了三元组损失,如图(5)所示,希望尽可能的拉近源域共享特征和目标域共享特征的距离,减小共享特征和私有特征之间的距离,用来将共享特征和私有特征进一步分离。其中 ,用来衡量其 Softmax 函数后的 距离
- GTD 模块的最终损失即为 。
# 3.3 ISD 模块
ISD模块基于特征相似度优化来进行特征对齐,
- 首先如公式(2)所示获得局部的 ,特征的数量等同于 RoI 的数量
- 然后扩大域共享实例特征以及域私有实例特征的分布距离,其 Loss 定义如下, 代表余弦相似度。
Motivated by [7]:在理想的解构条件下,来自不同域的域私有因子都不应相交,因此,我们需要最大化域私有特征间的距离
最终的
# 3.4 训练
最终的损失 ,在 loss 中没有带权重,避免了超参数调节
# 论文的实验
四个公共数据集上做了实验:Cityscapes、Foggy Cityscapes、SIM10K、KITTI
GTD 模块可以避免 Batch-size 的问题,ISD 模块不需要额外参数,
- DDF 方法的域共享特征能够特别关注实例对象,这对目标检测任务来讲特别关键
- DDF 方法的域私有特征更加关注能够体现当前域特征的信息上,例如反映当天天气的一些背景
- 这体现了 和 的有效性,能够成功的提取到域私有和域共享特征
- 计算了Cityscapes-> Foggy Cityscapes 的 Global以及 local stage的特征分布的距离,用了两个距离:Proxy A-distance(PAD)以及Earth Movers Distance(EMD),DDF方法能够得到更小的特征距离,能够得到域不变的特征以及更低的跨域特征差异
# 论文的背景
# 总结
# 论文的贡献
# 论文的不足
# 论文如何讲故事
- 02
- README 美化05-20
- 03
- 常见 Tricks 代码片段05-12