Decompose to Adapt Domain Disentanglement Faster-RCNN for Cross-domain Object Detection

# Decompose to Adapt: Domain Disentanglement Faster-RCNN for Cross-domain Object Detection

# 作者：Dongnan Liu, Chaoyi Zhang, Yang Song, Heng Huang, Chenyu Wang, Michael Barnett, Weidong Cai

# 摘要

无监督领域适应（UDA）技术的最新进展在跨域计算机视觉任务中取得了巨大成功，通过弥合领域分布的差距，增强了数据驱动的深度学习架构的通用性。对于基于 UDA 的跨域目标检测方法来说，大多数都通过对抗学习策略引入领域不变特征的生成，从而缓解了domain bias。由于对抗训练过程的不稳定性，这些方法的域判别器的分类能力是有限的。所以提取的特征仍然包含领域相关的因素，为了解决这个问题，文章设计了一个域解构的Faster R-CNN (DDF) 来消除特征中领域相关的信息。DDF方法通过Global Triplet Disentanglement（GTD）模块以及Instance Similarity DIsentanglement（ISD）模块分别促进了全局和局部阶段的特征解构。在四个数据及上，DDF表现出 sota的性能，并且具有广泛的适用性。

# 阅读

# 介绍

无监督的领域自适应（UDA）方法被提出用于从源域迁移那些领域无关的知识至目标域，这其中的大部分方法都会和对抗结构结合。在隐空间上领域无关和领域相关的特征是比较难解构的，主要原因是因为域分类器的分类能力不强，二者是因为对抗的训练存在不稳定性，其决策边界是不精确的。由此，其特征和特征都会偏向源域，降低性能。

很多方法致力于解决特征分解的问题，建立了基于自编码器的结构，结合潜在的编码独立机制，以及分类器的正则化来从特征中解耦出那些域相关的特征。然而这存在很多问题，解释了很多

我们的 DDF 可以在全局和局部的层面上进行特征解构，文中的全局特征即指Backbone 网络的输出，局部特征是指为定位和分类的 RoI 特征。设计了 GTD 模块与域判别器进行联合优化，其基于三元组特征解构机制，ISD 模块则基于共享及私有特征的相似性正则化来解决局部特征的分解。DDF方法在四个无监督域适应目标检测的任务上验证，并且达到sota的性能。

# 论文的目的及结论

# 论文的方法

# 3.1 框架总览

源域数据集表示为 $D_s$ ，目标域数据集表示为 $D_t$ 。图 1 则是 DDF 方法的总框架，在每个iteration，源域的图像是 $x_s$ ，目标域的图像是 $x_t$ ，

首先，使用Backbone 提取全局特征，使用一个基础的固定权重的特征编码器 $E_b$ ，以及一个权重动态更新的域共享特征提取器 $E_s$
为了促成特征的解构，我们设计了一个域私有特征编码器 $E_p$ ，来获取域私有的特征，其表示为 $F_{pri}^s$ 以及 $F_{sha}^s$ 。对于全局特征的解构， $F_{sha}^s$ 、 $F_{sha}^t$ 、 $F_{pri}^s$ 以及 $F_{pri}^t$ 会被 GTD 模块优化，希望对齐源域和目标域域共享特征间的数据集分布，并扩大每个域内部域共享特征和域私有特征间的差异。利用 GTD 模块，全局层面的域私有的因素从域共享的特征中解构出来，用于检测任务的训练
在局部级别的特征解构，我们试验了一个 RPN 以及 RoIAlign 层来提取 $F_{sha}^s$ $F_{s ha}^{s}$ 、 $F_{sha}^t$ $F_{s ha}^{t}$ 、 $F_{pri}^s$ $F_{p r i}^{s}$ 以及 $F_{pri}^t$ $F_{p r i}^{t}$ 局部的实例特征，如公式（2）所示
MLP 是三层的全连接层，在公式~（2）中， $I_{sha}^s$ 以及 $I_{sha}^t$ 表示实例级别的域共享特征， $I_{pri}^s$ 以及 $I_{pri}^t$ 表示实例级别的域私有特征，最后着四个特征送入 ISD 模块基于特征相似度优化完成局部级别的特征解构，最终，实例级别的域共享特征（ $I_{sha}^s$ ）被用于目标的定位以及分类

# 3.2 GTD 模块

在之前的方法中，域共享特征 $F_{sha}^s$ 以及 $F_{sha}^t$ 都是通过在全局层面上优化对抗性判别器来保证的。如公式（3）所示， $L_{ce}$ 代表交叉熵损失， $\theta_{E_s}$ 以及 $\theta_D$ 代表特征提取器 $E_s$ 以及域判别器 $D_{glb}$ 的参数。但由于对抗训练的不稳定性，特征不一定是完全领域不变的。现有的一些工作也在改进这一问题，但其需要非常大的 Batch-size。

图 2 即是 GTD 模块，域判别器 $D_{glb}$ 需要区分 $F_{pri}^s$ 和 $F_{pri}^t$ 两个特征，基于以上的假设，作者引入了域相关的分类loss 来增强 $D_{glb}$ 的分类能力， $\theta_{E_p}$ 代表了域私有编码器 $E_p$ 的参数。

为了进一步拉开域共享特征和域私有特征之间的差距，同时引入了三元组损失，如图（5）所示，希望尽可能的拉近源域共享特征和目标域共享特征的距离，减小共享特征和私有特征之间的距离，用来将共享特征和私有特征进一步分离。其中 $d(f_1,f_2)=||D_{glb}(f_1)-D_{glb}(f_2)||$ ，用来衡量其 Softmax 函数后的 $L_2$ 距离

GTD 模块的最终损失即为 $L_{GTD} = L_{ds}+L{tri}$ 。

# 3.3 ISD 模块

ISD模块基于特征相似度优化来进行特征对齐，

首先如公式（2）所示获得局部的 $I_{sha}^t$ $I_{sha}^s$ $I_{pri}^t$ $I_{pri}^s$ ，特征的数量等同于 RoI 的数量
然后扩大域共享实例特征以及域私有实例特征的分布距离，其 Loss 定义如下， $sim()$ 代表余弦相似度。

Motivated by [7]：在理想的解构条件下，来自不同域的域私有因子都不应相交，因此，我们需要最大化域私有特征间的距离
最终的 $L_{ISD} = L_{ISD-intra} + L_{ISD-inter}$

# 3.4 训练

最终的损失 $L_{ddf} = L_{det} + L_{di} + L_{GTD} + L_{ISD}$ ，在 loss 中没有带权重，避免了超参数调节

# 论文的实验

四个公共数据集上做了实验：Cityscapes、Foggy Cityscapes、SIM10K、KITTI

GTD 模块可以避免 Batch-size 的问题，ISD 模块不需要额外参数，

DDF 方法的域共享特征能够特别关注实例对象，这对目标检测任务来讲特别关键
DDF 方法的域私有特征更加关注能够体现当前域特征的信息上，例如反映当天天气的一些背景
这体现了 $E_p$ 和 $E_s$ 的有效性，能够成功的提取到域私有和域共享特征

计算了Cityscapes-> Foggy Cityscapes 的 Global以及 local stage的特征分布的距离，用了两个距离：Proxy A-distance（PAD）以及Earth Movers Distance（EMD），DDF方法能够得到更小的特征距离，能够得到域不变的特征以及更低的跨域特征差异