当前位置：网站首页>【arXiv2022】GroupTransNet: Group Transformer Network for RGB-D Salient Object Detection

【arXiv2022】GroupTransNet: Group Transformer Network for RGB-D Salient Object Detection

2022-07-23 08:25:00 【小羊咩~】

paper：https://arxiv.org/abs/2203.10785

3.3 多 Transformer 解碼器 (MTE)

一動機

The locality of convolutional neural network requires that the model has a sufﬁciently deep global receptive ﬁeld, which always leads to the loss of local details.

卷積神經網絡的局部性要求模型有足够深的全局感受野，這經常會導致局部細節丟失。

二方法

To address the challenge, we propose a novel Group Transformer Network (GroupTransNet) for RGBD salient object detection.

為了解决這個挑戰，作者提出一個新的網絡，Group Transformer Network (GroupTransNet)。

This method is good at learning the long-range dependencies of cross layer features to promote more perfect feature expression.

這個方法擅長學習跨層特征的遠距離依賴，來促進更優化的特征錶征。

At the beginning, the features of the slightly higher classes of the middle three levels and the latter three levels are soft grouped to absorb the advantages of the high-level features.

最開始，特征中三級和後三級的稍高層次特征被軟分組，來吸收高級特征的優點。

The input features are repeatedly puriﬁed and enhanced by the attention mechanism to purify the cross modal features of color modal and depth modal.

通過注意力機制純化彩模態和深度模態的跨模態特征，輸入特征被反複的純化和增强。

The features of the intermediate process are ﬁrst fused by the features of different layers, and then processed by several transformers in multiple groups, which not only makes the size of the features of each scale uniﬁed and interrelated, but also achieves the effect of sharing the weight of the features within the group.

中間過程的特征先由不同層的特征融合，再由多組中的幾個transformer處理，不僅使特征的每個級別的尺寸統一和相關聯，而且實現了在沒有分組的情况下，特征分享權重的有效性

The output features in different groups complete the clustering staggered by two owing to the level difference, and combine with the low-level features.

不同組的輸出特征由於層次的不同完成了兩步交錯的聚類，並與低層次的特征相結合。

三網絡框架

總共四個部分組成：模態純化模塊（MPM），尺度統一模塊 (SUM)，多transformer編碼器 (MTE)，聚類集成單元 (CIU)。在整個過程中，這些從RGB和深度提取的不同尺寸的特征f1,f2,f3,f4,f5,他們被軟分組為2組，G1={f2,f3,f4},G2={f3,f4,f4}

首先，所有輸入特征經過MPM模塊純化來獲得跨模態特征

其次，將兩個分組特征送到SUM模塊使得每個特征尺寸統一和相關

接著，中間特征學習這些組的中公共信息，通過MTE模塊來獲得更具有鑒別性的特征錶示

最後，在CIU模塊，連接高級特征到低級特征來產生輸出特征

最終的顯著圖由聚合這些獲得特征圖計算得到

3.1 模態純化模塊（MPM）

在RGB-D顯著性檢測中，有兩種圖像信息的錶達形式。RGB模態和深度模態，RGB模態提供圖像的外觀信息，深度圖像提供圖像的距離信息。他們為不同模型的檢測提供有用的信息。然而，不同模態的特征在一定程度上是不兼容的，這是由於不同模態固有的差异性所造成的。如果我們簡單使用這兩種模態，比如直接拼接，這將會給特征帶來一系列的噪聲，MPM模塊被設計用來解决這個問題。

MPM 的示意圖如圖2所示，MPM首先通過重複的元素級聯進行特征純化，然後通過注意力機制進行特征增强，其中，注意力機制指的是通道注意力和空間注意力，在CBAM中有說明。

對於5個層RGB特征和深度特征，i=1，2，3，4，5。特征提純和特征增强可以純化RGB模態和深度模態的跨模態特征，獲得組合特征。

純化過程可定義為：

增强過程為：

3.2 尺度統一模塊 (SUM)

在網絡中，由於幾次下采樣，每個尺度的特征有不同的分辨率。除此之外，每個尺度特征所包含的語義信息和細節信息也非常不同。一方面，不同尺寸的特征不能被某一模塊自適應處理。其次，所有尺度的特征交互從始至終也是非常重要的。尺度統一模塊 (SUM)用來解决這些問題。

在此之前，融合之後的5個層次特征首先通過過渡層 T 將通道全部統一為64通道，T 包含一個 3×3 卷積層和一個 ReLU 激活函數。

將高三層的特征送到SUMH ，中三層送到SUMM，他們都對高層和低層進行上采樣或下采樣到中間層的尺度，然後進行一系列對稱的拼接操作。過程如下：

！！！注：在這裏我覺得這個公式有點問題，在公式8，此時的fm特征已經是公式7進行拼接之後的了……下面的好像也有點問題（可能作者寫的有點急叭 ^_^）

3.3 多 Transformer 解碼器 (MTE)

經過了通道統一和兩個組內部的尺度統一，64x16x16，64x32x32，產生的兩個組的特征送到這一模塊。transformer這一塊不是很懂，暫時不進行研究了…………大概意思就是transformer這個東西好，學習的特征也更具有鑒別性。

3.4 聚類集成單元 (CIU)

將經過transformer的兩個組的特征又分為3類，即 C1 = {h’f5，m’f4}， C2 = {h’f4，m‘f3} 和 C3 = {h‘f3，m’f2}。

在第一類C1中，h‘f5包含相等的第四層和第五層的特征信息，而m’f4包含相等的第二層和第四層以及更多第三層的特征信息。因此，它從第二層到第五層具有豐富的信息，該屬性適用於有偏差的無損特征。類似地，在第二類C2中，h'f4包含相等的第五層和更多第四層的特征信息，而m'f3包含相等的第二層和更多第三層的特征信息。同時，在第三類C3中，h'f3包含相等的第三層和第五層以及更多第四層的特征信息，m'f2包含相等的第二層和第三層的特征信息。因此，它們也滿足與第一類相同的性質。