当前位置:网站首页>【arXiv2022】GroupTransNet: Group Transformer Network for RGB-D Salient Object Detection
【arXiv2022】GroupTransNet: Group Transformer Network for RGB-D Salient Object Detection
2022-07-23 08:25:00 【小羊咩~】

paper:https://arxiv.org/abs/2203.10785
目錄
一 動機
The locality of convolutional neural network requires that the model has a sufficiently deep global receptive field, which always leads to the loss of local details.
卷積神經網絡的局部性要求模型有足够深的全局感受野,這經常會導致局部細節丟失。
二 方法
To address the challenge, we propose a novel Group Transformer Network (GroupTransNet) for RGBD salient object detection.
為了解决這個挑戰,作者提出一個新的網絡,Group Transformer Network (GroupTransNet)。
This method is good at learning the long-range dependencies of cross layer features to promote more perfect feature expression.
這個方法擅長學習跨層特征的遠距離依賴,來促進更優化的特征錶征。
At the beginning, the features of the slightly higher classes of the middle three levels and the latter three levels are soft grouped to absorb the advantages of the high-level features.
最開始,特征中三級和後三級的稍高層次特征被軟分組,來吸收高級特征的優點。
The input features are repeatedly purified and enhanced by the attention mechanism to purify the cross modal features of color modal and depth modal.
通過注意力機制純化彩模態和深度模態的跨模態特征,輸入特征被反複的純化和增强。
The features of the intermediate process are first fused by the features of different layers, and then processed by several transformers in multiple groups, which not only makes the size of the features of each scale unified and interrelated, but also achieves the effect of sharing the weight of the features within the group.
中間過程的特征先由不同層的特征融合,再由多組中的幾個transformer處理,不僅使特征的每個級別的尺寸統一和相關聯,而且實現了在沒有分組的情况下,特征分享權重的有效性
The output features in different groups complete the clustering staggered by two owing to the level difference, and combine with the low-level features.
不同組的輸出特征由於層次的不同完成了兩步交錯的聚類,並與低層次的特征相結合。
三 網絡框架
總共四個部分組成:模態純化模塊(MPM),尺度統一模塊 (SUM),多transformer編碼器 (MTE),聚類集成單元 (CIU)。在整個過程中,這些從RGB和深度提取的不同尺寸的特征f1,f2,f3,f4,f5,他們被軟分組為2組,G1={f2,f3,f4},G2={f3,f4,f4}
首先,所有輸入特征經過MPM模塊純化來獲得跨模態特征
其次,將兩個分組特征送到SUM模塊使得每個特征尺寸統一和相關
接著,中間特征學習這些組的中公共信息,通過MTE模塊來獲得更具有鑒別性的特征錶示
最後,在CIU模塊,連接高級特征到低級特征來產生輸出特征
最終的顯著圖由聚合這些獲得 特征圖計算得到

3.1 模態純化模塊(MPM)
在RGB-D顯著性檢測中,有兩種圖像信息的錶達形式。RGB模態和深度模態,RGB模態提供圖像的外觀信息,深度圖像提供圖像的距離信息。他們為不同模型的檢測提供有用的信息。然而,不同模態的特征在一定程度上是不兼容的,這是由於不同模態固有的差异性所造成的。如果我們簡單使用這兩種模態,比如直接拼接,這將會給特征帶來一系列的噪聲,MPM模塊被設計用來解决這個問題。

MPM 的示意圖如圖2所示,MPM首先通過重複的元素級聯進行特征純化,然後通過注意力機制進行特征增强,其中,注意力機制指的是通道注意力和空間注意力,在CBAM中有說明。
對於5個層RGB特征
和深度特征
,i=1,2,3,4,5。特征提純和特征增强可以純化RGB模態和深度模態的跨模態特征,獲得組合特征
。
純化過程可定義為:

增强過程為:
![]()
3.2 尺度統一模塊 (SUM)
在網絡中,由於幾次下采樣,每個尺度的特征有不同的分辨率。 除此之外, 每個尺度特征所包含的語義信息和細節信息也非常不同。 一方面,不同尺寸的特征不能被某一模塊自適應處理。其次,所有尺度的特征交互從始至終也是非常重要的。尺度統一模塊 (SUM)用來解决這些問題。

在此之前,融合之後的5個層次特征首先通過過渡層 T 將通道全部統一為64通道,T 包含一個 3×3 卷積層和一個 ReLU 激活函數。
將高三層的特征送到SUMH ,中三層送到SUMM,他們都對高層和低層進行上采樣或下采樣到中間層的尺度,然後進行一系列對稱的拼接操作。過程如下:
!!!注:在這裏我覺得這個公式有點問題,在公式8,此時的fm特征已經是公式7進行拼接之後的了……下面的好像也有點問題(可能作者寫的有點急叭 ^_^)


3.3 多 Transformer 解碼器 (MTE)

經過了通道統一和兩個組內部的尺度統一,64x16x16,64x32x32,產生的兩個組的特征送到這一模塊。transformer這一塊不是很懂,暫時不進行研究了…………大概意思就是transformer這個東西好,學習的特征也更具有鑒別性。
3.4 聚類集成單元 (CIU)
將經過transformer的兩個組的特征又分為3類,即 C1 = {h’f5,m’f4}, C2 = {h’f4,m‘f3} 和 C3 = {h‘f3,m’f2}。

在第一類C1中,h‘f5包含相等的第四層和第五層的特征信息,而m’f4包含相等的第二層和第四層以及更多第三層的特征信息。因此,它從第二層到第五層具有豐富的信息,該屬性適用於有偏差的無損特征。類似地,在第二類C2中,h'f4包含相等的第五層和更多第四層的特征信息,而m'f3包含相等的第二層和更多第三層的特征信息。 同時,在第三類C3中,h'f3包含相等的第三層和第五層以及更多第四層的特征信息,m'f2包含相等的第二層和第三層的特征信息。 因此,它們也滿足與第一類相同的性質。
(上面這段話為什麼這麼說呢?? ?不是很理解,可能是SUM和Transformer的作用ba)
這三個類關注除第一層外的特征信息,重點不同,因此需要將它們分別與包含第一層信息的特征ft1結合起來。 所有要組合的特征的集成過程可以定義為:
![]()

CIU的作用就是串聯不同層的特征,識別同層的特征,它是一種級聯方式,將聚類特征按從高到低的順序進行整合,首先對高層特征進行上采樣,然後與低層特征進行拼接。
3.5 損失函數
3個側邊輸出監督,加權二元交叉熵 (wBCE) 損失和加權交叉聯合 (wIoU) 損失。【weighted Binary Cross Entropy (wBCE) loss and weighted Intersection over Union (wIoU) loss. 】

性能

總結
大致的流程就是:骨幹網絡提取特征,進行跨模態融合,通道統一,尺度統一,再送到transformer這個好東西裏面,最後把一直沒用過的第一層特征引到中高層特征裏面去解碼。
边栏推荐
猜你喜欢
随机推荐
来,滑动到下一个小姐姐
What if Alibaba cloud international forgets its member name or login password?
odbc excel--2022-07-21
轻松带你走进turtle绘图的大门
Get a control width
synchronized是如何实现的
Three cache strategies: cache side strategy, read/write through strategy, and write back strategy
flink使MapState实现KeyedState
Algorithm --- 2D array mesh migration (kotlin)
Go concurrent programming basics: what is context
C language function (1)
C language minesweeping
【JS 逆向百例】某公共资源交易网,公告 URL 参数逆向分析
YAML语法介绍和各种数据类型
flink使用ListState实现KeyedState
TensorRT的插件实战(1)
Redistemplate pipeline use
Come on, slide to the next little sister
The cubic root of a number
go gin : 多文件上传









