|
01 摘要本文提出了一種統(tǒng)一的目標(biāo)檢測(cè)和分割框架Mask-DINO。Mask DINO通過(guò)添加一個(gè)支持所有圖像分割任務(wù)(實(shí)例、全景和語(yǔ)義)的mask預(yù)測(cè)分支,擴(kuò)展了DINO(DETR with Improved Denoising Anchor Boxes)。它利用DINO的查詢(xún)嵌入對(duì)高分辨率像素嵌入圖進(jìn)行點(diǎn)積來(lái)預(yù)測(cè)一組二進(jìn)制mask。 DINO中的一些關(guān)鍵組件通過(guò)共享架構(gòu)和訓(xùn)練過(guò)程進(jìn)行了擴(kuò)展,以進(jìn)行分割任務(wù)。Mask DINO簡(jiǎn)單、高效、可擴(kuò)展,并且受益于聯(lián)合大規(guī)模檢測(cè)和分割數(shù)據(jù)集。實(shí)驗(yàn)表明,Mask-DINO在ResNet-50主干和帶有SwinL主干的預(yù)訓(xùn)練模型上都顯著優(yōu)于所有現(xiàn)有的專(zhuān)門(mén)分割方法。 此外,Mask DINO在實(shí)例分割(COCO上為54.5 AP)、全景分割(COCO上為59.4 PQ)和語(yǔ)義分割(ADE20K上為60.8 mIoU)方面建立了迄今為止最好的結(jié)果。 02 Motivation 目標(biāo)檢測(cè)和圖像分割是計(jì)算機(jī)視覺(jué)的基本任務(wù)。這兩項(xiàng)任務(wù)都與定位圖像中感興趣的對(duì)象有關(guān),但具有不同的focus級(jí)別。目標(biāo)檢測(cè)是定位感興趣的對(duì)象并預(yù)測(cè)其邊界框和類(lèi)別標(biāo)簽,而圖像分割則側(cè)重于不同語(yǔ)義的像素級(jí)分組。此外,圖像分割包括各種任務(wù),包括實(shí)例分割、全景分割和關(guān)于不同語(yǔ)義的語(yǔ)義分割。 為這些任務(wù)開(kāi)發(fā)的基于卷積的經(jīng)典算法具有專(zhuān)門(mén)的結(jié)構(gòu),如用于目標(biāo)檢測(cè)的Faster RCNN,用于實(shí)例分割的Mask RCNN,以及用于語(yǔ)義分割的FCN,取得了顯著的進(jìn)步。雖然這些方法在概念上簡(jiǎn)單有效,但它們是為專(zhuān)門(mén)的任務(wù)定制的,并且缺乏處理其他任務(wù)的泛化能力。目前也催生出了一些能夠聯(lián)合處理多個(gè)任務(wù)的模型,到目前為止,HTC++仍然是COCO目標(biāo)檢測(cè)和實(shí)例分割排行榜上SOTA模型廣泛使用的目標(biāo)檢測(cè)和實(shí)例分割方法。 隨著進(jìn)入基于Transformer的檢測(cè)器的新時(shí)代,檢測(cè)和分割任務(wù)會(huì)分化為不同的模型。DETR首先將Transformer引入到目標(biāo)檢測(cè)中。DETR是一種基于端到端查詢(xún)的目標(biāo)檢測(cè)器,它采用一個(gè)具有二部匹配的集合預(yù)測(cè)目標(biāo)。雖然DETR同時(shí)處理目標(biāo)檢測(cè)和全景分割任務(wù),但其分割性能仍低于經(jīng)典的分割模型。為了提高基于查詢(xún)的模型的檢測(cè)和分割性能,研究人員開(kāi)發(fā)了用于目標(biāo)檢測(cè)、實(shí)例分割、全景分割和語(yǔ)義分割的專(zhuān)用模型。 在改進(jìn)目標(biāo)檢測(cè)的努力中,DINO利用了DAB-DETR的動(dòng)態(tài)錨定框公式和DN-DETR的查詢(xún)?nèi)ピ胗?xùn)練,進(jìn)一步開(kāi)發(fā)了對(duì)比去噪訓(xùn)練、混合查詢(xún)選擇,通過(guò)這兩種方法來(lái)加速訓(xùn)練和提高檢測(cè)性能。因此,DINO作為一個(gè)類(lèi)似DETR的模型,首次在COCO目標(biāo)檢測(cè)排行榜上獲得SOTA結(jié)果。 類(lèi)似地,為了改進(jìn)圖像分割,MaskFormer和Mask2Former提出使用基于查詢(xún)的Transformer架構(gòu)來(lái)統(tǒng)一不同的圖像分割任務(wù),以執(zhí)行mask分類(lèi)。這些方法在多個(gè)分割任務(wù)上取得了顯著的性能改進(jìn)。然而,檢測(cè)和分割模型仍然存在顯著差異,這阻礙了檢測(cè)和分割任務(wù)之間的任務(wù)和數(shù)據(jù)協(xié)作。例如,最先進(jìn)的基于查詢(xún)的實(shí)例分割模型Mask2Former仍然落后于基于HTC++和Swin-V2-G的經(jīng)典模型。 解釋這種性能差距的一個(gè)原因是,基于HTC的模型是在大規(guī)模檢測(cè)數(shù)據(jù)集(即Objects365)上預(yù)訓(xùn)練的,但Mask2Former不能利用檢測(cè)數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練。雖然作者相信檢測(cè)和分割可以在一個(gè)統(tǒng)一的體系結(jié)構(gòu)中相互幫助,但簡(jiǎn)單地使用DINO進(jìn)行分割和使用Mask2Former進(jìn)行檢測(cè)的結(jié)果表明,它們不能很好地完成其他任務(wù)。此外,多任務(wù)訓(xùn)練甚至?xí)绊懺既蝿?wù)的性能。 這自然會(huì)導(dǎo)致兩個(gè)問(wèn)題:1)為什么檢測(cè)和分割任務(wù)在基于查詢(xún)的模型中不能相互幫助?2)是否有可能為所有檢測(cè)和分割任務(wù)開(kāi)發(fā)一個(gè)統(tǒng)一的體系結(jié)構(gòu),以取代專(zhuān)門(mén)的任務(wù)? 為了解決這些問(wèn)題,作者提出了Mask-DINO,它通過(guò)添加一個(gè)與box預(yù)測(cè)分支并行的Mask預(yù)測(cè)分支來(lái)擴(kuò)展DINO。受其他圖像分割統(tǒng)一模型的啟發(fā),作者重用DINO中的內(nèi)容查詢(xún)嵌入,對(duì)所有分割任務(wù)執(zhí)行mask分類(lèi)。由于DINO缺乏用于mask預(yù)測(cè)的高分辨率特征映射,作者遵循MaskFormer和Mask2Former,構(gòu)建了一個(gè)從主干和Transformer編碼器特征獲得的高分辨率像素嵌入映射(輸入圖像分辨率的1/4)。Mask分支通過(guò)簡(jiǎn)單地使用像素嵌入映射點(diǎn)乘每個(gè)內(nèi)容查詢(xún)嵌入來(lái)預(yù)測(cè)二進(jìn)制mask。 雖然DINO不是為像素級(jí)對(duì)齊而設(shè)計(jì)的,但作者發(fā)現(xiàn)重用其內(nèi)容查詢(xún)嵌入進(jìn)行Mask預(yù)測(cè)是非常有效的。這在很大程度上歸因于Transformer解碼器中基于交叉注意力的特征池化,允許查詢(xún)嵌入僅聚合輸入圖像中的相關(guān)特征。除了Mask分支,作者還擴(kuò)展了DINO中Box預(yù)測(cè)的三個(gè)關(guān)鍵組件,以提高分割性能。 首先,提出了統(tǒng)一的查詢(xún)選擇,將Mask查詢(xún)初始化為錨(anchor),從編碼器密集先驗(yàn)中選擇mask。其次,提出了針對(duì)mask的統(tǒng)一去噪訓(xùn)練來(lái)加速分割訓(xùn)練。第三,使用混合的二部匹配來(lái)更精確地匹配box和mask。 Mask DINO在概念上很簡(jiǎn)單,很容易在DINO框架下實(shí)現(xiàn)。mask預(yù)測(cè)的擴(kuò)展被設(shè)計(jì)為盡可能簡(jiǎn)單,以便Mask DINO可以重用DINO中的所有算法改進(jìn),以及可以從更大的檢測(cè)數(shù)據(jù)集預(yù)訓(xùn)練的特征表示。作者還發(fā)現(xiàn),在Mask2Former中,硬約束和密集的mask注意力是不必要的。 Mask DINO表示,簡(jiǎn)單地將Transformer編碼器的多尺度特征concat起來(lái),并使用可變形注意力(deformable attention),可以產(chǎn)生顯著的分割效果。此外,由于本文使用稀疏可變形注意力,Mask DINO在計(jì)算上是高效的。 03 方法 Mask DINO是DINO的擴(kuò)展。在內(nèi)容查詢(xún)嵌入之上,DINO有兩個(gè)分支用于框預(yù)測(cè)和標(biāo)簽預(yù)測(cè)。這些框會(huì)動(dòng)態(tài)更新,并用于引導(dǎo)每個(gè)Transformer解碼器中的可變形注意力。Mask DINO為mask預(yù)測(cè)添加了另一個(gè)分支,并最小限度地?cái)U(kuò)展了檢測(cè)中的幾個(gè)關(guān)鍵組件,以適應(yīng)分割任務(wù)。為了更好地理解 Mask DINO,作者首先簡(jiǎn)要回顧DINO,然后介紹Mask DINO。 3.1 Preliminaries: DINO
DINO是一種典型的類(lèi)DETR模型,由主干網(wǎng)、Transformer編碼器和Transformer解碼器組成??蚣苋缟蠄D所示(藍(lán)色陰影部分,無(wú)紅線(xiàn))。DINO將DETR中的每個(gè)位置查詢(xún)表示為4D錨定框(anchor box),該錨定框通過(guò)每個(gè)解碼器層動(dòng)態(tài)更新。DINO使用具有可變形注意力的多尺度特征。 因此,更新后的錨定框也用于以稀疏和柔和的方式約束可變形注意力。DINO采用去噪訓(xùn)練,并進(jìn)一步發(fā)展對(duì)比去噪以加速訓(xùn)練收斂。此外,DINO還提出了一種混合查詢(xún)選擇方案來(lái)初始化解碼器中的位置查詢(xún),并提出了一種look-forward-twice的方法來(lái)改進(jìn)box梯度反向傳播。 3.2 Why a universal model has not replaced the specialized models?基于Transformer的檢測(cè)器和分割模型已經(jīng)取得了顯著的進(jìn)展。例如,DINO和Mask2Former分別在COCO檢測(cè)和全景分割方面取得了最好的結(jié)果。受這些進(jìn)步的啟發(fā),作者試圖簡(jiǎn)單地將這些專(zhuān)用模型擴(kuò)展到其他任務(wù),但發(fā)現(xiàn)其他任務(wù)的性能大大落后于原始任務(wù)??雌饋?lái),瑣碎的多任務(wù)訓(xùn)練甚至?xí)绊懺既蝿?wù)的性能。然而,在基于卷積的模型中,將檢測(cè)和實(shí)例分割任務(wù)結(jié)合起來(lái)是有效且互利的。例如,HTC++在COCO實(shí)例分割中仍然排名第一。
Why cannot Mask2Former do detection well?Mask2Former的Transformer解碼器是為分割任務(wù)而設(shè)計(jì)的,由于三個(gè)原因不適合檢測(cè)。 首先,它的查詢(xún)遵循DETR中的設(shè)計(jì),但無(wú)法利用Conditional DETR、Anchor DETR和DAB-DETR中研究的更好的位置先驗(yàn)。例如,它的內(nèi)容查詢(xún)?cè)谡Z(yǔ)義上與Transformer編碼器的特征一致,而它的位置查詢(xún)只是可學(xué)習(xí)的向量,就像在vanilla DETR中一樣。如果去掉它的mask分支,它就變成了DETR的一個(gè)變體,其性能不如最近改進(jìn)的DETR模型。 其次,Mask2Former在Transformer解碼器中采用了masked attention(帶注意力mask的多頭注意力)。從前一層預(yù)測(cè)的注意力mask是密集的和硬約束的,這對(duì)于框預(yù)測(cè)既不有效也不靈活。 第三,Mask2Former無(wú)法逐層顯式執(zhí)行box 細(xì)化。此外,它在解碼器中從粗到細(xì)的mask細(xì)化未能使用編碼器的多尺度特征。 Why cannot DETR/DINO do segmentation well?DETR在其架構(gòu)中加入了一個(gè)分割頭,以顯示擴(kuò)展到分割任務(wù)的潛力。然而,其性能有限。有三個(gè)原因。首先,它的分割頭不是最優(yōu)的。DETR允許每個(gè)查詢(xún)嵌入具有最小特征圖的點(diǎn)積來(lái)計(jì)算attention map,然后對(duì)其進(jìn)行上采樣以獲得mask預(yù)測(cè)。這種設(shè)計(jì)缺乏查詢(xún)和主干中較大的特征圖之間的交互。 其次,DETR不能在每個(gè)解碼器層中使用mask輔助損失。由于DETR的分割頭很重,因此其結(jié)構(gòu)對(duì)分割效率很低。因此,它只計(jì)算最后一個(gè)解碼器層中的分割損失。第三,它不支持mask細(xì)化,因?yàn)閙ask位置預(yù)測(cè)無(wú)法從一層傳遞到下一層。 The motivation of Mask DINO
使用基于卷積的模型來(lái)統(tǒng)一檢測(cè)和分割任務(wù)已經(jīng)成為一種趨勢(shì),這不僅簡(jiǎn)化了模型設(shè)計(jì),而且促進(jìn)了檢測(cè)和分割之間的相互合作。作者提出Mask DINO主要有三個(gè)動(dòng)機(jī)。 首先,DINO在目標(biāo)檢測(cè)方面取得了SOTA結(jié)果。之前的工作,如Mask RCNN、HTC和DETR已經(jīng)表明,可以擴(kuò)展檢測(cè)模型來(lái)進(jìn)行分割,并幫助設(shè)計(jì)更好的分割模型。其次,檢測(cè)比實(shí)例分割相對(duì)容易。因此,box預(yù)測(cè)可以引導(dǎo)人們關(guān)注更有意義的區(qū)域,并為mask預(yù)測(cè)提取更好的特征。第三,DINO和其他類(lèi)似DETR的模型的新改進(jìn)也有助于分割任務(wù)。 例如,Mask2Former采用可學(xué)習(xí)的解碼器查詢(xún),無(wú)法利用編碼器中選定的前K個(gè)特征中的位置信息來(lái)指導(dǎo)mask預(yù)測(cè)。上圖(a)(b)(c)顯示第0解碼器層中的Mask2Former的輸出與GT mask相差較遠(yuǎn),而mask-DINO作為region proposal輸出更好的mask。Mask2Former還采用專(zhuān)門(mén)的mask注意力來(lái)引導(dǎo)模型關(guān)注感興趣的區(qū)域。 然而,mask注意力是一個(gè)硬約束,它會(huì)忽略所提供mask之外的特征,并可能忽略后續(xù)解碼器層的重要信息。此外,可變形注意力還可以更好地替代其高效性,使注意力可以應(yīng)用于多尺度特征,而無(wú)需太多計(jì)算開(kāi)銷(xiāo)。 上圖(d)(e)顯示了Mask2Former在其第一解碼器層中的預(yù)測(cè)mask和Mask DINO的相應(yīng)輸出。Mask2Former的預(yù)測(cè)只覆蓋了不到一半的GT mask,這意味著注意力無(wú)法在下一個(gè)解碼器層看到整個(gè)實(shí)例。此外,如上圖(f)(g)所示,box還可以將可變形注意力引導(dǎo)到背景的適當(dāng)區(qū)域。 3.3 Our Method: Mask DINOMask DINO采用與DINO相同的檢測(cè)架構(gòu)設(shè)計(jì),只需進(jìn)行最小的修改。在Transformer解碼器中,Mask DINO添加了一個(gè)用于分割的Mask分支,并擴(kuò)展了DINO中用于分割任務(wù)的幾個(gè)關(guān)鍵組件。如圖1所示,藍(lán)色陰影部分的框架是原始的DINO模型,分割的附加設(shè)計(jì)用紅線(xiàn)標(biāo)記。 Segmentation branch![]() Unified query selection for maskUnified denoising for maskHybrid matchingDecoupled box prediction04 ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() 05 總結(jié)參考資料[2]https://github.com/IDEACVR/MaskDINO ![]() END |
|
|