摘 要:圖像指代分割作為計算機視覺與自然語言處理交叉領(lǐng)域的熱點問題,其目的是根據(jù)自然語言描述在圖像中分割出相應(yīng)的目標(biāo)區(qū)域。隨著相關(guān)深度學(xué)習(xí)技術(shù)的成熟和大規(guī)模數(shù)據(jù)集的出現(xiàn),這項任務(wù)引起了研究者的廣泛關(guān)注。本文對圖像指代分割算法的發(fā)展進行了梳理和分析。首先根據(jù)多模態(tài)信息的編碼解碼方式,將現(xiàn)有圖像指代分割算法分成基于多模態(tài)信息融合和基于多尺度信息融合兩類進行了系統(tǒng)闡述,重點介紹了基于 CNNLSTM 框架的方法、結(jié)構(gòu)復(fù)雜的模塊化方法和基于圖的方法;然后,對用于圖像指代分割任務(wù)的典型數(shù)據(jù)集和主流評價指標(biāo)進行了總結(jié)與統(tǒng)計;之后,通過實驗綜合比較了現(xiàn)有的圖像指代分割模型之間的性能差異并進一步驗證了各種模型的優(yōu)缺點。最后,對這一領(lǐng)域現(xiàn)有方法中存在的問題進行討論分析,并對未來的發(fā)展方向進行了展望,表明了針對復(fù)雜的指代描述,需要通過多步、顯式的推理步驟來解決圖像指代分割問題。
關(guān)鍵詞:指代分割;圖像語義分割;深度學(xué)習(xí);卷積神經(jīng)網(wǎng)絡(luò)
邱爽; 趙耀; 韋世奎 信號處理 2022-01-17
1 引言
圖像指代分割問題是計算機視覺(Computer Vision,簡稱 CV)與自然語言處理(Nature Language Processing,簡稱 NLP)交叉領(lǐng)域中的一個重要問題,它要求計算機能夠同時理解圖像與文本兩種模態(tài)的數(shù)據(jù),根據(jù)文本在圖像中進行目標(biāo)區(qū)域的像素級分類。近年來,圖像以其豐富的內(nèi)容信息常常在信息傳遞中作為載體,發(fā)揮重要的作用。隨著具有拍照功能的智能設(shè)備的普及以及平安城市工程的啟動,每天都有大量的圖像和視頻數(shù)據(jù)產(chǎn)生。同時,隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展與人們分享習(xí)慣的轉(zhuǎn)變,大量的視覺數(shù)據(jù)也在網(wǎng)絡(luò)上快速傳播。另一方面,以 GPU 為代表的高性能計算工具被頻繁地應(yīng)用于研究與產(chǎn)品中,大大提升了視覺任務(wù)的處理速度。在這種背景下,計算機視覺方向取得了令人矚目的進展和突破。與圖像等視覺數(shù)據(jù)相比,文本數(shù)據(jù)具有更利于理解的特點,人們可以通過文本直觀地表達需求。因此,由于圖像豐富的信息和文本易于理解的特點,以圖像與文本數(shù)據(jù)為研究對象的多模態(tài)任務(wù)是人工智能發(fā)展中重要的研究方向。
圖像指代分割任務(wù)的目標(biāo)是:給定輸入圖像和自然語言指代描述,通過對指代描述進行分析理解在圖像中分割出相應(yīng)的物體或區(qū)域。與圖像描述生成[1,2]、視覺問答系統(tǒng)[3,4]等利用圖像文本數(shù)據(jù)的問題不同,該任務(wù)中的文本特指指代描述。指代描述關(guān)注的是被描述目標(biāo)在圖像中具有的唯一屬性,能夠使該目標(biāo)與其他區(qū)域區(qū)分開而不造成理解上的歧義,即當(dāng)圖像中包含同一類別的多個實例時,指代描述能夠準(zhǔn)確地概括出被指定目標(biāo)或區(qū)域與其他區(qū)域具有的唯一特點,包括該區(qū)域的類別、外觀和空間位置關(guān)系等等。指代描述廣泛出現(xiàn)在日常生活中,比如“請把桌子上最上面的雜志遞給我”。隨著智能機器人、無人車和以語言為接口的軟件的發(fā)展,人類對于計算機能夠根據(jù)描述定位目標(biāo)的需求越來越迫切。在這種需求促使下,與指代描述相關(guān)的視覺任務(wù)的得到了研究者的關(guān)注。這類視覺任務(wù)主要包含三個方面,即生成、理解和分割。生成任務(wù)與圖像描述生成類似,但是要求生成的文本描述圖像中指定的具體目標(biāo)而不是針對整幅圖像。指代描述理解主要進行對被描述區(qū)域的目標(biāo)級定位,即根據(jù)指代描述在圖像中定位被指定的目標(biāo)位置及大小。指代分割是與理解任務(wù)相比更加細(xì)粒度的解析,不僅需要確定目標(biāo)位置,還要將目標(biāo)邊框細(xì)化至目標(biāo)輪廓,獲得像素級的定位結(jié)果。圖像指代分割與語義分割和實例分割任務(wù)也有一定的相似性,但是它旨在分割出描述特定的區(qū)域,而不是某一類別的全部區(qū)域。圖像指代分割是一項具有挑戰(zhàn)性的任務(wù),首先,指代描述的長度不固定,可以是幾個單詞,也可以是多輪對話,隨著描述長度的變化,對于文本的解析難度也會大大提升。其次,文本具有明確的語言結(jié)構(gòu)和語法規(guī)則,可以通過解析獲得結(jié)構(gòu)化信息。而圖像中包含較多的噪聲并且缺乏結(jié)構(gòu)性信息,難以與文本共同理解并進行匹配。因此,在指代分割任務(wù)中,多模態(tài)信息的融合與匹配是關(guān)鍵的難點問題。
圖像指代分割問題的研究具有廣泛的實際價值和長遠的應(yīng)用前景,是智能化生活的重要部分。在構(gòu)建平安城市、智慧城市方面,圖像指代分割可以在僅通過對于嫌疑人外表或穿著的描述,在大量監(jiān)控視頻中尋找目標(biāo),協(xié)助對目標(biāo)的識別和跟蹤,大大節(jié)省人力資源。在智能家居方面,圖像指代分割可用于自然語言巡航系統(tǒng),通過語言指令使機器人在室內(nèi)不同位置完成拾取等操作。在生活娛樂方面,圖像指代目標(biāo)分割可以把語言作為各種應(yīng)用與智能軟件的交互接口,從而避免人工進行復(fù)雜的操作[5]。
2 現(xiàn)有圖像指代分割方法介紹
圖像指代分割是計算機視覺與自然語言處理交叉領(lǐng)域的熱點問題。由于計算機視覺和自然語言處理技術(shù)的日益成熟,和指代分割具有的重要學(xué)術(shù)研究價值和廣泛實際應(yīng)用價值,該任務(wù)吸引了越來越多的關(guān)注。隨著深度學(xué)習(xí)的快速發(fā)展和廣泛應(yīng)用, 尤其是一系列具有代表性的網(wǎng)絡(luò)模型在圖像分類、語義分割等任務(wù)上獲得的巨大成功,在圖像指代分割任務(wù)上也取得了突破性的進展。近年來涌現(xiàn)了大量的相關(guān)工作,本文將現(xiàn)有的代表性的工作進行了總結(jié),如圖 1 所示。根據(jù)對多模態(tài)信息的編碼解碼方式,將現(xiàn)有的圖像指代分割工作分為多模態(tài)信息融合與多尺度信息融合兩大類。其中,根據(jù)多模態(tài)信息融合方式的不同,又將多模態(tài)信息融合分為聯(lián)合嵌入方法、模塊化方法和基于圖的方法三類。以下將對這些方法進行詳細(xì)介紹。
2.1 基于多模態(tài)信息融合的指代分割方法
對于圖像指代分割任務(wù),最直觀的想法是將圖像和指代描述編碼到相同的向量空間中進行多模態(tài)信息的融合。對于圖像的表示,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,簡稱 CNN)[6-12]可獲取豐富的圖像特征表示,并用于各種視覺任務(wù)。對于文本表示,以長短時記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)和 BERT 網(wǎng)絡(luò)[13,14]為代表模型已廣泛用于句子特征編碼,并在許多順序建模任務(wù)中表現(xiàn)出良好的性能。基于多模態(tài)信息融合的指代分割方法將兩種模態(tài)信息融合后,采用現(xiàn)有的語義分割網(wǎng)絡(luò)進行最終的分割結(jié)果預(yù)測。這類方法根據(jù)融合方式的不同,主要包括三類,即聯(lián)合嵌入方法、模塊方法和基于圖的方法。
2.1.1 聯(lián)合嵌入方法
聯(lián)合嵌入方法主要包括兩類方法:基于 CNN-LSTM 框架的方法和基于注意力機制的方法。
CNN-LSTM 框架是最傳統(tǒng)最直觀的融合方式,分別利用 CNN 和 LSTM 提取描述和整幅圖像的特征,之后利用全卷積分割網(wǎng)絡(luò)輸出最終結(jié)果,方法框架如圖 2 所示。具體來說,Hu 等人[15]提出了圖像指代分割方法(Segmentation from Natural Language Expression, 簡稱 SNLE)。該方法將圖像和文本特征與歸一化的空間坐標(biāo)串聯(lián),利用與 FCN-32S 類似的一系列卷積層與上采樣得到預(yù)測的掩膜圖,并與真實標(biāo)注計算損失。雖然 SNLE 初步達到了指代分割的目的,但是其簡單的結(jié)構(gòu)難以取得足夠精確的分割結(jié)果。Liu 等人指出,人類在進行目標(biāo)指代的過程中,人眼會在閱讀指代描述時,在文本與圖像間來回移動后作出判斷,即兩種模態(tài)信息的交互存在于人的整個決策過程中而不是僅在句子結(jié)尾。根據(jù)這種思路,提出了循環(huán)多模態(tài)交互網(wǎng)絡(luò)(Recurrent Multimodal Interaction, 簡稱 RMI)[16],利用多模態(tài) convLSTM 網(wǎng)絡(luò),在對文本中每個單詞編碼時都加入圖像特征進行多模態(tài)信息融合,從而獲取更豐富的多模態(tài)特征。類似地,Margffoy-Tuay 等人[17]提出了動態(tài)多模態(tài)網(wǎng)絡(luò)(Dynamic Multimodal Network,簡稱 DMN),同樣將每個單詞的特征都與圖像特征進行融合,之后利用 SRU 網(wǎng)絡(luò)將單詞級的多模態(tài)特征進行整合后進行后續(xù)的分割。這類基于 CNN-LSTM 框架的指代分割方法雖然簡單有效,但是忽略了指代描述中復(fù)合的語言表達和圖像中的復(fù)雜結(jié)構(gòu)。在采用順序的方式進行指代描述的編碼時,忽略了句子中各部分的依賴關(guān)系與不同的重要程度,導(dǎo)致了不重要或者不相關(guān)的單詞引入混淆信息造成的理解偏差。
注意力機制在許多視覺和語言領(lǐng)域[18-20]發(fā)揮了重要作用。由于注意力機制能夠在視覺信息和文本信息之間建立元素連接,從而在對文本中的每個單詞進行編碼時可以利用來自某些特定圖像區(qū)域(即感興趣區(qū)域)的信息,獲得語義更豐富的多模態(tài)信息表示。因此,注意力機制也被引入圖像指代描述理解的相關(guān)任務(wù)中,獲得了眾多成果[21]。Ye 等人[22,23]提出了跨模態(tài)自注意力網(wǎng)絡(luò)(Cross-Modal Self-Attention Network,簡稱 CMSA),通過自注意力方法跨模態(tài)地進行特征融合,使得網(wǎng)絡(luò)模型能夠同時自適應(yīng)地聚焦于圖像中的重要區(qū)域和語言描述中的信息關(guān)鍵詞,有效地捕捉語言和視覺特征之間的長期依賴關(guān)系,充分捕獲全局交互信息,更好地進行對兩種模態(tài)數(shù)據(jù)的語義理解與相關(guān)區(qū)域的分割。Hu 等人[24]提出了雙向關(guān)系推理網(wǎng)絡(luò)(Bi-directional Cross-modal Attention Module,簡稱 BCAM)構(gòu)建跨模態(tài)信息的依賴關(guān)系。該方法同時利用兩種模態(tài)信息對彼此的影響,構(gòu)建了雙向的注意力關(guān)系,使用視覺引導(dǎo)的文本注意力學(xué)習(xí)與每個視覺區(qū)域相對應(yīng)的文本上下文信息。具體來說,首先構(gòu)造一個視覺引導(dǎo)的語言注意模塊學(xué)習(xí)每個視覺區(qū)域的上下文信息。其次,語言引導(dǎo)視覺注意模塊利用學(xué)習(xí)的語言上下文指導(dǎo)視覺特征任意兩個位置之間的空間依賴性學(xué)習(xí)。通過不同模態(tài)之間的相互學(xué)習(xí),獲得的多模態(tài)特征能夠豐富目標(biāo)區(qū)域的上下文表示,從而準(zhǔn)確地表征包含語義上下文信息的視覺區(qū)域和指代描述,處理視覺區(qū)域和描述單詞間更復(fù)雜和非順序的依賴關(guān)系。然而基于注意力機制的方法仍然存在一些問題,由于指代分割數(shù)據(jù)集不提供相應(yīng)的注意力標(biāo)注信息,這類方法不能保證學(xué)習(xí)到正確的注意力分配,導(dǎo)致分割誤差的出現(xiàn)。
2.1.2 模塊化方法
模塊化網(wǎng)絡(luò)已成功應(yīng)用于許多任務(wù),如視覺問答[3,4]、視覺推理[25]、關(guān)系建模[26]和多任務(wù)強化學(xué)習(xí)[27]。在圖像指代分割任務(wù)中,模塊化方法不同于上述基于聯(lián)合嵌入的工作只是簡單地將所有特征串聯(lián)起來,而是考慮到描述中提供的不同信息之間的差異,分別進行理解與匹配。具體來說,模塊化方法通過將指代描述分解為幾個不同的組件,之后通過模塊化網(wǎng)絡(luò)將各個組件與相應(yīng)的圖像區(qū)域進行匹配,實現(xiàn)對目標(biāo)位置的推理,方法框架如圖 3 所示。
Yu 等人[28]提出了模塊化注意網(wǎng)絡(luò)(Modular Attention Network,簡稱 MAttNet)。MAttNet 將自然語言指代描述分解為三個模塊化組件,分別與目標(biāo)外觀、位置和與其他對象的關(guān)系有關(guān)。其中,目標(biāo)外觀模塊處理目標(biāo)的類別、顏色等屬性,位置模塊處理目標(biāo)在圖像中的絕對位置和相對位置,關(guān)系模塊處理物體間的交互關(guān)系。每個模塊都具有不同的結(jié)構(gòu),并在不影響其他模塊的情況下單獨學(xué)習(xí)參數(shù)。MAttNet 不依賴外部語言解析器,而是通過學(xué)習(xí)注意力機制自動解析指代描述。最后計算三個模塊的匹配分?jǐn)?shù)來衡量候選區(qū)域與指代描述之間的相關(guān)性,并采用 Mask-RCNN 網(wǎng)絡(luò)同時預(yù)測指代分割結(jié)果。模塊化方法雖然取得了指代分割任務(wù)的突破性進展,但是模塊化網(wǎng)絡(luò)過分簡化了語言結(jié)構(gòu),并且文本和圖像候選區(qū)域的特征是獨立學(xué)習(xí)或設(shè)計的。這導(dǎo)致在指代描述復(fù)雜的情況下,不同模態(tài)的特征很難相互適應(yīng)。
2.1.3 基于圖的方法
為了更好地處理圖像指代分割中復(fù)雜的文本描述和對象間的交互關(guān)系,基于圖的方法被提出用來解析復(fù)雜的場景中目標(biāo)間的交互關(guān)系,方法框架如圖 4 所示。Huang 等人[29]提出了一種跨模態(tài)遞進理解的方法(Cross-Modal Progressive Comprehension,簡稱 CMPC),該方法通過漸進式的方式,逐步利用文本描述中不同類型的單詞,并利用圖結(jié)構(gòu)分割所指代的目標(biāo)。具體來說,CMPC 首先使用文本中的實體詞和屬性詞感知圖像中所有被描述所提及的相關(guān)對象。之后,構(gòu)造一個完全連通的空間圖,其中每個頂點對應(yīng)一個圖像區(qū)域的多模態(tài)特征,同時通過使用指代描述中的表達關(guān)系的單詞自適應(yīng)地構(gòu)建邊。最后通過圖卷積網(wǎng)絡(luò),突出被指代目標(biāo)的特征,抑制與文本不相關(guān)的區(qū)域,實現(xiàn)圖像與指代描述中目標(biāo)間交互關(guān)系的對應(yīng),從而生成準(zhǔn)確的分割結(jié)果。Hui 等人[30]提出了一種語言結(jié)構(gòu)引導(dǎo)的上下文建模方法(Linguistic Structure Guided Context Modeling,簡稱 LSCM)。該方法通過構(gòu)建一個依賴分析樹的圖結(jié)構(gòu)(DPT-WG),經(jīng)過聚集-約束傳播-分布三個步驟為每個單詞學(xué)習(xí)一個包含多模態(tài)上下文信息的特征表示。具體來說,首先融合視覺和描述信息,之后通過跨模態(tài)注意力機制為每個節(jié)點生成多模態(tài)特征,最后利用 DPT-WG 結(jié)構(gòu),根據(jù)描述中單詞間的依賴關(guān)系選擇性地抑制圖結(jié)構(gòu)中部分邊的權(quán)重,使多模態(tài)表示更加貼合描述文本,有助于獲得更準(zhǔn)確的分割結(jié)果。
2.2 基于多尺度信息融合的指代分割方法
由于指代分割任務(wù)中存在尺度差異很大的分割目標(biāo),僅僅使用視覺特征提取網(wǎng)絡(luò)的高維特征難以準(zhǔn)確感知目標(biāo)區(qū)域,同時在視覺特征提取時較高下采樣率也導(dǎo)致了高維特征大量缺失物體細(xì)節(jié)和輪廓信息,造成分割結(jié)果在目標(biāo)邊緣區(qū)域不準(zhǔn)確預(yù)測。針對這個問題,基于多尺度特征融合的方法被隨之提出,方法框架如圖 5 所示。Li 等人[31]提出了循環(huán)優(yōu)化網(wǎng)絡(luò)(Recurrent Refinement Network,簡稱 RRN),利用圖像特征提取骨架網(wǎng)絡(luò)中固有的多尺度金字塔特征,按照分辨率從小到大的順序輸入到 convLSTM 網(wǎng)絡(luò)中逐步細(xì)化分割掩膜,增加特征的細(xì)節(jié)信息。具體來說,RRN 網(wǎng)絡(luò)包含兩部分,首先利用 CNN-LSTM 框架對多模態(tài)特征進行編碼和融合,得到目標(biāo)區(qū)域的粗略定位。之后將融合結(jié)果作為 convLSTM 網(wǎng)絡(luò)的初始輸入,并按分辨率從小到大的順序逐步輸入金字塔視覺特征,對目標(biāo)區(qū)域表示進行逐步精煉,最終輸出一個像素級的前景掩膜。這個步驟模仿了人類解決指代分割的方式,即首先定位感興趣的目標(biāo),然后逐步描繪出目標(biāo)的具體輪廓。在此基礎(chǔ)上,Ye 等人[32]提出了一個雙重 convLSTM 網(wǎng)絡(luò)(Dual Convolutional LSTM Network,簡稱 DCLN),通過指代描述的特征分別為每個尺度的視覺特征生成一個空間注意力權(quán)重圖,并與視覺特征相乘從而突出受關(guān)注的重要區(qū)域,之后與 RRN 網(wǎng)絡(luò)相同,按分辨率順序輸入到 convLSTM 網(wǎng)絡(luò),經(jīng)過循環(huán)細(xì)化最終獲得同時包含豐富語義信息和目標(biāo)細(xì)節(jié)的多尺度特征,準(zhǔn)確地完成圖像指代分割。
3 數(shù)據(jù)集與評價指標(biāo) 3.1 圖像指代分割任務(wù)的相關(guān)數(shù)據(jù)集
圖像指代分割數(shù)據(jù)集主要包含以下幾部分標(biāo)注信息,即圖像、與圖像中某一區(qū)域?qū)?yīng)的指代描述以及該區(qū)域?qū)?yīng)的像素級標(biāo)注。近年來,圖像指代分割數(shù)據(jù)集的陸續(xù)公開,對該任務(wù)的研究發(fā)展起到重要的促進作用。本節(jié)介紹了現(xiàn)有的幾個常用指代分割數(shù)據(jù)集,并將其詳細(xì)構(gòu)成總結(jié)在表 1 中。
早期的圖像指代分割數(shù)據(jù)集由于標(biāo)注困難主要集中在中小型的人工數(shù)據(jù)集。2014 年, Kazemzadeh 等人[33]推出了第一個大規(guī)模指代分割數(shù)據(jù)集 ReferItGame,之后,隨著圖像語義分割分割任務(wù)和深度學(xué)習(xí)的發(fā)展,越來越多的指代分割數(shù)據(jù)集也不斷公開。下面詳細(xì)介紹圖像指代解析任務(wù)的數(shù)據(jù)集: ReferItGame 數(shù)據(jù)集[33]基于 Image CLEF IAPR[34]圖像檢索數(shù)據(jù)集構(gòu)建,其中圖像區(qū)域和像素標(biāo)簽來源于 SAIAPR TC-12 數(shù)據(jù)集[35]。該數(shù)據(jù)集的指代描述是通過一個兩人游戲收集的,一個玩家根據(jù)圖像中指定的目標(biāo)進行描述,另一個玩家根據(jù)圖像和收到的描述判斷圖像中所描述對象的位置。如果找到的位置正確,兩個玩家都獲得游戲分?jǐn)?shù),并交換位置進行下一張圖像。如果錯誤,將保持當(dāng)前角色進行后續(xù)游戲。該數(shù)據(jù)集指代描述的特點是,當(dāng)圖像中目標(biāo)類別只包含一個對象時,描述者相比于描述周圍區(qū)域更傾向于用簡短的類別描述該對象。除此之外,該數(shù)據(jù)集最大的不同是除了包含前景物體,還可能包含一些背景區(qū)域,比如“天空”和“墻”等。
UNC 和 UNC+數(shù)據(jù)集[36]的圖像和像素級標(biāo)注來源于 MSCOCO 數(shù)據(jù)集[37],指代描述同樣通過 ReferIt Game 游戲收集。這兩個數(shù)據(jù)集均包含一個訓(xùn)練集、一個驗證集和兩個測試集。其中,測試集 A 中的目標(biāo)類別大多為人,而測試集 B 中包含更多其他類別的對象。值得注意的是,與 UNC 數(shù)據(jù)集相比,UNC+數(shù)據(jù)集中的指代描述不包含位置詞,著重在目標(biāo)外觀屬性方面描述。 Google-Ref 數(shù)據(jù)集[38]同樣基于 MSCOCO 數(shù)據(jù)集[35]構(gòu)建,指代描述在非交互環(huán)境中收集。具體來說,一組人員為圖像中的目標(biāo)編寫自然語言描述,另一組人員根據(jù)圖像與描述判斷對象位置。如果預(yù)測位置與正確區(qū)域重疊,則該描述作為有效數(shù)據(jù)添加到數(shù)據(jù)集中。如果不重疊則重新為該目標(biāo)編寫指代描述。這樣的編寫和驗證的步驟交叉重復(fù)三次,獲得最終的收據(jù)收集,與其他指代分割數(shù)據(jù)集相比,該數(shù)據(jù)集擁有更長的句子與更復(fù)雜的結(jié)構(gòu)和對象依賴關(guān)系,而不是僅有簡單的類別單詞或短語。 GuessWhat?!數(shù)據(jù)集[39]基于 MSCOCO 數(shù)據(jù)集[37]構(gòu)建,指代描述同樣通過雙人合作游戲收集。在游戲中,兩個玩家均觀察同一幅包含多個目標(biāo)的圖像。一個玩家被隨機分配其中一個目標(biāo),另一個玩家作為提問者,通過對前一個玩家進行一系列是非提問確定目標(biāo)是什么。
3.2 圖像指代分割任務(wù)的性能評價指標(biāo)
為了能夠公平地對比不同指代分割方法的性能,需要適當(dāng)?shù)脑u價指標(biāo)進行評測。指代分割常用的評價指標(biāo)與圖像語義分割任務(wù)類似,包括全局交并比和精度百分比,具體定義如下: 全局交并比(Overall Intersection over Union,簡稱 Overall IoU)作為語義分割評估的標(biāo)準(zhǔn)度量,同時考慮了每個類別的誤檢值和漏檢值。考慮到在圖像指代分割任務(wù)中,標(biāo)簽類別只包含與指代描述相關(guān)或不相關(guān)兩個類別,因此,通過公式 (1)計算 Overall IoU: Overall IoU = ∑
論文指導(dǎo) >
SCI期刊推薦 >
論文常見問題 >
SCI常見問題 >