ITBear旗下自媒體矩陣:

百度亮相計算機視覺頂會CVPR2021 展現(xiàn)領(lǐng)先學術(shù)創(chuàng)新能力

   時間:2021-04-01 17:02:04 來源:互聯(lián)網(wǎng)編輯:星輝 發(fā)表評論無障礙通道

近日,IEEE 國際計算機視覺與模式識別會議CVPR 2021年度論文錄用結(jié)果公布。作為全球計算機視覺三大頂會之一的CVPR,此次共收錄7015篇有效投稿,最終有1663篇突出重圍,接受率為23.7%;據(jù)悉,近兩年CVPR錄用結(jié)果均在25%左右,2020年更是降至22.1%,錄用愈發(fā)嚴格。百度今年繼續(xù)保持高質(zhì)量輸出,貢獻了多篇計算機視覺相關(guān)的優(yōu)質(zhì)論文,涵蓋圖像語義分割、文本視頻檢索、3D目標檢測、風格遷移、視頻理解、遷移學習等多個研究方向,這些技術(shù)創(chuàng)新和突破將有助于智慧醫(yī)療、自動駕駛、智慧城市、智慧文娛、智能辦公、智慧制造等場景的落地應用,進一步擴大中國AI技術(shù)的影響力,推進全球人工智能的發(fā)展。

此外,百度今年也聯(lián)合澳大利亞悉尼科技大學和美國北卡羅來納大學舉辦CVPR 2021 NAS Workshop(https://www.cvpr21-nas.com/),并已啟動了相應的國際競賽(https://www.cvpr21-nas.com/competition),探索神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中的搜索效率和效果問題。當前,來自全球的參賽隊伍已超過400支。

以下為百度CVPR2021部分精選論文的亮點集錦。

1.一種快速元學習更新策略及其在有噪聲標注數(shù)據(jù)上的應用

Faster Meta Update Strategy for Noise-Robust Deep Learning

本論文已被CVPR2021接收為oral論文?;趍eta-learning的方法在有噪聲標注的圖像分類中取得了顯著的效果。這類方法往往需要大量的計算資源,而計算瓶頸在于meta-gradient的計算上。本文提出了一種高效的meta-learning更新方式:Faster Meta Update Strategy (FaMUS),加快了meta-learning的訓練速度 (減少約2/3的訓練時間),并提升了模型的性能。首先,本文發(fā)現(xiàn)meta-gradient的計算可以轉(zhuǎn)換成一個逐層計算并累計的形式; 并且,meta-learning的更新只需少量層數(shù)在meta-gradient就可以完成。基于此,本文設(shè)計了一個layer-wise gradient sampler 加在網(wǎng)絡(luò)的每一層上。根據(jù)sampler的輸出,模型可以在訓練過程中自適應地判斷是否計算并收集該層網(wǎng)絡(luò)的梯度。越少層的meta-gradient需要計算,網(wǎng)絡(luò)更新時所需的計算資源越少,從而提升模型的計算效率。并且,本文發(fā)現(xiàn)FaMUS使得meta-learning更加穩(wěn)定,從而提升了模型的性能。本文在有噪聲的分類問題以及長尾分類問題都驗證了本文方法的有效性。最后,在實際應用中,本文的方法可以擴展到大多數(shù)帶有噪聲標注數(shù)據(jù)的場景或者任務(wù)中,減少了模型對于高質(zhì)量標注數(shù)據(jù)的依賴,具有較為廣闊的應用空間。

2.面向無監(jiān)督域適應圖像語義分割的具有域感知能力的元損失校正方法

MetaCorrection: Domain-aware Meta Loss Correction for Unsupervised Domain Adaptation in Semantic Segmentation

論文鏈接: https://arxiv.org/abs/2103.05254

無監(jiān)督域適應在跨域圖像語義分割問題上取得了不錯的效果。已有的基于自訓練(self-training)方式的無監(jiān)督域適應方法,通過對目標域分配偽標簽來達到較好的域適應效果,但是這些偽標簽不可避免的包含一些標簽噪聲。為了解決這一問題,本研究提出了“元校正”的新框架,該新框架利用域可知的元學習(Meta Learning)方式來促進誤差校正。首先把包含噪聲標簽的偽標簽通過一個噪聲轉(zhuǎn)移矩陣進行表達,然后通過在構(gòu)建的元數(shù)據(jù)上,對此噪聲轉(zhuǎn)移矩陣進行優(yōu)化,從而提高在目標域的性能。該新方案在GTA5?CityScapes、SYNHIA?CityScapes 兩個標準自動駕駛場景數(shù)據(jù)庫及Deathlon?NCI-ISBI13醫(yī)學圖像數(shù)據(jù)庫跨域分割測試上都取得了非常不錯的結(jié)果。該方案以后有望在自動駕駛圖像及醫(yī)學圖像分割上取得落地。

3.基于跨任務(wù)場景結(jié)構(gòu)知識遷移的單張深度圖像超分辨率方法

Learning Scene Structure Guidance via Cross-Task Knowledge Transfer for Single Depth Super-Resolution

本項研究針對深度傳感系統(tǒng)獲取的場景深度圖像分辨率低和細節(jié)丟失等問題,突破現(xiàn)有基于彩色指導的場景深度復原方法的局限性,首次提出基于跨任務(wù)場景結(jié)構(gòu)知識遷移的單一場景深度圖像超分辨率方法,在訓練階段從彩色圖像蒸餾出場景結(jié)構(gòu)信息來輔助提升深度復原性能,而測試階段僅提供單張降質(zhì)深度圖像作為輸入即可實現(xiàn)深度圖像重建。該算法框架同時構(gòu)造了深度估計任務(wù)(彩色圖像為輸入估計深度信息)及深度復原任務(wù)(低質(zhì)量深度為輸入估計高質(zhì)量深度),并提出了基于師生角色交換的跨任務(wù)知識蒸餾策略以及不確定度引導的結(jié)構(gòu)正則化學習來實現(xiàn)雙邊知識遷移,通過協(xié)同訓練兩個任務(wù)來提升深度超分辨率任務(wù)的性能。

在實際部署和測試中,所提出的方法具有模型輕量化、算法速度快等特點,且在缺少高分辨率彩色信息輔助的情況下仍可獲得優(yōu)異的性能。此項研究能有效應用于機器人室內(nèi)導航及自動駕駛等領(lǐng)域。

4.基于拉普拉斯金字塔網(wǎng)絡(luò)的快速高質(zhì)量藝術(shù)風格遷移

Drafting and Revision: Laplacian Pyramid Network for Fast High-Quality Artistic Style Transfer

藝術(shù)風格遷移是指將一張風格圖中的顏色和紋理風格遷移到一張內(nèi)容圖上,同時保存內(nèi)容圖的結(jié)構(gòu)。相關(guān)算法在藝術(shù)圖像生成、濾鏡等領(lǐng)域有廣泛的應用。目前基于前饋網(wǎng)絡(luò)的風格化算法存在紋理遷移不干凈、大尺度復雜紋理無法遷移等缺點;而目前基于優(yōu)化的風格化方法雖然質(zhì)量較高,但速度很慢。因此本文提出了一種能夠生成高質(zhì)量風格化圖的快速前饋風格化網(wǎng)絡(luò)——拉普拉斯金字塔風格化網(wǎng)絡(luò)(LapStyle)。本文在實驗中觀察到,在低分辨率圖像上更容易對結(jié)構(gòu)復雜的大尺度紋理進行遷移,而在高分辨率圖像上則更容易對局部小尺度紋理進行遷移。因此本文提出的LapStyle首先在低分辨率下遷移復雜紋理,再在高分辨率下對紋理的細節(jié)進行修正。在實驗中,LapStyle遷移復雜紋理的效果顯著超過了現(xiàn)有方法,同時能夠在512分辨率下達到100fps的速度。本文的方法能夠給用戶帶來新穎的體驗,同時也能夠?qū)崿F(xiàn)移動端上的實時風格化效果。

5.一種通用的基于渲染的三維目標檢測數(shù)據(jù)增強框架

LiDAR-Aug: A General Rendering-based Augmentation Framework for 3D Object Detection

在自動駕駛中,感知模塊非常重要,直接影響著后續(xù)的物體跟蹤、軌跡預測、路徑規(guī)劃等模塊。現(xiàn)在主流的三維目標檢測算法都是基于深度學習。而對于基于深度學習的三維目標檢測任務(wù)而言,帶有標注信息的激光雷達點云數(shù)據(jù)非常關(guān)鍵。但是數(shù)據(jù)標注,尤其是基于點云的三維標注,本身成本高昂且耗時久,而數(shù)據(jù)增強則可以作為一個在模型訓練階段的一個重要的模塊,來減緩對于數(shù)據(jù)標注的需求。在三維目標檢測領(lǐng)域中,簡單的將物體進行復制粘貼是一種非常常見的數(shù)據(jù)增強策略,但是往往忽略了物體之間的遮擋關(guān)系。為了解決這個問題,本文提出了一種基于計算機圖形學渲染的激光雷達點云數(shù)據(jù)增強框架,LiDAR-Aug,來豐富訓練數(shù)據(jù)從而提升目標檢測的性能。

本文提出的數(shù)據(jù)增強模塊使用即插即用的方式,可以很容易的集成到常見的目標檢測框架中。同時,本文的增強算法對于檢測算法適用性很廣,可用于基于網(wǎng)格劃分、基于柱狀深度圖表示等等檢測算法中。比起常見的其他三維目標檢測數(shù)據(jù)增強方法,本文的方法生成的增強數(shù)據(jù),具有更廣的多樣性和真實感。最后,實驗結(jié)果表明,本文提出的方法可以應用在主流的三維目標檢測框架上,給自動駕駛的感知系統(tǒng)帶來檢測性能的提升,尤其是對于稀缺場景和類別,能帶來較大的提升。

6.基于細粒度自適應對齊的文本視頻檢索

T2VLAD: Global-Local Sequence Alignment for Text-Video Retrieval

隨著互聯(lián)網(wǎng)視頻尤其是短視頻的火熱,文本視頻檢索在近段時間獲得了學術(shù)界和工業(yè)界的廣泛關(guān)注。在引入多模態(tài)視頻信息后,如何精細化地配準局部視頻特征和自然語言特征成為這一問題的難點。本文提出自動化學習文本和視頻信息共享的語義中心,并對自適應聚類后的局部特征做對應匹配,避免了復雜的計算,同時賦予了模型精細化理解語言和視頻局部信息的能力。此外,本文的模型可以直接將多模態(tài)的視頻信息(聲音、動作、場景、speech、OCR、人臉等)映射到同一空間,利用同一組語義中心來做聚類融合,在一定程度上解決了多模態(tài)信息難以綜合利用的問題。本文的模型在三個標準的Text-Video Retrieval Dataset上均取得了SOTA。對比Google在ECCV 2020上的發(fā)表的最新工作,本文的模型能在將運算時間降低一半的情況下,僅利用小規(guī)模標準數(shù)據(jù)集,在兩個benchmark上超過其在億級視頻文本數(shù)據(jù)(Howto100M)上pretrain模型的檢索結(jié)果。

7.VSPW:大規(guī)模自然視頻場景分割數(shù)據(jù)集

VSPW: A Large-scale Dataset for Video Scene Parsing in the Wild

近年來,圖像語義分割方法已經(jīng)有了長足的發(fā)展,而對視頻語義分割的探索比較有限,一個原因是缺少足夠規(guī)模的視頻語義分割數(shù)據(jù)集。本文提出了一個大規(guī)模視頻語義分割數(shù)據(jù)集,VSPW。VSPW數(shù)據(jù)集有著以下特點:(1)大規(guī)模、多場景標注:本數(shù)據(jù)集共標注3536個視頻、251632幀像素級語義分割圖片,涵蓋了124個語義類別,標注數(shù)量遠超之前的語義分割數(shù)據(jù)集(Cityscapes, CamVid)。與之前數(shù)據(jù)集僅關(guān)注街道場景不同,本數(shù)據(jù)集覆蓋超過200種視頻場景,極大豐富了數(shù)據(jù)集的多樣性;(2)密集標注:之前數(shù)據(jù)集對視頻數(shù)據(jù)標注很稀疏,比如Cityscapes,在30幀的視頻片段中僅標注其中一幀。VSPW 數(shù)據(jù)集按照15f/s的幀率對視頻片段標注,提供了更密集的標注數(shù)據(jù);(3)高清視頻標注:本數(shù)據(jù)集中,超過96%的視頻數(shù)據(jù)分辨率在720P至4K之間。與圖像語義分割相比,視頻語義分割帶來了新的挑戰(zhàn),比如,如何處理動態(tài)模糊的幀、如何高效地利用時序信息預測像素語義、如何保證預測結(jié)果時序上的穩(wěn)定等等。

本文提供了一個基礎(chǔ)的視頻語義分割算法,利用時序的上下文信息來提升分割精度和穩(wěn)定性。同時,本文還提出了針對視頻分割時序穩(wěn)定性的新的度量標準。期待VSPW 能促進針對視頻語義分割領(lǐng)域的新算法不斷涌現(xiàn),解決上文提出的視頻語義分割帶來的新挑戰(zhàn)。

8.基于視覺算法一次性去除雨滴和雨線

Removing Raindrops and Rain Streaks in One Go

現(xiàn)有的去雨算法一般針對的是單一的去除雨線或者是去除雨滴問題,但是在現(xiàn)實場景中兩種不同類型的雨往往同時存在。尤其是在下雨的自動駕駛場景中,空氣中線條狀的雨線和擋風玻璃上的橢圓形水滴都會嚴重影響車載攝像頭捕捉的畫面的清晰度,從而大幅降低了自動駕駛視覺算法的準確性。針對這一問題,本文首先設(shè)計一種互補型級連網(wǎng)絡(luò)結(jié)構(gòu)—CCN,能夠在一個整體網(wǎng)絡(luò)中以互補的方式去除兩種形狀和結(jié)構(gòu)差異較大的雨。其次,目前公開數(shù)據(jù)集缺少同時含有雨線和雨滴的數(shù)據(jù),對此本文提出了一個新的數(shù)據(jù)集RainDS,其中包括了雨線和雨滴數(shù)據(jù)以及它們相應的Ground Truth,并且該數(shù)據(jù)集同時包含了合成數(shù)據(jù)以及現(xiàn)實場景中拍攝的真實數(shù)據(jù)以用來彌合真實數(shù)據(jù)與合成數(shù)據(jù)之間的領(lǐng)域差異。實驗表明,本文的方法在現(xiàn)有的雨線或者雨滴數(shù)據(jù)集以及提出的RainDS上都能實現(xiàn)很好的去雨效果。在實際應用中,使用一個整體的網(wǎng)絡(luò)同時去除視野中的雨滴和雨線,可進一步幫助提升在下雨天氣中自動駕駛視覺算法的準確性。

9.弱監(jiān)督聲音-視頻解析中的異類線索探索

Exploring Heterogeneous Clues for Weakly-Supervised Audio-Visual Video Parsing

現(xiàn)有的音視頻研究常常假設(shè)聲音和視頻信號中的事件是天然同步的,然而在日常視頻中,同一時間可能音視頻會存在不同的事件內(nèi)容。比如一個視頻畫面播放的是足球賽,而聲音聽到的是解說員的話音。本文旨在精細化的研究分析視頻中的事件,從視頻和音頻中分析出事件類別和其時間定位。本文針對通用視頻,設(shè)計一套框架來從弱標簽中學習這種精細化解析能力。該弱標簽只是視頻的標簽(比如籃球賽、解說),并沒有針對音視頻軌道有區(qū)分標注,也沒用時間位置標注。本文使用MIL(Multiple-instance Learning)來訓練模型。然而,因為缺少時間標簽,這種總體訓練會損害網(wǎng)絡(luò)的預測能力,可能在不同的時間上都會預測同樣的事件。因此本文提出引入跨模態(tài)對比學習,來引導注意力網(wǎng)絡(luò)關(guān)注到當前時刻的底層信息,避免被全局上下文信息主導。此外,本文希望能精準地分析出到底是視頻還是音頻中包含這個弱標簽信息。因此,本文設(shè)計了一套通過交換音視頻軌道來獲取與模態(tài)相關(guān)的標簽的算法,來去除掉模態(tài)無關(guān)的監(jiān)督信號。具體來說,本文將一個視頻與一個無關(guān)視頻(標簽不重合的視頻)進行音視頻軌道互換。本文對互換后的新視頻進行標簽預測。如果他對某事件類別的預測還是非常高的置信度,那么本文認為這個僅存的模態(tài)軌道里確實可能包含這個事件。否則,本文認為這個事件只在另一個模態(tài)中出現(xiàn)。通過這樣的操作,本文可以為每個模態(tài)獲取不同的標簽。本文用這些改過的標簽重新訓練網(wǎng)絡(luò),避免了網(wǎng)絡(luò)被模糊的全局標簽誤導,從而獲得了更高的視頻解析性能。該方法可以用來幫助精準定位愛奇藝等網(wǎng)絡(luò)視頻中的各類動作、事件。

10.基于雙尺度一致性的六自由度物體姿態(tài)估計學習

DSC-PoseNet: Learning 6DoF Object Pose Estimation via Dual-scale Consistency

相比較于標注目標物體的二維外接框,人工標注三維姿態(tài)非常困難,特別是當物體的深度信息缺失的時候。為了減輕人工標注的壓力,本文提出了一個兩階段的物體姿態(tài)估計框架,從物體的二維外接框中學習三維空間中的六自由度物體姿態(tài)。在第一階段中,網(wǎng)絡(luò)通過弱監(jiān)督學習的方式從二維外接框中提取像素級別的分割掩模。在第二階段中,本文設(shè)計了兩種自監(jiān)督一致性來訓練網(wǎng)絡(luò)預測物體姿態(tài)。這兩種一致性分別為:1、雙尺度預測一致性;2、分割-渲染的掩模一致性。為驗證方法的有效性和泛化能力,本文在多個常用的基準數(shù)據(jù)集上進行了大量的實驗。在只使用合成數(shù)據(jù)以及外接框標注的條件下,本文大幅超越了許多目前的最佳方法,甚至性能上達到了許多全監(jiān)督方法的水平。

11.基于深度動態(tài)信息傳播的單目3D檢測

Depth-conditioned Dynamic Message Propagation for Monocular 3D Object Detection

本文首次提出一種基于圖信息傳播模式的深度感知單目3D檢測模型(DDMP-3D),以有效的學習單目圖片3D目標的特征。具體來說,將每個特征像素視為圖中的一個節(jié)點,本文首先從特征圖中動態(tài)采樣一個節(jié)點的鄰域。通過自適應地選擇圖中最相關(guān)節(jié)點的子集,該操作允許網(wǎng)絡(luò)有效地獲取目標上下文信息。對于采樣的節(jié)點,本文模擬圖信息傳播模式,使用深度特征為節(jié)點預測濾波器權(quán)重和親和度矩陣,以通過采樣的節(jié)點傳播信息。此外,在傳播過程中探索了多尺度深度特征,學習了混合濾波器權(quán)重和親和度矩陣以適應各種尺度的物體。另外,為了解決先驗深度圖不準確的問題,本文增強了中心感知深度編碼(CDE)作為在深度分支處附加的輔助任務(wù)。它通過3D目標中心回歸任務(wù),指導深度分支的中間特征具有中心感知能力,并進一步改善對象的定位。

這種基于單目的3D檢測模型對于設(shè)備的要求較低(僅需要單個攝像頭),容易在自動駕駛系統(tǒng)中實現(xiàn)應用。3D單目檢測作為自動駕駛系統(tǒng)中的第一步,為后續(xù)的物體識別、系統(tǒng)決策等一系列任務(wù)做基礎(chǔ)。

12.半監(jiān)督遷移學習自適應一致性正則化

Adaptive Consistency Regularization for Semi-Supervised Transfer Learning

論文鏈接:https://arxiv.org/abs/2103.02193

在標注樣本稀缺的情況下,半監(jiān)督學習作為一種有效利用無標簽樣本,進而提供模型效果的技術(shù),受到廣泛關(guān)注。預訓練加遷移學習的方式是另一種高效訓練優(yōu)質(zhì)模型的重要技術(shù)。本文研究了一個非常實用的場景,即在具備預訓練模型的情況下進行半監(jiān)督學習。本文提出了自適應一致性正則化技術(shù)來充分利用預訓練模型和無標簽樣本的價值。具體的,該方法包含知識一致性(Adaptive Knowledge Consistency, AKC)和表征一致性(Adaptive Representation Consistency, ARC)兩個組件。AKC利用全部樣本保持預訓練模型和目標模型的知識一致性,來保障目標模型的泛化能力;而ARC要求在有標簽和無標簽的樣本之間保持表征的一致性,來降低目標模型的經(jīng)驗損失。自適應技術(shù)在這兩項中用于選擇有代表性的樣本,以確保約束的可靠性。相比最新的半監(jiān)督學習算法,本文的方法在通用數(shù)據(jù)集CIFAR-10/100,以及動物、場景、醫(yī)療三個特定領(lǐng)域的數(shù)據(jù)集上都獲得明顯的優(yōu)勢,并且能和MixMatch/FixMatch等最新方法疊加使用獲得進一步提升,幾乎沒有額外的計算消耗。

舉報 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  網(wǎng)站留言  |  RSS訂閱  |  違規(guī)舉報  |  開放轉(zhuǎn)載  |  滾動資訊  |  English Version