ITBear旗下自媒體矩陣:

中國電信AI頂會(huì)競(jìng)賽及論文專題回顧系列之三

   時(shí)間:2024-01-10 10:01:24 來源:互聯(lián)網(wǎng)編輯:瑞雪 發(fā)表評(píng)論無障礙通道

2023年11月28日,中電信人工智能科技有限公司(以下簡(jiǎn)稱:電信AI公司)成立。它是中國電信開展大數(shù)據(jù)及人工智能業(yè)務(wù)的科技型、能力型、平臺(tái)型專業(yè)公司。2023年,電信AI公司在全球21場(chǎng)頂級(jí)AI競(jìng)賽中屢獲殊榮,申請(qǐng)專利100余項(xiàng)。同時(shí),該公司在CVPR、ACM MM、ICCV等權(quán)威會(huì)議和期刊上發(fā)表了30余篇論文,充分展現(xiàn)了國資央企在人工智能領(lǐng)域的實(shí)力和決心。

該公司注冊(cè)資本為30億元,前身為中國電信集團(tuán)的大數(shù)據(jù)和AI中心。作為一家專注于人工智能技術(shù)研發(fā)和應(yīng)用的公司,他們致力于核心技術(shù)的研究、前沿技術(shù)的探索以及產(chǎn)業(yè)空間的拓展,旨在成為百億級(jí)的人工智能服務(wù)提供商。在過去兩年里,該公司自主研發(fā)了星河AI算法倉賦能平臺(tái)、星云AI四級(jí)算力平臺(tái)以及星辰通用基礎(chǔ)大模型等一系列創(chuàng)新的成果。目前,公司員工規(guī)模超過800人,平均年齡僅31歲。其中,研發(fā)人員占比高達(dá)80%,且70%的員工來自國內(nèi)外知名互聯(lián)網(wǎng)企業(yè)和AI領(lǐng)軍企業(yè)。為了加速大模型時(shí)代的研發(fā)進(jìn)程,公司擁有超過2500塊等效于A100的訓(xùn)練卡,并配備了300多名專職數(shù)據(jù)標(biāo)注人員。此外,公司還與上海人工智能實(shí)驗(yàn)室、西安交通大學(xué)、北京郵電大學(xué)、智源研究院等科研機(jī)構(gòu)緊密合作,結(jié)合中國電信6000萬視聯(lián)網(wǎng)和數(shù)億用戶場(chǎng)景,共同推動(dòng)人工智能技術(shù)的創(chuàng)新和應(yīng)用。

本期介紹電信AI公司TeleAI團(tuán)隊(duì)在CVPR 2023 AI CITY CHALLENGE頂會(huì)上取得的重大突破,獲得了Challenge Track 5: Detecting Violation of Helmet Rule for Motorcyclists賽道的冠軍。CVPR是計(jì)算機(jī)視覺領(lǐng)域的三大頂級(jí)會(huì)議之一,享有極高的業(yè)內(nèi)聲譽(yù)。該冠軍技術(shù)不僅在學(xué)術(shù)界獲得了認(rèn)可,還在城市治理實(shí)際業(yè)務(wù)中取得了顯著的應(yīng)用效果,已經(jīng)落地多個(gè)項(xiàng)目。本文將深入介紹該團(tuán)隊(duì)在本次挑戰(zhàn)中所采用的算法思路和解決方案,為CV領(lǐng)域的研究和應(yīng)用貢獻(xiàn)了有價(jià)值的經(jīng)驗(yàn)和實(shí)踐。

CVPR 2023 AI CITY CHALLENGE Track 5: Detecting Violation of Helmet Rule for Motorcyclists冠軍技術(shù)分享。

【賽事概覽與團(tuán)隊(duì)背景】

AI City Challenge由英偉達(dá)、亞馬遜、馬里蘭大學(xué)等發(fā)起,自2017年起,每年舉辦一次。該挑戰(zhàn)賽主要集中在智能交通相關(guān)的車流統(tǒng)計(jì)、車輛重識(shí)別、跨攝像頭跟蹤、異常事件分析等應(yīng)用場(chǎng)景,被譽(yù)為“智能交通視頻分析界的ImageNet競(jìng)賽”。

由中國電信AI公司行人算法方向的成員組成的TeleAI團(tuán)隊(duì),參加了本次比賽。該團(tuán)隊(duì)在計(jì)算機(jī)視覺技術(shù)這個(gè)研究方向深耕,積累了豐富的經(jīng)驗(yàn)。他們的技術(shù)成果已在城市治理、交通治安等多個(gè)業(yè)務(wù)領(lǐng)域中廣泛應(yīng)用,持續(xù)服務(wù)海量的用戶。TeleAI團(tuán)隊(duì)以本次CVPR 2023 AI CITY CHALLENGE的Detecting Violation of Helmet Rule for Motorcyclists賽道為契機(jī),實(shí)現(xiàn)在智慧安防領(lǐng)域技術(shù)的自我突破。


1引言

檢測(cè)摩托車駕駛員和乘客未佩戴頭盔的違規(guī)行為是一項(xiàng)關(guān)鍵的計(jì)算機(jī)視覺任務(wù),對(duì)于保障摩托車行駛過程中的生命安全具有重要意義。這一異常事件檢測(cè)問題可視為目標(biāo)檢測(cè)任務(wù),即識(shí)別圖像中摩托車駕駛員和乘客的位置以及判斷其是否佩戴頭盔。為解決這一問題,本文提出了Motorcycle Helmet Object Detection framework(MHOD)。

我們采用目標(biāo)檢測(cè)網(wǎng)絡(luò)DETA來預(yù)測(cè)視頻中所有對(duì)象的位置和類別,并通過兩個(gè)模型的集成來提高準(zhǔn)確性和魯棒性。鑒于乘客類別訓(xùn)練數(shù)據(jù)的稀缺性,我們?cè)O(shè)計(jì)了基于目標(biāo)跟蹤的乘客召回模塊(PRM),顯著提升了乘客類別的召回率。引入了類別細(xì)化模塊(CRM),結(jié)合視頻中的時(shí)間信息來校正類別。在AI City Challenge 2023 Track5中,我們提出的框架在挑戰(zhàn)的公共排行榜上取得了顯著的成績(jī)。

2 賽題介紹和難點(diǎn)

在不同的光照條件和攝像機(jī)角度下精確檢測(cè)是否佩戴頭盔是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。在交通監(jiān)控系統(tǒng)中,攝像頭通常安裝在相對(duì)較高的位置,導(dǎo)致視頻分辨率較低。此外,如圖1所示,光照、天氣、模糊等因素也會(huì)增加識(shí)別的難度。為了克服這些復(fù)雜場(chǎng)景并提高模型的魯棒性,我們采用了模型集成[4]的策略,詳細(xì)內(nèi)容將在第3.2節(jié)中進(jìn)行描述。

如表1所示,我們對(duì)訓(xùn)練數(shù)據(jù)集中每個(gè)類別的目標(biāo)數(shù)量進(jìn)行了統(tǒng)計(jì),發(fā)現(xiàn)存在嚴(yán)重的類別不平衡問題,尤其是在Passenger 2的數(shù)據(jù)相對(duì)較少。具體而言,Passenger 2僅出現(xiàn)在兩個(gè)視頻中,分別是005.mp4和091.mp4。我們?cè)趫D2中對(duì)樣本進(jìn)行了可視化,觀察到在005.mp4中,Passenger 2是摩托車前面的一個(gè)小孩,這會(huì)使模型對(duì)該目標(biāo)的識(shí)別變得非常困難。而在091.mp4中,Passenger 2位于摩托車后部,這種情況則相對(duì)符合我們的預(yù)期。

3 解決方案

3.1 概述

MHOD框架的概述如圖3所示,通常包括三個(gè)主要部分。我們采用集成技術(shù)來提高性能。在第二部分中,執(zhí)行乘客召回模塊(PRM),旨在提高乘客類別的召回率。第三部分是類別細(xì)化模塊(CRM),致力于減少同一軌跡中類別的切換次數(shù)。所有這些模塊和組件將在接下來的章節(jié)中進(jìn)行詳細(xì)描述。

3.2模型集成

由于視頻場(chǎng)景的復(fù)雜變異性和低分辨率,我們提出的框架采用不同初始化過程的模型集成以提高性能。本文使用的目標(biāo)檢測(cè)方法基于Transformer的DETA算法[13]。相較于最近的方法[3, 18],DETA展示了一種更為簡(jiǎn)單的替代訓(xùn)練機(jī)制。這種替代機(jī)制在訓(xùn)練效率方面具有顯著優(yōu)勢(shì),尤其是在短訓(xùn)練周期內(nèi)表現(xiàn)出色。我們從每個(gè)視頻幀中使用檢測(cè)模型獲取檢測(cè)到的對(duì)象的邊界框和相應(yīng)的置信度:

其中,bi是相應(yīng)的邊界框信息,fi是時(shí)間幀,v是視頻的幀長(zhǎng)度。在獲取檢測(cè)結(jié)果后,我們得到一個(gè)邊界框b = (cls, xc, yc, w, h, s),其中cls是邊界框的類別ID,(xc, yc)是中心點(diǎn)的位置,(w, h)是邊界框的寬度和高度,s是置信度分?jǐn)?shù)。我們進(jìn)行非極大值抑制(nms)以過濾重疊的檢測(cè)框,這些框可能涉及相同的對(duì)象。因此,通過使用nms從兩個(gè)獨(dú)立模型提取的最終預(yù)測(cè)通常被表述如下:

其中,Z代表最終的預(yù)測(cè)。E1和E2都是在AI City Challenge數(shù)據(jù)集上微調(diào)的DETA模型。

3.3 Passenger Recall Module 模塊

基于表1中呈現(xiàn)的訓(xùn)練集統(tǒng)計(jì)結(jié)果,Passenger 2的樣本數(shù)量極少。因此,我們采用后處理技術(shù)來優(yōu)化Passenger 2的檢測(cè)邊界框。我們使用在COCO數(shù)據(jù)集[9]上預(yù)訓(xùn)練的開源框架Detectron2 [17]來獲取人的邊界框集合P = {p1, p2, p3, · · · },其中p = {xc, yc, w, h, s, f}。從Z中獲取摩托車的邊界框集合M = {m1, m2, m3, · · · }。對(duì)于M中的每個(gè)mi,在滿足以下條件時(shí),記錄與mi匹配的所有pj ∈ P:

其中,α是控制IoU大小的系數(shù),iou(x, y)表示邊界框x和y之間的交并比(IoU)。使用SORT [2]來預(yù)測(cè)人的邊界框的軌跡,并記錄人的運(yùn)動(dòng)方向,之后根據(jù)連續(xù)幀之間的相關(guān)性計(jì)算每個(gè)邊界框的運(yùn)動(dòng)方向,Passenger 2是軌跡方向上的最后一個(gè)人的邊界框。此外我們?cè)谟?xùn)練集上訓(xùn)練一個(gè)分類網(wǎng)絡(luò),用于判斷Passenger 2是否佩戴頭盔。

3.4 Category Refine Module 模塊

在視頻中,我們發(fā)現(xiàn)隨著非機(jī)動(dòng)車輛駛出攝像頭的視野,模型預(yù)測(cè)的標(biāo)簽會(huì)隨著目標(biāo)逐漸變小而改變。受到跟蹤思想的啟發(fā),同一跟蹤 ID 的相應(yīng)框在運(yùn)動(dòng)過程中類別不應(yīng)該發(fā)生改變。SORT [2] 是一種典型的基于檢測(cè)的跟蹤方法。我們通過SORT獲得摩托車和行人的軌跡,計(jì)算該ID中所有幀的類別,當(dāng)某個(gè)類別的頻率超過給定跟蹤ID的總檢測(cè)次數(shù)的50%時(shí),我們將該ID上所有幀均改為該類別標(biāo)簽。

4 實(shí)驗(yàn)結(jié)果

4.1 評(píng)估指標(biāo)

本次挑戰(zhàn)賽使用的評(píng)估指標(biāo)是mAP,即所有目標(biāo)類別上平均精度(Precision-Recall曲線下的面積)的均值。

4.2 實(shí)驗(yàn)細(xì)節(jié)

模型在AI City Challenge數(shù)據(jù)集上經(jīng)過8個(gè)epochs的微調(diào),使用Adam優(yōu)化器,學(xué)習(xí)率為5e-6,權(quán)重衰減為1e-4。在訓(xùn)練過程中,圖像的短邊尺度從[720, 768, 816, 864, 912, 960, 1008, 1056, 1104, 1152, 1200]中隨機(jī)選擇,而長(zhǎng)邊不超過2000像素。在測(cè)試階段,短邊被固定為1200像素。模型加載了在Objects365 [16]數(shù)據(jù)集上預(yù)訓(xùn)練的參數(shù)。對(duì)于用于集成的兩個(gè)模型,它們?cè)诔跏蓟A段的查詢方面有所不同,分別設(shè)置為300和900。

對(duì)于判斷是否戴頭盔的分類模型,采用了在ImageNet預(yù)訓(xùn)練的ResNet-18 [8],并在AI City Challenge數(shù)據(jù)集上進(jìn)行微調(diào)。輸入分辨率為256×192,訓(xùn)練和測(cè)試數(shù)據(jù)集的比例為9:1。使用CosineAnealingLR的學(xué)習(xí)率衰減策略進(jìn)行100個(gè)epochs的訓(xùn)練,學(xué)習(xí)率為0.04,權(quán)重衰減為5e-4。

4.3 實(shí)驗(yàn)結(jié)果

Table 2是消融實(shí)驗(yàn)的結(jié)果。集成模型會(huì)比DETA的基線高17.14%。PRM模塊也會(huì)顯著提升算法效果。此外,我們對(duì)訓(xùn)練集中的090.mp4進(jìn)行了可視化,可以看到第12幀(圖5a)中id為42的對(duì)象預(yù)測(cè)類別是DHelmet,但在的第24幀(圖5b)中,它被預(yù)測(cè)為P1NoHelmet,使用CRM策略可以將該錯(cuò)誤預(yù)測(cè)修正為DHelmet。

所提出的方法在AI City Challenge 2023的Track5驗(yàn)證集上進(jìn)行評(píng)估。如表3所示,我們的方法取得0.8340的分?jǐn)?shù)。

5 結(jié)論

在本文中,我們提出了一種名為MHOD(Motorcycle Helmet Object Detection)的框架,旨在檢測(cè)騎摩托車者是否正確佩戴頭盔。MHOD模塊利用目標(biāo)檢測(cè)網(wǎng)絡(luò)來預(yù)測(cè)視頻中所有目標(biāo)的位置和類別。為了提高乘客類別的召回率,我們引入了乘客召回模塊(PRM)進(jìn)行跟蹤細(xì)化,并通過類別細(xì)化模塊(CRM)來校正目標(biāo)的類別。PRM是一個(gè)可擴(kuò)展的模塊,主要針對(duì)Passenger 2進(jìn)行召回,而未來可進(jìn)一步發(fā)展適用于Passenger 1的策略,以提升框架的效果。我們?cè)?023年AI City Challenge Track5的公共測(cè)試集上進(jìn)行的實(shí)驗(yàn)表明,我們的方法取得了0.8340的分?jǐn)?shù),證明了該方法的有效性。

我們的優(yōu)異成績(jī)充分彰顯了團(tuán)隊(duì)方法的卓越效能,成功地將實(shí)際業(yè)務(wù)中積淀的算法、技巧以及算法邏輯應(yīng)用到國際競(jìng)技舞臺(tái),實(shí)現(xiàn)了電信AI公司在智慧安防、城市治理領(lǐng)域的巨大突破。電信AI公司一貫堅(jiān)守“技術(shù)源自業(yè)務(wù),服務(wù)于業(yè)務(wù)”的發(fā)展理念,將競(jìng)賽視為檢驗(yàn)和提升技術(shù)能力的至關(guān)重要平臺(tái)。積極參與競(jìng)賽的過程中,我們持續(xù)優(yōu)化和完善技術(shù)方案,為客戶提供更高質(zhì)量的服務(wù),同時(shí)也為整個(gè)團(tuán)隊(duì)成員提供了珍貴的學(xué)習(xí)和成長(zhǎng)機(jī)會(huì)。這一過程不僅不斷提升了我們的競(jìng)爭(zhēng)實(shí)力,也推動(dòng)著整個(gè)團(tuán)隊(duì)在不斷挑戰(zhàn)中邁向更加輝煌的發(fā)展。

References

[2] Alex Bewley, Zongyuan Ge, Lionel Ott, Fabio Ramos, and Ben Upcroft. Simple online and realtime tracking. In 2016 IEEE International Conference on Image Processing (ICIP), pages 3464–3468, 2016. 2, 3, 4, 5

[3] Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, and Sergey Zagoruyko. End-toend object detection with transformers. In Computer Vision– ECCV 2020: 16th European Conference, Glasgow, UK, August 23–28, 2020, Proceedings, Part I 16, pages 213–229.Springer, 2020. 3

[4] A. Casado-Garc′?a and J. Heras. Ensemble methods for object detection, 2019. https://github.com/ancasag/ensembleObjectDetection. 1

[8] K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. IEEE, 2016. 5

[9] Tsung-Yi Lin, Michael Maire, Serge Belongie, Lubomir Bourdev, Ross Girshick, James Hays, Pietro Perona, Deva Ramanan, C. Lawrence Zitnick, and Piotr Doll′ar. Microsoft coco: Common objects in context, 2015. 3

[13] Jeffrey Ouyang-Zhang, Jang Hyun Cho, Xingyi Zhou, and Philipp Kr¨ahenb¨uhl. Nms strikes back, 2022. 1, 3, 5

[16] Shuai Shao, Zeming Li, Tianyuan Zhang, Chao Peng, Gang Yu, Xiangyu Zhang, Jing Li, and Jian Sun. Objects365:A large-scale, high-quality dataset for object detection. In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), October 2019. 5

[17] Yuxin Wu, Alexander Kirillov, Francisco Massa, Wan-Yen Lo, and Ross Girshick. Detectron2. https://github.com/facebookresearch/detectron2, 2019. 3, 5

[18] Hao Zhang, Feng Li, Shilong Liu, Lei Zhang, Hang Su, Jun Zhu, Lionel M. Ni, and Heung-Yeung Shum. Dino: Detr with improved denoising anchor boxes for end-to-end object detection, 2022. 3

舉報(bào) 0 收藏 0 打賞 0評(píng)論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  網(wǎng)站留言  |  RSS訂閱  |  違規(guī)舉報(bào)  |  開放轉(zhuǎn)載  |  滾動(dòng)資訊  |  English Version