2023年11月28日,中電信人工智能科技有限公司(以下簡稱:電信AI公司)成立。它是中國電信開展大數(shù)據(jù)及人工智能業(yè)務(wù)的科技型、能力型、平臺型專業(yè)公司。2023年,電信AI公司在全球21場頂級AI競賽中屢獲殊榮,申請專利100余項。同時,該公司在CVPR、ACM MM、ICCV等權(quán)威會議和期刊上發(fā)表了30余篇論文,充分展現(xiàn)了國資央企在人工智能領(lǐng)域的實力和決心。
該公司注冊資本為30億元,前身為中國電信集團(tuán)的大數(shù)據(jù)和AI中心。作為一家專注于人工智能技術(shù)研發(fā)和應(yīng)用的公司,他們致力于核心技術(shù)的研究、前沿技術(shù)的探索以及產(chǎn)業(yè)空間的拓展,旨在成為百億級的人工智能服務(wù)提供商。在過去兩年里,該公司自主研發(fā)了星河AI算法倉賦能平臺、星云AI四級算力平臺以及星辰通用基礎(chǔ)大模型等一系列創(chuàng)新的成果。目前,公司員工規(guī)模超過800人,平均年齡僅31歲。其中,研發(fā)人員占比高達(dá)80%,且70%的員工來自國內(nèi)外知名互聯(lián)網(wǎng)企業(yè)和AI領(lǐng)軍企業(yè)。為了加速大模型時代的研發(fā)進(jìn)程,公司擁有超過2500塊等效于A100的訓(xùn)練卡,并配備了300多名專職數(shù)據(jù)標(biāo)注人員。此外,公司還與上海人工智能實驗室、西安交通大學(xué)、北京郵電大學(xué)、智源研究院等科研機(jī)構(gòu)緊密合作,結(jié)合中國電信6000萬視聯(lián)網(wǎng)和數(shù)億用戶場景,共同推動人工智能技術(shù)的創(chuàng)新和應(yīng)用。
本期介紹電信AI公司TeleAI團(tuán)隊在CVPR 2023 AI CITY CHALLENGE頂會上取得的重大突破,獲得了Challenge Track 5: Detecting Violation of Helmet Rule for Motorcyclists賽道的冠軍。CVPR是計算機(jī)視覺領(lǐng)域的三大頂級會議之一,享有極高的業(yè)內(nèi)聲譽。該冠軍技術(shù)不僅在學(xué)術(shù)界獲得了認(rèn)可,還在城市治理實際業(yè)務(wù)中取得了顯著的應(yīng)用效果,已經(jīng)落地多個項目。本文將深入介紹該團(tuán)隊在本次挑戰(zhàn)中所采用的算法思路和解決方案,為CV領(lǐng)域的研究和應(yīng)用貢獻(xiàn)了有價值的經(jīng)驗和實踐。
CVPR 2023 AI CITY CHALLENGE Track 5: Detecting Violation of Helmet Rule for Motorcyclists冠軍技術(shù)分享。
【賽事概覽與團(tuán)隊背景】
AI City Challenge由英偉達(dá)、亞馬遜、馬里蘭大學(xué)等發(fā)起,自2017年起,每年舉辦一次。該挑戰(zhàn)賽主要集中在智能交通相關(guān)的車流統(tǒng)計、車輛重識別、跨攝像頭跟蹤、異常事件分析等應(yīng)用場景,被譽為“智能交通視頻分析界的ImageNet競賽”。
由中國電信AI公司行人算法方向的成員組成的TeleAI團(tuán)隊,參加了本次比賽。該團(tuán)隊在計算機(jī)視覺技術(shù)這個研究方向深耕,積累了豐富的經(jīng)驗。他們的技術(shù)成果已在城市治理、交通治安等多個業(yè)務(wù)領(lǐng)域中廣泛應(yīng)用,持續(xù)服務(wù)海量的用戶。TeleAI團(tuán)隊以本次CVPR 2023 AI CITY CHALLENGE的Detecting Violation of Helmet Rule for Motorcyclists賽道為契機(jī),實現(xiàn)在智慧安防領(lǐng)域技術(shù)的自我突破。
1引言
檢測摩托車駕駛員和乘客未佩戴頭盔的違規(guī)行為是一項關(guān)鍵的計算機(jī)視覺任務(wù),對于保障摩托車行駛過程中的生命安全具有重要意義。這一異常事件檢測問題可視為目標(biāo)檢測任務(wù),即識別圖像中摩托車駕駛員和乘客的位置以及判斷其是否佩戴頭盔。為解決這一問題,本文提出了Motorcycle Helmet Object Detection framework(MHOD)。
我們采用目標(biāo)檢測網(wǎng)絡(luò)DETA來預(yù)測視頻中所有對象的位置和類別,并通過兩個模型的集成來提高準(zhǔn)確性和魯棒性。鑒于乘客類別訓(xùn)練數(shù)據(jù)的稀缺性,我們設(shè)計了基于目標(biāo)跟蹤的乘客召回模塊(PRM),顯著提升了乘客類別的召回率。引入了類別細(xì)化模塊(CRM),結(jié)合視頻中的時間信息來校正類別。在AI City Challenge 2023 Track5中,我們提出的框架在挑戰(zhàn)的公共排行榜上取得了顯著的成績。
2 賽題介紹和難點
在不同的光照條件和攝像機(jī)角度下精確檢測是否佩戴頭盔是一項具有挑戰(zhàn)性的任務(wù)。在交通監(jiān)控系統(tǒng)中,攝像頭通常安裝在相對較高的位置,導(dǎo)致視頻分辨率較低。此外,如圖1所示,光照、天氣、模糊等因素也會增加識別的難度。為了克服這些復(fù)雜場景并提高模型的魯棒性,我們采用了模型集成[4]的策略,詳細(xì)內(nèi)容將在第3.2節(jié)中進(jìn)行描述。
如表1所示,我們對訓(xùn)練數(shù)據(jù)集中每個類別的目標(biāo)數(shù)量進(jìn)行了統(tǒng)計,發(fā)現(xiàn)存在嚴(yán)重的類別不平衡問題,尤其是在Passenger 2的數(shù)據(jù)相對較少。具體而言,Passenger 2僅出現(xiàn)在兩個視頻中,分別是005.mp4和091.mp4。我們在圖2中對樣本進(jìn)行了可視化,觀察到在005.mp4中,Passenger 2是摩托車前面的一個小孩,這會使模型對該目標(biāo)的識別變得非常困難。而在091.mp4中,Passenger 2位于摩托車后部,這種情況則相對符合我們的預(yù)期。
3 解決方案
3.1 概述
MHOD框架的概述如圖3所示,通常包括三個主要部分。我們采用集成技術(shù)來提高性能。在第二部分中,執(zhí)行乘客召回模塊(PRM),旨在提高乘客類別的召回率。第三部分是類別細(xì)化模塊(CRM),致力于減少同一軌跡中類別的切換次數(shù)。所有這些模塊和組件將在接下來的章節(jié)中進(jìn)行詳細(xì)描述。
3.2模型集成
由于視頻場景的復(fù)雜變異性和低分辨率,我們提出的框架采用不同初始化過程的模型集成以提高性能。本文使用的目標(biāo)檢測方法基于Transformer的DETA算法[13]。相較于最近的方法[3, 18],DETA展示了一種更為簡單的替代訓(xùn)練機(jī)制。這種替代機(jī)制在訓(xùn)練效率方面具有顯著優(yōu)勢,尤其是在短訓(xùn)練周期內(nèi)表現(xiàn)出色。我們從每個視頻幀中使用檢測模型獲取檢測到的對象的邊界框和相應(yīng)的置信度:
其中,bi是相應(yīng)的邊界框信息,fi是時間幀,v是視頻的幀長度。在獲取檢測結(jié)果后,我們得到一個邊界框b = (cls, xc, yc, w, h, s),其中cls是邊界框的類別ID,(xc, yc)是中心點的位置,(w, h)是邊界框的寬度和高度,s是置信度分?jǐn)?shù)。我們進(jìn)行非極大值抑制(nms)以過濾重疊的檢測框,這些框可能涉及相同的對象。因此,通過使用nms從兩個獨立模型提取的最終預(yù)測通常被表述如下:
其中,Z代表最終的預(yù)測。E1和E2都是在AI City Challenge數(shù)據(jù)集上微調(diào)的DETA模型。
3.3 Passenger Recall Module 模塊
基于表1中呈現(xiàn)的訓(xùn)練集統(tǒng)計結(jié)果,Passenger 2的樣本數(shù)量極少。因此,我們采用后處理技術(shù)來優(yōu)化Passenger 2的檢測邊界框。我們使用在COCO數(shù)據(jù)集[9]上預(yù)訓(xùn)練的開源框架Detectron2 [17]來獲取人的邊界框集合P = {p1, p2, p3, · · · },其中p = {xc, yc, w, h, s, f}。從Z中獲取摩托車的邊界框集合M = {m1, m2, m3, · · · }。對于M中的每個mi,在滿足以下條件時,記錄與mi匹配的所有pj ∈ P:
其中,α是控制IoU大小的系數(shù),iou(x, y)表示邊界框x和y之間的交并比(IoU)。使用SORT [2]來預(yù)測人的邊界框的軌跡,并記錄人的運動方向,之后根據(jù)連續(xù)幀之間的相關(guān)性計算每個邊界框的運動方向,Passenger 2是軌跡方向上的最后一個人的邊界框。此外我們在訓(xùn)練集上訓(xùn)練一個分類網(wǎng)絡(luò),用于判斷Passenger 2是否佩戴頭盔。
3.4 Category Refine Module 模塊
在視頻中,我們發(fā)現(xiàn)隨著非機(jī)動車輛駛出攝像頭的視野,模型預(yù)測的標(biāo)簽會隨著目標(biāo)逐漸變小而改變。受到跟蹤思想的啟發(fā),同一跟蹤 ID 的相應(yīng)框在運動過程中類別不應(yīng)該發(fā)生改變。SORT [2] 是一種典型的基于檢測的跟蹤方法。我們通過SORT獲得摩托車和行人的軌跡,計算該ID中所有幀的類別,當(dāng)某個類別的頻率超過給定跟蹤ID的總檢測次數(shù)的50%時,我們將該ID上所有幀均改為該類別標(biāo)簽。
4 實驗結(jié)果
4.1 評估指標(biāo)
本次挑戰(zhàn)賽使用的評估指標(biāo)是mAP,即所有目標(biāo)類別上平均精度(Precision-Recall曲線下的面積)的均值。
4.2 實驗細(xì)節(jié)
模型在AI City Challenge數(shù)據(jù)集上經(jīng)過8個epochs的微調(diào),使用Adam優(yōu)化器,學(xué)習(xí)率為5e-6,權(quán)重衰減為1e-4。在訓(xùn)練過程中,圖像的短邊尺度從[720, 768, 816, 864, 912, 960, 1008, 1056, 1104, 1152, 1200]中隨機(jī)選擇,而長邊不超過2000像素。在測試階段,短邊被固定為1200像素。模型加載了在Objects365 [16]數(shù)據(jù)集上預(yù)訓(xùn)練的參數(shù)。對于用于集成的兩個模型,它們在初始化階段的查詢方面有所不同,分別設(shè)置為300和900。
對于判斷是否戴頭盔的分類模型,采用了在ImageNet預(yù)訓(xùn)練的ResNet-18 [8],并在AI City Challenge數(shù)據(jù)集上進(jìn)行微調(diào)。輸入分辨率為256×192,訓(xùn)練和測試數(shù)據(jù)集的比例為9:1。使用CosineAnealingLR的學(xué)習(xí)率衰減策略進(jìn)行100個epochs的訓(xùn)練,學(xué)習(xí)率為0.04,權(quán)重衰減為5e-4。
4.3 實驗結(jié)果
Table 2是消融實驗的結(jié)果。集成模型會比DETA的基線高17.14%。PRM模塊也會顯著提升算法效果。此外,我們對訓(xùn)練集中的090.mp4進(jìn)行了可視化,可以看到第12幀(圖5a)中id為42的對象預(yù)測類別是DHelmet,但在的第24幀(圖5b)中,它被預(yù)測為P1NoHelmet,使用CRM策略可以將該錯誤預(yù)測修正為DHelmet。
所提出的方法在AI City Challenge 2023的Track5驗證集上進(jìn)行評估。如表3所示,我們的方法取得0.8340的分?jǐn)?shù)。
5 結(jié)論
在本文中,我們提出了一種名為MHOD(Motorcycle Helmet Object Detection)的框架,旨在檢測騎摩托車者是否正確佩戴頭盔。MHOD模塊利用目標(biāo)檢測網(wǎng)絡(luò)來預(yù)測視頻中所有目標(biāo)的位置和類別。為了提高乘客類別的召回率,我們引入了乘客召回模塊(PRM)進(jìn)行跟蹤細(xì)化,并通過類別細(xì)化模塊(CRM)來校正目標(biāo)的類別。PRM是一個可擴(kuò)展的模塊,主要針對Passenger 2進(jìn)行召回,而未來可進(jìn)一步發(fā)展適用于Passenger 1的策略,以提升框架的效果。我們在2023年AI City Challenge Track5的公共測試集上進(jìn)行的實驗表明,我們的方法取得了0.8340的分?jǐn)?shù),證明了該方法的有效性。
我們的優(yōu)異成績充分彰顯了團(tuán)隊方法的卓越效能,成功地將實際業(yè)務(wù)中積淀的算法、技巧以及算法邏輯應(yīng)用到國際競技舞臺,實現(xiàn)了電信AI公司在智慧安防、城市治理領(lǐng)域的巨大突破。電信AI公司一貫堅守“技術(shù)源自業(yè)務(wù),服務(wù)于業(yè)務(wù)”的發(fā)展理念,將競賽視為檢驗和提升技術(shù)能力的至關(guān)重要平臺。積極參與競賽的過程中,我們持續(xù)優(yōu)化和完善技術(shù)方案,為客戶提供更高質(zhì)量的服務(wù),同時也為整個團(tuán)隊成員提供了珍貴的學(xué)習(xí)和成長機(jī)會。這一過程不僅不斷提升了我們的競爭實力,也推動著整個團(tuán)隊在不斷挑戰(zhàn)中邁向更加輝煌的發(fā)展。
References
[2] Alex Bewley, Zongyuan Ge, Lionel Ott, Fabio Ramos, and Ben Upcroft. Simple online and realtime tracking. In 2016 IEEE International Conference on Image Processing (ICIP), pages 3464–3468, 2016. 2, 3, 4, 5
[3] Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, and Sergey Zagoruyko. End-toend object detection with transformers. In Computer Vision– ECCV 2020: 16th European Conference, Glasgow, UK, August 23–28, 2020, Proceedings, Part I 16, pages 213–229.Springer, 2020. 3
[4] A. Casado-Garc′?a and J. Heras. Ensemble methods for object detection, 2019. https://github.com/ancasag/ensembleObjectDetection. 1
[8] K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. IEEE, 2016. 5
[9] Tsung-Yi Lin, Michael Maire, Serge Belongie, Lubomir Bourdev, Ross Girshick, James Hays, Pietro Perona, Deva Ramanan, C. Lawrence Zitnick, and Piotr Doll′ar. Microsoft coco: Common objects in context, 2015. 3
[13] Jeffrey Ouyang-Zhang, Jang Hyun Cho, Xingyi Zhou, and Philipp Kr¨ahenb¨uhl. Nms strikes back, 2022. 1, 3, 5
[16] Shuai Shao, Zeming Li, Tianyuan Zhang, Chao Peng, Gang Yu, Xiangyu Zhang, Jing Li, and Jian Sun. Objects365:A large-scale, high-quality dataset for object detection. In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), October 2019. 5
[17] Yuxin Wu, Alexander Kirillov, Francisco Massa, Wan-Yen Lo, and Ross Girshick. Detectron2. https://github.com/facebookresearch/detectron2, 2019. 3, 5
[18] Hao Zhang, Feng Li, Shilong Liu, Lei Zhang, Hang Su, Jun Zhu, Lionel M. Ni, and Heung-Yeung Shum. Dino: Detr with improved denoising anchor boxes for end-to-end object detection, 2022. 3