【ITBEAR】在第32屆ACM國際多媒體會議于澳大利亞墨爾本成功閉幕之際,一支由中國科學(xué)技術(shù)大學(xué)與云知聲聯(lián)袂打造的USTC-IAT-United團隊大放異彩,他們在多個競賽領(lǐng)域共斬獲了5項冠軍和2項亞軍,充分展示了團隊在人工智能領(lǐng)域的卓越實力。
ACM MM作為多媒體與計算機圖形學(xué)領(lǐng)域的頂級盛會,不僅獲得了中國計算機學(xué)會(CCF)的A類評定,更因其顯著的學(xué)術(shù)影響力和社會認可度而備受矚目。此次會議攜手全球頂尖學(xué)術(shù)機構(gòu)和企業(yè),推出了多項富有挑戰(zhàn)性的賽事,吸引了眾多科研團隊和創(chuàng)新企業(yè)的積極參與。
USTC-IAT-United團隊在眾多參賽隊伍中脫穎而出,他們在微動作分析、微表情檢測、人機交互、多模態(tài)群體行為分析以及視覺空間關(guān)系描述等多個前沿領(lǐng)域取得了顯著成就。以下是他們在此次大會中的具體獲獎情況:
在微動作分析挑戰(zhàn)賽中,團隊針對微動作持續(xù)時間短、難以捕捉的特點,提出了3D-SENet Adapter,實現(xiàn)了高效的時空信息聚合和在線視頻特征學(xué)習(xí)。同時,他們開發(fā)的交叉注意力聚合檢測頭,通過集成多尺度特征,顯著提升了微動作的檢測精度,最終在兩個賽道上分別獲得了冠軍和亞軍,并在ACM MM上發(fā)表了相關(guān)研究成果。
在微表情挑戰(zhàn)賽中,團隊采用基于光流的方法進行微表情識別,通過抽取視頻的光流特征,精確定位微表情的起始和結(jié)束時間。他們提出的邊界校準方案和特征增強策略,進一步提升了微表情識別的準確性和魯棒性,最終在兩個不同賽道上均獲得了冠軍。
在另一項微表情挑戰(zhàn)賽中,團隊整合了VideoMAE V2框架、時間信息適配器(TIA)及多尺度特征融合檢測頭,實現(xiàn)了微表情的定位與識別性能的顯著提升。他們的方案在STRS(Overall)評分中達到了SOTA水平,并榮獲冠軍。
在多模態(tài)群體行為分析挑戰(zhàn)賽中,團隊提出了一種雙流AI-BiLSTM模型,通過對齊和交互對話者特征,實現(xiàn)了更準確的參與度估計。該模型在MultiMediate挑戰(zhàn)賽中的Multi-domain engagment estimation賽道上,以顯著優(yōu)勢奪得冠軍,展示了團隊在人工智能領(lǐng)域的深厚技術(shù)底蘊。
在深度偽造檢測挑戰(zhàn)賽中,團隊提出了一種創(chuàng)新的局部全局交互模塊(AV-LG模塊),顯著增強了模型的檢測性能。他們通過增加真實樣本的誤差權(quán)重和將采樣幀轉(zhuǎn)換為頻域等方法,進一步提升了模型的性能,最終獲得了本賽道的冠軍。
此次優(yōu)異成績的取得,不僅是中國科學(xué)技術(shù)大學(xué)與云知聲緊密合作的成果,更是云知聲在AGI技術(shù)架構(gòu)方面實力的有力證明。作為國內(nèi)AGI技術(shù)產(chǎn)業(yè)化的先行者,云知聲依托其全棧AGI技術(shù)與產(chǎn)業(yè)布局,持續(xù)推動各行各業(yè)的智慧化升級,為智慧生活、智慧醫(yī)療等領(lǐng)域提供了高效的產(chǎn)品化支撐。