阿里巴巴淘系技術(shù)部與北京大學前沿計算研究中心CVDA實驗室、英國愛丁堡大學等合作,正式開源業(yè)界首個大規(guī)模的多模態(tài)直播服飾檢索數(shù)據(jù)集(Watch and Buy)以推動視頻多模態(tài)檢索技術(shù)的研究。
此前,依托該數(shù)據(jù)集舉辦的第一屆淘寶直播商品識別大賽完美落幕,近2000支隊伍參加了比賽,涌現(xiàn)了一批檢索創(chuàng)新技術(shù),有效提升淘寶直播場景中服飾檢索的效果,形成了一定的學術(shù)和工業(yè)影響力。
什么是Watch and Buy?
直播帶貨是淘寶連接商品和消費者的重要方式,通過對直播視頻中商品進行實時識別和推薦,可實現(xiàn)消費者邊看邊買的消費體驗,有效提高商品購買的轉(zhuǎn)化,有非常大的經(jīng)濟價值。通常情況下直播對應的數(shù)百款商品之間相似程度高,且直播畫面中存在大量的背景干擾、燈光變化、商品遮擋和形變等,給直播畫面中商品的匹配識別帶來很大的技術(shù)挑戰(zhàn)。
淘寶直播“邊看邊買”效果示例,借助PixelAI 商品識別算法,可以從該直播的商品庫中識別出直播中主播講解的商品,并在直播中通過商品卡片形式推薦給消費者。
為了提升直播中商品匹配識別的效果,我們依托淘寶直播海量數(shù)據(jù),構(gòu)建了業(yè)界最大規(guī)模的多模態(tài)視頻商品檢索數(shù)據(jù)集Watch and Buy (WAB)。該數(shù)據(jù)集包含70,000個由直播視頻片段和對應講解商品構(gòu)成的匹配對,具有規(guī)模大、標注全、模態(tài)多、功能廣的特點。我們抽取視頻片段若干關(guān)鍵幀和商品的全部商品圖進行了實例框級標注,商品id數(shù)達82,173個,標注圖像數(shù)達1,042,178張,檢測框?qū)嵗?,654,780個。框級標注信息豐富多樣,包括商品的檢測框、類別、視角、展示方式、同款編號等。除了視覺標注,我們還對主播講解語音進行了人工文本轉(zhuǎn)錄,同時提供了商品的標題文本信息。該數(shù)據(jù)集可用于物體檢測的算法、商品重識別算法、主播意圖識別、跨模態(tài)檢索和多模態(tài)檢索等多種算法的研究。
為什么需要Watch and Buy?
當前開源的服飾檢索數(shù)據(jù)集都存在一些不足,無法滿足真實視頻場景中服飾實時識別的應用和細致研究。
首先,已有開源數(shù)據(jù)集均為靜態(tài)圖片的數(shù)據(jù)集,而真實視頻直播場景中還存著運動模糊、遮擋等問題;通過針對視頻場景的數(shù)據(jù)集能夠有效對上述問題進行研究和解決。
其次,已有開源數(shù)據(jù)集的圖片多為網(wǎng)上收集,數(shù)目少、噪聲大且標注維度不全,我們依托淘寶網(wǎng)和淘寶直播的真實業(yè)務場景,能夠獲取大規(guī)模、高質(zhì)量和全面的商品信息。
最后,現(xiàn)有數(shù)據(jù)集多為單一的圖片數(shù)據(jù)集,我們還提供了主播語音翻譯文本、商品圖標題文本等多模態(tài)的信息,進行多模態(tài)商品檢索的研究,能夠更加貼近真實場景。
我們相信Watch and Buy 數(shù)據(jù)集的這些特性將會持續(xù)激發(fā)視頻多模態(tài)檢索領(lǐng)域的技術(shù)創(chuàng)新研究。
淘寶直播商品識別大賽簡介:
為了方便學術(shù)界廣泛參與,我們將業(yè)務問題抽象為視頻庫和商品庫之間的多模態(tài)視覺檢索問題。在評價指標上,提出了片段級、幀級和檢測框級評價標準,全面衡量選手算法效果。
為了保證選手算法既能快速迭代又能有效賦能線上真實業(yè)務,我們在初賽、復賽和決賽的賽題中逐步引導選手從技術(shù)貼近業(yè)務,其中,初賽為萬級視頻片段的檢索問題,復賽則加入了真實場景中存在的商品缺失問題,決賽則是將選手方案部署到真實線上場景,直接評價完整直播視頻的算法效果。
大賽由淘系技術(shù)部內(nèi)容社交互動平臺和天池競賽平臺共同舉辦, 發(fā)布了業(yè)界最豐富的7W規(guī)模多模態(tài)視頻檢索數(shù)據(jù)集,用于進行算法模型的訓練和效果評測,并且提供了24W的比賽獎金獎勵優(yōu)秀參賽者,考慮到疫情期間高校參賽者的資源困難,額外提供了GPU機器進行模型在線訓練,最終吸引到1945支隊伍參賽。選手來源中,30%的隊伍來自高校,26%來自公司,個人參賽有6%。選手學歷分布為,40%的選手擁有碩士學歷,24%的選手為本科,博士選手占6%。最終,來自中科院計算所和吉林大學的逐星團隊以超越Baseline方案20%的成績奪得本次比賽的冠軍,另外多位來自高校的參賽同學表示已經(jīng)在數(shù)據(jù)集上進行算法研究,并保持于主辦方密切聯(lián)系。淘系技術(shù)的算法同學對優(yōu)秀方案吸納并補充到淘寶直播線上場景中,實現(xiàn)更好服務于淘寶直播商品識別業(yè)務。
附錄:
淘寶直播商品識別大賽鏈接:https://tianchi.aliyun.com/competition/entrance/231772/introduction
Watch and Buy數(shù)據(jù)集開源鏈接:https://tianchi.aliyun.com/dataset/dataDetail?dataId=75730
我們是阿里巴巴淘系技術(shù),淘系技術(shù)旗下包含淘寶技術(shù)、天貓技術(shù)、閑魚技術(shù)、躺平等團隊和業(yè)務。我們服務9億用戶,賦能各行業(yè)1000萬商家,并成功主導了11次阿里巴巴經(jīng)濟體雙十一技術(shù)大考,打造了全球領(lǐng)先的線上新零售技術(shù)平臺。
我們的愿景是致力于成為全球最懂商業(yè)的技術(shù)創(chuàng)新團隊,讓科技引領(lǐng)面向未來的商業(yè)創(chuàng)新和進步。
更多技術(shù)干貨可關(guān)注【淘系技術(shù)】公眾號。