ITBear旗下自媒體矩陣:

Meta攜手斯坦福,Apollo模型讓AI視頻理解能力大飛躍!

   時(shí)間:2024-12-18 14:07:36 來(lái)源:ITBEAR編輯:快訊團(tuán)隊(duì) 發(fā)表評(píng)論無(wú)障礙通道

近日,科技巨頭meta與斯坦福大學(xué)攜手,共同推出了一個(gè)名為Apollo的全新AI模型系列,這一創(chuàng)新成果在提升機(jī)器對(duì)視頻內(nèi)容的理解能力上取得了顯著突破。

長(zhǎng)久以來(lái),盡管人工智能在圖像處理和文本分析領(lǐng)域取得了長(zhǎng)足進(jìn)步,但讓機(jī)器真正“看懂”視頻仍然是一個(gè)極具挑戰(zhàn)性的難題。視頻中包含的動(dòng)態(tài)信息錯(cuò)綜復(fù)雜,處理起來(lái)不僅需要強(qiáng)大的計(jì)算能力作為支撐,更需要在系統(tǒng)設(shè)計(jì)層面進(jìn)行精細(xì)化的考量。

針對(duì)視頻處理的復(fù)雜性,Apollo模型采用了雙組件設(shè)計(jì)。其中一個(gè)組件專注于分析單個(gè)視頻幀的內(nèi)容,而另一個(gè)組件則負(fù)責(zé)追蹤對(duì)象和場(chǎng)景隨時(shí)間的變化。這種設(shè)計(jì)思路使得Apollo能夠更全面地捕捉視頻中的信息。

在模型訓(xùn)練方面,meta與斯坦福大學(xué)的研究團(tuán)隊(duì)發(fā)現(xiàn),訓(xùn)練方法的選擇比單純追求模型規(guī)模更為重要。Apollo模型采用了分階段訓(xùn)練策略,按順序激活模型的不同部分,這種訓(xùn)練方法相較于一次性訓(xùn)練所有部分,能夠取得更好的效果。

研究團(tuán)隊(duì)還對(duì)數(shù)據(jù)組合進(jìn)行了不斷優(yōu)化。他們發(fā)現(xiàn),當(dāng)數(shù)據(jù)組合中文本數(shù)據(jù)占比約為10%~14%,且其余部分略微偏向視頻內(nèi)容時(shí),能夠最好地平衡語(yǔ)言理解和視頻處理能力。這一發(fā)現(xiàn)為Apollo模型的訓(xùn)練提供了有力的數(shù)據(jù)支持。

Apollo模型在不同規(guī)模上均展現(xiàn)出了卓越的性能。其中,較小的Apollo-3B模型已經(jīng)超越了同等規(guī)模的Qwen2-VL等模型,而更大的Apollo-7B模型更是超過(guò)了參數(shù)更大的同類模型。這一系列成就充分證明了Apollo模型在視頻理解領(lǐng)域的領(lǐng)先地位。

為了推動(dòng)AI技術(shù)的進(jìn)一步發(fā)展,meta已經(jīng)開(kāi)源了Apollo模型的代碼和模型權(quán)重,并在Hugging Face平臺(tái)上提供了公開(kāi)演示。這一舉措將有助于更多開(kāi)發(fā)者和研究人員深入了解Apollo模型的工作原理,并基于其進(jìn)行更深入的研究和應(yīng)用開(kāi)發(fā)。

舉報(bào) 0 收藏 0 打賞 0評(píng)論 0
 
 
更多>同類資訊
全站最新
熱門(mén)內(nèi)容
網(wǎng)站首頁(yè)  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  RSS訂閱  |  開(kāi)放轉(zhuǎn)載  |  滾動(dòng)資訊  |  爭(zhēng)議稿件處理  |  English Version