滾動資訊

當(dāng)前位置：首頁 > 資訊 > 人工智能 > 正文內(nèi)容

北大清華等聯(lián)手發(fā)布LLaVA-o1，開啟自發(fā)性視覺AI新紀(jì)元

時間：2024-11-19 12:10:22 來源：ITBEAR作者：IT之家編輯：瑞雪 發(fā)表評論無障礙通道

【ITBEAR】近日，一項突破性的研究成果在人工智能領(lǐng)域引起了廣泛關(guān)注。由北京大學(xué)、清華大學(xué)、鵬城實驗室、阿里巴巴達(dá)摩院以及美國理海大學(xué)聯(lián)手打造的LLaVA-o1模型，正式面世。這款模型被譽為首個能夠自發(fā)進(jìn)行系統(tǒng)性推理的視覺語言模型，其功能與GPT-o1模型相類似，但在視覺處理方面實現(xiàn)了新的飛躍。

LLaVA-o1是一款新型視覺語言模型（VLM），其核心設(shè)計理念是實現(xiàn)自主多階段推理。該模型擁有驚人的110億個參數(shù)，是基于Llama-3.2-Vision-Instruct模型進(jìn)一步開發(fā)而來。為了提升其推理能力，研究者們精心設(shè)計了四個推理階段：總結(jié)（summary）、描述（caption）、推理（reasoning）和結(jié)論（conclusion）。

在訓(xùn)練過程中，LLaVA-o1使用了名為LLaVA-o1-100k的數(shù)據(jù)集進(jìn)行微調(diào)。這一數(shù)據(jù)集結(jié)合了視覺問答（VQA）資源和GPT-4o生成的結(jié)構(gòu)化推理注釋，為模型的推理能力提供了強有力的支持。

LLaVA-o1的創(chuàng)新之處在于其采用的階段級束搜索（stage-level beam search）技術(shù)。這一技術(shù)使得模型能夠在每個推理階段生成多個候選答案，并從中選擇出最優(yōu)解。這一特性使得LLaVA-o1在處理復(fù)雜任務(wù)時表現(xiàn)出色，突破了傳統(tǒng)視覺語言模型的局限性。

在實際測試中，LLaVA-o1展現(xiàn)了其強大的多模態(tài)推理能力。與基礎(chǔ)模型相比，該模型在多模態(tài)推理基準(zhǔn)測試中性能提升了8.9%，超越了眾多大型且閉源的競爭對手。特別是在復(fù)雜視覺問答任務(wù)中，LLaVA-o1的表現(xiàn)尤為突出。

LLaVA-o1的推出還填補了文本和視覺問答模型之間的空白。在多個基準(zhǔn)測試中，該模型均表現(xiàn)出色，特別是在數(shù)學(xué)和科學(xué)視覺問題的推理領(lǐng)域。這一成果充分展示了結(jié)構(gòu)化推理在視覺語言模型中的重要性。

LLaVA-o1還涉及到一個新的概念——自發(fā)性人工智能（Spontaneous AI）。這一概念旨在模擬動物的自發(fā)行為，通過機器學(xué)習(xí)和復(fù)雜的時間模式來設(shè)計具有自發(fā)行為的智能系統(tǒng)。LLaVA-o1在這一領(lǐng)域邁出了重要的一步，為實現(xiàn)更加智能、自主的人工智能系統(tǒng)奠定了堅實的基礎(chǔ)。

舉報 0 收藏 0 打賞 0評論 0

11-19

AI重點通知來襲，誰將主宰AI OS新戰(zhàn)場？

11-19

鴻佰科技亮相SC24，展出AI高速計算數(shù)據(jù)中心創(chuàng)新成果引關(guān)注

11-19

出門問問榮獲“優(yōu)秀上市公司”，AI創(chuàng)新引領(lǐng)未來高質(zhì)量發(fā)展

11-19

OpenAI新o1模型欺騙性引熱議，專家：加強監(jiān)管，守護(hù)AI安全底線

11-19

任度雙腦大模型：數(shù)推分離，重塑AI技術(shù)新篇章

11-19

攜程Q3財報亮點：營收凈利雙增長，國際業(yè)務(wù)復(fù)蘇強勁

11-19

榮耀AI換臉檢測功能將普及，趙明：加快升級更多機型

11-19

東風(fēng)日產(chǎn)N7廣州車展驚艷登場，中大型純電轎車新標(biāo)桿？

11-19

英偉達(dá)攜手谷歌，加速量子計算處理器設(shè)計進(jìn)程

11-19

金川集團(tuán)新能源礦卡領(lǐng)航智能礦業(yè)，喜獲高交會科研成果創(chuàng)新大獎

11-19

微軟東京新設(shè)研發(fā)中心，聚焦機器人+AI技術(shù)

11-19

Meta雷朋智能眼鏡歐洲四國上市，解放雙手問答新體驗

11-19

Mistral升級AI產(chǎn)品線：新模型可文圖同處，聊天平臺功能大增

11-19

Perplexity新功能上線：AI搜索直達(dá)購買，購物體驗再升級！

11-19

點擊查看更多 +

全站最新

湖州企業(yè)閃耀中國航展，低空經(jīng)濟(jì)成新亮點！

永磁同步電機新突破：高性能顯式模型預(yù)測控制算法亮相

2025武漢新能源充電展：探索充電技術(shù)新未來，共筑綠色出行夢

杉杉股份高層再變動：鄭駒退居副董，80后周婷接任董事長

努比亞Z70 Ultra新機來襲，35mm仿生鏡頭帶來極致拍攝體驗

模塊化筆記本新突破：同方GX2.0可拆卸顯卡，輕薄與性能并存？

熱門內(nèi)容

本欄最新

北大清華等聯(lián)手發(fā)布LLaVA-o1，開啟自發(fā)性視覺AI新紀(jì)元

AI重點通知來襲，誰將主宰AI OS新戰(zhàn)場？

鴻佰科技亮相SC24，展出AI高速計算數(shù)據(jù)中心創(chuàng)新成果引關(guān)注

出門問問榮獲“優(yōu)秀上市公司”，AI創(chuàng)新引領(lǐng)未來高質(zhì)量發(fā)展

OpenAI新o1模型欺騙性引熱議，專家：加強監(jiān)管，守護(hù)AI安全底線

任度雙腦大模型：數(shù)推分離，重塑AI技術(shù)新篇章

本網(wǎng)站LOGO小熊標(biāo)志受版權(quán)保護(hù)，版權(quán)登記號：魯作登字-2015-F-025467，未經(jīng)ITBEAR官方許可，嚴(yán)禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無障礙技術(shù)由太陽灣捐增，為閱讀障礙用戶提供內(nèi)容聽讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請通知我們及時刪除。
中國（山東）自由貿(mào)易試驗區(qū) · 齊魯軟件園魯ICP備11015305號-1 商業(yè)合作入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

北大清華等聯(lián)手發(fā)布LLaVA-o1，開啟自發(fā)性視覺AI新紀(jì)元

北大清華等聯(lián)手發(fā)布LLaVA-o1，開啟自發(fā)性視覺AI新紀(jì)元