在人工智能領域,一項新的突破正引起廣泛關注。北京大學與香港科技大學的研究團隊攜手,基于他們自研的全模態(tài)框架Align-Anything,成功將原本專注于純文本模態(tài)的Deepseek R1系列模型拓展至圖文模態(tài),推出了名為Align-DS-V的多模態(tài)版本。
這一創(chuàng)新不僅標志著Deepseek R1系列模型在功能上的重大飛躍,更在部分視覺理解評測集上的表現(xiàn)超越了GPT-4,為人工智能的多模態(tài)理解與應用開辟了新的道路。
此次合作中,北京大學的指導老師楊耀東教授發(fā)揮了關鍵作用。作為北京大學人工智能研究院的助理教授,他同時也是北京具身智能初創(chuàng)公司靈初智能與北大聯(lián)合成立的具身靈巧操作聯(lián)合實驗室的首席科學家。在楊教授的帶領下,研究團隊僅在一周之內就完成了Deepseek R1向圖文模態(tài)的擴展,并取得了令人矚目的成果。
團隊在探索過程中還意外發(fā)現(xiàn)了模態(tài)穿透對模型文本模態(tài)推理能力的提升效果。經過多模態(tài)訓練后,模型在文本模態(tài)任務上的表現(xiàn)有了顯著提升,特別是在科學任務、復雜推理以及數(shù)學代碼處理等方面。
Align-DS-V的多模態(tài)強推理能力被視為VLA模型(視覺語言動作模型)大腦端的核心。這一能力不僅提升了模型的理解和推理水平,還為VLA模型的小腦端控制器微調提供了可能,從而實現(xiàn)更高的成功率、泛化性和魯棒性。目前,Align-Anything框架以及DeepSeek-R1的多模態(tài)版本Align-DS-V均已開源,供全球研究者共同探索與進步。
Align-Anything框架的設計初衷是實現(xiàn)全模態(tài)大模型與人類意圖和價值觀的對齊。它支持從文本、圖片、視頻、音頻四大基本模態(tài)衍生出的任意模態(tài)模型的對齊微調,并驗證了框架對齊算法的正確性。該框架具有高度的模塊化、擴展性和易用性,為研究者提供了極大的便利。
為了進一步驗證全模態(tài)推理大模型的實際應用能力,研究團隊對Align-DS-V進行了本地化對齊,使其適應粵語、英語和普通話混合語言輸入,并整合了香港本土生活場景如港鐵動態(tài)、臺風預警及八達通繳費等。這一舉措不僅展示了Align-DS-V的靈活性,也為其在更多實際應用場景中的推廣奠定了基礎。
在面對包含繁體字的圖文數(shù)學問題時,Align-DS-V展現(xiàn)出了其強大的多模態(tài)理解能力。它能夠準確聯(lián)動圖文模態(tài)信息,使用嚴密的數(shù)學推導展示求解過程,進一步證明了其在復雜任務處理上的卓越表現(xiàn)。
隨著Align-DS-V的成功推出,北大-靈初聯(lián)合實驗室已經在VLA領域展開了更深度的探索。他們計劃利用多模態(tài)推理模型的跨模態(tài)穿透能力,實現(xiàn)action穿透,從而打造出真正高效的VLA模型。這一創(chuàng)新不僅有望推動具身智能技術的快速發(fā)展,還將為企業(yè)降低技術門檻,促進更多力量向更底層的運動控制領域集中。