ITBear旗下自媒體矩陣:

DeepSeek-VL2開源,AI視覺模型新突破:MoE架構(gòu)引領(lǐng)新潮流!

   時間:2024-12-14 11:12:36 來源:ITBEAR編輯:快訊團(tuán)隊(duì) 發(fā)表評論無障礙通道

近日,DeepSeek 官方公眾號發(fā)布了一則令人矚目的消息,宣布其最新研發(fā)的 DeepSeek-VL2 模型已正式開源。據(jù)官方介紹,該模型在多項(xiàng)評測指標(biāo)上均表現(xiàn)出色,標(biāo)志著 DeepSeek 的視覺模型正式邁入混合專家模型(Mixture of Experts,簡稱 MoE)時代。

DeepSeek-VL2 相較于其前代 DeepSeek-VL,在訓(xùn)練數(shù)據(jù)上實(shí)現(xiàn)了翻倍的增長,并且引入了梗圖理解、視覺定位、視覺故事生成等一系列新能力。這些改進(jìn)使得 DeepSeek-VL2 在處理復(fù)雜視覺任務(wù)時更加游刃有余。

在架構(gòu)方面,DeepSeek-VL2 采用了創(chuàng)新的切圖策略,支持動態(tài)分辨率圖像。這一策略通過將圖像切分為多張子圖和一張全局縮略圖,實(shí)現(xiàn)了對不同分辨率和長寬比的圖像的靈活處理。同時,在語言部分,DeepSeek-VL2 采用了 MoE 架構(gòu),不僅降低了成本,還提高了性能。

在訓(xùn)練流程上,DeepSeek-VL2 繼承了 DeepSeek-VL 的三階段訓(xùn)練方法,并進(jìn)行了多項(xiàng)優(yōu)化。為了適配圖像切片數(shù)量不定的困難,DeepSeek-VL2 引入了負(fù)載均衡策略。同時,對圖像和文本數(shù)據(jù)使用了不同的流水并行策略,對 MoE 語言模型引入了專家并行,從而實(shí)現(xiàn)了高效訓(xùn)練。

DeepSeek-VL2 模型支持高達(dá) 1152x1152 的分辨率和 1:9 或 9:1 的極端長寬比,這使得它能夠適配更多應(yīng)用場景。DeepSeek-VL2 還通過學(xué)習(xí)更多科研文檔數(shù)據(jù),具備了輕松理解各種科研圖表的能力。更進(jìn)一步的是,它還能通過 Plot2Code 功能,根據(jù)圖像生成 Python 代碼。

DeepSeek-VL2 的這些優(yōu)勢使其在多個領(lǐng)域都展現(xiàn)出了巨大的潛力。無論是圖像處理、視覺定位還是代碼生成,DeepSeek-VL2 都能夠?yàn)橛脩籼峁└泳珳?zhǔn)、高效的服務(wù)。

目前,DeepSeek-VL2 模型和論文均已公開發(fā)布。用戶可以通過以下鏈接下載模型和訪問 GitHub 主頁:

模型下載:https://huggingface.co/deepseek-ai

GitHub 主頁:https://github.com/deepseek-ai/DeepSeek-VL2

舉報 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容