【ITBEAR科技資訊】4月13日消息,馬斯克旗下的人工智能公司xAI繼3月下旬推出Grok-1.5大語言模型后,于近日再度發(fā)布其首個(gè)多模態(tài)模型Grok-1.5 Vision(簡稱Grok-1.5V)。
xAI計(jì)劃近期邀請?jiān)缙跍y試者及現(xiàn)有的Grok用戶參與Grok-1.5V的測試。新模型不僅增強(qiáng)了文本理解能力,更進(jìn)一步擴(kuò)展至處理各類文檔、圖表、截圖及照片內(nèi)容,展現(xiàn)出全方位的解析實(shí)力。
據(jù)ITBEAR科技資訊了解,Grok-1.5V的推出標(biāo)志著xAI在多模態(tài)模型領(lǐng)域的重要突破。xAI自豪地宣稱,Grok-1.5V在多學(xué)科推理、文檔解析、科學(xué)圖表解讀、表格數(shù)據(jù)處理以及屏幕截圖和照片分析等多個(gè)方面,均能與當(dāng)前領(lǐng)先的多模態(tài)模型相媲美。
為了直觀展示Grok-1.5V的能力,xAI在官方發(fā)布的新聞稿中詳細(xì)演示了7個(gè)具體應(yīng)用場景,其中包括將手繪白板上的流程圖直接轉(zhuǎn)化為Python代碼、根據(jù)孩童的繪畫作品生成富有想象力的睡前故事、解釋網(wǎng)絡(luò)流行語的含義,以及將圖片中的表格數(shù)據(jù)快速轉(zhuǎn)換為CSV文件格式等實(shí)用功能。
此外,xAI還分享了Grok-1.5V的性能測試結(jié)果。在RealWorldQA基準(zhǔn)測試中,新模型的表現(xiàn)超越了GPT-4V、Claude 3Sonnet、Claude 3 Opus和Gemini Pro 1.5等一系列業(yè)界知名競爭對手,展現(xiàn)了卓越的性能和準(zhǔn)確性。