在科技巨頭OpenAI宣布將連續(xù)12天發(fā)布更新的前夕,谷歌于12月11日深夜悄然推出了其新一代模型——Gemini 2.0。這一舉動(dòng)似乎是對(duì)OpenAI近期一系列發(fā)布動(dòng)作的巧妙回?fù)簟?/p>
Gemini 2.0的發(fā)布標(biāo)志著谷歌在AI領(lǐng)域的又一次重大突破,特別是針對(duì)Agent功能的強(qiáng)化。Agent功能,即智能體功能,使AI能夠感知環(huán)境、執(zhí)行任務(wù),并在一定程度上自主做出決策,從而更加自動(dòng)化地完成各種任務(wù)。
與OpenAI的發(fā)布內(nèi)容相比,谷歌此次顯得更為慷慨。OpenAI在凌晨?jī)牲c(diǎn)的更新中,主要宣布了與Apple Intelligence的合作,這一合作被普遍期待能與Agent功能緊密相關(guān)。而谷歌則一次性發(fā)布了四個(gè)與Agent相關(guān)的功能,包括:
Project Astra,它允許用戶在Gemini應(yīng)用中直接調(diào)用Google Lens和地圖功能,以解決各種實(shí)際問(wèn)題。
Project Mariner,這是一個(gè)Chrome瀏覽器的實(shí)驗(yàn)性功能,用戶可以通過(guò)簡(jiǎn)單的提示詞,讓AI代理在瀏覽器中瀏覽網(wǎng)頁(yè)并完成各種任務(wù)。
Jules,一個(gè)可以嵌入GitHub的編程Agent。用戶只需用自然語(yǔ)言描述問(wèn)題,Jules就能生成可以直接合并到GitHub項(xiàng)目中的代碼。
以及一個(gè)游戲Agent,它能夠?qū)崟r(shí)解讀屏幕畫(huà)面,在玩家打游戲時(shí)通過(guò)語(yǔ)音交流提供AI打法提示。
值得注意的是,Gemini 2.0 Flash及其API目前可免費(fèi)使用,用戶可以通過(guò)Google AI Studio和Vertex AI中的Gemini API進(jìn)行訪問(wèn),每分鐘最多可提問(wèn)15次,每天最多1500次,預(yù)計(jì)明年初將全面開(kāi)放。
Gemini 2.0 Flash作為2.0家族的首個(gè)模型,不僅主推原生多模態(tài)輸入輸出和Agent功能,而且速度比1.5 Pro快兩倍,關(guān)鍵性能指標(biāo)甚至超越了1.5 Pro。它還支持原生工具調(diào)用、實(shí)時(shí)音視頻流輸入等新功能。
Gemini 2.0在多模態(tài)、文本、代碼、視頻、空間理解和推理能力等方面都實(shí)現(xiàn)了全面提升。例如,在空間理解方面,利用Spatial Understanding功能,用戶可以上傳一張圖片,Gemini將快速進(jìn)行物體檢測(cè)和標(biāo)注,并生成結(jié)構(gòu)化的數(shù)據(jù)(JSON格式)。這一功能可能廣泛應(yīng)用于機(jī)器學(xué)習(xí)訓(xùn)練數(shù)據(jù)準(zhǔn)備、圖像分析或計(jì)算機(jī)視覺(jué)研究等領(lǐng)域。
Gemini 2.0還支持全新的輸出模態(tài),包括文本、音頻和圖像的集成響應(yīng),多語(yǔ)言原生音頻輸出(8種高品質(zhì)語(yǔ)音),以及原生圖像輸出。用戶還可以進(jìn)行多輪編輯迭代,直到生成滿意的圖像。
在原生工具使用方面,Gemini 2.0可以直接調(diào)用Google搜索、代碼執(zhí)行等工具,還能通過(guò)函數(shù)調(diào)用使用自定義的第三方函數(shù)。多模態(tài)實(shí)時(shí)API則支持實(shí)時(shí)音視頻流輸入,進(jìn)行語(yǔ)音活動(dòng)檢測(cè),并能集成多個(gè)工具完成復(fù)雜任務(wù)。
谷歌正在積極探索AI“代理”的應(yīng)用,旨在打造能夠自主理解、規(guī)劃和執(zhí)行任務(wù)的智能助手。他們已推出了一系列Agent原型(目前僅供測(cè)試人員使用),展示了AI代理在不同領(lǐng)域的巨大潛力。
例如,Jules可以作為AI編程伙伴,幫助開(kāi)發(fā)者處理Python和Java的編碼任務(wù),與GitHub工作流無(wú)縫集成,高效地修改多個(gè)文件,甚至準(zhǔn)備pull requests。Colab數(shù)據(jù)科學(xué)代理則可以幫助用戶完成繁瑣的數(shù)據(jù)分析工作,只需用自然語(yǔ)言描述分析目標(biāo),Colab就能自動(dòng)生成一個(gè)完整的notebook,并在幾分鐘內(nèi)提供洞察。
Project Mariner則致力于探索人機(jī)交互的未來(lái),從瀏覽器開(kāi)始。它是一個(gè)實(shí)驗(yàn)性的Chrome擴(kuò)展程序,可以讓AI代理在瀏覽器中執(zhí)行各種任務(wù),如查找信息、填寫(xiě)表格等。
在游戲領(lǐng)域,谷歌也利用DeepMind在游戲AI方面的豐富經(jīng)驗(yàn),將Gemini 2.0應(yīng)用于游戲代理的開(kāi)發(fā)。這些代理不僅能陪伴玩家一起玩游戲,還能提供專業(yè)的指導(dǎo),并連接到Google搜索,獲取海量的游戲知識(shí)。
除了Gemini 2.0的發(fā)布,谷歌還宣布了最新量子芯片Willow的推出。谷歌首席執(zhí)行官孫達(dá)爾·皮柴稱其為邁向打造實(shí)用量子計(jì)算機(jī)的重要一步。Willow在擴(kuò)展量子比特?cái)?shù)量、減少錯(cuò)誤以及提高性能方面取得了顯著成就,為解決量子糾錯(cuò)領(lǐng)域的難題提供了新的思路。