ITBear旗下自媒體矩陣:

Google深夜放大招,Gemini 2.0 Agent功能可直接幫你查資料、寫代碼!

   時間:2024-12-12 07:05:09 來源:ITBEAR編輯:快訊團隊 發(fā)表評論無障礙通道

在科技巨頭們的年度沖刺中,人工智能領域再次迎來了令人矚目的新動向。谷歌與OpenAI的較量,成為這場技術盛宴的焦點。

就在OpenAI宣布即將連續(xù)12天發(fā)布更新的前夕,谷歌于深夜悄然推出了其新一代模型——Gemini 2.0。這一舉動似乎預示著,在多次被OpenAI“狙擊”后,谷歌終于找到了反擊的契機,尤其是在OpenAI尚未明確布局的領域——Agent功能。

Agent,這一術語通常指的是AI能夠感知環(huán)境、執(zhí)行任務并在一定程度上自主決策的能力,即實現更自動化的任務完成。谷歌此次不僅發(fā)布了Gemini 2.0模型,更是一口氣推出了四個與Agent相關的功能,讓人眼前一亮。

首先是Project Astra,它能夠在Gemini應用中直接調用Google Lens和地圖功能,幫助用戶解決生活中的實際問題。緊接著是Project Mariner,這一Chrome瀏覽器的實驗性功能允許用戶通過提示詞直接瀏覽網頁并完成任務,極大地提升了工作效率。Jules是一個可以嵌入GitHub的編程Agent,用戶只需用自然語言描述問題,Jules就能生成可直接合并到項目中的代碼。最后,游戲Agent能夠實時解讀屏幕畫面,通過語音交流為用戶提供游戲策略提示,這一功能在與《部落沖突》等游戲的合作中展現出了驚人的實力。

谷歌的新功能建立在Gemini 2.0的強大能力之上。與眾多大模型不同的是,谷歌從一開始就選擇了原生多模態(tài)的訓練方式,這一策略讓Gemini 2.0在理解事物后能夠更靈活地進行不同模態(tài)的生成。此次升級,Gemini 2.0不僅擁有了原生的圖像生成、音頻輸出和工具應用能力,還在多模態(tài)推理、長上下文理解等方面取得了顯著進步。

Project Mariner的演示尤為引人注目。演示者通過Chrome瀏覽器打開了一個包含公司名的表格,并啟動了這一實驗性功能。瀏覽器自動記住了這些公司名,并逐一訪問官網查找郵箱地址。整個過程用戶只需在右側欄輸入提示詞,即可隨時查看模型的工作狀態(tài)并停止自動操作。這一功能不僅提升了工作效率,還保證了安全性。

Jules則讓自然語言寫代碼變得更加簡單。用戶只需輸入詳細的編程問題提示詞,Jules就能分析并給出解決方案,甚至自動生成代碼并合并到用戶原有的項目中。而游戲Agent的演示則充滿了趣味性,用戶分享手機屏幕并用語音與Agent溝通,Agent直接給出了游戲中的最佳策略。這一功能對于策略型游戲玩家來說,無疑是一個強大的“外掛”。

雖然Gemini 2.0目前并未對所有用戶開放,但谷歌表示正在將其逐步開放給開發(fā)者和受信任的測試人員。這也意味著上述Agent功能距離用戶真正使用還有一段時間。不過,谷歌已經計劃在將Gemini 2.0的高級推理能力引入其搜索功能中,以應對更復雜的話題和多步驟問題。

谷歌還推出了Gemini 2.0 Flash這一小號模型,作為Gemini中的默認使用模型。它不僅支持圖片、視頻和音頻等多模態(tài)輸入,還能直接生成圖像與文本混合的內容以及原生生成可控的多語言文本轉語音音頻。同時,作為2.0模型家族的一員,它也支持調用Google Search、代碼執(zhí)行等工具。

Project Astra作為谷歌為眼鏡項目所做的前瞻項目,此次也迎來了重大更新。包括更流暢的對話、新工具的使用、更強的記憶力和更低的延遲。谷歌表示,未來用戶無論是在電腦上還是通過眼鏡、手機等設備使用這一助手,它都能記住會話和用戶的意圖,提供個性化的服務。

隨著谷歌、OpenAI等科技巨頭在Agent領域的不斷探索和突破,我們似乎已經可以預見一個全新的時代即將到來。在這個時代里,AI將像魔法一樣全自動地完成任務,無需任何技術背景就能提升我們的工作效率和使用體驗。而Agent技術的提升也為智能硬件真正進入人們生活打下了堅實的基礎。

舉報 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內容
網站首頁  |  關于我們  |  聯系方式  |  版權聲明  |  RSS訂閱  |  開放轉載  |  滾動資訊  |  爭議稿件處理  |  English Version