在今年的中國計算機(jī)大會(CNCC)上,參會者們不僅享受了一場科技盛宴,還意外地體驗了一把由AI帶來的便捷服務(wù)。大會舉辦地——橫店圓明新園,以其宏大的規(guī)模和精美的建筑,給所有參會者留下了深刻印象。然而,園區(qū)之大,也讓不少人感到腿酸腳痛。
面對這一挑戰(zhàn),有人突發(fā)奇想:能否讓AI在橫店幫我們點一杯咖啡?這個想法很快得到了實現(xiàn)。在CNCC現(xiàn)場,智譜公司發(fā)布了其最新研發(fā)的自主智能體AutoGLM,這一功能強(qiáng)大的手機(jī)操作助手和瀏覽器助手,讓參會者們體驗了一把“動口不動手”的便利。
通過簡單的語音指令,AutoGLM就能打開美團(tuán),并根據(jù)指令點購咖啡,整個過程中,除了付款環(huán)節(jié),完全不需要人的參與。這一功能不僅讓參會者們驚嘆不已,更讓他們在現(xiàn)場成功喝上了由AI點購的咖啡。
智譜公司此次發(fā)布的GLM-4-Voice情感語音模型,更是讓人眼前一亮。這一模型不僅擁有極高的響應(yīng)速度和打斷速度,還能準(zhǔn)確感知和共鳴用戶的情緒,其語音表達(dá)更是自然流暢,充滿了“活人感”。在實測中,GLM-4-Voice不僅在英語陪練和日語練習(xí)上表現(xiàn)出色,還能輕松駕馭北京腔、臺灣腔、東北腔和粵語等多種方言。
在CNCC的會場外,參會者們還帶著AutoGLM游覽了橫店知名景點“秦王宮”,并讓它以李白的身份即興作詩一首。小智不負(fù)眾望,創(chuàng)作了一首充滿豪情壯志的詩句,贏得了大家的陣陣掌聲。
除了情感語音助手外,智譜公司還在CNCC上展示了其在AGI(通用人工智能)技術(shù)路徑上的新思考。香港大學(xué)馬毅教授在大會主題圓桌論壇中提到,人類智能有兩個“原生大模型”:DNA和語言,它們都具備自我學(xué)習(xí)的能力。而當(dāng)前的大模型雖然知識豐富,但在智能方面仍有不足。因此,要實現(xiàn)AGI,還需要在多模態(tài)、推理與自我學(xué)習(xí)等方面進(jìn)行深入研究。
智譜公司的AutoGLM,正是其在工具能力上的新研究,也是其AGI實現(xiàn)路徑之一。通過端到端的語音模型,GLM-4-Voice避免了傳統(tǒng)級聯(lián)方案中的信息損失和誤差積累,實現(xiàn)了更高的建模上限。在預(yù)訓(xùn)練方面,智譜將Speech2Speech任務(wù)解耦合為Speech2Text和Text2Speech兩個任務(wù),并設(shè)計了兩種預(yù)訓(xùn)練目標(biāo)來適配這兩種任務(wù)形式。
智譜公司還對AGI進(jìn)行了深入的思考和探索。他們認(rèn)為,盡管多模態(tài)是實現(xiàn)AGI的必經(jīng)之路,但在多模態(tài)模型的研究中,仍需保持科學(xué)的懷疑和驗證精神。目前,多模態(tài)研究仍存在諸多挑戰(zhàn),如不同模態(tài)之間的Gap、如何將不同模態(tài)結(jié)合起來等。
智譜公司的AGI路徑是先聚焦文本大模型的能力提升,然后再逐步擴(kuò)展到圖像、視覺、語音等其他模態(tài)。他們不僅注重單一模態(tài)的單點能力提升,還注重雙模態(tài)、多模態(tài)的結(jié)合。目前,智譜的AGI研究已經(jīng)超越了追趕OpenAI的階段,形成了一套自己的技術(shù)指南和路線圖。
在CNCC現(xiàn)場,智譜公司還透露了其即將推出的生成視頻模型CogVideoX的升級版本CogVideoX-Plus。這一新版本將支持60幀幀率、4K畫質(zhì)、10秒時長、任意比例圖生視頻,并大幅提升運(yùn)動穩(wěn)定性。這一消息無疑為參會者們帶來了更多的期待和驚喜。
盡管距離AGI的實現(xiàn)還有很長的路要走,但智譜公司已經(jīng)在這條路上邁出了堅實的步伐。他們的研究和探索不僅為AGI的發(fā)展提供了新的思路和方向,也為人工智能的未來發(fā)展注入了更多的活力和可能。