近日,科技界迎來了一則振奮人心的消息:谷歌DeepMind實驗室的人工智能系統(tǒng)AlphaGeometry2,在攻克國際數(shù)學奧林匹克競賽(IMO)中的幾何難題方面,取得了令人矚目的成就。據(jù)悉,該系統(tǒng)的解題能力甚至超越了歷年的金牌平均水平。
AlphaGeometry2是DeepMind在今年早些時候推出的AlphaGeometry系統(tǒng)的升級版。據(jù)DeepMind研究人員最新發(fā)布的論文顯示,該系統(tǒng)能夠解答過去25年間國際數(shù)學奧林匹克競賽中84%的幾何題目。國際數(shù)學奧林匹克競賽作為全球頂尖的高中生數(shù)學賽事,其難度不言而喻。而DeepMind認為,探索解決復雜幾何問題的新方法,可能是推動人工智能向更高層次發(fā)展的關(guān)鍵。
數(shù)學定理的證明或邏輯解釋,往往需要深厚的推理能力和從眾多可能性中挑選最佳解題路徑的智慧。DeepMind的這一發(fā)現(xiàn),預示著這些解題技能或?qū)⒊蔀槲磥硗ㄓ萌斯ぶ悄苣P筒豢苫蛉钡囊徊糠帧Hツ晗奶?,DeepMind曾展示了一個結(jié)合AlphaGeometry2與AlphaProof(一種專注于形式化數(shù)學推理的AI模型)的系統(tǒng),該系統(tǒng)在2024年國際數(shù)學奧林匹克競賽中成功解答了6個問題中的4個,展現(xiàn)出了強大的解題實力。
AlphaGeometry2的核心組件包括谷歌Gemini系列AI模型中的語言模型以及一個“符號引擎”。Gemini模型與符號引擎協(xié)同工作,后者依據(jù)數(shù)學規(guī)則推導出問題的解決方案,并為幾何定理提供確鑿的證明。然而,由于將證明轉(zhuǎn)化為AI可理解格式的挑戰(zhàn)性,以及幾何訓練數(shù)據(jù)的稀缺性,DeepMind為AlphaGeometry2的語言模型專門創(chuàng)建了合成數(shù)據(jù),生成了超過3億個不同復雜度的定理和證明。
為了驗證AlphaGeometry2的解題能力,研究團隊從過去25年的國際數(shù)學奧林匹克競賽中精心挑選了45個幾何問題,涵蓋線性方程和需要在平面上操作幾何對象的題目,并將其擴展為一個包含50個問題的更大集合(部分問題因技術(shù)原因被拆分為兩個)。據(jù)論文記載,AlphaGeometry2成功解答了其中的42個問題,得分超越了平均金牌得主的40.9分。
盡管AlphaGeometry2取得了顯著成就,但它也面臨著一些局限性。特別是,一個技術(shù)問題導致該系統(tǒng)無法處理涉及可變數(shù)量點、非線性方程和不等式的問題。雖然AlphaGeometry2并非首個在幾何問題上達到金牌水平的AI系統(tǒng),但它是首個在如此廣泛的問題集上實現(xiàn)這一壯舉的系統(tǒng)。
在另一組更具挑戰(zhàn)性的國際數(shù)學奧林匹克競賽題目測試中,AlphaGeometry2的表現(xiàn)同樣有所保留。DeepMind團隊額外挑選了29個由數(shù)學專家提名但尚未出現(xiàn)在比賽中的難題,而AlphaGeometry2僅成功解答了其中的20個。盡管如此,AlphaGeometry2的成就仍然為人工智能在數(shù)學領(lǐng)域的應(yīng)用開辟了新的道路。