ITBear旗下自媒體矩陣:

面對(duì)谷歌圍棋AI 人類最后的智力驕傲即將崩塌

   時(shí)間:2016-01-28 09:02:14 來(lái)源:搜狐科技編輯:星輝 發(fā)表評(píng)論無(wú)障礙通道

1997年,國(guó)際象棋AI第一次打敗頂尖的人類;2006年,人類最后一次打敗頂尖的國(guó)際象棋AI。歐美傳統(tǒng)里的頂級(jí)人類智力試金石,在電腦面前終于一敗涂地,應(yīng)了四十多年前計(jì)算機(jī)科學(xué)家的預(yù)言。

至少還有東方,人們自我安慰道。圍棋AI長(zhǎng)期以來(lái)舉步維艱,頂級(jí)AI甚至不能打敗稍強(qiáng)的業(yè)余選手。這似乎也合情合理:國(guó)際象棋中,平均每回合有35種可能,一盤棋可以有80回合;相比之下,圍棋每回合有250種可能,一盤棋可以長(zhǎng)達(dá)150回合。這一巨大的數(shù)目,足以令任何蠻力窮舉者望而卻步——而人類,我們相信,可以憑借某種難以復(fù)制的算法跳過(guò)蠻力,一眼看到棋盤的本質(zhì)。

但是,無(wú)論人怎么想,這樣的局面當(dāng)然不可能永遠(yuǎn)延續(xù)下去。就在今天,國(guó)際頂尖期刊《自然》報(bào)道了谷歌研究者開(kāi)發(fā)的新圍棋AI。這款名為“阿爾法圍棋”(AlphaGo)的人工智能,在沒(méi)有任何讓子的情況下以5:0完勝歐洲冠軍,職業(yè)圍棋二段樊麾。

AlphaGo與歐洲圍棋冠軍樊麾的5局較量。

這是人類歷史上,圍棋AI第一次在公平比賽中戰(zhàn)勝職業(yè)選手。

AlphaGo的戰(zhàn)績(jī)?nèi)绾?

此次比賽和以往不同。之前的比賽中,由于AI棋力比人類弱,人類選手都會(huì)讓子,而且AI主要和業(yè)余段位的棋手比賽。而AlphaGo對(duì)戰(zhàn)樊麾是完全公平的比賽,沒(méi)有讓子。職業(yè)二段樊麾出生于中國(guó),目前是法國(guó)國(guó)家圍棋隊(duì)總教練,已經(jīng)連續(xù)三年贏得歐洲圍棋冠軍的稱號(hào)。

研究者也讓AlphaGo和其他的圍棋AI進(jìn)行了較量,在總計(jì)495局中只輸了一局,勝率是99.8%。它甚至嘗試了讓4子對(duì)陣Crazy Stone,Zen和Pachi三個(gè)先進(jìn)的AI,勝率分別是77%,86%和99%??梢?jiàn)AlphaGo有多強(qiáng)大。

在接下來(lái)3月份,AlphaGo將和韓國(guó)九段棋手李世乭在首爾一戰(zhàn),獎(jiǎng)金是由Google提供的100萬(wàn)美金。李世乭是最近10年中獲得世界第一頭銜最多的棋手。圍棋是最后一個(gè)人類頂尖高手能戰(zhàn)勝AI的棋類游戲。之前有人預(yù)測(cè)說(shuō),AI需要再花十幾年才能戰(zhàn)勝人類。所以這場(chǎng)比賽或許會(huì)見(jiàn)證歷史,我們將拭目以待。

李世乭表示很榮幸自己將與電腦公平對(duì)弈。

“無(wú)論結(jié)果如何,這都會(huì)是圍棋史上極具意義的事件。”他說(shuō),“我聽(tīng)說(shuō)谷歌Deep Mind的AI出人意料地強(qiáng),而且正在變得更強(qiáng)。但我有自信至少這次能贏。”圖片來(lái)源:tygem.com

AI下圍棋到底有多難?

計(jì)算圍棋是個(gè)極其復(fù)雜的問(wèn)題,比國(guó)際象棋要困難得多。圍棋最大有3361 種局面,大致的體量是10170,而已經(jīng)觀測(cè)到的宇宙中,原子的數(shù)量才1080。國(guó)際象棋最大只有2155種局面,稱為香農(nóng)數(shù),大致是1047。

面對(duì)任何棋類,一種直觀又偷懶的思路是暴力列舉所有能贏的方案,這些方案會(huì)形成一個(gè)樹(shù)形地圖。AI只要根據(jù)這個(gè)地圖下棋就能永遠(yuǎn)勝利。然而,圍棋一盤大約要下150步,每一步有250種可選的下法,所以粗略來(lái)說(shuō),要是AI用暴力列舉所有情況的方式,圍棋需要計(jì)算250150種情況,大致是10360。相對(duì)的,國(guó)際象棋每盤大約80步,每一步有35種可選下法,所以只要算3580種情況,大概是10124。無(wú)論如何,枚舉所有情況的方法不可行,所以研究者們需要用巧妙的方法來(lái)解決問(wèn)題,他們選擇了模仿人類大師的下棋方式。

機(jī)器學(xué)習(xí)

研究者們祭出了終極殺器——“深度學(xué)習(xí)”(Deep Learning)。深度學(xué)習(xí)是目前人工智能領(lǐng)域中最熱門的科目,它能完成筆跡識(shí)別,面部識(shí)別,駕駛自動(dòng)汽車,自然語(yǔ)言處理,識(shí)別聲音,分析生物信息數(shù)據(jù)等非常復(fù)雜的任務(wù)。

描述AlphaGo研究成果的論文成為了1月28日的《自然》雜志的封面文章。

AlphaGo 的核心是兩種不同的深度神經(jīng)網(wǎng)絡(luò)。“策略網(wǎng)絡(luò)”(policy network)和 “值網(wǎng)絡(luò)”(value network)。它們的任務(wù)在于合作“挑選”出那些比較有前途的棋步,拋棄明顯的差棋,從而將計(jì)算量控制在計(jì)算機(jī)可以完成的范圍里,本質(zhì)上和人類棋手所做的一樣。

其中,“值網(wǎng)絡(luò)”負(fù)責(zé)減少搜索的深度——AI會(huì)一邊推算一邊判斷局面,局面明顯劣勢(shì)的時(shí)候,就直接拋棄某些路線,不用一條道算到黑;而“策略網(wǎng)絡(luò)”負(fù)責(zé)減少搜索的寬度——面對(duì)眼前的一盤棋,有些棋步是明顯不該走的,比如不該隨便送子給別人吃。將這些信息放入一個(gè)概率函數(shù),AI就不用給每一步以同樣的重視程度,而可以重點(diǎn)分析那些有戲的棋著。

AlphaGo所使用的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖。

AlphaGo利用這兩個(gè)工具來(lái)分析局面,判斷每種下子策略的優(yōu)劣,就像人類棋手會(huì)判斷當(dāng)前局面以及推斷未來(lái)的局面一樣。這樣AlphaGo在分析了比如未來(lái)20步的情況下,就能判斷在哪里下子贏的概率會(huì)高。

研究者們用許多專業(yè)棋局訓(xùn)練AI,這種方法稱為監(jiān)督學(xué)習(xí)(supervised learning),然后讓AI和自己對(duì)弈,這種方法稱為強(qiáng)化學(xué)習(xí)(reinforcement learning),每次對(duì)弈都能讓AI棋力精進(jìn)。然后他就能戰(zhàn)勝冠軍啦!

人類在下棋時(shí)有一個(gè)劣勢(shì),在長(zhǎng)時(shí)間比賽后,他們會(huì)犯錯(cuò),但機(jī)器不會(huì)。而且人類或許一年能玩1000局,但機(jī)器一天就能玩100萬(wàn)局。所以AlphaGo只要經(jīng)過(guò)了足夠的訓(xùn)練,就能擊敗所有的人類選手。

Google DeepMind

Google DeepMind是這個(gè)程序的創(chuàng)造者,我們來(lái)看一下他們萌萌的程序員。

杰米斯·哈薩比斯(Demis Hassabis) 是Google DeepMind 的CEO。

文章的第一作者大衛(wèi)·西爾弗(David Silver)。

Google DeepMind 去年在《自然》雜志上發(fā)表過(guò)一篇論文[2],他們用增強(qiáng)學(xué)習(xí)的方法訓(xùn)練AI玩經(jīng)典的Atari游戲。其實(shí)在幾年前就有人研究如何讓AI玩《星際爭(zhēng)霸》,目前人類大師還是能擊敗AI的。電腦游戲中大量使用人工智能技術(shù),你有沒(méi)有覺(jué)得游戲變得越來(lái)越聰明了?

那么……未來(lái)呢?

人工智能研究者面對(duì)這樣的成就當(dāng)然欣喜。深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)等技術(shù)完全可以用于更廣泛的領(lǐng)域。比如最近很火的精準(zhǔn)治療,我們可以訓(xùn)練它們判斷哪些治療方案對(duì)某個(gè)特定的人有效。

但是,圍棋畢竟不僅僅是一項(xiàng)智力成就。就像十多年前的國(guó)際象棋一樣,圍棋必定也會(huì)引發(fā)超出本領(lǐng)域之外的討論。等到計(jì)算機(jī)能在圍棋上秒殺人類的時(shí)候,圍棋是不是就變成了一種無(wú)聊的游戲?人類的智力成就是不是就貶值了?AI還將在其他層面上繼續(xù)碾壓人類嗎?傳統(tǒng)認(rèn)為AI不可能完成的任務(wù)是否也都將被逐一打破?人類最后是會(huì)進(jìn)入AI烏托邦還是被AI淘汰呢?

沒(méi)人知道答案。但有一點(diǎn)毫無(wú)疑問(wèn):AI一定會(huì)進(jìn)入我們的生活,我們不可能躲開(kāi)。這一接觸雖然很可能悄無(wú)聲息,但意義或許不亞于我們第一次接觸外星生命。

舉報(bào) 0 收藏 0 打賞 0評(píng)論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁(yè)  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  RSS訂閱  |  開(kāi)放轉(zhuǎn)載  |  滾動(dòng)資訊  |  爭(zhēng)議稿件處理  |  English Version