ITBear旗下自媒體矩陣:

百度推出AI入門必修課系列 7日打卡拿下強(qiáng)化學(xué)習(xí)

   時(shí)間:2020-07-24 16:25:43 來(lái)源:互聯(lián)網(wǎng)編輯:星輝 發(fā)表評(píng)論無(wú)障礙通道

風(fēng)靡一時(shí)的《Flappy Bird》也算是虐遍人類玩家。游戲規(guī)則很簡(jiǎn)單,玩家在游戲時(shí)只需保持小鳥(niǎo)的飛行狀態(tài),并時(shí)刻躲避障礙物防止撞到即可。這個(gè)似乎“有些傻瓜”的游戲卻讓全球玩家欲罷不能,甚至不少玩家為此“爆肝”還難以通關(guān),簡(jiǎn)直憋屈到火冒三丈。然而掌握了技術(shù)流的玩家成功借助AI實(shí)現(xiàn)“反虐”,開(kāi)辟了N種分分鐘通關(guān)路徑。這里用到的正是強(qiáng)化學(xué)習(xí)技術(shù)——機(jī)器具備自動(dòng)糾偏學(xué)習(xí)進(jìn)步的能力!

/var/folders/1d/6yyxw8v903n8gj_69ph6s7k00000gn/T/com.microsoft.Word/WebArchiveCopyPasteTempFiles/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1

(圖:欲罷不能通關(guān)太難的游戲《Flappy Bird》)

AI是靠什么“打敗”人類的?

強(qiáng)化學(xué)習(xí)(Reinforcement Learning)!這是一種基于與環(huán)境互動(dòng)的目標(biāo)導(dǎo)向的機(jī)器學(xué)習(xí)。在強(qiáng)化學(xué)習(xí)中,算法要自行作出決策,它并不需要依靠歷史數(shù)據(jù),只需要理解當(dāng)前場(chǎng)景就足夠。通過(guò)與當(dāng)前場(chǎng)景互動(dòng),算法所做出的決策的相關(guān)性會(huì)逐漸增強(qiáng),就像一個(gè)人一步步經(jīng)歷其各個(gè)學(xué)習(xí)階段不斷成長(zhǎng)一樣,這便是它的“過(guò)人之處”——沒(méi)有懶惰與懈怠,在算法下可以在環(huán)境中持之以恒的學(xué)習(xí),完美演繹“學(xué)霸”的一生。

(圖:強(qiáng)化學(xué)習(xí)與人工智能、深度學(xué)習(xí)等的關(guān)系)

在強(qiáng)化學(xué)習(xí)中,算法被稱為智能體Agent,Agent從環(huán)境中獲取狀態(tài)(state),并決定自己要做出的動(dòng)作(action),環(huán)境會(huì)根據(jù)自身的邏輯給Agent予以獎(jiǎng)勵(lì)(reward),獎(jiǎng)勵(lì)有正向和反向之分。比如在游戲中,擊中一個(gè)敵人就是正向的獎(jiǎng)勵(lì),而掉血或者游戲結(jié)束就是反向的獎(jiǎng)勵(lì),強(qiáng)化學(xué)習(xí)會(huì)根據(jù)試錯(cuò)帶來(lái)的結(jié)果,為下一步的動(dòng)作做出決策。其設(shè)計(jì)靈感源于心理學(xué)中的行為主義理論:有機(jī)體如何在環(huán)境給予的獎(jiǎng)勵(lì)或懲罰刺激下,逐步形成對(duì)刺激的預(yù)期,從而產(chǎn)生能獲得最大利益的習(xí)慣性行為——而這也是人類的自然學(xué)習(xí)路徑。

屏幕快照 2020-07-09 下午7.23.38

(圖:強(qiáng)化學(xué)習(xí)結(jié)構(gòu))

“強(qiáng)化學(xué)習(xí)最有魅力的地方就在于它可以自己學(xué)習(xí)。”百度飛槳6月推出的《強(qiáng)化學(xué)習(xí)7日打卡營(yíng)-世界冠軍帶你從零實(shí)踐》入門強(qiáng)化學(xué)習(xí)的公開(kāi)課中,主講師科科介紹說(shuō):“由于強(qiáng)化學(xué)習(xí)可直接與環(huán)境交互、從中學(xué)習(xí),而非使用人類給的樣本數(shù)據(jù),因此它沒(méi)有AI其他學(xué)習(xí)方式的天花板?;蛟S由此讓它找到比人類更好的方案,在游戲中打敗了人類。”

不過(guò),此時(shí)此刻強(qiáng)化學(xué)習(xí)雖讓機(jī)器擁有了“智能”并在某些領(lǐng)域中打敗了人類,但仍舊離“超越人類”非常遙遠(yuǎn);而我們不能忽視的是,它能為人類創(chuàng)造的價(jià)值與服務(wù)切實(shí)地近在眼前。

(圖:百度飛槳推出入門強(qiáng)化學(xué)習(xí)公開(kāi)課《強(qiáng)化學(xué)習(xí)7日打卡營(yíng)-世界冠軍帶你從零實(shí)踐》)

強(qiáng)化學(xué)習(xí)當(dāng)下正在為人類解決著什么問(wèn)題?

強(qiáng)化學(xué)習(xí)正在快速發(fā)展。那么強(qiáng)化學(xué)習(xí)到底能為我們做點(diǎn)什么呢?科科老師作為百度飛槳強(qiáng)化學(xué)習(xí)PARL團(tuán)隊(duì)核心成員,所在團(tuán)隊(duì)曾兩度奪得NeurIPS強(qiáng)化學(xué)習(xí)賽事世界冠軍以及百度最高獎(jiǎng),她在課程中介紹了一系列強(qiáng)化學(xué)習(xí)“大有可為”的應(yīng)用領(lǐng)域,同時(shí)也指出了此項(xiàng)技術(shù)應(yīng)用的門檻,但是如果企業(yè)能夠掌握強(qiáng)化學(xué)習(xí)這項(xiàng)特技,勢(shì)必帶來(lái)“護(hù)城河”般的核心競(jìng)爭(zhēng)力。

例如,網(wǎng)站或APP的個(gè)性化定制中,去中心化的“預(yù)測(cè)”便可用強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)。在這之中,智能體(Agent)是APP本身,環(huán)境(Environment)是用戶可看見(jiàn)的信息列表與有著復(fù)雜主觀喜好的用戶。APP從信息列表中獲得按照一定順序排列或推薦的狀態(tài)(state)并隨著用戶點(diǎn)擊的正向反饋(+reward)與跳過(guò)、離開(kāi)的負(fù)向反饋(-reward)中學(xué)習(xí),給出更符合用戶喜好的“智能排序”(action)。

(圖:強(qiáng)化學(xué)習(xí)應(yīng)用于網(wǎng)站或APP的個(gè)性化推薦)

又如交通治理中對(duì)于堵車情況的計(jì)算預(yù)判,與調(diào)度疏通;以及在電商營(yíng)銷中對(duì)價(jià)格與供求變化的敏感捕捉與快速分析并給出決策;甚至是股票市場(chǎng)、無(wú)人駕駛等等領(lǐng)域中,強(qiáng)化學(xué)習(xí)對(duì)復(fù)雜與未來(lái)不確定性所呈現(xiàn)出的探索與學(xué)習(xí)能力,或許會(huì)比人類更強(qiáng)。

(圖:強(qiáng)化學(xué)習(xí)的應(yīng)用)

極具吸引力的應(yīng)用前景也引發(fā)了強(qiáng)化學(xué)習(xí)的學(xué)習(xí)熱度。然而相關(guān)課程資源卻很短缺,入門課程偏重理論,技術(shù)門檻太高。所以,兼具理論和應(yīng)用實(shí)踐講解的《強(qiáng)化學(xué)習(xí)7日打卡營(yíng)-世界冠軍帶你從零實(shí)踐》一經(jīng)推出就吸引了大批AI學(xué)習(xí)者。上線幾天內(nèi)就在B站全站學(xué)習(xí)類直播人氣飆升至Top5;課程用到的強(qiáng)化學(xué)習(xí)框架PARL的GitHub賬戶Star快速增長(zhǎng)一倍以上,成為耀眼的千星項(xiàng)目。PARL隨即登上GitHub全球增長(zhǎng)趨勢(shì)榜。課程吸引了來(lái)自美國(guó)、新加坡、德國(guó)、日本等8個(gè)海外國(guó)家華人開(kāi)發(fā)者,以及賓夕法尼亞大學(xué)、佛羅里達(dá)大學(xué)、加州大學(xué)伯克利分校、南安普頓大學(xué)、早稻田等全球頂級(jí)名校的學(xué)生,還包括不少跨學(xué)科的初學(xué)者。

強(qiáng)化學(xué)習(xí)的入門與學(xué)習(xí)路徑是什么?

“面向有基礎(chǔ)的同學(xué),可以拋開(kāi)技術(shù)背景直接講結(jié)論,但是如果針對(duì)零基礎(chǔ)同學(xué)打磨這門課,很多時(shí)候需要有很強(qiáng)的代入感,從他們的角度去考慮內(nèi)容是否好接受,是否過(guò)于理論或過(guò)于脫離理論。”科科老師在課程設(shè)計(jì)時(shí)帶入了自己初學(xué)強(qiáng)化學(xué)習(xí)的心理過(guò)程與探索方式,讓很多初次接觸強(qiáng)化學(xué)習(xí)的同學(xué)也能快速入門。

58歲已退休的人才管理專家及企業(yè)教練郭崇華先生因?yàn)橐恢标P(guān)注強(qiáng)化學(xué)習(xí)而開(kāi)啟了此次課程的學(xué)習(xí)。他在結(jié)課后分享自己的學(xué)習(xí)經(jīng)歷,也給出了一條具有參考性的進(jìn)階路徑。從0到快速跟上強(qiáng)化學(xué)習(xí)的課程,郭崇華將過(guò)往學(xué)習(xí)經(jīng)歷整體分為三段。第一個(gè)階段針對(duì)“不確定性科學(xué)”學(xué)習(xí)方法論,可從概率學(xué)開(kāi)始;第二階段加強(qiáng)統(tǒng)計(jì)學(xué)與分析學(xué)的理解應(yīng)用;而第三階段則是接觸機(jī)器學(xué)習(xí)的基礎(chǔ)知識(shí),對(duì)飛槳深度學(xué)習(xí)框架有了一定了解后此次跟隨《強(qiáng)化學(xué)習(xí)7日打卡營(yíng)》便快速入門了強(qiáng)化學(xué)習(xí)。在完全出于興趣,慣于保持學(xué)習(xí)的郭崇華看來(lái),這門課程的學(xué)習(xí)如行云流水般享受其中。“事實(shí)上,不僅是強(qiáng)化學(xué)習(xí),國(guó)內(nèi)很多AI教育從理論到coding其實(shí)是有斷層的。但這門課的科科老師很好地達(dá)到了理論和實(shí)踐中間的橋梁作用。”郭崇華如是分享到。

未來(lái)的可能性正越來(lái)越多的被掌握技術(shù)的人所優(yōu)先把握。而與此同時(shí),媒體不止一次地指出,當(dāng)前中國(guó)緊缺500萬(wàn)AI人才。為了應(yīng)對(duì)這一點(diǎn),百度這樣的AI頭雁企業(yè)提供了越來(lái)越豐富而實(shí)用的AI學(xué)習(xí)內(nèi)容和路徑,尤顯意義重大。學(xué)習(xí)說(shuō)到底還是個(gè)人的事兒,只要想要學(xué)習(xí),那便是乾坤尚未定,你我皆黑馬!

百度搜索AI Studio進(jìn)入官網(wǎng)訪問(wèn)《強(qiáng)化學(xué)習(xí)7日打卡營(yíng)-世界冠軍帶你從零實(shí)踐》公開(kāi)課及更多AI課程。課程鏈接:https://aistudio.baidu.com/aistudio/course/introduce/1335

舉報(bào) 0 收藏 0 打賞 0評(píng)論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁(yè)  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  網(wǎng)站留言  |  RSS訂閱  |  違規(guī)舉報(bào)  |  開(kāi)放轉(zhuǎn)載  |  滾動(dòng)資訊  |  English Version