ITBear旗下自媒體矩陣:

NeurIPS 2019強化學習賽事:從肌肉控制仿生人 百度PARL再奪桂冠

   時間:2019-11-04 14:56:51 來源:互聯(lián)網(wǎng)編輯:星輝 發(fā)表評論無障礙通道

機器學習領(lǐng)域頂級會議 NeurIPS 2019 將于 12 月 8 日-14 日在加拿大溫哥華開幕。不久之前,大會公布了論文評審結(jié)果,今年大會共收到 6743 份有效論文,接收了1428篇,錄取率為21.17%。

作為國內(nèi)最早投身 AI 領(lǐng)域的科技巨頭,百度今年有多篇論文入選。

此外,會議主辦的 NeurIPS 2019: Learn to Move 強化學習賽事落下帷幕,百度繼 2018 年奪得冠軍后再度蟬聯(lián)冠軍。本次比賽的難度非常大,在參賽的近 300 支隊伍中,僅有 3 支隊伍完成了最后挑戰(zhàn)。百度基于飛槳的強化學習框架 PARL 不僅成功完成挑戰(zhàn),還大幅領(lǐng)先第二名 143 分。顯而易見,百度在強化學習領(lǐng)域占據(jù)了明顯的優(yōu)勢,冠軍含金量頗高。

強化學習框架 PARL:https://github.com/PaddlePaddle/PARL

data:image/gif;base64,iVBORw0KGgoAAAANSUhEUgAAAAEAAAABCAYAAAAfFcSJAAAADUlEQVQImWNgYGBgAAAABQABh6FO1AAAAABJRU5ErkJggg==

近年,隨著機械設計以及動力學控制技術(shù)的發(fā)展,仿生機器人正取得不斷的進步。比如近來波士頓動力(Boston Dynamics)發(fā)布的機器人會跑步,會拉貨車,甚至還會“反擊”人類,而控制這些機器人的主要節(jié)點是動力學關(guān)節(jié)。

相比于鋼鐵造就、機械控制的機器人,人體的復雜程度有過之而無不及。探索和理解人體自身是人類的終極目標之一。人體內(nèi)有206塊骨骼、639塊肌肉,正是對這些骨骼和肌肉的精細控制,造就了人類出色靈活的運動能力和平衡保持能力。近年來有很多研究希望了解人體的運動機制,甚至端到端地從肌肉層面直接學習控制仿生人體。針對人體控制這樣復雜的場景,強化學習(Reinforcement Learning)是重要的研究手段。

強化學習是機器學習的范式和方法論之一,用于描述和解決智能體(agent)在與環(huán)境的交互過程中,通過學習策略以達成回報最大化或?qū)崿F(xiàn)特定目標的問題。但直接使用強化學習,仍然非常困難。其中一個原因在于,人體控制的解空間實在太大了!高達兩百多維度的連續(xù)狀態(tài)空間,非常復雜,一般的強化學習算法完全無法奏效。正因為如此,誕生了很多以控制人體為目標的研究和比賽,吸引著各路高手一決雌雄。

NeurIPS: Learn to Move 強化學習賽事的誕生正意在于此。該賽事由斯坦福仿生動力學實驗室舉辦,比賽采用斯坦福國家醫(yī)學康復研究中心研發(fā)的 Opensim 人體骨骼高仿模型。參賽者需要根據(jù)該模型中多達 100 多維以上的狀態(tài)描述特征,來決定模型肌肉的信號,控制模型的肌體行走。

該挑戰(zhàn)賽創(chuàng)辦于 2017 年,今年是第三年舉辦。2017 年第一次挑戰(zhàn)賽上,比賽規(guī)則圍繞誰能讓模型肌體行走速度最快,2018 年賽事將整個模型運動控制從 2D 改為 3D 外,還引入帶有假肢的模型,而今年比賽難度再次提升。

據(jù)悉,賽事分為2 輪,首輪主要是增加了實時的速度變換要求,而真正的挑戰(zhàn)集中在第 2 輪,參賽選手僅有短短2周時間來完成任務。這一輪不僅要求實時切換速度,而且是360° 范圍調(diào)整行走方向,更增加了模型控制難度。由于實際狀態(tài)空間和動作空間稠密并且非常大,導致基于強化學習的算法無法準確把握模型肌體的行走姿勢。

盡管每年的賽事難度都在增加,但今年的百度仍取得了優(yōu)異成績。據(jù)了解,在百度的最優(yōu)解決方案中,甚至出現(xiàn)了一些普通人也難以做到的動作,如從立定狀態(tài)突然平順地向后轉(zhuǎn)向并且同時以要求的速度行走,而且這個過程需要全程保持穩(wěn)定不會摔倒。

百度能夠在此次賽事中取得優(yōu)異表現(xiàn)、蟬聯(lián)冠軍的主要因素是在于訓練機制、通用算法庫、迭代效率三個方面長足的技術(shù)積累。

首先,百度構(gòu)建了「課程學習」的訓練機制,先從高速奔跑中學習姿態(tài),再逐步降速提升行走穩(wěn)定性,從而學到了一個和人類極為相似的行走姿態(tài)。根據(jù)歷屆參賽選手提供的行走視頻來看,百度通過這種方法學習出來的行走姿勢是最為自然的,接近真實人類行走姿勢的。這個行走姿勢不僅可以維持人體的平衡性,還可以靈活地應付各種速度大小、角度的變化。

其次,百度采用了自主研發(fā)的強化學習框架 PARL。通過復用通用算法庫里面已經(jīng)實現(xiàn)好的算法,參賽選手得以很快地在不同算法間切換,保持了高效的迭代頻率。PARL 的算法庫涵蓋了經(jīng)典的連續(xù)控制算法 Reinforce,以及主流的 DDPG/PPO 等算法,到最前沿的 model-based 等相關(guān)算法。盡管算法庫包含了各種類型的復雜算法,但是其接口是相當簡單的,基本上是 import 即可用的方式。

最后,百度基于PARL提供的高效靈活的并行化訓練能力進行強化學習訓練,使得訓練效率得以數(shù)百倍地提升。PARL 的并行接口的設計思想是用 python 的多線程代碼實現(xiàn)真正意義上的高并發(fā),參賽選手只需要寫多線程級別的代碼,然后加上PARL的并行修飾符就可以調(diào)度不同機器的計算資源,達到高并發(fā)的性能。

而此次獲得冠軍的百度「PARL」,名字來源于 PaddlePaddle Reinforcement Learning,是基于百度飛槳(PaddlePaddle)研發(fā)的靈活高效的強化學習框架。PARL 應用了百度多年來在強化學習領(lǐng)域的技術(shù)深耕和產(chǎn)品應用經(jīng)驗,具有更高的可擴展性、可復現(xiàn)性和可復用性,強大的大規(guī)模并行化支持能力。開發(fā)者可以通過 PARL 用數(shù)行代碼定制自己的模型,一個修飾符就能實現(xiàn)并行。此外,PARL 代碼風格統(tǒng)一,包含了多個入門級別的強化學習算法,對初學者相當友好。

事實上百度對強化學習的關(guān)注始于 2012 年,當時的百度就已經(jīng)將多臂老虎機 (Multi-armed bandit) 的研究結(jié)果應用在百度搜索和推薦等產(chǎn)品和功能上,此后,強化學習相繼落地在了度秘,鳳巢,新聞 Feed 推薦以及越來越多的相關(guān)產(chǎn)品中。

今年 1 月,百度正式發(fā)布了深度強化學習框架 PARL,更強勁的強化學習能力也正在通過飛槳平臺賦能給更多開發(fā)者。

舉報 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  網(wǎng)站留言  |  RSS訂閱  |  違規(guī)舉報  |  開放轉(zhuǎn)載  |  滾動資訊  |  English Version