本文由騰訊數碼獨家發布
根據谷歌 Brain 人工智能團隊研究員介紹,通過一項名為強化學習的 AI 技術,他們已經可以成功實現讓虛擬機器人重新設計自身身體,導航并跨越障礙物,雖然這個新的技術方案相比常規較為古怪,但無論如何,這也是人工智能領域的一項重大突破。
由于每種生物個體都有自己的體型特征,他們的認知往往會受到自己的形體限制,舉個例子,松鼠的思維過程和解決問題的策略與章魚、大象和海鷗的思考方式就很大不同,而這很大程度上是由他們被賦予的身體所決定的,由此導致了不同的思考和學習方式,谷歌 Brain 的計算機科學和 AI 專家 David Ha 在他的研究論文中提到:“進化在塑造有機體體型來適應生存環境這一過程中扮演了至關重要的角色,大腦也是這個進化過程中的部件之一,因此生物大腦的思考方式也受到形體限制。”
該現象一般來說適應于現實生物界中,那么這個規則對于虛擬的電子領域又是否適合呢?為了搞清這個問題,David Ha 利用強化學習技術進行了一系列實驗,讓虛擬機器人(也被稱為 Walker)可以為了適應環境自動設計并調整自己的身體體型。強化學習是人工智能開發中的重要工具,其可以通過對虛擬機器人的“好”行為得分進行獎勵,從而激勵,引導機器人朝向研究員期望的目標或方向發展。
通過 OpenAI Gym 框架,David Ha 為他的虛擬機器人(Walker)打造了一個模擬環境,該訓練框架看上去與此前傳統的 2D 視頻游戲環境類似,不過其中搭建了更多復雜的虛擬物理環境來模擬自然條件,還可以隨機生成地形和其他游戲元素,其中的主角“ Walker " 則是一個雙足虛擬機器人,其每一條腿都由上下兩部分組成,這個機器人必須學會如何在其虛擬環境中導航,繞過障礙物,并隨著時間的推移和機器學習的引導下逐漸提到其規避障礙物的能力,在去年,DeepMind 的研究人員也進行了一項類似的實驗,其中虛擬機器人必須學會如何從零開始走路,以及通過復雜的公園路線來給自己導航。
與此不同的是,David Ha 的“Walker”機器人還有一個額外的技能,那就是其能夠通過機器學習來重新設計他們的身體形態(至少部分形態),比如,該機器人可以將其四條腿的長度和寬度改變為默認腿部設計最大值的 75%,而其用來維持基本形態的頭部不能改變,且每個每個" Walker" 機器人都搭載了一個電子版本的 LIDAR 的地圖來評估它前面的地形,會以規則的時間間隔向前發射一束薄激光束。
通過強化學習算法,“Walker”虛擬機器人會得到一些關于改進自身體型來適應虛擬環境的建議,研究員會采取激勵手段讓“Walker”學習并采用這些建議來自動調整自己的體型,從而成功適應環境來規避障礙物,強化學習技術大大加快了機器的學習過程,讓機器人自行試驗各種解決方案,而在這些方案中,其中許多都是非常規的和不可預測的人類標準,這也是為什么強化學習如此強大,被許多研究機構都共同采用的原因。
在首次試驗嘗試中,David Ha 將“Walker ” 放置在一個沒有障礙物的平緩起伏地形的 2D 環境里,使用其默認的體型特征方案,我們可以看見機器人首席是采用了一種相當樂觀的跳躍式運動策略,而后經過一段時間的學習后,自行改變了它的腿結構,使它們變得更細和更長,然后根據這些修改后的四肢結構,“Walker ”用它的腿作為彈簧,穩定的快速跳躍跨越地形。
在后來,David Ha 又將地形設計做出了新的改進,讓“Walker ”機器人挑戰布滿各種障礙物的復雜地形,包括上升,下降和跳躍這些動作都需要被考慮到,結果我們發現 “Walker ”在自己的身體設計上有了更加極端的算法改進,它將自己的后肢大大的加長加寬,并在移動時與地面保持水平,以獲得最大強度的穩定性和彈跳能力,成功了跨越了各種障礙物,試驗截止到這里,David Ha 已經看見了增強學習效果非常明顯,虛擬機器人完全可以自動調整形態來適應相關環境。
不過他至此還沒有停止研究,他希望也可以激勵步行者采納一些并不一定對其性能最有益的設計決策,至于這樣做的原因,David Ha :”在真實環境下,我們可能不一定會采用最完美的決策方式,因為有很多其他因素值得我們考慮,比如說,我們可以讓 Walker 學習一種新的體型設計,使用最少的材料獲得最令人滿意的性能。”
基于這樣的考慮,他對 Walker 的雙足設計做出了改進,不再將腳部默認尺寸調整到 75%,而是直接降低到了 8%,讓它們顯得更小,更低也更穩定,這種體型雖然不適合于跨越障礙物,但是對在較為平坦的起伏地形上運動上完全可以勝任,而且相比此前的形體狀態,它大大縮減了自身的體積,減小了材料損耗。
而如果要處理復雜的地形環境,跳躍障礙物,Walker 也能調整出最適合的體型特征,其采用了原腿部尺寸的 27%,其環境適應能力得到了大幅度提升,Ha 在論文中提到:“生物界的‘調整體型來適應環境的特征’也完全可以適用于電子環境,通過增強學習算法,不僅可以讓這些虛擬機器人根據限制性因素調整自己的形態,還可以大大加快其學習能力。”
更為實際的是,這種增強學習應用可以大大幫助機器學習輔助設計,比如設計空氣動力學形狀,在壓力條件下測試材料,或建造超敏捷機器人(有形機器人),也可以幫助提升計算機圖形性能,也可以運用在視頻游戲中,試想一下,如果一個機器人玩家也可以用機器的方式,像人類一樣汲取錯誤經驗,吸收對方的優點長處來提高自己的游戲能力,那么這樣的機器對手相信是很多游戲玩家都無法匹敵的。
最重要的是,采用增強學習技術的虛擬機器人在學習過程中需要最小程度的人工干預,可以盡可能的降低研究員所需的研發時間和精力,而且這些虛擬機器人構想出的許多解決方案都是非常怪異甚至荒謬,總之是人類無法想象的,而這正是關鍵所在,也就是說隨著這些機器學習系統能力的不斷增強,它們或許也會創造出一些人類前所未有的難題,這些高度智能化的難題是否可以由人類專家來解決,我們都還不能確定,更不要說如何全面控制這些高度智能的學習機器。