ETH官方钱包

前往
大廳
主題

紅蓮人偶與Stacked系列研究

夏洛爾 | 2023-09-20 17:19:14 | 巴幣 0 | 人氣 81

關於更高的觀察項Stacked Vector是否能給予紅蓮人偶新的訓練方案,尤其是否能達成蹲低跳高或多任務的行為模式,大致有了結論

PPO:
目前研究結果可以認為,只要無法被Localized和Gait,PPO訓練就幾乎肯定會以失敗告終

因此如果將觀察項Stacked調高,原本可以成功的PPO訓練反而會失敗,因為當成功的過程其實可以完全不同,有很多可能性 (例如起身的方式),PPO反而無法建立Localized

在Stacked=1的時候,紅蓮人偶等同只觀察當下,因此可以和之前或之後的當下形成Gait
可以認為能將多元的當下,連結與收斂到單一的Gait,例如PPO訓練成功的KSL,總會藉由翻身到背面再由尾巴支撐來起身

但當Stacked=10的時候,紅蓮人偶等同能夠觀察到過程,因此就算當下相同,但不同的過程會導致PPO認為這是不一樣的現狀,導致難以形成Gait

驗證方式是當以完全隨機的方式,擊飛Stacked=10的KSL,KSL最終會以一個幾乎不動的方式擺爛
但如果只以單一方式擊飛stacked=10的KSL,KSL則學會了後手翻這種高等行為模式

但也因此導出一個結論,一個PPO只能展現一種Gait,只要無法被Localized和Gait,PPO訓練就幾乎肯定會以失敗告終


SAC:
目前研究結果可以認為,更高的Stacked可以大幅優化ML的表現

在Stacked=1的時候,訓練出的人偶都無法展現很好的連續動作,幾乎所有由SAC訓練的紅蓮人偶都以失敗告終
但在Stacked=10的時候,KSL展現了多元的起身方式

因此可以認為能觀察到「更完整的過程」反而讓SAC能夠更好的判斷一個動作對於結果的有效性

創作回應

更多創作