概要としては、強化学習においてはモデルに仮定をかけたmodel-based、モデルに仮定をかけないmodel-free、2種類のアプローチが存在します。それぞれは、データ効率性、様々な環境に対する適用性に対して長短があります。今回の研究では、ポリシーに制約を加えた上で、それら2種類のアプローチに属するアルゴリズムを統合し、高いデータ効率性と様々な環境に対する高い適用性を同時に達成しました。適用性としてはmodel-freeより高い性能を達成した上で、データ効率性はmodel-basedに匹敵することが示されました。また、統合アルゴリズムをGuided Policy Searchのガイドとして用いることによって、任意のポリシーのモデリングが行えることも示したそうです。 更に、シミュレーションに留まらず、実世界でのロボット実験でも高い性能を達成したようです。
紹介に用いたスライドは以下においておきます。
論文紹介 Combining Model-Based and Model-Free Updates for Trajectory-Centric Reinforcement Learning from Kusano Hitoshi
また、実験結果のビデオは以下の通りです。
0 件のコメント:
コメントを投稿