NEWS

[AIレビュー] 映像で人工知能がロボットティーチングする!... Facebook AI、オープンソースで公開

2021-02-08    hit . 61223


2021.01.31 00:02

いくつかの視覚的なデモでモデルを学習し、人間の行動を観察した後推論するようにロボットを訓練させた。この方法は物理的なロボットで視覚的なデモを使用して「逆強化学習(Inverse Reinforcement Learning)」を使用…




人達は単純で日常的な仕事を学ぶのにかなり効率的である。例えば、人が何回か課題を見せることを見るだけでも、例えばテーブルの上の瓶をつまみ上げたり、置く方法を学ぶことが出来る。

ロボットもまた、人間のみを観察することで新しい課題を学ぶことが出来る自動化されたロボットが、近い未来には家で家庭用のロボットに日常的な家事をする方法を教えて、職場では新入社員みたいにロボットを訓練させて様々な任務を遂行する方法を見せることが出来ると予想される。


例えば、ティーチング(学習)なく、ロボットに家事をする方法を見せるだけで、ロボットは人間の行動を観察することで食卓を整えるなとのような複雑な仕事を遂行する方法を学ぶ。

MITの研究チームは、去年3月、AI強化学習でこのような類型のロボットが複雑な作業を学習できるようにする「不確実なスペックを持つ計画樹立(Planning with Uncertain Specifications. PUNS)」システムを開発した。
研究チームの ロボットはそのような課題中の一つで、特定な条件下で夕食の食卓を整えることである。

ここに、Facebook AIの研究チームが加勢した。ロボットにこのような方式で学習出来るように教える新しい技術(いくつかの視覚的なデモ)で環境のモデルを学習し、人間の行動を観察した後推論するようにロボットを訓練させた。
この方法は物理的なロボットに視覚的なデモを使用して、モデル基盤「逆強化学習(Inverse Reinforcement Learning. 以下、IRL)」を使用した初めのソリューションで、オープンソースとして1月25日公開した。

IRLを使用した以前の殆どの研究は、シミュレーションで遂行されて、このシミュレーションでロボットはもう周辺の環境を認識し、ロボットの行動が環境をどのように変化させるかを理解する。
AIが物理的な世界の複雑性と騒音に対して学んで適用することはより難しい課題で、この機能はよりスマートで柔軟なAIシステムを構築する重要な段階でもある。

Facebook AI研究チームの今回の成果は、試演と事故教師あり学習技法(=教師なし学習)を混合して、新しい視覚的な力学モデルに重点を置く。
又、政策(Policy)の実行と視覚的なデモの間の距離を最小化して、費用関数を最適化するグラジエント(Gradient)基板のIRLアルゴリズムを導入したことである。

IRLの目的は、政策最適化段階の結果が視覚的なデモと良く一致するように補償関数を学習することである。
これをサンプル効率的な方式で達成するために、モデル基盤IRLはモデルを活用して環境を変更する方法をシミュレーションして最適化する。
しかし、IRLで最も大きいチャレンジ中の一つは補償機能(Reward function)を最適化するのに使える目標を探すことである。補償信号の変化効果は間接的にしか測定できない。

その方法としては第一、新しい環境を学習して、その次は環境の視覚的な変化を予測するためにシミュレーションする必要がある。
第二の段階以後になって予測された視覚的な変化を視覚的なデモと比較できる。そうであれば補償関数の媒介変数をどのようにアップデートして予測された視覚的な軌跡を視覚的なデモにより近く作れるか、との疑問される。

これを解決するためにモデル基盤IRLを二段階の最適化の問題としてみる。最適化の問題は重畳の最適化問題の結果によって変わる外部ループの最適化を特徴とする。
研究チームの場合、外部最適化の段階は補償を適用する。又、内部(仲裁)の最適化段階は、政策を最適化する。
このような方式でIRLを再構成すればグラジエント基盤2段階最適化の進行状況を活用して、
政策の最適化を通じて差別化することで、補償関数(論文: Meta Learning via Learned Loss)を学習することが出来る。

Facebook AI研究チームの需要な要素は、視覚的な観察の変化を予測出来るモデルである。以前の殆どの研究では、このような動的モデル(環境及びロボット)が知られていると仮定するため、
モデルを学習するようにロボットを訓練せざるを得なかった。

このために研究チームは人間の試演とロボットの動作両方で低次元のビジョン機能を抽出する自己教師あり学習(教師なし学習)を使用してキーポイント感知器を訓練した。
その次、ロボットが低次元の機能表現をどのように変更するか予測できるモデルを事前訓練した。

ロボットはもう自体視覚的な力学モデルを使用して、グラジエントトップダウン法を通じて現在の保障機能の最適化が出来た。
この研究はラベリングされたデータに対する依存度を減らして、いくつかの威嚇的なデモから様々な作業を学習するAI構築により近くなった。

AIが学習する方式を改善する段階であることだ。しかし、まだ多くの難題が残っている。次の段階として、研究チームは視覚的な予測モデルをより堅固にする方法を研究している。
又、様々な初め構成と、接近様式を一つのコンテクスト(context)で他のコンテクストに一般化出来る方法を模索している。

研究チームは追加研究を通じてモデル基盤のIRLを使用し、ビデオを観察することだけで広範囲の技術を学習するAIシステムを構築できた。

制限されたデモで学習することは、今日日のAIの最も難しい課題中の一つである。しかしこれは、より知能的なAIシステムを構築するもっとの重要な段階中の一つでもある。
研究チームは自己教師あり学習(教師なし学習)がAIの次の開拓地だと信じている。
自体監督技術を使用して視覚的な力学モデルを訓練するこの方法は、自体監督を前向けで推し進められる重要なテストベッドを提供する。

自己教師あり学習とグラジエント基盤最適化の最先端研究を結合することで、ロボットが兵を動かす方法を明示的に知らせなくても、兵をどのように動かしたらよいかを学習出来ることを確認した。

研究チームは、新しいIRLアルゴリズムはロボットの操作を乗り越えて、AIシステムをより広範囲なサンプル効率性で学習に適用できると述べて、当該研究は「視覚的なデモでモデル基盤の逆強化学習(Model-Based Inverse Reinforcement Learning from Visual Demonstrations)」とのタイトルで1月6日にアーカイブを通じて発表されて、関連AIプラットフォームはオープンソースとしてギットハブに公開した。

*本件についてお問い合わせ事項がございましら、当ホームページの「お申込み/お問い合わせ」か下記の連絡先へご連絡お願いします。
部署名:SEOIL E&M 企画マーケティンググループ
TEL :+82)2-6204-2033
E-mail : pl@seoilenm.com