このPythonライブラリ「Imitation」は、PyTorchでの模倣と報酬学習アルゴリズムのオープンソース実装を提供します

This Python library Imitation provides open-source implementations of imitation and reward learning algorithms in PyTorch.

明確な報酬関数が定義されたゲームのような領域では、強化学習(RL)は人間のパフォーマンスを上回っています。残念ながら、現実世界の多くのタスクでは報酬関数を手続き的に設計することは困難か不可能です。代わりに、ユーザーフィードバックから報酬関数やポリシーを即座に吸収する必要があります。さらに、ゲームでエージェントが勝つ場合など、報酬関数を定式化できたとしても、RLが効果的に解くためには、得られる目標がよりスパースになる必要がある場合があります。そのため、RLの最先端の結果では、しばしば模倣学習がポリシーの初期化に使用されます。

本記事では、7つの報酬と模倣学習アルゴリズムの優れた、信頼性の高い、モジュラーな実装を提供するライブラリであるimitationについて説明します。重要なことは、彼らのアルゴリズムのインターフェースが一貫しているため、さまざまな方法をトレーニングして比較することが容易になることです。また、PyTorchやStable Baselines3などの最新のバックエンドを使用してimitationを構築しています。それに対して、以前のライブラリは複数のアルゴリズムをサポートしていることが多く、更新されていないことがあり、時代遅れのフレームワークで構築されていました。imitationは実験のベースラインとして多くの重要なアプリケーションを持っています。以前の研究によると、模倣学習アルゴリズムの実装の細かい部分はパフォーマンスに大きな影響を与えることがあります。

imitationは、信頼性のあるベースラインを提供するだけでなく、新しい報酬と模倣学習アルゴリズムの作成プロセスを簡素化することを目指しています。不適切な実験ベースラインを使用すると、誤って肯定的な結果が報告される可能性があります。彼らの技術は慎重にベンチマーク化され、この困難を克服するために以前のソリューションと比較されています。また、彼らは静的型チェックを実施し、コードの98%をカバーするテストを行っています。彼らの実装はモジュラーであり、コードを変更せずに報酬またはポリシーネットワークのアーキテクチャ、RLアルゴリズム、およびオプティマイザを柔軟に変更することができます。

必要なメソッドをサブクラス化してオーバーライドすることで、アルゴリズムを拡張することができます。また、imitationはロールアウトの収集などのルーチンな活動に取り組むための実用的な方法を提供しており、完全に新しいアルゴリズムの作成を促進します。PyTorchやStable Baselines3などの最先端のフレームワークを使用してモデルが構築されているという利点もあります。これに対して、現在の模倣学習や報酬学習アルゴリズムの多くは数年前に公開され、最新の状態に保たれていません。これは、GAILやAIRLのコードベースなど、元の論文と一緒に提供される参照実装に特に当てはまります。

他のアルゴリズムとの模倣比較

しかし、Stable Baselines2などの人気のあるライブラリももはやアクティブに開発されていません。上記の表では、さまざまな指標で代替ライブラリを比較しています。模倣学習と報酬学習アルゴリズムのすべての実装を含めることはできませんが、この表は彼らの知識に基づいて広く使用されている模倣学習ライブラリをすべて含んでいます。彼らは、模倣学習がすべての指標で他の選択肢と同等または優れていることを発見しています。APRelスコアは高く評価されていますが、低次元の特徴から学習する好み比較アルゴリズムに重点を置いています。これは、モデルとは補完的であり、より広範なアルゴリズムを提供し、実装の複雑さを増す代わりにスケーラビリティを重視しています。PyTorchの実装はGitHubで見つけることができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Related articles

Discover more

AI研究

マイクロソフトリサーチは、競合モデルよりも大幅に小さいサイズで、Pythonコーディングに特化した新しい大規模言語モデルphi-1を紹介しました

トランスフォーマーのデザインが発見されて以来、大規模な人工ニューラルネットワークのトレーニングの技術は飛躍的に進歩し...

機械学習

「FC-CLIPによる全局セグメンテーションの革新:統一された単一段階人工知能AIフレームワーク」

イメージセグメンテーションは、画像を意味のある部分や領域に分割する基本的なコンピュータビジョンのタスクです。 それは、...

人工知能

「DIRFAは、オーディオクリップをリアルなデジタル顔に変換する」

人工知能とマルチメディアコミュニケーションの進歩の中で、シンガポールの南洋理工大学(NTU Singapore)の研究チームが画期...

AIニュース

「Amazon Kendraを使用して、Adobe Experience Managerのコンテンツを賢く検索する」

この投稿では、Amazon Kendra AEMコネクタを設定してコンテンツをインデックス化し、AEMのアセットとページを検索する方法を...

人工知能

「物理的な制約が脳のようなAIの進化を促す」

画期的な研究において、ケンブリッジの科学者たちは人工知能に対して新たなアプローチを取り、物理的な制約がAIシステムの発...

AI研究

このQualcomm AI ResearchのAIペーパーは、EDGIを公開しました:先進的なモデルベースの強化学習と効率的な計画のための画期的な不変拡散器

あらゆるところに対称性があります。物理学の普遍的な原則は、空間と時間の両方において成り立ちます。空間座標が変換、回転...