DeepMindの研究者たちは、正確な数学的定義を用いて、連続した強化学習を再定義しました

DeepMindの研究者は連続した強化学習を再定義しました

深層強化学習(RL)の最近の進展により、人工知能(AI)エージェントがさまざまな印象的なタスクで超人的なパフォーマンスを発揮しています。これらの結果を達成するための現在のアプローチは、主に興味のある狭いタスクをマスターする方法を学習するエージェントを開発することに従っています。未訓練のエージェントはこれらのタスクを頻繁に実行する必要があり、単純なRLモデルでも新しいバリエーションに一般化する保証はありません。それに対して、人間は生涯を通じて知識を獲得し、新しいシナリオに適応するために一般化します。これを連続的な強化学習(CRL)と呼びます。

RLにおける学習の視点は、エージェントがマルコフ環境と対話して最適な行動を効率的に特定することです。最適な行動の探索は学習の一点で停止します。たとえば、よく定義されたゲームをプレイしていると想像してください。ゲームをマスターしたら、タスクは完了し、新しいゲームシナリオについて学習することはありません。学習を解決策の発見ではなく、終わりのない適応として見る必要があります。

連続的な強化学習(CRL)はそのような研究を含みます。これは監督された終わりのない継続的な学習です。DeepMindの研究者は、エージェントを2つのステップで明示的に理解します。1つは、すべてのエージェントを行動の集合上で暗黙的に検索していると理解し、もう1つはすべてのエージェントが検索を続けるか、最終的に行動の選択肢で停止するという考え方です。研究者は、エージェントに関連する2つの生成子を生成到達演算子として定義します。この形式主義を使用して、彼らはCRLをすべてのエージェントが検索を停止しないRL問題として定義します。

ニューラルネットワークの構築には、要素の重みの任意の割り当てと、基盤のアクティブな要素の更新のための学習メカニズムが必要です。研究者は、CRLではネットワークのパラメータ数は構築できるものに制約され、学習メカニズムは基盤の無制約な検索方法ではなく確率的勾配降下法と考えることができます。ここで、基盤は任意ではありません。

研究者は、振る舞いの表現として機能する関数のクラスを選択し、経験に応じて望ましい方法で反応するための特定の学習ルールを利用します。関数のクラスの選択は、利用可能なリソースやメモリに依存します。確率的勾配降下法は、現在の基盤の選択肢を更新してパフォーマンスを向上させます。基盤の選択は任意ではありませんが、これにはエージェントの設計および環境によって課せられる制約も含まれます。

研究者は、学習ルールのさらなる研究が新しい学習アルゴリズムの設計を直接変更することができると主張しています。継続的な学習ルールの特徴付けにより、継続的な学習エージェントの収穫が保証され、基本的な継続的な学習エージェントの設計をガイドするためにさらに利用できます。彼らはまた、可塑性損失、インコンテキスト学習、および壊滅的な忘却などのさらなる手法の調査を意図しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

「AIオバマ」とフェイクニュースキャスター:AIオーディオがTikTokを席巻する方式

TikTokアカウントは、A.I.によって生成された声の助けを借りて誤情報を拡散しています

人工知能

「オープンソースツールを使用して、プロのように音声をクローンし、リップシンク動画を作る方法」

紹介 AI音声クローンはソーシャルメディアで大流行しています。これにより、創造的な可能性が広がりました。ソーシャルメディ...

コンピュータサイエンス

シリコンバレー、『シンギュラリティ』が現実になっているという考えに直面する

人工知能に対する熱狂が、技術が暴走する長年待ち望まれた瞬間を迎える可能性があるあるいは、それは誇大広告が制御を失って...

データサイエンス

研究者たちは、複雑なシステムを正確にシミュレーションするためのツールを作成しました

彼らが開発したシステムは、シミュレーションにおけるバイアスの源を排除し、アルゴリズムの改善につながり、アプリケーショ...

機械学習

「生成AIをめぐる旅」

私の豊富な経験に深く踏み込んで、全力でGenerative AIを受け入れ、あなたが利益を得るために活用できる貴重な洞察と知識を得...

AI研究

天候の変化:AI、高速計算がより速く、効率的な予測を提供することを約束します

2050年までに、極端な天候や気候の頻度と厳しさが増すことにより、ミュンヘン再保険会社によれば、年間100万人の命が失われ、...