「GoogleのRT-2 AIモデルに会いましょう – 人間のように学ぶロボット」

Meet Google's RT-2 AI model - a robot that learns like a human.

ニューラルネットワークは人間の脳の働きに触発されていますが、完全に同じわけではありません。しかし、Googleの新しいRT-2モデルが約束どおりに機能するとすれば、人間のようなAIへの大きな一歩となるかもしれません。GoogleのDeepMindが紹介したこのモデルは、ウェブとロボットのデータの両方から学習し、この獲得した知識をロボットの制御のための一般的な命令に変換します。

要するに、目標は人間とロボットの間のコミュニケーションの橋を築くことですが、それだけではありません。実行によって教えるのです。では、RT-2とは具体的には何でしょうか?チームによると、それはビジョン・ランゲージ・アクション(VLA)モデルです。トランスフォーマーベースの技術を使用して開発され、ウェブからスクレイピングしたテキストと画像データの両方でトレーニングされました。

彼らの投稿では、トレーニングについて次のように述べています。「RT-2は、1つ以上の画像を入力として受け取り、通常は自然言語テキストを表すトークンのシーケンスを生成するVLMをベースに構築されます… 私たちはPathways Language and Image model(PaLI-X)とPathways Language model Embodied(PaLM-E)をRT-2のバックボーンとして適応させました。」。

これまではあまり興味深くありませんでした。しかし、RT-2の革新はロボットのトレーニング能力にあります。このモデルはウェブデータ、概念、一般的なアイデアを取り入れ、その知識をロボットの行動に反映させることで、ロボットのトレーニングに役立ちます。しかし、RT-2はどのようにしてタスクにトレーニングされたのでしょうか?

Googleの投稿によれば、「各タスクでは、視覚的な意味の概念を理解し、これらの概念上でロボット制御を実行する能力が必要でした。例えば、「テーブルから落ちそうなバッグを拾ってください」といったコマンドや、「バナナを2プラス1の合計に移動させてください」といったコマンドは、ロボットがロボットデータでは見たことのないオブジェクトやシナリオに対して操作タスクを実行するために、ウェブベースのデータから翻訳された知識が必要でした。」。

本質的には、これによってロボットが人間の操作言語を理解し、話すことができるようになります。そして、これは複雑なタスクとロボットの関係が長い間問題となってきたため、困難な課題でした。ロボットが対処しなければならない物理的な変数があり、チャットボットとは異なるものです。

これにより、ロボットが抽象的な概念やアイデアに基づいて基盤を築く必要があります。多くの人気のあるAIプログラムはこれを心配する必要がありません。上記のように、環境のより良い理解を提供するモデルの助けを借りることで、AIの進歩によってロボット工学が恩恵を受けていることがわかります。

これにより、周囲に関連する数十億のデータポイントを必要とする従来のロボットトレーニングの方法が置き換えられる可能性があります。これは時間のかかる作業であり、リソースを消費するものでした。したがって、RT-2の知識と概念をロボットデバイスに転送できる能力により、適応性のあるロボット技術へのさらなる推進が期待されます。

そして、視覚モデリングの進歩により、AIのおかげでロボット技術が急速に進歩し続けることが期待されます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

昆虫サイボーグ:精密な動きに向けて

研究者たちは、スティック昆虫の脚の筋肉における電気刺激が、ハイブリッド昆虫コンピュータロボットの精密なモーターコント...

データサイエンス

「NASAのPower APIを使用して気候GPTを作成する」

この記事では、OpenAIの新しいGPT機能について探求しますこの機能は、外部のAPIを自動的に呼び出してデータを取得し、コード...

機械学習

「CLAMPに会ってください:推論時に新しい実験に適応できる分子活性予測のための新しいAIツール」

数十年にわたり、化学構造に基づいて分子の化学的、巨視的、または生物学的な特性を予測するタスクは、重要な科学的な研究課...

機械学習

「Amazon Kendraを使用した知的にDrupalコンテンツを検索する」

「Amazon Kendra(アマゾン ケンドラ)は、機械学習(ML)によって動作するインテリジェントな検索サービスですAmazon Kendra...

AI研究

中国からのニューエーアイ研究は、GLM-130Bを紹介しますこれは、13兆のパラメータを持つバイリンガル(英語と中国語)のプリトレーニング言語モデルです

最近、大規模言語モデル(LLM)のゼロショットおよびフューショットの能力は大幅に向上し、100Bパラメータ以上を持つモデルは...

機械学習

「AWSは、人工知能、機械学習、生成AIのガイドを提供しており、AI戦略を計画するための新しい情報を提供しています」

人工知能(AI)と機械学習(ML)のブレークスルーは、数ヶ月間の間、見出しを賑わせてきました - そしてその理由は十分にある...