言語を使って、ロボットが広範な世界をより理解するために

ロボットが広範な世界をより深く理解するための言語使用

ロボット操作の特徴領域(F3RM)は、自然言語を使用して自由なテキストプロンプトを解釈し、機械が馴染みのないオブジェクトを操作するのを支援します。 ¶ クレジット:Ge Yang et al.

マサチューセッツ工科大学の研究者が設計したロボット操作の特徴領域(F3RM)は、2Dイメージとビジョン基盤モデルを使用して3Dシーンを形成することで、ロボットが近くのオブジェクトを識別して掴むのを支援します。

F3RMは、自然言語を使用して人間からの自由なテキストプロンプトを解釈することで、数千のオブジェクトがある現実世界の状況に適用することができます。

セルフィースティックに取り付けられたカメラは、さまざまなポーズで50枚の2Dイメージを撮影し、ニューラル放射場を構築します。その結果、環境の360度の「デジタルツイン」がレンダリングされます。

F3RMは、コントラスティブ言語-イメージプレトレーニング(CLIP)ビジョン基盤モデルを使用してジオメトリをセマンティックデータで強化し、カメラ撮影の2D CLIP特徴を3D表現に再構築します。

数回のデモンストレーションの後、ロボットは指示されると、幾何学的および意味的な知識を適用して以前に遭遇したことのないオブジェクトを掴み、最もスコアの高いオプションを選択します。 MITニュースから フル記事を見る

要約著作権 © 2023 SmithBucklin、ワシントンD.C.、アメリカ

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

UC BerkeleyとDeepmindの研究者は、SuccessVQAという成功検出の再構成を提案しましたこれは、Flamingoなどの事前学習済みVLMに適したものです

最高のパフォーマンス精度を達成するためには、トレーニング中にエージェントが正しいまたは望ましいトラック上にあるかどう...

コンピュータサイエンス

認知的な燃焼を引き起こす:認知アーキテクチャとLLMの融合による次世代コンピュータの構築

技術はシステムに統合されることで、ブレークスルーとなりますこの記事では、言語モデルを統合する取り組みについて探求し、...

AI研究

イェール大学とGoogle DeepMindの研究者は、大規模な言語モデルに対する高度な微調整技術を使用して数学の問題解決の成功を解き明かしました

“`html 最も先進的な大型言語モデル(LLMs)であるGPT-4やPaLM 2でも、数学の問題を解くのは困難です。なぜなら、それ...

データサイエンス

「AIデータ統合とコンテンツベースのマッピングによる未来のナビゲーション」

この記事では、AIデータ統合とコンテンツベースのマッピングが企業がより良いデータ駆動型の未来を築くのにどのように役立つ...

AIニュース

気候変動との戦いをリードする6人の女性

「私たちは気候科学の先駆者であるユニス・ニュートン・フートと、より持続可能な未来を築く6人の女性主導のGoogle.orgの助成...