UCサンタクルーズとSamsungの研究者が、ナビゲーションの決定にChatGPTのようなLLM(言語モデル)で共通センスを活用するゼロショットオブジェクトナビゲーションエージェントであるESCを紹介しました

UC Santa Cruz and Samsung researchers introduced ESC, a zero-shot object navigation agent that utilizes common sense with LLM (Language Model) like ChatGPT for navigation decision-making.

オブジェクトナビゲーション(ObjNav)は、未知の環境で物理エージェントを事前に決められた目的のオブジェクトに案内するものです。目的のオブジェクトにナビゲートすることは、他のナビゲーションベースのエンボディドタスクにおいて重要な前提条件となります。

環境内の部屋とオブジェクトを識別する(意味的なシーン理解)ことと、コモンセンスの推論を使用して目標オブジェクトの場所を推測する(コモンセンス推論)ことは、成功したナビゲーションに不可欠な2つのスキルです。しかし、現在のゼロショットオブジェクトナビゲーション手法は、コモンセンスの推論能力に欠けており、この要件に十分に対応していません。既存の手法は、探索に対して単純なヒューリスティックを使用するか、他の目標指向型ナビゲーションタスクや周囲のトレーニングを必要とします。

最近の研究は、大規模な事前学習モデルがゼロショット学習と問題解決に優れていることを示しています。この知見に触発され、カリフォルニア大学サンタクルーズ校とサムスン研究は、Exploration with Soft Commonsense constraints(ESC)と呼ばれるゼロショットオブジェクトナビゲーションフレームワークを提案しました。このフレームワークは、事前学習済みモデルを使用して、馴染みのない設定やオブジェクト種に自動的に適応します。

チームはまず、GLIPというビジョンと言語のグラウンディングモデルを使用して、現在のエージェントの視点のオブジェクトと部屋の情報を推測するためのプロンプトベースの手法として利用します。GLIPは、画像とテキストのペアに対する広範な事前学習により、最小限のプロンプティングで新しいオブジェクトに対して容易に一般化することができます。次に、部屋とオブジェクトのデータをコンテキストとして使用する事前学習済みのコモンセンス推論言語モデルを使用して、両者の関連性を推測します。

しかし、LLMから推論されたコモンセンス知識を具体的な手順に変換する際には、まだ空白があります。また、物事のつながりの間にあるある程度の不確実性があることも珍しくありません。確率的ソフトロジック(PSL)を使用することで、このような障害を克服するために、「ソフト」コモンセンス制約をモデル化するESCのアプローチが使用されます。フロンティアベースの探索(FBE)は、これらの柔らかいコモンセンス制約を使用して、次の探索対象のフロンティアに焦点を当てる従来の戦略です。以前のアプローチでは、共通の感覚を暗黙的に刷り込むためにニューラルネットワークトレーニングに頼っていましたが、提案された手法では、ソフトロジック述語を使用して連続値空間で知識を表現し、それを各フロンティアに与えることで、より効率的な探索を促進します。

システムの効果をテストするために、研究者たちはさまざまな家のサイズ、建築スタイル、テクスチャ特徴、オブジェクトタイプを持つ3つのオブジェクト目標ナビゲーションベンチマーク(MP3D、HM3D、RoboTHOR)を使用します。調査結果は、MP3DではCoWに比べてSPL(長さによる重み付けされたSPL)およびSR(成功率)で約285%、RoboTHORでは約35%とSR(成功率)でアプローチが優れていることを示しています。この手法は、HM3Dのデータセットでのトレーニングを必要とするZSONと比較して、MP3Dでは相対的なSPLで196%、HM3Dでは相対的なSPLで85%優れています。提案されたゼロショットアプローチは、MP3Dデータセットにおいて他の最先端の教師ありアルゴリズムと比較して最も高いSPLを達成しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

シンボルの調整は言語モデルの文脈における学習を向上させます

Google Researchの学生研究者であるJerry Weiと主任科学者のDenny Zhouによって投稿されました。 人間の知性の重要な特徴の一...

機械学習

機械学習エンジニアのためのLLMOps入門ガイド

イントロダクション OpenAIのChatGPTのリリースは、大規模言語モデル(LLM)への関心を高め、人工知能について誰もが話題にし...

AI研究

「イェール大学とGoogleの研究者が、効率的な長距離シーケンス処理のために大規模言語モデルを迅速に加速する近似Attentionメカニズム、HyperAttentionを紹介する」という文章です

大規模言語モデルの急速な進歩により、チャットボットから機械翻訳までの幅広いアプリケーションが可能になりました。ただし...

機械学習

「LlamaIndex vs LangChain 比較分析」

はじめに Large Language Models(LLM)には、GPT-3などがありますが、研究者や開発者は常にその機能を向上させる新しい方法...

AIニュース

「AIが空中戦にロボットの相棒をもたらす」

人工知能(AI)は、アメリカ空軍の無人のXQ-58A ヴァルキリー実験機を操作しています軍はこれを従来の戦闘機の次世代のロボッ...

機械学習

説明可能AI(XAI)

こんにちは、テクノフィルと好奇心旺盛な皆さん人工知能の本の次の章へようこそ人工知能の謎に更に深く入り込んでいきましょ...