このAI論文は、大規模なビジョン・ランゲージ・ナビゲーション(VLN)トレーニングのための効果的なパラダイムを提案し、パイプライン内の各コンポーネントの影響を定量的に評価しています

This AI paper proposes an effective paradigm for large-scale Vision-Language Navigation (VLN) training and quantitatively evaluates the impact of each component in the pipeline.

ビジュアルナビゲーションの学習のために、いくつかの人間のデモが収集され、最近の巨大なデータセットには数百の対話的なシナリオが含まれており、エージェントのパフォーマンスの大幅な改善につながっています。ただし、このような大規模なトレーニングを行うには、ナビゲーショングラフの構築方法、破損したレンダリングされた画像の復元方法、およびナビゲーション指示の生成方法など、いくつかの重要なサブ問題を解決する必要があります。これらすべてが収集されたデータの品質に大きな影響を与えるため、徹底的に探求されるべきです。

大規模なデータを効率的に活用し、ナビゲーションエージェントのトレーニングに適切に利益をもたらす方法を研究することが必要であり、人間の自然言語を理解し、写真のような環境でナビゲーションすることができるエージェントは、洗練されたモジュール化されたシステムです。

オーストラリア国立大学、OpenGVLab、上海AI研究所、UNCチャペルヒル、アデレード大学、Adobe Researchの研究者たちは、大規模なビジョンと言語のナビゲーションネットワーク(VLN)をトレーニングするために、パイプライン内の各コンポーネントの影響を統計的に評価する新しいパラダイムを提供しています。彼らはHabitatシミュレータを使用して、HM3DとGibsonのデータセットから環境を使用し、環境のためのナビゲーショングラフを構築します。彼らは新しい軌跡をサンプリングし、指示を作成し、エージェントをトレーニングして下流のナビゲーション問題を解決します。

AutoVLNやMARVALなどの従来の方法とは異なり、これらのナビゲーショングラフは、過剰な視点サンプリングと集約手法を使用して構築され、導入されたグラフ作成ヒューリスティックを使用しています。このアプローチにより、広範な屋外カバレッジを持つ完全に接続されたネットワークが得られます。

研究者たちはまた、HM3DとGibsonの設定から生成された破損した生成画像から、壊れた、変形した、または欠落した部分の写真のような画像を生成するために、Co-Modulated GANをトレーニングします。これにより、視覚データのノイズの影響を軽減することができます。MARVALとは異なり、この大規模なトレーニング体制は完全に再現可能で実行が容易であり、エージェントのパフォーマンスを大幅に向上させます。

包括的な実験により、エージェントがR2Rなどの特定の指示に基づいて下流のタスクでより良いパフォーマンスを発揮するためには、ナビゲーショングラフが完全にトラバーサブルである必要があります。さらに、Gibsonの環境からの低品質な3Dスキャンに対して生成された画像から写真のような画像を復元する利点も示されています。研究結果は、エージェントが一般的により多様な視覚データを使用でき、新しいシーンから学習することにより新しいコンテキストへの一般化を向上させることができることを示しています。

さらに、チームは、基本的なLSTMベースのモデルによって提供される拡張指示を使用してトレーニングされたエージェントがさまざまなナビゲーションタスクでうまく機能することを検証しました。彼らは、拡張データを元のデータと統合し、事前トレーニングと微調整中にエージェントの一般化能力を向上させることができると結論付けています。

驚くべきことに、データ拡張やエージェントのトレーニングのための上記の分析をガイドとして使用することで、提案されたVLNモデルは、先行探索、ビームサーチ、またはモデルのアンサンブルなしで単純な模倣学習によってR2Rテスト分割で80%の成功率を達成し、見たことのない環境とのナビゲーションギャップを解消します。この結果は、以前の最良の手法(73%)と比べて、パフォーマンスの差を人間のレベルに約6パーセントポイントまで縮める大幅な改善です。CVDNやREVERIEなどのいくつかの言語によるビジュアルナビゲーションの課題へのアプローチは、最先端を前進させました。強化されたデータは離散的であるにもかかわらず、連続的な環境(R2R-CE)においてVLNのパフォーマンスが5%成功率向上していることも示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

Amazonの研究者たちが提案するディープラーニングのトレーニングのためのコンパイラには、3つの主な特徴があります- Syncfreeオプティマイザ、コンパイラキャッシュ、およびマルチスレッド実行

機械学習の最大の課題の1つは、ニューラルネットワークを効率的にトレーニング及び使用することです。トランスフォーマーモデ...

人工知能

「Bard」を活用するための10の役立つ方法

「アイデアのブレストから旅行のスケジュール作成まで、Bardがあなたの仕事を手助けする10の方法をチェックしてみてください」

AIニュース

ChatGPTによって発明された10の感情(驚くほど共感できる)

ChatGPTは、私たち人間が感じる複雑な感情の配列を捉え、それに対して新しい言葉を作り出すことにおいて、巧みな能力を持って...

データサイエンス

デコード Transformersを平易な英語で説明します

コード、数学、またはキー、クエリ、値の言及なし

人工知能

ネットワークの強化:異常検知のためのML、AI、およびDLの力を解放する

「機械学習、人工知能、そしてディープラーニング技術が、異常を精度良く検出することでネットワークセキュリティを向上させ...

機械学習

Google AIがMedLMを導入:医療業界の利用事例に特化したファミリー型基盤モデル

Googleの研究者たちは、現在米国で利用可能な医療業界のために調整されたモデルの基礎であるMedLMを紹介しました。これは、Go...