RPDiffと出会ってください:3Dシーン内の6自由度オブジェクト再配置のための拡散モデル

RPDiff 3Dシーン内の6自由度オブジェクト再配置のための拡散モデル

日常のタスクを実行するためのロボットの設計と構築は、コンピュータサイエンスエンジニアリングの最も刺激的で挑戦的な分野の一つです。MIT、NVIDIA、およびImprobable AI Labの研究者チームは、Frank PandaロボットアームをRobotiq 2F140並行ジョーグリッパーでプログラムし、シーン内のオブジェクトの配置関係を達成するためにオブジェクトを再配置しました。現実世界の与えられたシーンには、多くの幾何学的に類似した再配置の解が存在することは珍しくありません。研究者は反復的な姿勢デノイジングトレーニング手順を使用して解を構築しました。

現実のシーンでの課題は、幾何学的な外観とレイアウトの組み合わせ変動を解決することです。これにより、本の半分が詰まった棚に本を置く、マグスタンドにマグを掛けるなど、オブジェクト-シーンの相互作用のための多くの場所と幾何学的特徴が提供されます。オブジェクトを配置するためのシーンの場所が多くあり、これらの複数の可能性はプログラミング、学習、展開に困難をもたらします。システムは、可能な再配置の基盤全体にわたる複数のモーダル出力を予測する必要があります。

特定の最終的なオブジェクトシーンのポイントクラウドにおいて、初期のオブジェクト構成は、ポイントクラウドの姿勢デノイジングによって予測される再配置からのずれと考えることができます。最終的なオブジェクト-シーンポイントクラウドからノイズのあるポイントクラウドを生成し、ニューラルネットワークを使用してモデルをトレーニングすることで、初期の構成にランダムに転送します。多様性は、大量のデータに対しては効果がありません。モデルはデータに適合しない平均的な解を学習しようとします。研究チームは、この困難を克服するために、複数ステップのノイズ処理と拡散モデルを実装しました。モデルは拡散モデルとしてトレーニングされ、反復的なデノイジングを実行します。

反復的なデノイジング後に新しいシーンレイアウトへの汎化が必要です。研究チームは、オブジェクトの近くの領域をクロップすることで、シーンポイントクラウドをローカルにエンコードすることを提案しています。これにより、モデルは非ローカルの遠隔の妨害要素を無視し、近隣のデータセットに集中することができます。ランダムな推測からの推論手続きは、良い解から遠く離れた解につながる可能性があります。研究者は、最初により大きなクロップサイズを考慮し、複数の反復によってそれを減らすことで、よりローカルなシーンコンテキストを得ることで、この問題を解決しました。

研究チームは、オブジェクトとシーンのポイントクラウドに基づいた6自由度の関係的な再配置を実行するために、Relational Pose Diffusion(RPDiff)を実装しました。これは、多様性を持つさまざまな形状、姿勢、およびシーンレイアウトに対して一般化します。彼らが追求した動機は、6自由度の姿勢を反復的にデノイズし、シーンポイントクラウドとの所望の幾何学的関係を満たすまでオブジェクトの姿勢をデノイズすることです。

研究チームは、RPDiffを使用してリアルワールドのオブジェクトとシーン上でピックアンドプレイスを行うために関係的な再配置を実行します。彼らのモデルは、本の一部が詰まった本棚に本を置く、オープンシェルフに缶を積み重ねる、フックの多いラックにマグを掛けるなどのタスクに成功しています。彼らのモデルは、多様なモーダルデータセットの適合を乗り越えることができますが、シミュレーションでのスクリプト化されたポリシーからのデモンストレーションデータのみを使用しているため、事前トレーニングされたデータの表現で作業する際には制約があります。彼らの研究は、Neural Shape Mating(NSM)を実装することにより、知覚からのオブジェクトの再配置に関連する他のチームの研究と関連しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

ヴェクタラは、AI言語モデルの「幻覚」をベンチマーク化し、対処するための画期的なオープンソースモデルを立ち上げます

急速に進化するGenerative AI(GenAI)領域での責任追及を促進する前例のない取り組みとして、Vectaraはオープンソースの幻覚...

機械学習

プロンプトエンジニアリングへの紹介

イントロダクション 自然言語処理は、基盤となる技術や手法を使用した実装の豊かな領域であります。近年、特に2022年の始まり...

機械学習

「RBIは、規制監督のためにAIを活用するために、マッキンゼーとアクセンチュアと提携します」

規制監督における重要な変化を示す動きとして、インド準備銀行(RBI)は、国際的なコンサルティング企業であるマッキンゼー・...

機械学習

インドのOla CEO、ブハビッシュ・アガルワルがAI開発に進出します

ダイナミックなテックの風景の中で、インドはAI分野で野心的な新興企業を生み出しています。Ola CEOのBhavish Aggarwalが率い...

人工知能

関数呼び出し:GPTチャットボットを何にでも統合する

OpenAIのGPTの新しい関数呼び出し機能を探索し、チャットボットが外部ツールやAPIと対話できるようにしますAIパワーを活用し...

データサイエンス

「2023年の人工知能(AI)と機械学習に関連するサブレディットコミュニティ15選」

人工知能(AI)と機械学習の世界では、最新のトレンド、ブレイクスルー、議論について最新情報を得ることが重要です。インタ...