「BeLFusionに出会ってください:潜在的拡散を用いた現実的かつ多様な確率的人間の動作予測のための行動的潜在空間アプローチ」

BeLFusion An Action-based Latent Space Approach for Realistic and Diverse Probabilistic Human Motion Prediction Using Latent Diffusion

人工知能(AI)が世界を魅了し続ける中で、コンピュータビジョンとAIの交差点において、人間の動き予測(HMP)という注目すべき応用が登場しています。この魅力的なタスクは、観測された動きのシーケンスに基づいて、人間の将来の動きや行動を予測することを目的としています。その目標は、人の体のポーズや動きがどのように進化するかを予測することです。HMPは、ロボット工学、仮想アバター、自律型車両、人間とコンピュータのインタラクションなど、さまざまな分野で応用されています。

確率的HMPは、単一の決定論的な将来ではなく、可能な将来の動きの分布を予測することに焦点を当てた伝統的なHMPの拡張です。このアプローチは、人間の行動の本質的な自発性と予測不可能性を認識し、将来の行動や動きに関連する不確実性を捉えることを目指しています。確率的HMPは、可能な将来の動きの分布を考慮することで、人間の行動の可変性と多様性を考慮し、より現実的かつ柔軟な予測を実現します。アシストロボットや監視アプリケーションなど、複数の可能な行動を予測することが重要な場合に特に価値があります。

確率的HMPは、通常、観測されたシーケンスごとに複数の将来の動きを予測するためにGANやVAEなどの生成モデルを使用してアプローチされます。しかし、この座標空間で多様な動きを生成することに重点を置いた方法は、観測された動きとよりよく整合する必要がある非現実的で速い動きの発散予測につながる場合があります。さらに、これらの方法は、微小な関節変位を伴う広範囲の多様な低レンジの行動を予測することをしばしば見落とします。その結果、行動の多様性を考慮し、確率的HMPタスクでより現実的な予測を行うための新たなアプローチが必要とされています。既存の確率的HMPの手法の制約に対処するために、バルセロナ大学とコンピュータビジョンセンターの研究者は、BeLFusionを提案しています。この新しいアプローチは、現実的かつ多様な人間の動きのシーケンスを生成するための行動潜在空間を導入しています。

生成モデルにおける速く発散する動き。

BeLFusionの主な目的は、動作をポーズから滑らかに遷移させることで、観測されたポーズと予測されたポーズの間の遷移をスムーズにすることです。これは、行動エンコーダ、行動カプラー、コンテキストエンコーダ、補助デコーダから構成される行動VAEによって達成されます。行動エンコーダは、ゲート付き再帰ユニット(GRU)と2D畳み込み層を組み合わせて、関節座標を潜在分布にマッピングします。次に、行動カプラーは、サンプリングされた行動を進行中の動きに転送し、多様で文脈に適した動きを生成します。BeLFusionは、条件付き潜在拡散モデル(LDM)も組み込んでおり、行動の動態を正確にエンコードし、それらを進行中の動きに効果的に転送するとともに、潜在エラーや再構成エラーを最小限に抑えて生成される動きの多様性を高めます。

BeLFusionの革新的なアーキテクチャは、関節座標から隠れた状態を生成するオブザベーションエンコーダで続きます。このモデルでは、行動がポーズと動きから分離された潜在空間からサンプリングされるように、U-Net、クロスアテンションメカニズム、残余ブロックを使用した潜在拡散モデル(LDM)を利用しています。行動の観点からの多様性を促進し、直近の一貫性を維持することにより、BeLFusionは、確率的HMPの最先端手法よりもはるかに現実的で一貫した動きの予測を生み出します。行動の分離と潜在拡散のユニークな組み合わせにより、BeLFusionは人間の動き予測における有望な進歩を表しています。さまざまなアプリケーションに対してより自然で文脈に適した動きを生成する可能性を提供します。

実験評価により、BeLFusionの印象的な汎化能力が示されました。BeLFusionは、既知のシナリオと未知のシナリオの両方で優れたパフォーマンスを発揮します。Human3.6MおよびAMASSデータセットの厳しい結果を使用したクロスデータセット評価において、さまざまなメトリックで最先端の手法を上回ります。H36Mでは、BeLFusionは平均変位誤差(ADE)がおよそ0.372、最終変位誤差(FDE)が約0.474であります。同時に、AMASSでは、ADEが約1.977、FDEがおよそ0.513となります。これらの結果は、BeLFusionの正確で多様な予測を生成する優れた能力を示し、異なるデータセットやアクションクラスにおける現実的な人間の動作予測における有効性と汎化能力を示しています。

全体的に、BeLFusionは、Human3.6MおよびAMASSデータセットの精度メトリックにおいて最先端のパフォーマンスを達成する、人間の動作予測のための新しい手法です。BeLFusionは、行動の潜在空間と潜在拡散モデルを利用して、多様でコンテキスト適応型の予測を生成します。この手法によるシーケンス間での行動の捕捉と転送能力により、ドメインシフトに対して堅牢性が向上し、汎化能力も向上します。さらに、定性評価により、BeLFusionの予測が他の最先端の手法よりも現実的であることが示されました。アニメーション、仮想現実、ロボット工学など、人間の動作予測における有望な解決策を提供します。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

「GenAI-Infused ChatGPT 有効なプロンプトエンジニアリングのガイド」

「この記事は、AIのコミュニケーションを改善するための迅速なエンジニアリングの重要性を強調した簡潔な情報源です」

機械学習

自動化、Ansible、人工知能

AnsibleがAIツールを統合開発環境に導入し、自動化コーディングの経験をよりシンプルでスムーズかつ効率的にする方法について...

データサイエンス

「ヴォン・グームと出会う 大規模な言語モデルにおけるデータ毒化に対する革新的なAIアプローチ」

データの毒化攻撃は、訓練データセットに誤ったデータを注入することで機械学習モデルを操作します。モデルが実世界のデータ...

AIニュース

「AppleとGoogle、ChatGPTを年間アプリに見落とす」

驚くべき事態の中、テックジャイアントのAppleとGoogleは通常のパターンから逸脱し、それぞれの「年間最優秀アプリ」を選びま...

AIニュース

「マイクロソフトのBing ChatがChromeとSafariに拡大」

マイクロソフトのBing Chatは、AIパワードチャットボットであり、マイクロソフト専用の制約から脱出し、非マイクロソフトのブ...

機械学習

PyTorchを使った効率的な画像セグメンテーション:パート1

この4部作では、PyTorchを使用して深層学習技術を使った画像セグメンテーションをゼロから段階的に実装しますシリーズを開始...