『アクション-ユニオン・ラーニングによる人間-ロボットインタラクションのための弱教師アクションセグメンテーションの改善』と題する 富士通の新しいAIリサーチが発表されました

『アクション-ユニオン・ラーニングによる人間-ロボットインタラクションのための弱教師アクションセグメンテーションの改善』に関する富士通の新AIリサーチ発表

人間の行動認識の最近の進展は、人間とロボットの相互作用(HRI)において驚くべきブレークスルーを実現しました。この技術により、ロボットは人間の行動を理解し、それに応じて反応することができるようになりました。行動セグメンテーションは、人間の行動のラベルと時間的な境界を決定するプロセスであり、行動認識の重要な部分です。ロボットは人間の行動を動的に特定し、人々とうまく働くためにこのスキルを持っている必要があります。

従来の行動セグメンテーションモデルのトレーニング方法では、大量のラベルが必要です。徹底した監視のために、フレームごとのラベル、すなわち、アクションの各フレームに適用されるラベルが理想的ですが、これらのラベルは2つの重要な困難を提供します。まず、各フレームにアクションラベルを注釈付けすることは、高価で時間がかかることがあります。第二に、複数の注釈付け者からの一貫性のないラベリングやアクションの時限の明確さにより、データにバイアスが生じる可能性があります。

これらの課題に対処するために、最近の研究で、研究者チームは学習フェーズ中に新しいユニークな学習技術を提案しました。彼らの方法は、連続するタイムスタンプの間にある未ラベルフレームのアクションユニオンの尤度を最大化します。与えられたフレームが周囲のタイムスタンプのラベルによって示されるアクションの組み合わせを持つ確率をアクションユニオンと呼びます。このアプローチにより、アクションユニオン確率を考慮して未ラベルフレームの信頼性の高い学習ターゲットを提供することで、トレーニングプロセスの品質が向上します。

チームは推論ステップ中に新しい改良方法を開発し、モデルのソフト割り当て予測からより正確なハード割り当てアクションラベルを提供します。フレームに割り当てられるアクションクラスは、この改良プロセスにより、より正確かつ信頼性の高いものになります。これには、フレームごとの予測だけでなく、異なるビデオセグメントの時間にわたるアクションラベルの一貫性と滑らかさも考慮されます。これにより、モデルの正確なアクション分類能力が向上します。

この研究で開発された技術はモデルに依存しないものであり、様々な現行の行動セグメンテーションフレームワークで利用することができます。これらの方法の柔軟性により、大幅な変更を加える必要なく、さまざまなロボット学習システムに組み込むことが可能です。これらの手法の有効性は、3つの一般的な行動セグメンテーションデータセットを使用して評価されました。結果は、この方法が以前のタイムスタンプ監視技術を上回る最新のパフォーマンスレベルを達成し、完全に監視されたラベルの1%未満で同様の結果を生み出すとした。これにより、パフォーマンスの観点で完全に監視された手法と同等またはそれ以上の効果を持つ、非常に経済的な解決策となる可能性を示しています。これは、彼らが提案する方法が効果的に行動セグメンテーションの分野と人間とロボットの相互作用への応用を進めることができることを示しています。

以下に、この研究の主な貢献をまとめました。

  1. アクションユニオンの最適化を行動セグメンテーションのトレーニングに導入し、モデルのパフォーマンスを向上させました。この革新的な手法では、タイムスタンプ間の未ラベルフレームのアクションの組み合わせの確率を考慮しています。
  1. アクションセグメンテーションモデルの出力を改善するために、新しいかなり有益なポストプロセッシング技術を導入しました。この改良プロセスにより、アクション分類の正確さと信頼性が大幅に向上します。
  1. この手法は、関連するデータセット上で最新の成果を達成し、人間とロボットの相互作用の研究をさらに進める可能性を示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

百度のAI研究者がVideoGenを紹介:高フレーム精度で高解像度のビデオを生成できる新しいテキストからビデオを生成する手法

テキストから画像への変換(T2I)システムであるDALL-E2、Imagen、Cogview、Latent Diffusionなどは、近年大きな進歩を遂げて...

データサイエンス

「Pymcと統計モデルを記述するための言語の紹介」

「ベイズ推論のほとんどの例がそれが何であるかを誤解している理由についての前回の記事では、ベイズ統計の初心者の間で一般...

機械学習

「ImageReward(イメージリワード)に会ってください:AIの生成能力と人間の価値観を結ぶ革命的なテキストから画像へのモデル」

機械学習において、テキスト入力に基づいて画像を生成できる生成モデルは、さまざまなアプローチが有望な結果を示し、近年著...

AI研究

「NTUシンガポールの研究者が、3Dポイントクラウドからの正確な人間のポーズと形状の推定のためのAIフレームワークであるPointHPSを提案する」という文です

人工知能の分野でのいくつかの進歩により、最近では人の姿勢と形状の推定(HPS)はますます重要な研究分野となっています。モ...

機械学習

一貫性のあるAIビデオエディターが登場しました:TokenFlowは、一貫性のあるビデオ編集のために拡散特徴を使用するAIモデルです

拡散モデルは、この時点でお馴染みのものです。過去の1年間、AIの領域で鍵となるトピックでした。これらのモデルは、画像生成...