「言葉から世界へ:AIマルチモーダルによる微細なビデオ説明を用いたビデオナレーションの探求」

Exploring Video Narration Using AI Multimodal Fine-grained Video Descriptions

言語は人間の相互作用の主要な形態であり、視覚や音響などの他の感覚に補足的な詳細を提供するだけでなく、声によるナビゲーションを使用して特定の場所に導くなど、情報を伝達するための効果的なチャネルとしても機能します。視覚障がいのある人々の場合、映画を聴覚的な解説で体験することができます。前者は言語が他の感覚モードを向上させる方法を示し、後者は言語が異なるモダリティで最大限の情報を伝える能力を強調しています。

多様なモダリティ間の言語との関係を確立するための現代の取り組みでは、画像や動画のキャプション付け、画像や動画からのテキスト表現の生成、テキストによってガイドされた視覚的なコンテンツの操作などのタスクが含まれます。

しかし、これらの取り組みでは、言語は主に他の感覚入力に関する情報を補完する役割を果たしています。その結果、これらの取り組みは異なる感覚モード間の情報の複雑な交換を包括的に描写することができません。これらは主に1文のキャプションなどの単純な言語要素に焦点を当てています。

これらのキャプションは短く、主要なエンティティやアクションを説明することしかできません。そのため、これらのキャプションを通じて伝えられる情報は、他の感覚モダリティに存在する情報の豊富さに比べてかなり限定的です。この差異により、他の感覚領域から情報を言語に翻訳しようとする際に情報の大幅な損失が生じます。

この研究では、研究者たちは言語をマルチモーダルモデリングで情報を共有する手段として捉えています。彼らは「Fine-grained Audible Video Description(FAVD)」という新しいタスクを作成しました。通常、動画の短いキャプションは主要な部分を指しますが、FAVDではモデルにより人々が行うように動画を説明するよう要求し、短い概要から徐々に詳細な情報を追加していきます。このアプローチにより、言語のフレームワーク内にビデオ情報のより確かな部分が保持されます。

ビデオは視覚的および聴覚的な信号を含んでいるため、FAVDタスクではオーディオの説明も総合的な描写を向上させるために組み込まれています。このタスクの実行をサポートするために、Fine-grained Audible Video Description Benchmark(FAVDBench)という新しいベンチマークが構築されました。FAVDBenchはYouTubeから収集された11,000以上のビデオクリップで構成されており、70以上の実生活のカテゴリをカバーしています。注釈には簡潔な1文の概要と、ビジュアル要素に関する4〜6文の詳細なセンテンス、オーディオに関する1〜2文のセンテンスが含まれており、包括的なデータセットとなっています。

FAVDタスクを効果的に評価するために、2つの新しいメトリックが考案されました。最初のメトリックであるEntityScoreは、ビデオから説明文への情報の伝達を評価し、視覚的な説明文内のエンティティの包括性を測定します。2番目のメトリックであるAudioScoreは、事前学習済みのオーディオ・ビジュアル・言語モデルの特徴空間内でオーディオの説明の品質を定量化します。

研究者たちは、新しく導入されたタスクのための基礎モデルを提供しています。このモデルは、確立されたエンドツーエンドのビデオキャプションフレームワークを基にしており、さらにオーディオブランチが追加されています。さらに、ビジュアル言語トランスフォーマーからオーディオ・ビジュアル・言語トランスフォーマー(AVLFormer)への拡張も行われています。AVLFormerは、以下に示すようなエンコーダ・デコーダ構造の形式です。

https://arxiv.org/abs/2303.15616

ビデオクリップとオーディオをそれぞれ処理するために、ビジュアルエンコーダとオーディオエンコーダが適応され、マルチモーダルトークンの結合が可能となっています。ビジュアルエンコーダはビデオスウィン・トランスフォーマーを使用し、オーディオエンコーダはパッチアウトオーディオトランスフォーマーを利用しています。これらのコンポーネントは、ビデオフレームとオーディオデータからビジュアルとオーディオの特徴を抽出します。トレーニング中には、マスクされた言語モデリングや自己回帰言語モデリングなどの他のコンポーネントも組み込まれます。AVLFormerは、以前のビデオキャプションモデルからのインスピレーションを得て、テキストの記述も入力として使用します。テキストを特定のフォーマットに変換するために、ワードトークナイザと線形埋め込みが使用されます。トランスフォーマーはこのマルチモーダル情報を処理し、入力として与えられたビデオの詳細な説明を出力します。

以下には、定性的な結果のいくつかの例と最新の手法との比較が報告されています。

https://arxiv.org/abs/2303.15616

結論として、研究者たちは、細かい音声付きビデオの説明のための新しいビデオキャプションタスクFAVDと、教師付きトレーニングのための新しいベンチマークFAVDBenchを提案しています。さらに、彼らはFAVDタスクに対処するための新しいトランスフォーマーベースのベースラインモデルAVLFormerを設計しました。興味があり、詳細を知りたい場合は、以下に引用されたリンクを参照してください。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

この AI ペーパーでは、X-Raydar を発表します:画期的なオープンソースの深層ニューラルネットワークによる胸部 X 線異常検出

“` イギリスの様々な大学の研究者たちは、豊富なデータセットを用いて、総合的な胸部X線異常検出のためのオープンソー...

人工知能

ノイズ除去オートエンコーダの公開

はじめに デノイジングオートエンコーダーは、ノイズの混入したデータまたはノイズのあるデータから元のデータを再構築するこ...

AI研究

UCSDとMicrosoftの研究者がColDecoを導入:計算されたカラムのためのノーコード検査ツール

UCSDとMicrosoftの研究チームが開発した「COLDECO:AIによって生成されたコードのエンドユーザ用スプレッドシート検査ツール...

AIニュース

「ChatGPTがクラッシュしましたか? OpenAIのAIのダウンタイムと迅速な回復!」

人工知能コミュニティは一時的な挫折に直面しました。OpenAIが開発した人気のあるチャットボット、ChatGPTは「大規模な障害」...

機械学習

オラクルは、AIとクラウドを基盤とした未来のビジョンを明らかにしました

ラリー・エリソンは、生成的AIが変革的であり、エンタープライズAIアプリケーションの構築におけるOracle Cloudの独特な利点...

データサイエンス

「枝は何も必要ありません:私たちの主観的なMLバージョニングフレームワーク」

「Gitブランチを使用したMLプロジェクトのバージョニングを簡素化し、ワークフローをシンプルにし、データとモデルを整理し、...