ビジュアルキャプション：大規模言語モデルを使用して、動的なビジュアルを備えたビデオ会議を補完する

Using large language models to complement video conferencing with dynamic visuals.

Google Augmented Realityのリサーチサイエンティスト、Ruofei DuとシニアスタッフリサーチサイエンティストのAlex Olwalが投稿しました。

ライブキャプションやノイズキャンセリングなどの機能により、ビデオ会議の最近の進歩により、リモートビデオ通信は大幅に改善されました。しかし、複雑で微妙な情報をより良く伝えるために、動的な視覚的拡張が役立つ場面があります。たとえば、日本食レストランで何を注文するか話し合う場合、友達があなたが「すき焼き」を注文することに自信を持つのに役立つビジュアルを共有することができます。また、最近の家族旅行について話しているときに、個人的なアルバムから写真を見せたい場合があります。

ACM CHI 2023 で発表された「Visual Captions: Augmenting Verbal Communication With On-the-fly Visuals」では、私たちは、口頭の手がかりを使用してリアルタイムのビジュアルを使って同期ビデオ通信を拡張するシステムを紹介します。私たちは、この目的のためにキュレーションしたデータセットを使用して、オープンボキャブラリーの会話で関連するビジュアルを積極的に提案するために、大規模な言語モデルを微調整しました。私たちは、実時間の転写とともに拡張されたコミュニケーションの急速なプロトタイピングに設計されたARChatプロジェクトの一部としてVisual Captionsをオープンソース化しました。

Visual Captionsは、リアルタイムのビジュアルで口頭コミュニケーションを容易にします。このシステムは、リアルタイムの音声からテキストへの転写でよく見られる誤りにも対応しています。たとえば、文脈から外れて、転写モデルは「pier」という単語を「pair」と誤解しましたが、Visual Captionsはそれでもサンタモニカのピアの画像を推奨します。

動的なビジュアルで口頭コミュニケーションを拡張するための設計空間

私たちは、ソフトウェアエンジニア、研究者、UXデザイナー、ビジュアルアーティスト、学生など、様々な技術的および非技術的なバックグラウンドを持つ10人の内部参加者を招待し、潜在的なリアルタイムビジュアル拡張サービスの特定のニーズと欲求を議論しました。2つのセッションで、私たちは想定されるシステムの低保守性のプロトタイプを紹介し、その後、既存のテキストから画像へのシステムのビデオデモを示しました。これらの議論により、以下のようにD1からD8とラベル付けされた8つの次元の設計空間が生まれました。

ビジュアル拡張は、会話と同期または非同期に行われる場合があります（D1：時間）、話題の表現と理解の両方に使用できる場合があります（D2：主題）、さまざまなビジュアルコンテンツ、ビジュアルタイプ、ビジュアルソースを使用して適用できる場合があります（D3：ビジュアル）。このような視覚的拡張は、ミーティングの規模（D4：スケール）や、共同設置またはリモート設定でミーティングが行われているかどうか（D5：スペース）によって異なる場合があります。これらの要因はまた、ビジュアルが個人的に表示されるべきか、参加者間で共有されるべきか、あるいはすべての人に公開されるべきかを決定するのにも影響します（D6：プライバシー）。参加者はまた、会話をしながらシステムとやり取りするさまざまな方法を特定しました（D7：起動）。たとえば、人々は「プロアクティブ」の異なるレベルを提案しました。これは、ユーザーがモデルがイニシアチブを取る程度を示します。最後に、参加者は、入力に音声やジェスチャーを使用するなど、異なる相互作用方法を想定しました（D8：相互作用）。

動的なビジュアルで口頭コミュニケーションを拡張するための設計空間。

初期フィードバックを受けて、私たちはVisual Captionsを設計し、意味的に関連する視覚的コンテンツ、タイプ、ソースの同期的な視覚を生成することに焦点を当てました。初期の探索的セッションに参加していた参加者は1対1のリモート会話に参加していましたが、Visual Captionsの展開はしばしば1対多（例：個人が聴衆にプレゼンテーションを行う）および多対多のシナリオ（例：会議で複数の人が議論をする）で行われます。

会話に最適なビジュアルは議論の文脈に強く依存するため、この目的に特化したトレーニングセットが必要でした。そこで、私たちは日常会話、講義、旅行ガイドなど、さまざまな文脈で1595の言語（1）、視覚的コンテンツ（2）、タイプ（3）、およびソース（4）のクアドラプルのデータセットを収集しました。たとえば、「それを見たいです！」は「顔がにっこり笑っている」という視覚的コンテンツ、視覚的タイプ「絵文字」、および視覚的ソース「パブリックサーチ」に対応します。「彼女はメキシコ旅行について話した？」は、「メキシコ旅行の写真」という視覚的コンテンツ、「写真」という視覚的タイプ、および「個人アルバム」という視覚的ソースに対応します。私たちはこのVC1.5Kデータセットを研究コミュニティで公開しました。

視覚インテント予測モデル

会話を補完するためのビジュアルを予測するために、VC1.5Kデータセットを使用して大規模言語モデルに基づく視覚インテント予測モデルをトレーニングしました。トレーニングのために、各視覚インテントを「<Visual Type> of <Visual Content> from <Visual Source>」の形式に解析しました。

{"prompt": "<Previous Two Sentences> →", 
  "completion": 
"<Visual Type 1> of "<Visual Type 1> from "<Visual Source 1>;
 <Visual Type 2> of "<Visual Type 2> from "<Visual Source 2>; 
  ... \𝑛"}

この形式を使用することで、このシステムはオープンボキャブラリーの会話を処理し、視覚的コンテンツ、視覚的ソース、および視覚的タイプをコンテキストに基づいて予測できます。私たちは、キーワードベースのアプローチよりも優れた性能を発揮し、オープンボキャブラリーの例（「あなたのおばさんエイミーが今週末訪問する予定です」といった例）を処理できず、関連する視覚的タイプや視覚的ソースを提案できないキーワードベースのアプローチよりも優れていることを実証しました。

モデルによる視覚的インテントの予測の例

私たちはVC1.5Kデータセットから1276（80％）の例を大規模言語モデルの微調整のために使用し、残りの319（20％）の例をテストデータとして使用しました。バッチ内に正しく予測されたトークンの割合であるトークン精度メトリックで、微調整モデルのパフォーマンスを測定しました。トレーニング中、私たちのモデルはトレーニングトークン精度が97％、検証トークン精度が87％に達しました。

パフォーマンス

トレーニングされたVisual Captionsモデルの有用性を評価するために、89人の参加者に846のタスクを実行してフィードバックを提供するよう依頼しました。彼らには、6つの質的なステートメントについて「1 — 強く同意しない」から「7 — 強く同意する」のスケールでフィードバックを提供するように求められました。ほとんどの参加者は、会話中にビジュアルが表示されることを好む傾向にありました（Q1、83％が5以上-多少同意）。さらに、表示されたビジュアルが有用で情報を提供すると考えていました（Q2、82％が5以上-多少同意）、高品質であると考えていました（Q3、82％が5以上-多少同意）、および元のスピーチに関連していると考えていました（Q4、84％が5以上-多少同意）。参加者はまた、対応する会話の文脈に応じて視覚的タイプ（Q5、87％が5以上-多少同意）および視覚的ソース（Q6、86％が5以上-多少同意）を正確に予測することができると考えていました。

研究参加者によって評価されたビジュアル予測モデルの技術評価結果。

この微調整されたビジュアル意図予測モデルを使用して、ARChatプラットフォーム上でビジュアルキャプションを開発しました。このプラットフォームは、Google Meetなどのビデオ会議プラットフォームのカメラストリームに直接新しいインタラクティブウィジェットを追加できます。以下のシステムワークフローに示すように、Visual Captionsは自動的にユーザーの音声をキャプチャし、最後の文を取得し、100ミリ秒ごとにビジュアル意図予測モデルに送信し、関連するビジュアルを取得してリアルタイムで提案します。

Visual Captionsのシステムワークフロー。

Visual Captionsは、ビジュアルの提案時に3つのプロアクティブレベルを提供します：

自動表示（高プロアクティブ）：システムは自律的にビジュアルを検索して、会議参加者全員に公開して表示します。ユーザーの操作は必要ありません。
自動提案（VoAGIプロアクティブ）：提案されたビジュアルは、プライベートなスクロールビューに表示されます。その後、ユーザーはビジュアルをクリックして公開表示します。このモードでは、システムは積極的にビジュアルを推奨していますが、ユーザーは表示するタイミングと内容を決定します。
オンデマンド提案（低プロアクティブ）：ユーザーがスペースバーを押した場合にのみ、システムはビジュアルを提案します。

定量的および定性的評価：ユーザースタディ

Visual Captionsを制御されたラボスタディ（n = 26）および野外展開スタディ（n = 10）で評価しました。参加者は、リアルタイムのビジュアルが、不慣れな概念を説明したり、言語の曖昧さを解決したり、会話をより魅力的にしたりすることで、ライブの会話を促進するのに役立つと考えました。参加者はまた、現地でシステムとやり取りするための異なる好みがあり、さまざまな社会的シナリオでは異なるプロアクティブレベルが好まれると報告しました。

参加者のタスクロードインデックスとLikertスケールの評価（1-全く同意しないから7-完全に同意するまで）：Visual Captionsなしの4つの会話（「No VC」）と、自動表示、自動提案、オンデマンド提案の3つのVisual Captionsモード。

結論と今後の方向性

この研究は、15のトピックカテゴリをカバーする246人の参加者から収集された1595の視覚的意図を用いてトレーニングされた、口頭コミュニケーションのリアルタイム視覚的拡張システムである「Visual Captions」を提案しています。我々は、研究コミュニティを支援するためにトレーニングデータセットVC1.5Kを公開しています。また、Visual CaptionsをARChatに導入しました。ARChatは、会議を文字起こしし、カメラの映像ストリームを強化することで、Google Meetでのビデオ会議を容易にします。

Visual Captionsは、口頭コミュニケーションに即席視覚効果を加えることに向けた重要な一歩です。日常会話における視覚的な手がかりの重要性を理解することで、より効果的なコミュニケーションツールを作成し、人々のつながりを改善することができます。

謝辞

この研究は、Googleの複数のチームによる共同作業です。本プロジェクトの主要な貢献者には、Xingyu “Bruce” Liu、Vladimir Kirilyuk、Xiuxiu Yuan、Peggy Chi、Alex Olwal、Ruofei Duが含まれます。

ARChatチームのJason Mayes、Max Spear、Na Li、Jun Zhang、Jing Jin、Yuan Ren、Adarsh Kowdle、Ping Yu、Darcy Philippon、Ezgi Oztelcanを含む、支援を提供してくれた方々に感謝します。また、論文に関する有益な議論を行った多くの人々や、Eric Turner、Yinda Zhang、Feitong Tan、Danhang Tang、Shahram Izadiなどからのフィードバックを提供してくれた人々にも感謝します。また、CHIの査読者の方々にも有益なフィードバックをいただきました。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Deep learningHCINatural Language Understanding

Was this article helpful?

93 out of 132 found this helpful

ビジュアルキャプション：大規模言語モデルを使用して、動的なビジュアルを備えたビデオ会議を補完する

動的なビジュアルで口頭コミュニケーションを拡張するための設計空間

視覚インテント予測モデル

パフォーマンス

定量的および定性的評価：ユーザースタディ

結論と今後の方向性

謝辞

Was this article helpful?

多言語での音声合成の評価には、SQuIdを使用する

AVFormer：凍結した音声モデルにビジョンを注入して、ゼロショットAV-ASRを実現する

機械学習

「4つのテック巨人 - OpenAI、Google、Microsoft、Anthropicが安全なAIのために結集」

「ジェミニに会おう：チャットGPTに対するGoogleの答え」

大規模な言語モデルについて企業が知っておくべきこと

マイクロソフトがアメリカの労働組合と手を結び、AI労働力に関する議論に参加します

「テーマパークのシミュレーション：Rを使って待ち時間を理解する」

創造性とAIに関するレフィク・アナドールとの対話