AIの相互作用を変革する:LLaVARは視覚とテキストベースの理解において優れた性能を発揮し、マルチモーダルな指示従属モデルの新時代を切り開く

LLaVARはAIの相互作用を変革し、視覚とテキストベースの理解において優れた性能を持ち、マルチモーダルな指示従属モデルの新時代を切り開きます

<img src=”https://www.marktechpost.com/wp-content/uploads/2023/07/Screenshot-2023-07-01-at-10.42.23-PM-1024×662.png”/><img src=”https://www.marktechpost.com/wp-content/uploads/2023/07/Screenshot-2023-07-01-at-10.42.23-PM-150×150.png”/><p>複数のアクティビティを1つの命令に組み合わせることで、命令のチューニングは新しいタスクへの一般化を向上させます。このようなオープンエンドの質問に対応する能力は、ChatGPT 2以降のチャットボットの急増に貢献しています。CLIP-ViTのようなビジュアルエンコーダは、ビジュアル命令チューニングモデルの一部として最近会話エージェントに追加され、画像に基づいた人間とエージェントの対話を可能にします。しかし、彼らは画像内のテキストを理解するのに助けが必要です。おそらく、訓練データが自然なイメージ(例:Conceptual CaptionsとCOCO)の優勢であるためです。しかし、読解力は人間の日常的な視覚知覚にとって重要です。幸いにも、OCR技術により、写真から単語を認識することが可能になりました。</p><p>(より大きなコンテキスト長の)計算は、ビジュアル命令チューニングモデルの入力に認識されたテキストを追加することで(単純に)増加しますが、ビジュアルエンコーダのエンコーディング能力を完全に活用することはありません。これを実現するために、彼らは写真内の単語の理解が必要な命令に従うデータを収集することを提案しています。OCRの結果をOCR結果と組み合わせて、テキストリッチな画像を使用して422Kのノイズのある命令に従うデータを最初に収集します。</p><p>これらの大量のノイズのある対応データは、言語デコーダとビジュアル特徴の機能の整列を大幅に向上させます。さらに、テキストのみのGPT-4にOCRの結果と画像キャプションを使用して16Kの会話を生成するように依頼します。各会話には多くの質問と回答のペアが含まれる場合があります。このアプローチでは、GPT-4がOCRデータをノイズ除去し、ユニークな質問を作成する必要があります(図1)。彼らは取得されたデータの効果を評価するために、ノイズのあるデータと高品質の例を前処理および微調整の段階に補足的に使用します。</p><figure><img src=”https://lh4.googleusercontent.com/-AXzLZLUIIpwSBRrWQKqlBzz-EXf5cVHWCylLOuSOPcA9WR0VCjfJiLH4csuBmwvInV2RO3SWrP530DFQKr1IZt76lZJmdGw9YJN0gRbNqq3y8e1YwIyymtzK7DxvMkmTSkIefCHXn4wZqv8rUtXvsQ”/><figcaption><strong>図1</strong>は、命令に従う統計情報がどのように収集されるかを示しています。 | https://arxiv.org/pdf/2306.17107.pdf</figcaption></figure><p>ジョージア工科大学、アドビリサーチ、スタンフォード大学の研究者が開発したLLaVAR(Large Language and Vision Assistant that Can Read)は、視覚とテキストの両方の理解力で優れたパフォーマンスを発揮します。オリジナルのLLaVAと比較して、入力解像度を2242から3362に拡大することで、細かいテキストの特徴をより良くエンコードする実験を行いました。評価手法によると、彼らはScienceQAの微調整結果とともに、4つのテキストベースのVQAデータセットの結果を示しています。また、GPT-4に基づいた命令に従う評価には、LAIONからの50のテキストリッチな画像とCOCOからの30の自然画像も使用しています。さらに、ポスターやウェブサイトのスクリーンショット、ツイートなど、より洗練された命令に従う能力を測定するための定性的な分析も行っています。</p><p>まとめると、彼らの貢献は以下の通りです:</p><p>• 高品質な16Kとノイズのある422Kの命令に従うデータを収集しました。どちらもビジュアル命令チューニングを改善することが示されています。改善された能力により、彼らのモデルLLaVARは、テキストと画像を含む多様なオンライン素材に基づいたエンドツーエンドの対話を提供することができますが、モデルのパフォーマンスは自然な写真においてわずかに向上しています。</p><p>• トレーニングおよび評価データ、およびモデルのマイルストーンは公開されています。</p><p>この記事はMarkTechPostで最初に公開されました。</p>

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「生成AIの組織化:データサイエンスチームから得た5つの教訓」

「経営陣が曖昧な約束をした後、新しいGen AIの機能が組織全体に組み込まれることを利害関係者に約束した後、あなたのタイガ...

人工知能

生産性向上のための10の最高のAIツール(決定版リスト)

時間を取り戻したい、同僚を凌駕したい、そして好きなことにもっと時間を費やしたいのであれば、AIツールを使用することは明...

データサイエンス

「生成型AIアプリケーションのためのプレイブック」

この記事では、Generative AIアプリケーションを実装する際の主要な考慮事項と、ビジョンを行動に変えるために人間の関与が果...

機械学習

BentoML入門:統合AIアプリケーションフレームワークの紹介

この記事では、統合されたAIアプリケーションフレームワークであるBentoMLを使用して、機械学習モデルの展開を効率化する方法...

データサイエンス

AI、デジタルツインが次世代の気候研究イノベーションを解き放つ

AIと高速計算は、気候研究者が気候研究のブレークスルーを達成するために必要な奇跡を実現するのに役立つだろう、とNVIDIAの...

機械学習

あなたのリスニングプレイリストに追加するためのトップ8のAIポッドキャスト

機械学習と人工知能の急速な進展する世界では、専門家や愛好家にとって最新の開発や見解にアップデートされることは重要です...