AIの相互作用を変革する:LLaVARは視覚とテキストベースの理解において優れた性能を発揮し、マルチモーダルな指示従属モデルの新時代を切り開く

LLaVARはAIの相互作用を変革し、視覚とテキストベースの理解において優れた性能を持ち、マルチモーダルな指示従属モデルの新時代を切り開きます

<img src=”https://www.marktechpost.com/wp-content/uploads/2023/07/Screenshot-2023-07-01-at-10.42.23-PM-1024×662.png”/><img src=”https://www.marktechpost.com/wp-content/uploads/2023/07/Screenshot-2023-07-01-at-10.42.23-PM-150×150.png”/><p>複数のアクティビティを1つの命令に組み合わせることで、命令のチューニングは新しいタスクへの一般化を向上させます。このようなオープンエンドの質問に対応する能力は、ChatGPT 2以降のチャットボットの急増に貢献しています。CLIP-ViTのようなビジュアルエンコーダは、ビジュアル命令チューニングモデルの一部として最近会話エージェントに追加され、画像に基づいた人間とエージェントの対話を可能にします。しかし、彼らは画像内のテキストを理解するのに助けが必要です。おそらく、訓練データが自然なイメージ(例:Conceptual CaptionsとCOCO)の優勢であるためです。しかし、読解力は人間の日常的な視覚知覚にとって重要です。幸いにも、OCR技術により、写真から単語を認識することが可能になりました。</p><p>(より大きなコンテキスト長の)計算は、ビジュアル命令チューニングモデルの入力に認識されたテキストを追加することで(単純に)増加しますが、ビジュアルエンコーダのエンコーディング能力を完全に活用することはありません。これを実現するために、彼らは写真内の単語の理解が必要な命令に従うデータを収集することを提案しています。OCRの結果をOCR結果と組み合わせて、テキストリッチな画像を使用して422Kのノイズのある命令に従うデータを最初に収集します。</p><p>これらの大量のノイズのある対応データは、言語デコーダとビジュアル特徴の機能の整列を大幅に向上させます。さらに、テキストのみのGPT-4にOCRの結果と画像キャプションを使用して16Kの会話を生成するように依頼します。各会話には多くの質問と回答のペアが含まれる場合があります。このアプローチでは、GPT-4がOCRデータをノイズ除去し、ユニークな質問を作成する必要があります(図1)。彼らは取得されたデータの効果を評価するために、ノイズのあるデータと高品質の例を前処理および微調整の段階に補足的に使用します。</p><figure><img src=”https://lh4.googleusercontent.com/-AXzLZLUIIpwSBRrWQKqlBzz-EXf5cVHWCylLOuSOPcA9WR0VCjfJiLH4csuBmwvInV2RO3SWrP530DFQKr1IZt76lZJmdGw9YJN0gRbNqq3y8e1YwIyymtzK7DxvMkmTSkIefCHXn4wZqv8rUtXvsQ”/><figcaption><strong>図1</strong>は、命令に従う統計情報がどのように収集されるかを示しています。 | https://arxiv.org/pdf/2306.17107.pdf</figcaption></figure><p>ジョージア工科大学、アドビリサーチ、スタンフォード大学の研究者が開発したLLaVAR(Large Language and Vision Assistant that Can Read)は、視覚とテキストの両方の理解力で優れたパフォーマンスを発揮します。オリジナルのLLaVAと比較して、入力解像度を2242から3362に拡大することで、細かいテキストの特徴をより良くエンコードする実験を行いました。評価手法によると、彼らはScienceQAの微調整結果とともに、4つのテキストベースのVQAデータセットの結果を示しています。また、GPT-4に基づいた命令に従う評価には、LAIONからの50のテキストリッチな画像とCOCOからの30の自然画像も使用しています。さらに、ポスターやウェブサイトのスクリーンショット、ツイートなど、より洗練された命令に従う能力を測定するための定性的な分析も行っています。</p><p>まとめると、彼らの貢献は以下の通りです:</p><p>• 高品質な16Kとノイズのある422Kの命令に従うデータを収集しました。どちらもビジュアル命令チューニングを改善することが示されています。改善された能力により、彼らのモデルLLaVARは、テキストと画像を含む多様なオンライン素材に基づいたエンドツーエンドの対話を提供することができますが、モデルのパフォーマンスは自然な写真においてわずかに向上しています。</p><p>• トレーニングおよび評価データ、およびモデルのマイルストーンは公開されています。</p><p>この記事はMarkTechPostで最初に公開されました。</p>

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

中国の研究者がiTransformerを提案:時間系列予測のためのTransformerアーキテクチャの見直し

トランスフォーマーは、自然言語処理とコンピュータビジョンで大成功を収めた後、スケーリングのルールに従う基本モデルとな...

データサイエンス

「OpenAIとMetaが著作権侵害で訴えられる」

驚くべき法的な展開により、有名なコメディアンのサラ・シルバーマン、著名な作家のクリストファー・ゴールデンとリチャード...

機械学習

「機械学習モデルを展開する」とはどういう意味ですか?

データサイエンスは、ますます多くの企業を引き付け続ける有望な分野ですが、産業化プロセスに統合されるのに苦労しています...

データサイエンス

「AIがキーストロークを聞く:新たなデータセキュリティの脅威」

ロンドン大学、ダラム大学、サリー大学の研究者によって開発された画期的なAIシステムは、データセキュリティの懸念を新たな...

機械学習

OpenAIがBaby Llamaを発表 - 低電力デバイス向けのLLM!

人工知能の世界からの最新ニュース! OpenAIの有名な深層学習の専門家、Andrej Karpathy氏が、リソース制約のあるデバイス上...

AIニュース

「ChatGPTのコピーライターへの影響:AIと統合された未来における苦悩と希望」

人工知能の台頭は、コンテンツ作成の世界を含むさまざまな産業を確実に変革しました。しかし、最近のニューヨークポストの報...