この中国のAI研究は、マルチモーダルな大規模言語モデル(MLLMs)の幻覚を修正するために設計された革新的な人工知能フレームワークである「ウッドペッカー」を紹介します

『ウッドペッカー』:マルチモーダルな大規模言語モデル(MLLMs)の幻覚修正における革新的な人工知能フレームワークをご紹介

中国の研究者たちは、マルチモーダルな大規模言語モデル(MLLM)における幻覚の問題に対処するために、Woodpeckerという新しい補正AIフレームワークを紹介しました。これらのモデルはテキストと画像処理を組み合わせており、しばしば提供された画像の内容を正確に反映していないテキストの説明を生成します。このような不正確さは、存在しないオブジェクトに関わる物体レベルの幻覚と、オブジェクト属性の不正確な説明による属性レベルの幻覚として分類されます。

幻覚を軽減するための現在のアプローチは、通常、特定のデータでMLLMを再トレーニングすることを含みます。これらの命令ベースのメソッドはデータ集約型であり、計算量が多く必要です。これに対し、Woodpeckerはトレーニング不要の代替手法を提供し、異なる段階での解釈力を向上させることができます。

Woodpeckerは、次の5つのキープロセスからなります:

1. キーコンセプトの抽出:この段階では、生成されたテキストで言及されている主要なオブジェクトを特定します。

2. 質問の形成:抽出したオブジェクトに関連する質問を診断するために形成します。

3. ビジュアル知識の検証:これらの質問には、オブジェクトレベルのクエリに対するオブジェクト検出などの専門モデル、および属性レベルの質問に対するビジュアル質問応答(VQA)モデルなどが使用されます。

4. ビジュアルクレームの生成:質問-応答ペアは、オブジェクトレベルと属性レベルの両方のクレームを含む構造化されたビジュアル知識ベースに変換されます。

5. 幻覚の修正:ビジュアル知識ベースを使用して、システムはMLLMにガイドを与え、生成されたテキスト内の幻覚を修正し、明確さと解釈可能性を保証するために境界ボックスを付けます。

このフレームワークは透明性と解釈可能性を重視しており、MLLMにおける幻覚の理解と修正に貴重なツールです。

研究者たちはWoodpeckerをPOPE、MME、およびLLaVA-QA90の3つのベンチマークデータセットで評価しました。POPEベンチマークでは、WoodpeckerはベースラインモデルであるMiniGPT-4とmPLUG-Owlよりも明確性を改善し、それぞれ30.66%と24.33%の精度向上を達成しました。このフレームワークは、ランダム、人気、および敵対的なシナリオを含むさまざまな設定で一貫性を示しました。

MMEベンチマークでは、Woodpeckerは特に件数に関連するクエリにおいて、MiniGPT-4を101.66ポイント上回る驚異的な改善を示しました。属性レベルのクエリでは、Woodpeckerはベースラインモデルの性能を向上させ、属性レベルの幻覚に効果的に対処しました。

LLaVA-QA90データセットでは、Woodpeckerは一貫して精度と詳細性の指標を向上させ、MLLMが生成する応答の幻覚を修正し、説明の内容を豊かにする能力を示しました。

まとめると、Woodpeckerフレームワークは、マルチモーダルな大規模言語モデルにおける幻覚に取り組むための有望な補正手法を提供しています。再トレーニングではなく解釈と修正に焦点を当てることで、MLLMが生成する説明の信頼性と正確性を向上させ、テキストと画像処理を含むさまざまなアプリケーションに潜在的な利益をもたらす貴重なツールです。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「ディープラーニングの謎を解明する:CIFAR-10データセットを用いたCNNアーキテクチャの秘密の解明」

「人工知能の絶えず進化する世界において、畳み込みニューラルネットワーク(CNN)は革命的なテクノロジーとして登場し、コン...

機械学習

新しい - Amazon SageMaker Canvasで利用可能なノーコード生成AI機能が追加されました

2021年に発売されたAmazon SageMaker Canvasは、ビジネスアナリストや市民データサイエンティストが使いやすいビジュアルなポ...

コンピュータサイエンス

スペイン出身のMIT物理学のポストドクター3人が、Botton Foundationのフェローシップを受け取りました

受賞者のルイス・アントニオ・ベニテス、カロリーナ・クエスタ=ラサロ、フェルナンド・ロメロ・ロペスは、彼らの科学的研究の...

機械学習

「vLLMに会ってください:高速LLM推論とサービスのためのオープンソース機械学習ライブラリ」

大規模な言語モデル(LLM)は、プログラミングアシスタントやユニバーサルチャットボットなどの新しいアプリケーションを可能...

機械学習

ディープマインドのグラフキャストに会いましょう:機械学習による天気予報の飛躍

天気予報技術の重要な進展として、Google DeepMindは画期的な機械学習モデルである「GraphCast」を紹介しました。このAIツー...