中国の研究者がCogVLMを紹介:パワフルなオープンソースのビジュアル言語基礎モデル

『中国の研究者が発表するCogVLM:パワフルなオープンソースのビジュアル言語基礎モデル』

ビジュアル言語モデルのモデルは強力かつ柔軟です。次に、トークン予測を使用して、画像キャプション、ビジュアルクエスチョンアンサリング、ビジュアルグラウンディング、さらにはセグメンテーションなど、さまざまなビジョンとクロスモダリティのタスクを作成できます。VLMがスケールアップされると、ダウンストリームアクティビティの強化とともに、インコンテキスト学習などの有用なスキルも現れます。 LLAMA2のような訓練済みの純粋な言語モデルと同じNLPパフォーマンスを持つVLMをスタートから訓練するのはより困難であり、既に大規模な言語モデルを導入すること自体が困難なタスクです。そのため、利用可能な事前訓練済みの言語モデルを使用してVLMを訓練するプロセスを見ることは合理的です。

BLIP-2に代表される広く使用されている浅いアラインメント技術は、トレーナブルなQ-Formerまたは線形層を使用して、凍結された事前訓練ビジョンエンコーダと言語モデルを接続し、画像特徴を言語モデルの入力埋め込み空間に変換します。このアプローチは収束速度が速いですが、PaLI-Xのように言語とビジョンのモジュールを同時に訓練すると同等のパフォーマンスは発揮されません。MiniGPT-4、LLAVA、およびVisualGLMなどの浅いアラインメント技術を使用して教えられたチャットスタイルのVLMの場合、ビジュアルの理解力の不足が幻覚として現れます。自然言語処理(NLP)の能力を損なうことなく、大規模言語モデルの視覚的な理解能力を向上させることは可能ですか?

Zhipu AIと清華大学の研究者は、これに「はい」と答えています。彼らはCogVLMを紹介しました。この強力なオープンソースのビジュアル言語基礎モデルは、言語とビジュアル情報の深い統合の不足が浅いアラインメントアプローチのパフォーマンス低下の主な理由であると考えています。この考えは、効果的な微調整の2つのアプローチを比較することから生まれました:p-tuningは入力のタスク接頭辞埋め込みを学習します。LoRAは各レイヤーのモデルの重みを調整するために低ランク行列を使用します。その結果、LoRAはより効果的かつ安定して機能します。浅いアラインメント技術の画像特徴は、p-tuningのプレフィックス埋め込みと同様に振る舞いますので、VLMでも同様の現象が起こる可能性があります。

p-tuningと浅いアラインメントの性能低下のさらなる具体的な原因は次のとおりです:

1. テキストトークンが言語モデルの凍結された重みを訓練します。テキスト領域は、ビジュアル特性に完全に一致するだけです。ビジュアル特性は、多層の変更に続く深層の重みの入力分布と一致しなくなるかもしれません。

2. たとえば画像キャプションの仕事の文章スタイルやキャプションの長さは、浅いアラインメントのアプローチでは事前トレーニング中にビジュアル特性にのみエンコードされる可能性があります。ビジュアル要素とコンテンツの一貫性を強めることができるでしょう。Qwen-VLやPaLIが使用する画像テキストの組み合わせトレーニングに言語モデルを適応させることは、1つの可能な対策です。

ただし、これによりNLPが不要に損なわれ、画像ベースの詩の作成や画像の文脈の提供などのテキスト中心のアクティビティに影響を与える場合があります。PaLM-EによるVLMの事前トレーニング中に言語モデルを訓練可能にすると、厄介な忘却が起こり、8B言語モデルのNLGパフォーマンスが87.3%減少します。その代わりに、CogVLMは訓練可能なビジュアルエキスパートを使用して言語モデルを強化します。各レイヤーは、シーケンス内の画像特徴のための独自のQKV行列と、テキスト特性のためのMLP層を使用します。ビジュアルエキスパートは同じFLOPを維持しますが、パラメータの数を増やします。入力シーケンスに画像がない場合、すべてのパラメータが固定されているため、振る舞いは元の言語モデルと同じです。

NoCaps、Flicker30k、COCOなどの14の典型的なクロスモーダルベンチマークでは、Vicuna-7Bから訓練されたCogVLM-17Bは、最新技術または第2位の性能を達成しています。TDIUC、ScienceQAなどの3つのマルチチョイスデータセット、RefCOCO、RefCOCO+、RefCOCOg、Visual7Wなどのビジュアルグラウンディングデータセットが含まれていません。彼らはChatGLM-12Bから訓練されたCogVLM-28B-zhを商業用に中国語と英語の両方をサポートするために使用しました。過去の最も有名なVLM、例えばFlamingo、SimVLM、Coca、BEIT-3、GIT2、PaLI、PaLI-Xなどのほとんどはクローズドソースであるため、CogVLMのオープンソース化がビジュアルの理解の研究と産業応用に重大な影響を与えると予想されています。

を日本語に翻訳すると、

となります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「機械学習における特徴エンジニアリングへの実践的なアプローチ」

この記事では、機械学習における特徴学習の重要性と、それを簡単で実践的な手順で実装する方法について説明しました

コンピュータサイエンス

ユーザーに扱える以上を提供する

「マイクロソフトの人工知能ファイルは、顧客にセキュリティ上の問題を引き起こしていますか?」

コンピュータサイエンス

「A.I. Doomerismの白熱の中心に入ってみよう」

安全を重視するA.I.スタートアップのAnthropicは、ChatGPTと競争しながらA.I.の黙示録を防ぐことを試みています少しストレス...

AIニュース

「MITのリキッドニューラルネットワークが、ロボットから自動運転車までのAI問題を解決する方法」

「Liquid neural networks(リキッドニューラルネットワーク)は、従来の深層学習モデルとは大きく異なるものです」

機械学習

効果的にLLMをトレーニングする方法:小規模な導入のためのベストプラクティス

Large Language Models(LLMs)の新しい進歩に関するニュースの中で、あなたは「自分自身のLLMをどのように訓練すればいいの...

機械学習

アクセンチュアは、AWS上でジェネレーティブAIサービスを使用して、ナレッジアシストソリューションを作成しました

この投稿はアクセンチュアのイラン・ゲラーとシュウユ・ヤンと共同で執筆されました現在、企業は内部および外部のビジネス活...