アリババの研究者は、Qwen-VLシリーズを紹介しますこれは、テキストと画像の両方を認識し理解するために設計された大規模なビジョン・ランゲージ・モデルのセットです

アリババの研究者は、Qwen-VLシリーズを紹介しますこれは、テキストと画像の両方を認識し理解するために設計された大規模なモデルのセットです

最近、大規模言語モデル(LLM)は、強力なテキスト生成能力と理解能力を持つため、多くの関心を集めています。これらのモデルは相互作用能力があり、ユーザーの意図に合わせて指示をより一層的確にすることで、知的なアシスタントとして生産性を向上させる潜在的な能力を持っています。一方、ネイティブの大規模言語モデルは純粋なテキストの領域に限定されており、画像や音声、動画などの他の広く使用されるモダリティを扱うことができません。そのため、これらのモデルの応用範囲が制限されています。この制約を克服するために、大規模ビジョン言語モデル(LVLM)の系列が作成されました。

これらの広範なビジョン言語モデルは、実用的なビジョン中心の問題を解決するための大きな可能性を示しています。アリババグループの研究者たちは、オープンソースのQwenシリーズの最新メンバーであるQwen-VLシリーズモデルを紹介し、マルチモーダルなオープンソースコミュニティの成長を促進しています。Qwen-VLファミリーの大規模なビジョン言語モデルには、Qwen-VLとQwen-VL-Chatの2つのバリエーションがあります。事前学習済みモデルであるQwen-VLは、ビジュアルエンコーダをQwen-7B言語モデルに接続して、ビジュアルの能力を提供します。Qwen-VLは、訓練の3つの段階を経た後、マルチレベルのスケールでビジュアル情報を感知し、理解することができます。また、Qwen-VL-Chatは、Qwen-VLを基にした対話型のビジュアル言語モデルであり、アライメント手法を使用し、複数の画像入力、マルチラウンドのディスカッション、位置情報の能力など、より柔軟な対話を提供します。これは図1に示されています。

図1: Qwen-VL-Chatによって生成されたいくつかの定性的なサンプルが図1に示されています。複数の画像入力、ラウンドロビンの会話、多言語の会話、および位置情報の機能をQwen-VL-Chatはサポートしています。

以下は、Qwen-VL-Chatの特徴です。

・高い性能:ゼロショットキャプショニング、VQA、DocVQA、およびグラウンディングなど、いくつかの評価ベンチマークで、現在のオープンソースの大規模ビジョン言語モデル(LVLM)を大幅に上回る性能を発揮します。

・多言語LVLMによる中国語と英語のバイリンガルテキストと画像内のインスタンスのエンドツーエンド認識とアンカリングの促進:Qwen-VLは自然な形で英語、中国語、およびマルチリンガルな対話が可能です。

・複数の画像の交互に挿入された会話:この機能により、複数の画像を比較し、画像に関する質問を指定し、複数の画像で物語を作成することができます。

・正確な認識と理解:448×448の解像度により、細かいテキストの認識、ドキュメントの品質保証、バウンディングボックスの識別が、競合するオープンソースのLVLMが現在使用している224×224の解像度と比較して促進されます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

「AI自動化と性別格差:AIが女性労働者に与える影響」

人工知能(AI)の進歩により、労働の未来が再構築されつつあります。AIによる自動化による仕事の喪失への恐怖は広まっていま...

AIニュース

モデルレジストリとAmazon SageMakerモデルカードを統合する

「Amazon SageMakerモデルカードにより、モデルのドキュメント化方法を標準化し、モデルの設計、構築、トレーニング、評価な...

データサイエンス

「固有表現とニュース」

「オランダのニュース記事のデータセットに対して適用された固有表現認識を用いた実験による自動要約、推薦、およびその他の...

データサイエンス

「PyTorchでのSoft Nearest Neighbor Lossの実装方法」

表現学習は、深層ニューラルネットワークによって与えられたデータセット内の最も顕著な特徴を学習するタスクです通常は教師...

データサイエンス

「データプラットフォームから機械学習プラットフォームへ」

データ/機械学習は、私たちのテクノロジーの風景では最も人気のあるトピックです私はデータ/機械学習プラットフォームの理解...

AI研究

「MITの研究者たちは、人工知能(AI)の技術を開発しましたこの技術により、ロボットは手全体を使ってオブジェクトを操作するための複雑な計画を立てることが可能になります」

全身操作は人間の強みですが、ロボットの弱点です。ロボットは、箱とキャリアの指、腕、または胴体の各接触点を、別々の接触...