3B、4B、9B のスケールで 5 つの新しいマルチモーダルモデルを備えた OpenFlamingo チームが、前モデルを上回る OpenFlamingo v2 をリリースしました

OpenFlamingoチームは、3B、4B、9Bのスケールで5つの新しいマルチモーダルモデルを持つOpenFlamingo v2をリリースしました

ワシントン大学、スタンフォード大学、AI2、UCSB、Googleの研究者グループは、最近OpenFlamingoプロジェクトを開発しました。このプロジェクトはDeepMindのFlamingoチームと同様のモデルを構築することを目指しています。OpenFlamingoモデルは、任意の混合テキストと画像のシーケンスを処理し、テキストを出力することができます。キャプショニング、ビジュアルクエスチョンアンサリング、画像分類などが、このモデルの能力とコンテキストでのサンプリングを活用することができる活動の一部です。

現在、チームはv2のリリースを発表しました。このリリースには、3B、4B、9Bのレベルでトレーニングされた5つのOpenFlamingoモデルが含まれています。これらのモデルは、LLaMAよりも制約の緩いオープンソースモデルから派生しており、MosaicのMPT-1Bと7B、Together.XYZのRedPajama-3Bなどが含まれています。

研究者たちは、すでにプリトレーニングされた静的言語モデルのレイヤーに視覚的な特徴を追加することで、Flamingoモデリングパラダイムを使用しました。ビジョンエンコーダーと言語モデルは静的なままですが、接続モジュールはFlamingoと同様にWebスクレイピングされた画像テキストのシーケンスを使用してトレーニングされます。

チームは、キャプショニング、VQA、および分類モデルをビジョン言語データセットでテストしました。その結果、チームはv1リリースとOpenFlamingo-9B v2モデルの間で大きな進歩を遂げたことがわかりました。

彼らは7つのデータセットと5つの異なるコンテキストからの結果を組み合わせて、モデルの有効性を評価しました。コンテキストのないショット、4つのショット、8つのショット、16のショット、32のショットの評価を行いました。OpenFlamingo (OF)のOF-3BおよびOF-4BレベルのモデルをFlamingo-3BおよびFlamingo-9Bレベルのモデルと比較し、平均してOpenFlamingo (OF)はFlamingoの性能の80%以上を達成していることがわかりました。研究者たちはまた、自身の結果をPapersWithCodeで公開された最適化されたSoTAと比較しました。オンラインデータのみで事前トレーニングされたOpenFlamingo-3BおよびOpenFlamingo-9Bモデルは、32のコンテキストインスタンスで微調整された性能の55%以上を達成しています。OpenFlamingoのモデルは、0ショットではDeepMindの平均10%、32ショットでは15%遅れています。

チームは引き続きトレーニングと最先端のマルチモーダルモデルの提供に取り組んでいます。次に、事前トレーニングに使用するデータの品質を向上させることを目指しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「このAIニュースレターが必要なすべて #59」

今週、Zoomの利用規約の変更(3月から)が、顧客のビデオデータの使用に関する懸念が拡散したことで注目されましたZoomの利用...

AIニュース

「ジェネレーティブAIによる先進的なトランスフォーマーで創造性を解き放つ」

導入 人工知能の絶え間なく進化する風景において、近年際立った存在となっている名前があります。それがトランスフォーマーと...

機械学習

NLPとAIを利用したPythonにおけるテンプレートベースの文書生成の力

Pythonを利用したテンプレートベースの文書生成の機能をNLPやAIの機能と融合させ、その力を活用してください文書生成の作業フ...

機械学習

オラクルは、AIとクラウドを基盤とした未来のビジョンを明らかにしました

ラリー・エリソンは、生成的AIが変革的であり、エンタープライズAIアプリケーションの構築におけるOracle Cloudの独特な利点...

AI研究

Salesforce AIは、既存の拡散モデルを与えられた場合に、テキストから画像への拡散生成を行う新しい編集アルゴリズム「EDICT」を開発しました

最近のテクノロジーと人工知能の分野における進歩により、多くのイノベーションが生まれています。超トレンディなChatGPTモデ...

人工知能

大規模展開向けのモデル量子化に深く掘り下げる

イントロダクション AIにおいて、大規模なモデルをクラウド環境に展開するという2つの異なる課題が浮かび上がっています。こ...