3B、4B、9B のスケールで 5 つの新しいマルチモーダルモデルを備えた OpenFlamingo チームが、前モデルを上回る OpenFlamingo v2 をリリースしました

OpenFlamingoチームは、3B、4B、9Bのスケールで5つの新しいマルチモーダルモデルを持つOpenFlamingo v2をリリースしました

ワシントン大学、スタンフォード大学、AI2、UCSB、Googleの研究者グループは、最近OpenFlamingoプロジェクトを開発しました。このプロジェクトはDeepMindのFlamingoチームと同様のモデルを構築することを目指しています。OpenFlamingoモデルは、任意の混合テキストと画像のシーケンスを処理し、テキストを出力することができます。キャプショニング、ビジュアルクエスチョンアンサリング、画像分類などが、このモデルの能力とコンテキストでのサンプリングを活用することができる活動の一部です。

現在、チームはv2のリリースを発表しました。このリリースには、3B、4B、9Bのレベルでトレーニングされた5つのOpenFlamingoモデルが含まれています。これらのモデルは、LLaMAよりも制約の緩いオープンソースモデルから派生しており、MosaicのMPT-1Bと7B、Together.XYZのRedPajama-3Bなどが含まれています。

研究者たちは、すでにプリトレーニングされた静的言語モデルのレイヤーに視覚的な特徴を追加することで、Flamingoモデリングパラダイムを使用しました。ビジョンエンコーダーと言語モデルは静的なままですが、接続モジュールはFlamingoと同様にWebスクレイピングされた画像テキストのシーケンスを使用してトレーニングされます。

チームは、キャプショニング、VQA、および分類モデルをビジョン言語データセットでテストしました。その結果、チームはv1リリースとOpenFlamingo-9B v2モデルの間で大きな進歩を遂げたことがわかりました。

彼らは7つのデータセットと5つの異なるコンテキストからの結果を組み合わせて、モデルの有効性を評価しました。コンテキストのないショット、4つのショット、8つのショット、16のショット、32のショットの評価を行いました。OpenFlamingo (OF)のOF-3BおよびOF-4BレベルのモデルをFlamingo-3BおよびFlamingo-9Bレベルのモデルと比較し、平均してOpenFlamingo (OF)はFlamingoの性能の80%以上を達成していることがわかりました。研究者たちはまた、自身の結果をPapersWithCodeで公開された最適化されたSoTAと比較しました。オンラインデータのみで事前トレーニングされたOpenFlamingo-3BおよびOpenFlamingo-9Bモデルは、32のコンテキストインスタンスで微調整された性能の55%以上を達成しています。OpenFlamingoのモデルは、0ショットではDeepMindの平均10%、32ショットでは15%遅れています。

チームは引き続きトレーニングと最先端のマルチモーダルモデルの提供に取り組んでいます。次に、事前トレーニングに使用するデータの品質を向上させることを目指しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

革新的なAI会社Ludaが革命的なリアルタイム強化学習システムを発表

2023年9月27日、テクノロジー界は画期的な出来事を経験しましたLudaという革新的な企業が人工知能(AI)の普及を目指して登場...

データサイエンス

AIはETLの再発明に時間を浪費する必要はない

「AIコミュニティはデータ統合を再発明しようとしていますが、現在のETLプラットフォームは既にこの問題を解決していますなぜ...

AIニュース

「OpenAIのGPTストアで稼ぐための11のカスタムGPTアイデア」

OpenAIは次の大きな収入源の機会を発表しました

人工知能

「ネクサスフローのNexusRaven-V2がGPT-4を自分のゲームで打ち負かす方法!」

人工知能の急速に進化する風景の中で、確立されたAIモデルの支配に挑戦する新たな候補が現れました。テックサークルで話題の...

データサイエンス

『自分のデータでChatGPTを訓練する方法:ソフトウェア開発者向けガイド』

「MEMWALKERとの対話型リーディングにより、AIモデルの強化が行われ、より豊かで文脈を理解した対話が可能となり、現代のAIの...