Webスケールトレーニング解放:DeepMindがOWLv2とOWL-STを紹介、未知語彙物体検出の革新的ツール、前例のない自己学習技術によって駆動されます

DeepMindがOWLv2とOWL-STを紹介していますこれらは未知語彙物体検出の革新的なツールであり、前例のない自己学習技術によって駆動されています

オープンボキャブラリーの物体検出は、さまざまな実世界のコンピュータビジョンタスクにおいて重要な要素です。ただし、検出トレーニングデータの入手の制約と、事前学習モデルの脆弱性により、性能が劣り、スケーラビリティの問題が生じることが多いです。

この課題に対処するため、DeepMindの研究チームは最新の論文「Scaling Open-Vocabulary Object Detection」で、最適化されたアーキテクチャであるOWLv2モデルを紹介しています。このモデルはトレーニング効率を改善し、OWL-STセルフトレーニングの手法を組み込んで検出性能を大幅に向上させ、オープンボキャブラリー検出タスクでの最先端の結果を達成します。

この研究の主な目的は、ラベルスペース、注釈フィルタリング、およびオープンボキャブラリー検出セルフトレーニング手法のトレーニング効率を最適化し、限られたラベル付きデータで堅牢でスケーラブルなオープンボキャブラリー性能を実現することです。

提案されたセルフトレーニング手法は、次の3つの主要なステップで構成されています:

  1. チームは既存のオープンボキャブラリー検出器を使用して、WebLIという大規模なウェブ画像テキストペアのデータセットでオープンボックス検出を行います。
  2. 彼らはOWL-ViT CLIP-L/14を使用して、すべてのWebLI画像に境界ボックスの疑似注釈を付けます。
  3. 彼らは、人間による注釈付けされた検出データを使用してトレーニングモデルを微調整し、パフォーマンスをさらに向上させます。

特筆すべきは、研究者がより効果的な検出器を訓練するために、OWL-ViTアーキテクチャのバリアントを使用していることです。このアーキテクチャは、コントラストトレーニングされた画像テキストモデルを利用して画像とテキストのエンコーダを初期化し、検出ヘッドはランダムに初期化されます。

トレーニングの段階では、チームは同じ損失関数を使用し、OWL-ViTアーキテクチャから「疑似ネガティブ」をクエリに追加して、利用可能なラベル付き画像の利用を最大化するためにトレーニング効率を最適化します。

さらに、大規模Transformerトレーニングのために以前に提案された手法を組み込んで、トレーニング効率をさらに向上させます。その結果、OWLv2モデルは、元のOWL-ViTモデルに比べてトレーニングFLOPSを約50%削減し、トレーニングスループットを2倍に加速します。

チームは実証的な研究で、提案手法を以前の最先端のオープンボキャブラリー検出器と比較しています。OWL-ST技術により、LVISの稀なクラスの平均精度(AP)が31.2%から44.6%に向上します。さらに、OWL-STレシピをOWLv2アーキテクチャと組み合わせることで、新たな最先端のパフォーマンスが実現されます。

全体的に、本論文で提案されたOWL-STレシピは、大規模なウェブデータからの弱教師付き学習を活用して検出性能を大幅に向上させ、オープンワールドの位置特定におけるウェブスケールのトレーニングを実現します。この手法は、ラベル付き検出データの希少性による制約に対処し、堅牢なオープンボキャブラリー物体検出のスケーラブルな手法の可能性を示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

メリーランド大学の新しいAI研究は、1日で単一のGPU上で言語モデルのトレーニングをするためのクラミングの課題を調査しています

自然言語処理の多くの領域では、言語解釈や自然言語合成を含む機械学習モデルの大規模トレーニングにおいて、トランスフォー...

人工知能

「Adversarial Autoencoders オートエンコーダーとGANの間のギャップを埋める」

イントロダクション 機械学習のダイナミックな領域において、2つの強力な技術を組み合わせることで、Adversarial Autoencoder...

AIニュース

スウェーデンからの持続可能なソリューションの推進

「本日、私たちはGoogle.org インパクトチャレンジ:ソーシャルグッドのためのテックにおけるスウェーデンの受賞者を発表し...

AI研究

「ユーレカ!NVIDIAの研究によるロボット学習の新たな進展」

ロボットに複雑なスキルを教えることができるNVIDIA Researchによって開発された新しいAIエージェントは、ロボットの手にペン...

AIニュース

マルチモーダルAI:見て聞くことができる人工知能

人工知能(AI)はその創始以来、長い道のりを歩んできましたが、最近まで、その能力はテキストベースのコミュニケーションと...

AI研究

新しい人工知能(AI)の研究アプローチは、統計的な視点からアルゴリズム学習の問題として、プロンプトベースのコンテキスト学習を提示します

インコンテキスト学習は、最近のパラダイムであり、大規模言語モデル(LLM)がテストインスタンスと数少ないトレーニング例を...