「SegGPT」にお会いください:コンテキスト推論を通じて画像または動画の任意のセグメンテーションタスクを実行する汎用モデル

「SegGPT」は、コンテキスト推論を通じて画像または動画のセグメンテーションタスクを実行する汎用モデルです

コンピュータビジョンでは、前景、カテゴリ、オブジェクトインスタンスなどの重要な概念をピクセルレベルで特定し、再構成することを目指しており、セグメンテーションは最も基本的な課題の1つです。前景セグメンテーション、インタラクティブセグメンテーション、意味的セグメンテーション、インスタンスセグメンテーション、パノプティックセグメンテーションなどのさまざまなセグメンテーションタスクについて、近年、かなりの進展がありました。ただし、これらの専門的なセグメンテーションモデルは、特定のタスク、分類、粒度、データ形式などに制約があります。新しい環境に適応する際に、例えば新しい概念をセグメンテーションしたり、写真ではなくビデオ内のオブジェクトをセグメンテーションする場合、新しいモデルをトレーニングする必要があります。

この研究では、無限のセグメンテーションタスクに対応できる単一のモデルをトレーニングすることを目標としています。これには時間のかかる注釈作業が必要であり、多くのセグメンテーションジョブに対して持続可能性が求められます。主な難点は2つの領域にあります:(1)部分、意味的、インスタンス、パノプティック、人物、医療画像、航空画像など、非常に異なるデータタイプをトレーニングに組み込むこと。(2)従来のマルチタスク学習とは異なる一般化可能なトレーニングスキームを作成することであり、タスクの定義が柔軟で、自身の範囲外のタスクを処理できるものです。これらの問題を克服するために、北京アカデミー、浙江大学、北京大学の研究者は、セグモデルを紹介し、文脈内で何でもセグメンテーションするための一般化パラダイムを提案しています。

彼らは、多くのセグメンテーションタスクを一般化した文脈内学習フレームワークに統合し、セグメンテーションを視覚知覚の一般的な形式と見なしています。このフレームワークは、それらを同じ画像形式に変換することで、さまざまなセグメンテーションデータタイプを処理できます。各データサンプルに対してランダムな色マッピングを使用することで、SegGPTトレーニング問題は文脈内の着色問題として表現されます。クラス、オブジェクトインスタンス、コンポーネントなどの関連領域のみを文脈によって色付けすることが目標です。ランダムな着色スキームを使用することで、モデルは特定の色合いに依存するのではなく、与えられたジョブを実行するために文脈データを参照する必要があります。これにより、より適応性と一般性のある方法でトレーニングにアプローチすることが可能になります。

標準のViTと単純なスムーズなl1損失を使用する場合、残りのトレーニングコンポーネントは同じままです。トレーニング後、SegGPTはコンテキスト内推論を使用して、オブジェクトインスタンス、スタッフ、部分、輪郭、テキストなどのいくつかのインスタンスを指定した画像やビデオでさまざまなセグメンテーションタスクを実行することができます。彼らは、マルチ例示のシナリオでモデルが利用できるようにするためのシンプルでパワフルなコンテキストアンサンブルテクニックであるフィーチャーアンサンブルを提案しています。ADE20Kセマンティックセグメンテーションなどの特定のユースケースにカスタマイズされたプロンプトを調整することで、SegGPTはモデルパラメータを変更することなく専門モデルとしても簡単に機能することができます。

これらが彼らの主な貢献です。

(1)初めて、幅広いセグメンテーションタスクを自動的に完了する単一の一般モデルを示しています。

(2)セマンティックセグメンテーション、ビデオオブジェクトセグメンテーション、意味的セグメンテーション、パノプティックセグメンテーションなどのさまざまなタスクについて、事前トレーニングされたSegGPTを微調整せずに直接評価します。

(3)主観的および統計的に、彼らの結果は、ドメイン内外のターゲットをセグメンテーションする能力を示しています。ただし、彼らの研究は、あらゆるベンチマークで新たな最先端の結果を達成することや、既存の専門的なアプローチを凌駕することを約束するものではありません。一般的なモデルは、特定のタスクを処理できない場合があると考えているためです。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

「Oktaの顧客アイデンティティで優れたデジタル体験を提供し、新たな価値を開放しましょう」

オクターの顧客アイデンティティへのビジョンは、ユーザーが迅速に革新し、シームレスなスケールを実現し、あらゆるデジタル...

機械学習

TaatikNet(ターティクネット):ヘブライ語の翻字のためのシーケンス・トゥ・シーケンス学習

この記事では、TaatikNetとseq2seqモデルの簡単な実装方法について説明していますコードとドキュメントについては、TaatikNet...

機械学習

「2024年のソフトウェア開発のトレンドと予測18」

2024年のソフトウェア開発の世界は、急速な技術の進歩と同時に進化するセキュリティの課題に備えています

機械学習

Deep learning論文の数学をPyTorchで効率的に実装する:SimCLR コントラスティブロス

PyTorch / TensorFlow のコードに深層学習論文の数学を実装することは、深層学習モデルの数学的な理解を深め、高度なプログラ...

機械学習

クラウドストライクは、Fal.Con 2023におけるAI駆動のセキュリティに関するビジョンを概説します

「クラウドネイティブアーキテクチャを使用し、AIと統合データを活用して、ますます速い攻撃に対する検出と対応を加速する」

データサイエンス

生成AIのアシストを使用して複雑なSQLクエリを作成する

イントロダクション ChatGPTの登場は、AIの歴史において前例のない瞬間を迎えました。ChatGPTや他の多くの生成型AIツールは、...