「CutLER(Cut-and-LEaRn):人間の注釈なしで物体検出とインスタンスセグメンテーションモデルをトレーニングするためのシンプルなAIアプローチによる出会い」

CutLER A Simple AI Approach for Training Object Detection and Instance Segmentation Models without Human Annotations

オブジェクト検出と画像セグメンテーションは、コンピュータビジョンと人工知能の重要なタスクです。これらは、自動車、医療画像、セキュリティシステムなど、さまざまなアプリケーションで重要です。

オブジェクト検出は、画像やビデオストリーム内のオブジェクトのインスタンスを検出することを目的としています。オブジェクトのクラスと画像内の位置を特定することから成り立っています。目標は、オブジェクトの周囲に境界ボックスを生成し、さらなる分析やビデオストリーム内でのオブジェクトの追跡に使用することです。オブジェクト検出アルゴリズムは、ワンステージとツーステージの2つのカテゴリに分けることができます。ワンステージの方法は速いですが正確性は低く、ツーステージの方法は遅いですが正確性が高いです。

一方、画像セグメンテーションは、画像を複数のセグメントまたは領域に分割することで、各セグメントが異なるオブジェクトまたはオブジェクトの一部に対応するようにすることを目的としています。目標は、画像内の各ピクセルにセマンティッククラス(「人」、「車」、「空」など)をラベル付けすることです。画像セグメンテーションアルゴリズムは、セマンティックセグメンテーションとインスタンスセグメンテーションの2つのカテゴリに分けることができます。セマンティックセグメンテーションは、各ピクセルにクラスラベルを付けることを目的としていますが、インスタンスセグメンテーションは、画像内の個々のオブジェクトを検出してセグメント化することを目的としています。

オブジェクト検出と画像セグメンテーションの両方のアルゴリズムは、深層学習のアプローチによって最近大きく進化しています。ピクチャ入力の階層的表現を学習する能力があるため、畳み込みニューラルネットワーク(CNN)はこれらの問題に対する選択肢となっています。ただし、これらのモデルのトレーニングには、オブジェクトボックス、マスク、ローカライズされたポイントなどの専門的な注釈が必要であり、これは困難で時間がかかる作業です。オーバーヘッドを考慮しない場合、COCOデータセットの164K枚の画像に対して、80のクラスのマスク付きの手動注釈を行うには28K時間以上が必要でした。

新しいアーキテクチャであるCut-and-LEaRn(CutLER)を用いて、著者たちはこれらの問題に対処しようとします。CutLERは、人間のラベルなしでトレーニングできる教師なしのオブジェクト検出とインスタンスセグメンテーションモデルを研究することを目的としています。この手法は、3つのシンプルなアーキテクチャとデータに依存しないメカニズムで構成されています。提案されたアーキテクチャのパイプラインを以下に示します。

出典: https://arxiv.org/pdf/2301.11320.pdf

CutLERの著者は、まず、自己教師ありの事前学習ビジョントランスフォーマーViTによって計算された特徴に基づいて、各画像に対して複数の初期ラフマスクを自動生成するツールであるMaskCutを紹介しています。MaskCutは、Normalized Cuts(NCut)などの現在のマスキングツールの制限に対処するために開発されました。実際、NCutの応用は画像内の単一のオブジェクト検出に制限されることが多く、これは大きな制約となる場合があります。そのため、MaskCutは、マスクされた類似度行列に反復的にNCutを適用することで、画像ごとに複数のオブジェクトを発見するように拡張しています。

次に、著者たちは、これらのラフマスクを使用してディテクタをトレーニングするための簡単なロスドロップ戦略を実装しています。これらのラフマスクでトレーニングされたディテクタは、地面の真実を洗練し、より正確なマスク(およびボックス)を生成することができます。したがって、モデルの予測に対する自己トレーニングの複数のラウンドにより、モデルは局所的なピクセルの類似性に焦点を当てることから、全体的なオブジェクトのジオメトリを考慮することに進化し、より正確なセグメンテーションマスクを生成することができます。

以下の図は、提案されたフレームワークと最先端のアプローチとの比較を示しています。

出典: https://arxiv.org/pdf/2301.11320.pdf

これは、正確で一貫性のある物体検出と画像セグメンテーションのための新しいAIツール、CutLERの概要でした。

このフレームワークに興味がある場合や詳細を知りたい場合は、論文とプロジェクトページへのリンクを見つけることができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

埋め込みとベクトルデータベース 実践的なガイド!

生成AIは急速に進化し、テクノロジーやデータ管理の景観を根本的に変えているベクターデータベースの世界へようこそ

機械学習

「AIの革命:WatsonXの力を明らかにする」

「ワトソンX」という革命的なAI技術に出会ってくださいそれは、量子コンピューティング、高度な機械学習、自然言語処理が融合...

データサイエンス

なぜディープラーニングは常に配列データ上で行われるのか?新しいAI研究は、データからファンクタまでを一つとして扱う「スペースファンクタ」を紹介しています

暗黙のニューラル表現(INR)またはニューラルフィールドは、3D座標を3D空間の色と密度の値にマッピングすることによって、3D...

人工知能

GPTエンジニア:1つのプロンプトで強力なアプリを構築する

GPTエンジニアは、1つのプロンプトで完全なコーディングプロジェクトを構築できるAIエージェントです

機械学習

「イノベーションと持続可能性のバランス:病理学における環境責任に対する現実的なアプローチ」

この研究は、病理学における重大な懸念である深層学習の炭素排出量(CO2eq)に焦点を当てています。この環境への影響は、医療応...

機械学習

エンタープライズAIとは何ですか?

エンタープライズAIの紹介 時間は重要であり、自動化が答えです。退屈で単調なタスク、人間によるミス、競争の混乱、そして最...