ドリームティーチャーというAIフレームワークに出会ってください:自己教師付きの特徴表現学習AIフレームワークであり、下流の画像バックボーンの事前トレーニングに生成ネットワークを利用します

Dream Teacher is an AI framework a self-supervised feature learning AI framework that uses a generative network for pre-training downstream image backbones.

自己教育型表現学習は、ビジョンの基礎的なスキルを開発するための成功した手法です。この研究の流れは、大規模な未ラベルデータセットを補完的なトレーニングデータの源として使用することで、下流ネットワークのパフォーマンスを向上させ、大規模なラベル付きターゲットデータセットの要件を軽減するという考えに基づいています。最近の研究では、ImageNetでの自己教育型事前トレーニングが、ピクセル単位の意味論的およびインスタンスセグメンテーションを含むいくつかの下流データセットとタスクにおいて、教師付き事前トレーニングを凌駕または追い越すことが示されています。

画像の変形されたビューを画像データセットからランダムに選択された画像よりも潜在空間で近くマッピングするようにターゲットバックボーンをトレーニングする対照学習のバリエーションは、自己教育型表現学習の中で最も人気のある手法の一つです。このパラダイムは、空間損失を追加し、負のインスタンスを少なくまたはまったく使用しないことでトレーニングの安定性を高めることによって改善することができます。また、一部の領域を入力画像からマスクし、バックボーンをその部分を再構築するようにトレーニングする再構成損失やマスクされた画像モデリング(MIM)に焦点を当てた研究もあります。この研究では、通常、隠れた領域のための単一の理論を監視するという点で決定論的と見なされます。

通常、この研究領域では、より良いバックボーンをトレーニングするためのアーキテクチャの設計、トレーニングのレシピ、およびマスキング戦術に焦点を当てています。これらの技術はVision Transformerベースのバックボーンと組み合わせて使用すると、最先端のパフォーマンスを達成することができます。ただし、最近ではスパースなCNNベースのイメージバックボーンも同様に効果的であることが示されています。本研究では、著者らは、生成モデルを表現学習のための学習者として使用することを提案し、ゴールのシンプルさ(データの生成)と直感的な表現力(高品質のサンプルの生成)を学習された意味的に適切な内部表現のサインとして引用しています。

生成ネットワークを表現学習の学習者として使用するというアイデアは、よく知られています。DatasetGANおよびその派生物でタスク依存型ヘッドと補完的な特徴が提案され、これらの強化されたネットワークをラベル付きデータのソースとして使用して後続のネットワークをトレーニングすることがあります。SemanticGANでは、生成モデルの潜在空間に画像をエンコードし、課題のヘッドを使用して知覚的な出力を作成するために、タスクデコーダーを持つStyleGANをタスクネットワークそのものとして使用しました。NVIDIA、トロント大学、ベクター研究所、MITの研究者らは、DreamTeacherというフレームワークを紹介しています。このフレームワークは、生成モデルを使用して蒸留ベースの下流知覚モデルを事前学習するために使用します。

彼らは2つの異なる蒸留プロセスについて調査しています:1)ラベルのない普遍的な事前トレーニング手順として、生成特徴をターゲットバックボーンに削減する特徴蒸留のための技術を提供します。2)ラベルの蒸留:半教師付きの環境では、ラベル付きデータセットの知識をタスクヘッドを使用してターゲットバックボーンに蒸留します。彼らの研究では、拡散モデルとGANが生成モデルの選択肢です。

彼らは、2つの主な理由から、CNNをターゲットバックボーンとして重点的に調査しています。1)CNNベースのバックボーンは、対照的なおよびMIMの手法においてSoTAの表現学習を実施できることが示されており、2)SoTAの生成モデル(GANや拡散モデルなど)は、依然としてCNNに強く依存しています。彼らはまた、初期の試行でビジョンTransformerのバックボーンも調査しましたが、CNNベースの生成モデルから特徴を抽出することが困難であると判断しました。ビジョンTransformerアーキテクチャを使用して生成モデルを作成する研究はまだ初期段階にあるため、これらの設計を使用したDreamTeacherに関するさらなる研究が必要です。

彼らは実証的に示していますDreamTeacherは、現在利用可能な自己教育型学習システムよりも多くのベンチマークと条件で優れたパフォーマンスを発揮します。ADE20Kでの意味セグメンテーション、MSCOCOでのインスタンスセグメンテーション、および自動運転データセットBDD100Kなどのいくつかの密な予測ベンチマークとタスクでは、ImageNetでのフルスーパーバイズドトレーニングよりもImageNetでのラベルなしの事前トレーニングで優れた結果を示します。ターゲットドメインのみでトレーニングした場合、彼らの手法はラベル付きImageNetで事前トレーニングしたバリエーションを大幅に上回ります。彼らの手法は、数百万枚の未ラベル画像を持つオブジェクトに焦点を当てたデータセットで新たなSoTAの性能を達成します。これらの結果は、生成モデル、特に拡散ベースの生成モデルが、さまざまな未ラベル情報を効果的に利用する表現学習者としての能力を示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「検索増強生成によるAIの幻覚の軽減」

「この新しく考案された技術は、独自のデータをプロンプトに追加することで、LLM(Language Model)の知識を増やす可能性を示...

AI研究

MONAI 生成モデル:医療画像の進歩に向けたオープンソースプラットフォーム

最近の生成型人工知能のブレークスルーにより、特に医療画像処理の分野で重要な進展が見られています。しかし、これらの生成...

データサイエンス

「人工知能による在庫管理の革命:包括的なガイド」

「AIが在庫管理をどのように向上させるかを、業務を効率化したいマネージャーやビジネスオーナー向けに案内するガイドで発見...

AI研究

ジェン AI for the Genome LLM は COVID バリアントの特徴を予測します

広く高く評価されている大規模な言語モデルであるGenSLMsは、COVID-19の原因であるSARS-CoV-2の現実世界の変異体に酷似した遺...

機械学習

このスペースを見る:AIを使用してリスクを推定し、資産を監視し、クレームを分析する新しい空間金融の分野

金融の意思決定をする際には、ドローン、衛星、またはAIパワードセンサーから取得した大局的な情報を見ることが重要です。 空...

機械学習

Deep learning論文の数学をPyTorchで効率的に実装する:SimCLR コントラスティブロス

PyTorch / TensorFlow のコードに深層学習論文の数学を実装することは、深層学習モデルの数学的な理解を深め、高度なプログラ...