ドリームティーチャーというAIフレームワークに出会ってください：自己教師付きの特徴表現学習AIフレームワークであり、下流の画像バックボーンの事前トレーニングに生成ネットワークを利用します

Dream Teacher is an AI framework a self-supervised feature learning AI framework that uses a generative network for pre-training downstream image backbones.

自己教育型表現学習は、ビジョンの基礎的なスキルを開発するための成功した手法です。この研究の流れは、大規模な未ラベルデータセットを補完的なトレーニングデータの源として使用することで、下流ネットワークのパフォーマンスを向上させ、大規模なラベル付きターゲットデータセットの要件を軽減するという考えに基づいています。最近の研究では、ImageNetでの自己教育型事前トレーニングが、ピクセル単位の意味論的およびインスタンスセグメンテーションを含むいくつかの下流データセットとタスクにおいて、教師付き事前トレーニングを凌駕または追い越すことが示されています。

画像の変形されたビューを画像データセットからランダムに選択された画像よりも潜在空間で近くマッピングするようにターゲットバックボーンをトレーニングする対照学習のバリエーションは、自己教育型表現学習の中で最も人気のある手法の一つです。このパラダイムは、空間損失を追加し、負のインスタンスを少なくまたはまったく使用しないことでトレーニングの安定性を高めることによって改善することができます。また、一部の領域を入力画像からマスクし、バックボーンをその部分を再構築するようにトレーニングする再構成損失やマスクされた画像モデリング（MIM）に焦点を当てた研究もあります。この研究では、通常、隠れた領域のための単一の理論を監視するという点で決定論的と見なされます。

通常、この研究領域では、より良いバックボーンをトレーニングするためのアーキテクチャの設計、トレーニングのレシピ、およびマスキング戦術に焦点を当てています。これらの技術はVision Transformerベースのバックボーンと組み合わせて使用すると、最先端のパフォーマンスを達成することができます。ただし、最近ではスパースなCNNベースのイメージバックボーンも同様に効果的であることが示されています。本研究では、著者らは、生成モデルを表現学習のための学習者として使用することを提案し、ゴールのシンプルさ（データの生成）と直感的な表現力（高品質のサンプルの生成）を学習された意味的に適切な内部表現のサインとして引用しています。

生成ネットワークを表現学習の学習者として使用するというアイデアは、よく知られています。DatasetGANおよびその派生物でタスク依存型ヘッドと補完的な特徴が提案され、これらの強化されたネットワークをラベル付きデータのソースとして使用して後続のネットワークをトレーニングすることがあります。SemanticGANでは、生成モデルの潜在空間に画像をエンコードし、課題のヘッドを使用して知覚的な出力を作成するために、タスクデコーダーを持つStyleGANをタスクネットワークそのものとして使用しました。NVIDIA、トロント大学、ベクター研究所、MITの研究者らは、DreamTeacherというフレームワークを紹介しています。このフレームワークは、生成モデルを使用して蒸留ベースの下流知覚モデルを事前学習するために使用します。

彼らは2つの異なる蒸留プロセスについて調査しています：1）ラベルのない普遍的な事前トレーニング手順として、生成特徴をターゲットバックボーンに削減する特徴蒸留のための技術を提供します。2）ラベルの蒸留：半教師付きの環境では、ラベル付きデータセットの知識をタスクヘッドを使用してターゲットバックボーンに蒸留します。彼らの研究では、拡散モデルとGANが生成モデルの選択肢です。

彼らは、2つの主な理由から、CNNをターゲットバックボーンとして重点的に調査しています。1）CNNベースのバックボーンは、対照的なおよびMIMの手法においてSoTAの表現学習を実施できることが示されており、2）SoTAの生成モデル（GANや拡散モデルなど）は、依然としてCNNに強く依存しています。彼らはまた、初期の試行でビジョンTransformerのバックボーンも調査しましたが、CNNベースの生成モデルから特徴を抽出することが困難であると判断しました。ビジョンTransformerアーキテクチャを使用して生成モデルを作成する研究はまだ初期段階にあるため、これらの設計を使用したDreamTeacherに関するさらなる研究が必要です。

彼らは実証的に示していますDreamTeacherは、現在利用可能な自己教育型学習システムよりも多くのベンチマークと条件で優れたパフォーマンスを発揮します。ADE20Kでの意味セグメンテーション、MSCOCOでのインスタンスセグメンテーション、および自動運転データセットBDD100Kなどのいくつかの密な予測ベンチマークとタスクでは、ImageNetでのフルスーパーバイズドトレーニングよりもImageNetでのラベルなしの事前トレーニングで優れた結果を示します。ターゲットドメインのみでトレーニングした場合、彼らの手法はラベル付きImageNetで事前トレーニングしたバリエーションを大幅に上回ります。彼らの手法は、数百万枚の未ラベル画像を持つオブジェクトに焦点を当てたデータセットで新たなSoTAの性能を達成します。これらの結果は、生成モデル、特に拡散ベースの生成モデルが、さまざまな未ラベル情報を効果的に利用する表現学習者としての能力を示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsArtificial IntelligenceComputer VisionEditors PickMachine learningStaffTech NewsTechnologyUncategorized

Was this article helpful?

93 out of 132 found this helpful

ドリームティーチャーというAIフレームワークに出会ってください：自己教師付きの特徴表現学習AIフレームワークであり、下流の画像バックボーンの事前トレーニングに生成ネットワークを利用します

Was this article helpful?

Pythonでインタラクティブなデータビジュアライゼーションを作成する：Plotly入門

「このAI論文は、ChatGPTにペルソナを割り当てると、毒性が最大6倍に増加することを示しています」

機械学習

「安定した拡散深度2Imgを用いたバリエーション：ステップバイステップガイド」

トップ10の生成AI 3Dオブジェクトジェネレーター

マイクロソフトAIがLLMLinguaを発表：大型言語モデル（LLM）の高速推論のためのユニークなクイック圧縮テクニックでプロンプトを圧縮

「2023年の機械学習のアンラーニング：現在の状況と将来の方向性」

PaaS4GenAI Oracle Integration CloudからIBM Cloudプラットフォーム上のGenerative AI (WatsonX)との接続

「限られた訓練データで機械学習モデルは信頼性のある結果を生み出すのか？ケンブリッジ大学とコーネル大学の新しいAI研究がそれを見つけました...」