このAI論文では、EdgeSAMを紹介していますエッジデバイス上で高速で効率的な画像セグメンテーションを進めるための機械学習を発展させています

『エッジデバイス上で高速かつ効率的な画像セグメンテーションを進めるための機械学習手法、EdgeSAM』

セグメントングエニシングモデル(SAM)は、オブジェクト検出と認識のために画像をセグメント化するAIパワードモデルです。それは、さまざまなコンピュータビジョンの課題に対する効果的な解決策です。しかし、SAMはエッジデバイスに最適化されていないため、性能の低下や高いリソース消費を引き起こすことがあります。シンガポール国立大学S-Labと上海人工知能研究所の研究者は、この問題に対処するためにEdgeSAMを開発しました。この最適化されたSAMのバリアントは、リソース制約のあるエッジデバイス上で高い性能を確保するために設計されています。

この研究は、視覚表現学習のための効率的なCNNとトランスフォーマーの設計に焦点を当てています。それは以前の研究で探索された方向で、知識蒸留を含む密な予測タスク(セマンティックセグメンテーションやオブジェクト検出など)における適用を認識しています。関連する研究には、ピクセルごとの特徴蒸留を実装するMobile-SAMや、YOLACTベースのインスタンスセグメンテーションモデルをトレーニングするFast-SAMがあります。特定のドメイン内での効率的なセグメンテーションに焦点を当てた以前の研究や、モバイルプラットフォーム上での端末実装に適したセグメンテーションモデルの探索についての最近の取り組みも強調されています。

この研究は、エッジデバイス(スマートフォンなど)でのリアルタイムインタラクティブセグメンテーションのために、計算上要求の厳しいSAMの展開の課題に取り組んでいます。最適化されたSAMバリアントであるEdgeSAMを導入することで、リアルタイムでの動作を実現しながらも精度を維持します。EdgeSAMは、SAMの出力マスクに合わせたプロンプトを利用したプロンプト認識型の知識蒸留アプローチを使用し、マスクデコーダーに特定のプロンプトを導入します。オンデバイスのAIアクセラレータに適した純粋なCNNベースのバックボーンを使用したEdgeSAMは、元のSAMに比べて実時間のエッジ展開で大幅な速度向上を達成します。

EdgeSAMは、性能を犠牲にすることなくエッジデバイス上で効率的に実行されるようにカスタマイズされています。EdgeSAMは、エッジデバイスに適したCNNベースのアーキテクチャに元のViTベースのSAM画像エンコーダを蒸留します。SAMの知識を完全に捉えるために、リサーチではプロンプトエンコーダとマスクデコーダの蒸留を行い、ループ内でボックスとポイントのプロンプトを使用します。データセットのバイアス問題に対応するために、軽量モジュールが追加されています。研究には、プロンプトインザループの知識蒸留と軽量リージョンプロポーザルネットワークの精緻優先度に対する削除研究なども含まれます。

EdgeSAMは、エッジデバイスでの展開時に、元のSAMに比べて40倍の速度向上を実現し、エッジデバイス上でMobile-SAMよりも14倍の性能を発揮します。さまざまなプロンプトの組み合わせやデータセットにわたってMobile-SAMを一貫して上回り、実世界のアプリケーションにおける有効性を示しています。EdgeSAMは、エッジ展開に最適化されており、NVIDIA 2080 Tiでは元のSAMと比較して40倍以上、iPhone 14ではMobileSAMと比較して約14倍の速度向上を実現します。プロンプトインザループの知識蒸留と軽量なリージョンプロポーザルネットワークは、性能を大幅に向上させます。

まとめると、この研究のキーハイライトは以下のポイントにまとめられます:

  • EdgeSAMは、SAMの最適化バリアントです。
  • スマートフォンなどのエッジデバイスでリアルタイムに展開されるよう設計されています。
  • 元のSAMと比べて、EdgeSAMは40倍速くなります。
  • エッジデバイス上でMobile-SAMよりも14倍の性能を発揮します。
  • COCOおよびLVISデータセットでmIoUsを大幅に向上させます。
  • EdgeSAMは、動的なプロンプトインザループ戦略とデータセットバイアスを解決するための軽量モジュールを統合しています。
  • 研究では、さまざまなトレーニング設定、プロンプトタイプ、凍結アプローチを探索しています。
  • 精緻優先度を活用した軽量リージョンプロポーザルネットワークも導入されています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

「この新しいAI研究は、事前学習されたタンパク質言語モデルを幾何学的深層学習ネットワークに統合することで、タンパク質構造解析を進化させます」

科学的な探求には、魅力的で複雑な構造を持つタンパク質による魅力的で不思議な方法で重要な生物学的プロセスを支配する分子...

人工知能

「Oktaの顧客アイデンティティで優れたデジタル体験を提供し、新たな価値を開放しましょう」

オクターの顧客アイデンティティへのビジョンは、ユーザーが迅速に革新し、シームレスなスケールを実現し、あらゆるデジタル...

AIニュース

ChatGPTでお金を稼ぐ5つの方法

もしChatGPTでお金を稼げるとは信じていないなら、この記事の終わりまでには信じるようになるでしょう

人工知能

「エンタープライズ環境におけるゼロトラストの実装」

「ゼロトラストアーキテクチャは、マイクロセグメンテーション、継続的な認証、およびアイデンティティ管理などの要素を統合...

AI研究

ISTAオーストリアとニューラルマジックの研究者が、トリリオンパラメータの言語モデルの効率的な実行のための革命的な圧縮フレームワークであるQMoEを紹介

複数の専門サブネットワークの出力を組み合わせて予測や意思決定を行うために設計されたニューラルネットワークモデルは、エ...

機械学習

このAIニュースレターはあなたが必要とするものです#76

今週、私たちはトランスフォーマーや大規模な言語モデル(LLM)の領域を超えた重要なAIの進展に焦点を当てました最近の新しい...