がん検出の革命:サリー大学が機械学習における画像ベースのオブジェクト検出ツールを発表し、ゲームチェンジとなる

Sally University announces a game-changing image-based object detection tool in machine learning for cancer detection.

先史時代以来、人々はコミュニケーションや文書化のためにスケッチを使用してきました。過去10年間、研究者たちは、分類や合成から視覚的抽象モデリング、スタイル転送、連続ストローク適合などのより新しいアプリケーションに至るまで、スケッチの使用方法について大きな進歩を遂げてきました。しかし、スケッチベースの画像検索(SBIR)とその微細な対応(FGSBIR)のみが、スケッチの表現力の可能性を調査しています。最近のシステムは、すでに商業展開に向けて十分に成熟しており、スケッチ表現力の開発がどのように重要な影響を与えるかについて素晴らしい証拠です。

スケッチは、微妙で個人的な視覚的な手がかりを自動的にキャプチャするため、非常に示唆的です。ただし、人間のスケッチのこれらの固有の特性の研究は、画像検索の分野に限定されてきました。科学者たちは、スケッチの表現力を最も基本的なビジョンのタスクであるシーン内のオブジェクトの検出に使用するようシステムをトレーニングするのに初めて取り組んでいます。最終的な製品は、スケッチに基づいてオブジェクトを検出するためのフレームワークであり、これにより、群れの中の特定の「シマウマ」(たとえば草を食べているもの)に絞り込むことができます。さらに、研究者たちは、モデルが以下のようなものであっても成功するように規定しています。

  • テストに入る前にどのような結果を期待するかについてのアイデアがない(ゼロショット)。
  • 余分な境界ボックスやクラスラベルが必要ない(完全に監視されたものと同じように)。

研究者たちは、スケッチベースの検出器もまた、ゼロショットで動作するようにして、システムの新規性を高めています。続くセクションでは、彼らはオブジェクト検出をクローズドセットからオープンボキャブ構成に切り替える方法について詳しく説明し、たとえば、分類ヘッドの代わりにプロトタイプ学習を使用することにより、エンコードされたクエリスケッチ機能がサポートセットとして使用されます。モデルは、弱く監視されたオブジェクト検出(WSOD)環境のあらゆる考えられるカテゴリまたはインスタンスのプロトタイプ全体にわたるマルチカテゴリクロスエントロピー損失でトレーニングされます。オブジェクト検出は画像レベルで動作し、一方、SBIRは個々のオブジェクトのスケッチと写真のペアでトレーニングされます。このため、SBIRオブジェクト検出トレーニングには、オブジェクトレベルと画像レベルの特性の橋渡しを必要とします。

研究者たちの貢献は次の通りです。

  • スケッチングの表現力を育成して、オブジェクト検出に人間の表現力を積極的に促進する。
  • スケッチをベースにしたオブジェクト識別フレームワークで、何を伝えようとしているのかを理解できるインスタンス感知およびパート感知のオブジェクト検出器。
  • 従来のカテゴリレベルおよびインスタンスおよびパートレベルの検出が可能なオブジェクト検出器。
  • CLIPとSBIRを組み合わせた新しいプロンプト学習構成により、バウンディングボックス注釈やクラスラベルなしで機能するスケッチ感知検出器を生成する。
  • その結果は、ゼロショット設定でSODおよびWSODを上回る。

研究者たちは、既に優雅に解決できるスケッチベースの画像検索(SBIR)のために構築された既存のスケッチモデルと基礎モデル(CLIPなど)の直感的なシナジーを示しました。特に、彼らはまず、SBIRモデルのスケッチと写真の枝にそれぞれ別個のプロンプトを実行し、次にCLIPの一般化能力を使用して高度に汎化可能なスケッチと写真のエンコーダーを構築します。検出されたボックスの領域埋め込みがSBIRスケッチと写真のものと一致するようにするために、アイテム検出のために学習されたエンコーダーを調整するためのトレーニングパラダイムを設計しています。このフレームワークは、PASCAL-VOCやMS-COCOなどの業界標準のオブジェクト検出データセットでテストされたとき、監視された(SOD)および弱く監視された(WSOD)オブジェクト検出器をゼロショット設定で上回ります。

まとめ

研究者たちは、オブジェクト検出を改善するために、スケッチングにおける人間の表現力を積極的に促進しています。提案されたスケッチを有効にしたオブジェクト識別フレームワークは、スケッチで何を伝えようとしているのかを理解できるインスタンス感知およびパート感知のオブジェクト検出器です。したがって、バウンディングボックスの注釈やクラスラベルなしで機能するスケッチ感知検出器を教育するために、CLIPとSBIRを組み合わせた革新的なプロンプト学習セットアップを考案しました。検出器は、ゼロショット設定でも動作するように指定されています。一方、SBIRは、個々のオブジェクトのスケッチと写真のペアで教えられます。彼らは、オブジェクトと画像のレベルのギャップを埋めるために、汚染に対する抵抗力を高め、語彙外への一般化を高めるデータ拡張手法を使用します。その結果得られるフレームワークは、ゼロショット設定で監視されたおよび弱く監視されたオブジェクト検出器を上回ります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

ソウル国立大学の研究者たちは、効率的かつ適応性のあるロボット制御のための革新的なAI手法であるロコモーション・アクション・マニピュレーション(LAMA)を紹介しています

ソウル国立大学の研究者は、ロボット工学における効率的かつ適応性のあるロボットの制御という基本的な課題に取り組んでいま...

データサイエンス

レコメンダーシステムにおけるPrecision@NとRecall@Nの解説

Accuracy Metrics(正解率指標)は、機械学習の全体的なパフォーマンスを評価するための有用な指標であり、データセット内の...

機械学習

バイオメディカルインサイトのための生成AI

OpenBIOMLとBIO GPTを利用したGenerative AIを探求し、Large Language Models (LLMs)を使用して疾患の理解と治療に新たなアプ...

機械学習

悪質なコンテンツ検出のためのLLM:利点と欠点

この投稿では、インターネット上の有害なコンテンツを特定するための2つの異なる方法を評価しますそれは、教師あり分類器のト...

AIニュース

なぜ便利なソフトウェアを書くのはいつも難しいのか

「歴史は、長く有益なソフトウェアを書くことがいかに困難かを教えてくれますそれはコードとはほとんど関係がありませんので...

AI研究

この人工知能の研究は、トランスフォーマーベースの大規模言語モデルが外部メモリを追加して計算的に普遍的であることを確認しています

トランスフォーマーベースのモデル(GPT-2やGPT-3など)によって達成された驚くべき結果は、研究コミュニティを大規模な言語...