「Human Sketchesが物体検出にどのような役割を果たすことができるのか?スケッチベースの画像検索に関する洞察」

Human Sketchesの役割とスケッチベースの画像検索に関する洞察

先史時代から、人類はアイデアを伝えたり記録したりするためにスケッチを使用してきました。言語の存在にもかかわらず、スケッチの表現力は比類のないものです。アイデアを紙とペン(またはZoom Whiteboard)でスケッチする必要性を感じる瞬間を考えてみてください。

過去10年間、スケッチに関する研究は著しい成長を遂げています。従来の分類や合成などの伝統的なタスクだけでなく、ビジュアル抽象モデリング、スタイル変換、連続ストロークの適合など、よりスケッチに特化したトピックにもさまざまな研究が行われています。また、スケッチを写真分類器に変換するなど、楽しい実用的な応用もあります。

しかし、スケッチの表現力の探求は主にスケッチベースの画像検索(SBIR)、特に細粒度のバリアント(FGSBIR)に焦点を当ててきました。たとえば、コレクション内で特定の犬の写真を探している場合、頭の中でその犬の絵をスケッチすることで、それをより速く見つけることができます。

驚くべき進歩がなされ、最近のシステムは商業利用に適した成熟度を達成しました。

この記事で報告された研究論文では、著者たちは人間のスケッチの潜在能力を活用して、基本的なビジョンタスク、特に物体検出を向上させることを目指しています。提案手法の概要は以下の図に示されています。

https://arxiv.org/abs/2303.15149

目標は、スケッチの内容に基づいてオブジェクトを検出するスケッチ対応の物体検出フレームワークを開発し、ユーザーが視覚的に自己表現できるようにすることです。たとえば、人が「草を食べるシマウマ」といったシーンをスケッチすると、提案されたフレームワークはシマウマの中からその特定のシマウマをインスタンスに基づいた検出を利用して検出することができます。さらに、ユーザーは物体の部分に特定をすることができるようになり、部分に基づいた検出が可能になります。したがって、「シマウマ」の「頭」にだけ焦点を当てたい場合、その望ましい結果を得るためにシマウマの頭をスケッチすることができます。

スクラッチからスケッチ対応の物体検出モデルを開発する代わりに、研究者たちはCLIPなどの基盤モデルとすでに利用可能なSBIRモデルのシームレスな統合を実証し、問題をエレガントに解決しています。このアプローチは、モデルの汎化性を活用するとともに、スケッチと写真の間のギャップを埋めるためにSBIRを利用します。

これを実現するために、著者たちはCLIPを適応させ、スケッチと写真のエンコーダ(共有SBIRモデル内のブランチ)を作成しました。各モダリティに対して独立したプロンプトベクトルを個別にトレーニングしています。トレーニング中、これらのプロンプトベクトルは、CLIPのViTバックボーンの最初のトランスフォーマーレイヤーの入力シーケンスに追加されますが、残りのパラメータは凍結されます。この統合により、学習されたスケッチと写真の分布にモデルの汎化性を導入します。

クロスカテゴリのFG-SBIRのリトリーバルタスクに特化したいくつかの結果が以下に報告されています。

https://arxiv.org/abs/2303.15149

これはスケッチベースの画像検索に関する新しいAI技術の概要でした。この研究に興味があり、さらに詳細を知りたい場合は、以下のリンクをクリックして詳細情報をご覧ください。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「Transformerの簡略化:あなたが理解する言葉を使った最先端のNLP — part 3 — アテンション」

「トランスフォーマーは、AIの分野で、おそらく世界中で重大な影響を与えていますこのアーキテクチャはいくつかのコンポーネ...

AI研究

アップルの研究者がDeepPCRを公開:通常は順次処理される操作を並列化してニューラルネットワークの推論とトレーニングの速度を向上させる新しい機械学習アルゴリズム

人工知能や深層学習の進展により、さまざまな革新が実現されています。テキストや画像の合成、分割、分類などの複雑なタスク...

人工知能

スターバックスのコーヒー代で、自分自身のプライベートChatGPTモデルをトレーニングしよう

スターバックスのカップ1つ分と2時間の時間を費やすことで、自分の訓練済みのオープンソースの大規模モデルを所有することが...

AIニュース

「AIチャットボットが$1未満で数分でソフトウェアを作成する」

AIチャットボットが仮想のソフトウェア会社ChatDevを運営し、ソフトウェアをわずか7分で一から開発し、コストを1ドル以下に抑...

データサイエンス

ユーザーフィードバック - MLモニタリングスタックの欠けている部分

「AIモデルを数ヶ月もかけて実装し、何百万円も投資してみたけれど、誰も使ってくれないことって経験ありますか?採用の課題...

AIニュース

オープンAIのファンクションコーリング入門

Forbesによると、AI市場は2030年までに$1,811.8 billionに到達すると予想されています。Davinci、GPT Turbo、GPT Turbo 3.5、...