「Human Sketchesが物体検出にどのような役割を果たすことができるのか?スケッチベースの画像検索に関する洞察」

Human Sketchesの役割とスケッチベースの画像検索に関する洞察

先史時代から、人類はアイデアを伝えたり記録したりするためにスケッチを使用してきました。言語の存在にもかかわらず、スケッチの表現力は比類のないものです。アイデアを紙とペン(またはZoom Whiteboard)でスケッチする必要性を感じる瞬間を考えてみてください。

過去10年間、スケッチに関する研究は著しい成長を遂げています。従来の分類や合成などの伝統的なタスクだけでなく、ビジュアル抽象モデリング、スタイル変換、連続ストロークの適合など、よりスケッチに特化したトピックにもさまざまな研究が行われています。また、スケッチを写真分類器に変換するなど、楽しい実用的な応用もあります。

しかし、スケッチの表現力の探求は主にスケッチベースの画像検索(SBIR)、特に細粒度のバリアント(FGSBIR)に焦点を当ててきました。たとえば、コレクション内で特定の犬の写真を探している場合、頭の中でその犬の絵をスケッチすることで、それをより速く見つけることができます。

驚くべき進歩がなされ、最近のシステムは商業利用に適した成熟度を達成しました。

この記事で報告された研究論文では、著者たちは人間のスケッチの潜在能力を活用して、基本的なビジョンタスク、特に物体検出を向上させることを目指しています。提案手法の概要は以下の図に示されています。

https://arxiv.org/abs/2303.15149

目標は、スケッチの内容に基づいてオブジェクトを検出するスケッチ対応の物体検出フレームワークを開発し、ユーザーが視覚的に自己表現できるようにすることです。たとえば、人が「草を食べるシマウマ」といったシーンをスケッチすると、提案されたフレームワークはシマウマの中からその特定のシマウマをインスタンスに基づいた検出を利用して検出することができます。さらに、ユーザーは物体の部分に特定をすることができるようになり、部分に基づいた検出が可能になります。したがって、「シマウマ」の「頭」にだけ焦点を当てたい場合、その望ましい結果を得るためにシマウマの頭をスケッチすることができます。

スクラッチからスケッチ対応の物体検出モデルを開発する代わりに、研究者たちはCLIPなどの基盤モデルとすでに利用可能なSBIRモデルのシームレスな統合を実証し、問題をエレガントに解決しています。このアプローチは、モデルの汎化性を活用するとともに、スケッチと写真の間のギャップを埋めるためにSBIRを利用します。

これを実現するために、著者たちはCLIPを適応させ、スケッチと写真のエンコーダ(共有SBIRモデル内のブランチ)を作成しました。各モダリティに対して独立したプロンプトベクトルを個別にトレーニングしています。トレーニング中、これらのプロンプトベクトルは、CLIPのViTバックボーンの最初のトランスフォーマーレイヤーの入力シーケンスに追加されますが、残りのパラメータは凍結されます。この統合により、学習されたスケッチと写真の分布にモデルの汎化性を導入します。

クロスカテゴリのFG-SBIRのリトリーバルタスクに特化したいくつかの結果が以下に報告されています。

https://arxiv.org/abs/2303.15149

これはスケッチベースの画像検索に関する新しいAI技術の概要でした。この研究に興味があり、さらに詳細を知りたい場合は、以下のリンクをクリックして詳細情報をご覧ください。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

Googleはチャットボットの使用について従業員に警告、ここにその理由があります

Googleの親会社であるAlphabet Inc.は、ChatGPTや自社製品であるBardを含むチャットボットの使用について従業員に注意を促し...

AIニュース

このAIニュースレターはあなたが必要なすべてです #72

今週、AIニュースはOpenAIのDevdayと多くの新しいモデルや機能の発売で主導権を握り、それによってエロン・マスクがLLMレース...

AIニュース

「HeyGenを使ってリアルなAI生成アバターを作る方法」

このAIによるアバターツールは非常に先進的であり、人々はそれが本物か偽物か判断できません

AIテクノロジー

2023年に使用するための11つのAIビデオジェネレータ:テキストからビデオへの変換

AIの最も注目すべき表現の一つは、AIビデオジェネレーターの登場です。これにより、テキストとビジュアルの間の隔たりをなく...

機械学習

このAI論文では、アマゾンの最新の機械学習に関する情報が大規模言語モデルのバグコードについて明らかにされています

プログラミングは複雑であり、エラーのないコードを書くことは時には難しいです。コードの大規模言語モデル(Code-LLMs)はコ...

機械学習

ベイズ深層学習への優しい入門

「確率的プログラミングの興奮する世界へようこそ!この記事は初心者向けのベイズ深層学習とディープニューラルネットワーク...