スケッチベースの画像対画像変換:GANを使用して抽象的なスケッチを写実的な画像に変換する

Using GANs to transform abstract sketches into realistic images through sketch-based image-to-image conversion.

スケッチに長けた人もいれば、他の仕事に才能を持つ人もいます。靴の画像が提示された場合、個人は写真を示す簡単な線を引くことができますが、スケッチの品質は異なる場合があります。それに対して、人間は抽象的な描画でも現実的なイメージを視覚化するという固有の能力を持っており、これは数百万年の進化の過程で開発されたスキルです。

AIと生成モデルの登場により、抽象的なスケッチから写真のようなリアルなイメージを生成することは、画像から画像への変換の文献の広義の文脈に含まれます。これに関しては、pix2pix、CycleGAN、MUNIT、BicycleGANなどの先行研究で探究されてきました。これらの先行手法の中には、スケッチ固有の変種も含まれており、写真のエッジマップを生成しています。エッジマップは細かい描画であり、これらのモデルは抽象的なスケッチではなく、洗練されたスケッチに焦点を当てていることを意味しています。

本記事で紹介されている論文は、先行手法とは異なる重要な点を持つスケッチベースの画像から画像への変換に焦点を当てています。この論文の著者によれば、エッジマップでトレーニングされたモデルは、エッジマップとともに高品質の写真を生成することができますが、アマチュアの人間のスケッチでは現実的な結果が得られません。これは、これまでのアプローチが変換中にピクセルの整列を前提としているためです。その結果、生成された結果は個人の描画スキル(または不足)を正確に反映し、非アーティストの場合には劣った結果になります。

したがって、これらのモデルでは訓練を受けていないアーティストは決して満足のいく結果を得ることはありません。しかし、本記事で紹介されている新しいAIアプローチは、スケッチから写真を生成する技術を民主化することを目指しています。

そのアーキテクチャは以下の図に示されています。

https://subhadeepkoley.github.io/PictureThatSketch/

この技術により、スケッチの品質に関係なく、写真のようなリアルなイメージを生成することが可能となります。著者らは、以前のアプローチで見られたピクセル整列のアーティファクトは、エンコーダ-デコーダのアーキテクチャをエンドツーエンドでトレーニングすることから生じると結論付けました。これにより、生成された結果は入力スケッチ(エッジマップ)で定義された境界に厳密に従い、結果の品質が制約されることになります。この問題に対処するために、彼らは分離されたエンコーダ-デコーダのトレーニング方法を導入しました。研究者たちは、StyleGANを写真のみで事前トレーニングし、その後それを凍結しました。これにより、生成された結果はStyleGANの多様体からサンプリングされた写真のようなリアルな品質を持つことが保証されました。

もう一つの重要な側面は、抽象的なスケッチと現実的な写真の間のギャップです。この問題を克服するために、彼らはエンコーダを訓練して、通常の写真ではなく、スケッチの表現をStyleGANの潜在空間にマッピングするようにしました。彼らはグラウンドトゥルースのスケッチ-写真のペアを使用し、入力スケッチと生成された写真の間に新しい細かい識別損失を課し、正確なマッピングを保証するために従来の再構成損失を追加しました。さらに、彼らはスケッチの抽象的な性質を扱うために部分的な認識を意識した拡張戦略を導入しました。これは、完全なスケッチの部分的なバージョンをレンダリングし、部分的な情報のレベルに基づいて潜在ベクトルを適切に割り当てることを含んでいます。

彼らの生成モデルをトレーニングした後、研究者たちはいくつかの興味深い特性を観察しました。生成された写真の抽象度は、予測された潜在ベクトルの数やガウスノイズの追加によって簡単に制御できることがわかりました。また、部分的な認識を意識したスケッチの拡張戦略により、ノイズや部分的なスケッチに対して堅牢性を示しました。さらに、モデルは入力スケッチの抽象化レベルの異なる状況においても良好な汎化性能を示しました。

提案手法と最先端の手法による結果の多様性を以下に報告します。

https://subhadeepkoley.github.io/PictureThatSketch/

これは、抽象的な人間のスケッチから写真のようなリアルなイメージを合成するための新しいAI生成画像対画像モデルの要約でした。もしこの研究に興味があり、さらに詳細な情報を知りたい場合は、以下のリンクをクリックして詳細をご覧いただけます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

「エンタープライズ環境におけるゼロトラストの実装」

「ゼロトラストアーキテクチャは、マイクロセグメンテーション、継続的な認証、およびアイデンティティ管理などの要素を統合...

データサイエンス

「ダイナミックな時代のソフトウェアリーダーシップの活路」

ソフトウェア業界でリーダーシップを発揮することが一筋縄ではいかない理由を探求しましょう過去の成功に依存するリスク、無...

人工知能

「C# で GPT(一般目的テンプレート)を拡張しましょう」

この記事では、OpenAIを使用してGPTを作成し、AINIRO.IO Magic Cloudを使用して独自のC#コードで拡張する方法を示しています

AI研究

UCバークレーの研究者は、目的指向の対話エージェントのゼロショット獲得を実現する人工知能アルゴリズムを提案しています

大容量の言語モデル(LLM)は、テキスト要約、質問応答、コード生成などのさまざまな自然言語タスクにおいて優れた能力を発揮...

人工知能

無料のAI製品写真ツール

全てのビジネスオーナーの皆様へ:高額な商品写真家に二度とお金を払う必要はありません!

データサイエンス

スタンフォードの研究者たちは、基礎流体力学のための初の大規模な機械学習データセットであるBLASTNetを紹介しました

スタンフォードの研究者たちは、BLASTNetという画期的な開発を紹介し、計算流体力学(CFD)の新たな時代の到来を予感させまし...