「S-LabとNTUの研究者が、シーニメファイ(Scenimefy)を提案しましたこれは、現実世界の画像から自動的に高品質なアニメシーンのレンダリングを行うための画像対画像翻訳フレームワークであり、セミスーパーバイズド(半教師付き)手法を採用しています」

S-Lab and NTU researchers proposed Scenimefy, an image-to-image translation framework that automatically renders high-quality anime scenes from real-world images using a semi-supervised approach.

アニメの風景は創造力と時間を大量に必要とするため、自動的なシーンのスタイル化のための学習ベースの手法の開発には明らかな実用的かつ経済的な意義があります。自動スタイル化は、最近の生成的対抗ネットワーク(GAN)の発展により、大幅に改善されていますが、この研究のほとんどは主に人間の顔に焦点を当てています。複雑な現実世界のシーン写真から高品質なアニメの風景を作成するプロセスは、その莫大な研究価値にもかかわらず、まだ研究が必要です。現実のシーン写真をアニメスタイルに変換するには、いくつかの要素が関与して多くの作業が必要です。

1) シーンの構成:図1は、シーン内の前景と背景部分の階層関係を示しており、これらの部分はしばしば複雑な方法で接続された複数のアイテムで構成されています。

2) アニメの特徴:図1は、草、木、雲などの自然環境で事前に設計された筆触が使用されることで、アニメを定義する特異なテクスチャと正確なディテールが作成される様子を示しています。これらのテクスチャの有機的で手描きの性質は、以前の実験で示された鮮明なエッジと均一な色のパッチよりも模倣がはるかに困難です。

3) データの不足とドメインのギャップ:高品質なアニメのシーンデータセットは、背景の風景とは異なる美的を持つ多くの人間の顔や他の前景アイテムのため、現実とアニメのシーンの間のギャップを埋める上で重要です。既存のデータセットは低品質です。

図1:アニメのシーンの特徴。手描きの筆触(前景の草や石)や木や雲(背景)の存在が、新海誠監督の2011年の映画「星を追う子ども」のシーンフレームで見ることができます。

対称的な画像変換は、対になったトレーニングデータがない場合に複雑なシーンのスタイル化に使用される人気のある方法です。アニメスタイルに焦点を当てた既存の技術は、有望な結果を示しているにもかかわらず、いくつかの分野で追いつく必要があります。まず、複雑な風景ではピクセルごとの相関が欠如しているため、現在のアプローチでは明らかなテクスチャのスタイル化を実行するのが困難であり、意外な出力や目立つアーティファクトを含む可能性があります。2つ目に、一部の方法ではアニメのシーンの微細なディテールを生成しません。これは、エッジや表面のなめらかさを強制する構築されたアニメ固有の損失や事前抽出された表現に起因しています。

上記の問題を解決するために、南洋理工大学のS-Labの研究者は、高品質なアニメスタイルのシーン写真の表現を作成するためのユニークな半教師ありイメージ間変換(I2I)パイプラインであるScenimefyを提案しています。彼らの主な提案は、疑似対応データを使用して、教師なしフレームワークに新しい教師ありトレーニングブランチを導入し、教師なしトレーニングの欠点に対処することです。彼らはStyleGANの有利な特性を使用して、実際のアニメまたは偽の対応データ間の粗い対応データを提供するためにそれを微調整するというメインの提案を行っています。

図2は、Scenimefyによるアニメのシーンのレンダリングを示しています。上段:翻訳された画像;下段:翻訳の結果。

彼らは、CLIPやVGGなどの豊富な事前学習モデルの先行知識を使用して、StyleGANが複雑なシーンの詳細を捉え、過学習を減らすようにするための新しい意味制約型微調整手法を提供しています。低品質のデータをフィルタリングするために、彼らはセグメンテーションに基づいたデータ選択手法も提供しています。疑似対応データとユニークなパッチごとの対照的なスタイル損失を使用することで、Scenimefyは2つのドメイン間の微細な詳細を作成し、効果的なピクセルごとの対応を学習します。彼らの半教師ありフレームワークは、シーンのスタイル化の忠実さと正確さ、教師なしトレーニングブランチの間で望ましいトレードオフを試みます。

彼らはまた、トレーニングを支援するために純粋なアニメシーンの高品質なデータセットを収集しました。彼らは広範なテストを実施し、Scenimefyの有効性を示し、知覚品質と数量評価の業界基準を上回りました。以下は彼らの主な貢献の概要です:

• 彼らは、実際の写真を洗練されたアニメシーンの優れた品質の画像に変換する新しい準教師付きシーンスタイライゼーションフレームワークを提供しています。彼らのシステムは、スタイライゼーションと細部を向上させるために独自のパッチ単位の対比的なスタイル損失を追加します。

• 豊富な事前トレーニングのガイダンスに続いて、セグメンテーションによるデータ選択スキームによって構造一貫性のある擬似ペアデータが生成される、新しく開発された意味制約付きStyleGAN微調整技術があります。これはトレーニングの監督の基礎となります。

• 彼らは、将来のシーンスタイライゼーションの研究に役立つ高解像度のアニメシーンのコレクションを収集しました。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

自動化された欺瞞検出:東京大学の研究者が機械学習を通じて表情と脈拍を利用して欺瞞を暴く

デジタル時代において、自動化された欺瞞検知システムは、様々な分野で重要な存在となっています。正確な検知の需要は、商業...

機械学習

「切り分けて学ぶ」による機械学習におけるオブジェクトの状態合成の認識と生成

現実世界には、さまざまなサイズ、色合い、質感を持つ物体が存在します。視覚的な特性、一般的には状態や属性と呼ばれるもの...

機械学習

フリーMITコース:TinyMLと効率的なディープラーニングコンピューティング

日常のデバイスを最適化するAIに興味がありますか?MITのTinyMLとEfficient Deep Learning Computingコースの完全な概要に潜...

機械学習

人工知能の言語スキルを評価する:ChatGPTの言語形態スキルをさらに掘り下げて

研究者は、ChatGPTの形態能力を厳密に評価し、英語、ドイツ語、タミル語、トルコ語の4つの言語で比較します。ChatGPTは専門シ...