GoogleのAI研究者は、HyperDreamBoothを紹介しましたこれは、人の単一の画像から個別の重みを効率的に生成するAIアプローチであり、DreamBoothよりも小さく、25倍高速です

GoogleのAI研究者は、HyperDreamBoothを紹介しましたこれは、個別の重みを効率的に生成するAIアプローチであり、DreamBoothよりも小さく、25倍高速です

生成型人工知能の分野は、当然の注目を浴びています。テキストから画像へのパーソナライゼーションの最近の進展は、革新的な利用可能性を開拓しています。個別性の概念は、高いアイデンティティの一貫性を保ちながら、様々な文脈とスタイルで独特の人物を生成することを指し、生成型AIにおいて重要なトピックとなっています。顔のパーソナライゼーションは、様々なスタイルで特定の顔や人物の新しい写真を生成する能力を指し、様々なスタイルに強い事前学習済みの拡散モデルを利用することで実現されています。

DreamBoothなどの現在の手法は、新しい主題をモデルに組み込む能力があり、過去の知識を損なうことなく、主題の本質と詳細を広範な方法で維持することに成功しています。しかし、モデルのサイズや学習速度など、多くの制限があります。Stable DiffusionのためのUNetとText Encoderの全ての重みを微調整するDreamBoothは、安定した拡散において1GB以上のサイズになるため、非常に大きいです。また、Stable Diffusionのトレーニング手順には約5分かかるため、広範な採用や実際の応用を妨げる可能性があります。

これらの課題を克服するために、Google Researchの研究チームはHyperDreamBoothを提案しました。HyperDreamBoothは、単一の人物の画像から効率的に個人化された重みの小さなセットを生成するハイパーネットワークです。単一の人物の画像だけで、HyperDreamBoothのハイパーネットワークは効果的に個人化された重みの小さなコレクションを作成します。これらのユニークな重みを持つ拡散モデルと組み合わせ、クイックな微調整を行います。その結果、細かいトピックの詳細と拡散モデルのさまざまな美学と意味の変更に対する基本的な理解を維持しながら、人物の顔をさまざまな状況と美学で生成する強力なシステムが実現します。

HyperDreamBoothの驚異的な速度は、その最大の成果の一つです。DreamBoothよりも25倍速く、Textual Inversionという関連技術と比較しても驚異的な125倍速く、わずか20秒で顔をパーソナライズすることができます。さらに、DreamBoothと同じ品質と美学の変動を保ちながら、このクイックなカスタマイズ手順には参照画像が1つだけ必要です。HyperDreamBoothは、速度に加えて、モデルのサイズでも優れています。結果として得られる個別化モデルは、通常のDreamBoothモデルよりも10,000倍小さくなります。これは、モデルをより管理しやすくし、ストレージの要件を大幅に削減するという重要な利点です。

研究チームは、以下の貢献をまとめています:

  1. 軽量DreamBooth(LiDB):約100KBのカスタムパートを持つパーソナライズされたテキストから画像へのモデルが導入されました。これは、ランダムな直交不完全基底による低次元の重み空間でDreamBoothモデルをトレーニングすることによって実現されています。
  1. 新しいハイパーネットワークアーキテクチャ:LiDBの構成を使用して、ハイパーネットワークはテキストから画像への拡散モデルに特定の主題のためのカスタマイズされた重みを生成します。これにより、強力な方向性の初期化が可能となり、高い主題の忠実度をいくつかの反復で素早く微調整することができます。この手法は、DreamBoothと比較して25倍速いパフォーマンスを提供します。
  1. ランクリラックス微調整:LoRA DreamBoothモデルのランクをリラックスさせることで、主題の忠実度を向上させるためのランクリラックス微調整技術が提案されました。これにより、ハイパーネットワークからの初期近似値で個人化モデルを初期化し、ランクリラックス微調整を使用して高レベルの主題の詳細を洗練させることができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

(sekai no toppu 10 no sōsei AI sutātappu)

はじめに 生成AIは現在、世界中の人々の好奇心を引きつけています。私たちのソーシャルネットワーキングフィード内の仮想キャ...

機械学習

小さな言語モデル(SLM)とその応用について知るべきすべてのこと

大型言語モデル(LLM)は、GPT、PaLM、LLaMAなど、その驚異的な能力により、多くの関心を集めています。自然言語処理、生成、...

データサイエンス

機械学習モデルの説明可能性:AIシステムへの信頼と理解の向上

AIを倫理的で信頼性のある方法で利用するためには、研究者はモデルの複雑さと解釈の容易さをバランスさせるための方法論の開...

機械学習

アクセンチュアは、AWS上でジェネレーティブAIサービスを使用して、ナレッジアシストソリューションを作成しました

この投稿はアクセンチュアのイラン・ゲラーとシュウユ・ヤンと共同で執筆されました現在、企業は内部および外部のビジネス活...

機械学習

「短期予測を改善したいですか?デマンドセンシングを試してみてください」

従来の予測手法の精度が頭打ちになった場合、AI/MLを使用して顧客注文のパターンをモデリングすることで、さらなる予測の改善...

AI研究

エイントホーフェンとノースウェスタン大学の研究者が、外部のトレーニングを必要としないオンチップ学習が可能な新しいニューロモーフィックバイオセンサーを開発しました

ニューロモーフィックコンピューティングは、人間の脳の構造と機能に触発されています。ニューロモーフィックチップは、物理...