オックスフォードの研究者たちは、「Farm3D」というAIフレームワークを提案していますこのフレームワークは、2D拡散を蒸留して学習し、ビデオゲームなどのリアルタイムアプリケーションで利用できる関節のある3Dアニマルを生成することができます

Oxford researchers propose an AI framework called Farm3D that can generate articulated 3D animals by distilling 2D motion and is applicable in real-time applications such as video games.

生成AIの驚異的な成長は、DALL-E、Imagen、Stable Diffusionなどの技術により、テキストの手がかりから優れた画像を作成するという興味深い進展を引き起こしました。この成果は2Dデータを超えて広がるかもしれません。テキストから画像を生成するジェネレーターを使用して、3Dモデルの高品質な作成が可能です。最近DreamFusionによって実証されています。ジェネレーターは3Dのトレーニングを行っていませんが、3D形状を再構築するための十分なデータがあります。本記事では、テキストから画像ジェネレーターをより効果的に活用し、複数の3Dアイテムタイプの関節モデルを取得する方法について説明します。

つまり、DreamFusionのような単一の3Dアセットを作成しようとする代わりに、彼らは(牛、羊、馬などの)関節3Dオブジェクトのクラス全体の統計モデルを作成したいと考えています。このモデルは、単一の画像から実現可能な3Dアセットを作成するために、AR/VR、ゲーム、コンテンツの作成に使用することができます。彼らは、物の単一の写真からアイテムの関節3Dモデルを予測できるネットワークのトレーニングによって、この問題に取り組んでいます。このような再構築ネットワークを導入するために、以前の試みでは実データに依存していました。しかし、彼らはStable Diffusionなどの2D拡散モデルを使用して生成された合成データを使用することを提案しています。

オックスフォード大学のビジュアルジオメトリグループの研究者は、Farm3Dを提案しています。これは、DreamFusion、RealFusion、Make-a-video-3Dなどの3Dジェネレーターに追加されたものであり、テキストまたは画像を出発点にしてテスト時最適化を介して単一の3Dアセット(静的または動的)を作成するものです。これにはいくつかの利点があります。まず第一に、2D画像ジェネレーターは、オブジェクトカテゴリの正確で清潔な例を生成する傾向があり、暗黙のうちにトレーニングデータをキュレーションし、学習を合理化します。第二に、2Dジェネレーターは、各オブジェクトインスタンスの仮想ビューを通じて、与えられたオブジェクトの理解をさらに明確にします。第三に、リアルデータの収集(およびおそらく検閲)の必要性を排除することで、アプローチの適応性を高めます。

テスト時に、彼らのネットワークは数秒で単一の写真からフィードフォワード方式で再構築を実行し、固定された3Dまたは4Dアーティファクトではなく、操作可能な関節3Dモデルを生成します(例:アニメーション、再照明)。彼らの手法は、仮想入力のみで学習し、実際の画像にも一般化するため、合成と分析に適しています。動物の行動の研究や保存に応用することができます。Farm3Dは、2つの重要な技術的イノベーションに基づいています。まず、安定した拡散を誘発して、高速エンジニアリングを使用して、オブジェクトカテゴリの一般的にクリーンな画像の大規模なトレーニングセットを生成する方法を示します。

次に、単一の輝度場モデルに適合する代わりに、スコア蒸留サンプリング(SDS)ロスを拡張して、合成マルチビュー監視を実現する方法を示します。彼らの場合はMagicPonyです。写真幾何学的オートエンコーダーを訓練するために、写真幾何学的オートエンコーダーは、オブジェクトを画像形成に寄与するさまざまな要素に分割します(例:オブジェクトの関節形状、外観、カメラの視点、照明)。

これらの合成ビューは、SDS損失に供給され、オートエンコーダーの学習可能なパラメータに勾配更新と逆伝播が行われます。彼らはFarm3Dの3D製作および修復能力に基づいた定性評価を提供します。また、作成だけでなく再構築も可能なため、セマンティックなキーポイント転送などの解析タスクでFarm3Dを定量的に評価することができます。このモデルは実際の画像を使用せずにトレーニングするため、時間のかかるデータ収集とキュレーションを省きながら、さまざまなベースラインと同等またはそれ以上の性能を示します。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

『circ2CBAを紹介 circRNA-RBP結合サイトの予測を革新する新しい深層学習モデル』

最近、中国の研究チームが、circular RNAs(circRNAs)とRNA-binding proteins(RBPs)の結合部位の予測を革新すると約束する...

コンピュータサイエンス

「あなたのAIが意識しているかどうかを判断する方法」

新しいレポートでは、科学者たちは機械の存在を示す可能性があるいくつかの測定可能な特性のリストを提供しています

AI研究

「UTオースティンの研究者が、LIBEROを導入:意思決定とロボット工学における知識移転を研究するためのライフロング・ロボット・ラーニング・ベンチマーク」

LIBEROは、宣言的および手続き的なドメインでの知識の転送に焦点を当てた、ロボット操作におけるライフロングラーニングの基...

機械学習

OpenAIとLangChainによるMLエンジニアリングとLLMOpsへの導入

「OpenAI LLMsの操作方法とPythonでの人気のあるLangChainツールキットの使用方法を理解する書籍『Machine Learning Engineer...

AIニュース

「AIチャットボットが$1未満で数分でソフトウェアを作成する」

AIチャットボットが仮想のソフトウェア会社ChatDevを運営し、ソフトウェアをわずか7分で一から開発し、コストを1ドル以下に抑...

機械学習

「アニメート・ア・ストーリー:高品質で構造化されたキャラクター主導のビデオを合成する、検索補完型ビデオ生成によるストーリーテリング手法による出会い」

テキストから画像へのモデルは最近注目を集めています。生成型人工知能の導入により、GPTやDALL-Eなどのモデルはリリース以来...