この中国のAI研究は「Consistent4D」を紹介します:未キャリブレーションの単眼映像から4Dダイナミックオブジェクトを生成するための新しい人工知能手法

「Consistent4D」を紹介:未キャリブレーションの単眼映像から4Dダイナミックオブジェクトを生成する新時代のAI手法

コンピュータビジョンの領域は、視覚的な入力から動的な3Dデータを解読するという基礎的で困難な課題に取り組んでいます。この能力は、デジタルコンテンツの制作、自律型車両のシミュレーション、医療画像の解析など、さまざまなアプリケーションにおいて重要です。しかし、一つの単眼のビデオ観察からこのような情報を抽出することは、動的な3D信号の複雑な性質のために困難な課題です。

移動オブジェクトを再構築するための既存の多くの手法は、入力として同期したマルチビュー映像が必要であり、カメラをテレポートするなどの手法や準静的なシーンを使用した、効果的なマルチビューキューが豊富なトレーニングデータを前提としています。それにもかかわらず、これらの手法は、カメラレンズによってキャプチャされないシーンの要素を正確に再構築する際に困難に直面します。さらに、同期したカメラセットアップと正確なキャリブレーションに依存することは、これらの手法の現実世界での実用性を制限します。

CASIA、南京大学、および復旦大学による新しい研究は、2Dソースから4Dコンテンツを生成するために設計された画期的な方法であるConsistent 4Dを紹介しています。この手法は、テキストから3Dへの最近の進歩と画像から3Dへの技術向上を参考にしており、テール型のCascade DyNeRFを利用して動くオブジェクトを視覚化し、同時に事前トレーニングされた2D拡散モデルを使用してDyNeRFの最適化プロセスを制御します。

その論文の中で述べられているように、主な課題は時間的な一貫性と空間的な一貫性の両方を保持することです。この課題に対処するために、研究者はトレーニングされたビデオ補間モデルに依存するインターポレーション駆動型の一貫性ロス(ICL)を使用し、空間と時間の両方にわたる一貫した監視信号の生成を可能にしています。特に、ICLロスの導入により、4D開発の信頼性が向上するだけでなく、3Dクリエーションにおける一般的な問題を軽減することができます。さらに、彼らは動的なNeRF生成ビデオを後処理するために、シンプルなビデオエンハンサーでトレーニングを行います。

綿密なテストによる励ましの結果は、合成および実際のインターネットビデオの両方を含む、ビデオから4Dへの創造の未開拓の領域での有望な進展を示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「FP8を用いたPyTorchトレーニング作業の高速化」

過去数年間、AIの分野では革命的な進展が見られており、特に最近のChatGPTなどのLLMベースのアプリケーションの人気と普及を...

機械学習

「教師なし学習の解明」

「教師なし学習のパラダイムを探求してください主要な概念、技術、および人気のある教師なし学習アルゴリズムに慣れてください」

機械学習

「MC-JEPAに会おう:動きと内容の特徴の自己教師あり学習のための共同埋め込み予測アーキテクチャ」

最近、自己教師付き学習の中で、物体を識別し区別するための情報を持つ特徴を学習することに焦点を当てたテクニックが、ビジ...

機械学習

「場所の言語:生成AIのジオコーディング能力の評価」

「現代のジオコーディングAPIと比較したLLMsのパフォーマンスに関する応用プロジェクトの詳細」

AI研究

「AIが家庭用ロボットの計画時間を半分に減らすのを手助けします」

「PIGINetは機械学習を活用して、複雑な環境で実行可能な解決策を評価・フィルタリングすることで、家庭用ロボットのタスクと...

AI研究

ETHチューリッヒとマイクロソフトの研究者らが提案したX-Avatarは、人間の体の姿勢と顔の表情をキャプチャできるアニメーション可能な暗黙の人間アバターモデルです

ポーズ、見つめること、表情、手のジェスチャーなど、総称して「ボディランゲージ」と呼ばれるものは、多くの学術的研究の対...