なぜディープラーニングは常に配列データ上で行われるのか?新しいAI研究は、データからファンクタまでを一つとして扱う「スペースファンクタ」を紹介しています

なぜディープラーニングは配列データで行われるのか?最新のAI研究では、「スペースファンクタ」というデータからファンクタまでを一つとして扱う手法が紹介されています

暗黙のニューラル表現(INR)またはニューラルフィールドは、3D座標を3D空間の色と密度の値にマッピングすることによって、3Dシーンなどのフィールドを表現する座標ベースのニューラルネットワークです。最近、ニューラルフィールドは、写真、3D形状/シーン、映画、音楽、医療画像、気象データなどの信号を表現する手段としてコンピュータビジョンで注目されています。

従来のピクセルなどの配列表現を処理する従来のアプローチではなく、最近の研究では、これらのフィールド表現に直接深層学習を行うためのfunctaというフレームワークが提案されています。このフレームワークは、生成、推論、分類など、多くの研究領域で良好なパフォーマンスを発揮します。これらの領域には、画像、ボクセル、気候データ、3Dシーンなどが含まれますが、通常はCelebA-HQ 64 64やShapeNetなどの小さなまたは単純なデータセットでのみ動作します。

以前のfunctaの研究では、比較的小さなデータセットでも多くの異なるモダリティに対してニューラルフィールド上での深層学習が可能であることが示されました。しかし、CIFAR-10の分類および生成タスクでは、この方法はパフォーマンスが低かったです。これは、CIFAR-10のニューラルフィールド表現が非常に正確であり、ダウンストリームのタスクを完了するために必要なすべてのデータを含んでいるはずなので、研究者たちにとって驚きでした。

DeepMindとハイファ大学による新しい研究では、functaの適用範囲をより広範かつ複雑なデータセットに拡張するための戦略を提案しています。まず、彼らは自身の方法を使用して、CelebA-HQ上で報告されたfunctaの結果を再現できることを示しています。次に、それをCIFAR-10のダウンストリームタスクに適用し、分類および生成の結果が驚くほど低いことを報告しています。

空間functaは、functaの拡張として、フラットな潜在ベクトルを空間的に順序付けられた潜在変数の表現で置き換えます。その結果、各空間インデックスの特徴は、すべての可能な場所からデータを収集するのではなく、その場所に固有の情報を収集することができます。この小さな調整により、位置エンコーディングを持つトランスフォーマーやUNetなどのより洗練されたアーキテクチャを使用して、生成、分類などのダウンストリームタスクを解決することができます。これらのアーキテクチャは、空間的に整理されたデータに適した帰納的なバイアスを持っています。

これにより、functaフレームワークは、256×256解像度のImageNet-1kなどの複雑なデータセットに対応できるようになります。調査結果はまた、CIFAR-10の分類および生成における制約が空間functaによって解決されることを示しています。ViTsと同等の分類結果とLatent Diffusionと同等の画像生成結果が得られます。

チームは、ニューラルフィールドがこれらの高次元のモダリティにおいて、配列表現の冗長な情報をより効率的な方法で捉えているため、functaフレームワークが大規模なスケールで輝くと考えています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more