スタンフォード大学、コーネル大学、オックスフォード大学の新しいAI研究は、単一の画像のわずかなインスタンスからオブジェクトの固有性を発見する生成モデルを紹介しています

Stanford, Cornell, and Oxford Universities have introduced a new AI research that presents a generative model to discover the specificity of objects from just a few instances within a single image.

バラの本質は、その独特の形状、質感、および材料組成で構成されています。これを使用して、さまざまな位置で、さまざまな形状のバラをさまざまな照明効果で作成できます。各バラが独自のピクセル値セットを持っていても、それらを同じクラスのメンバーとして識別できます。

Stanford、Oxford、およびCornell Techの研究者たちは、単一の写真からのデータを使用して、異なる視点と照明から新しい形状と画像を生成できるモデルを作成することを望んでいます。

この問題を解決するためには、3つの障壁があります:

  1. トレーニングデータセットには1枚の画像しかなく、数百のインスタンスしかありません。
  2. これらの数少ない状況には、幅広い可能なピクセル値があります。これは、姿勢も照明条件も記録されていないか、または不明であるためです。
  3. どのバラも同じではなく、形状、質感、材料の分布をキャプチャする必要があります。したがって、推論されるオブジェクト固有量は確定的ではなく、確率的です。これは、静的なオブジェクトやシーンに対する現在のマルチビュー再構成またはニューラルレンダリングアプローチと比較して、重要な変更です。

提案されたアプローチは、モデル作成にバイアスを誘導するためにオブジェクト固有量を出発点としています。これらのルールには2つの部分があります:

  1. 提示されるインスタンスはすべて、同じオブジェクト固有量またはジオメトリ、質感、材料の分布を持つ必要があります。
  2. 固有の特性は、レンダリングエンジンによって定義され、最終的には物理世界によって定義された特定の方法で相互に関連しています。

より具体的には、彼らのモデルは、単一の入力画像を取り、インスタンスマスクのコレクションとインスタンスの特定のポーズ分布を使用して、オブジェクトの3D形状、表面反射率、および艶の分布のニューラル表現を学習し、姿勢と照明の変動の影響を排除します。この物理的に基礎づけられた明示的な分離は、彼らのインスタンスの簡単な説明を支援します。モデルは、単一の画像によって提供される疎な観測に過剰適合することなく、オブジェクト固有量を取得することができます。

研究者たちが言及するように、その結果得られたモデルによって、多くの異なる用途が可能になります。たとえば、学習されたオブジェクト固有量からランダムにサンプリングすることで、異なるアイデンティティを持つ新しいインスタンスを生成できます。外部要素を調整して、新しいカメラ角度や照明セットアップで合成インスタンスを再レンダリングすることができます。

チームは、モデルの改良された形状再構成と生成性能、革新的なビュー合成、およびリライト性能を示すために、徹底的なテストを実施しました。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「DeepSeek:中国最新の言語モデルの支配」

In a recent development, the DeepSeek LLM has emerged as a formidable force in the realm of language models, boasting...

機械学習

このスペースを見る:AIを使用してリスクを推定し、資産を監視し、クレームを分析する新しい空間金融の分野

金融の意思決定をする際には、ドローン、衛星、またはAIパワードセンサーから取得した大局的な情報を見ることが重要です。 空...

データサイエンス

「人工知能の炭素足跡」

AIの使用に起因する温室効果ガスの排出を削減する方法を探していますが、その使用は非常に増加する可能性があります

AIニュース

マイクロソフト エージェントAIがIdea2Imgを導入:自己金融による多モーダルAIフレームワークで、画像の開発とデザインを自動化します

“画像の設計と生成”の目的は、ユーザーからの広範な概念に基づいて画像を生成することです。この入力のアイデア...

人工知能

「セールスとマーケティングのためのトップな予測分析ツール(2023年)」

マーケティングに適用される場合、予測分析は過去と現在のデータを調べて将来の結果を予測することを意味します。この方法は...

AI研究

ペンシルバニア大学の研究者が、軽量で柔軟、モデルに依存しないオープンソースのAIフレームワーク「Kani」を導入し、言語モデルアプリケーションの構築を行います

大規模言語モデルの応用は人気が高まっています。その驚異的な能力により、ますます洗練されてきています。ツールの使用追跡...