スタンフォード大学、コーネル大学、オックスフォード大学の新しいAI研究は、単一の画像のわずかなインスタンスからオブジェクトの固有性を発見する生成モデルを紹介しています

Stanford, Cornell, and Oxford Universities have introduced a new AI research that presents a generative model to discover the specificity of objects from just a few instances within a single image.

バラの本質は、その独特の形状、質感、および材料組成で構成されています。これを使用して、さまざまな位置で、さまざまな形状のバラをさまざまな照明効果で作成できます。各バラが独自のピクセル値セットを持っていても、それらを同じクラスのメンバーとして識別できます。

Stanford、Oxford、およびCornell Techの研究者たちは、単一の写真からのデータを使用して、異なる視点と照明から新しい形状と画像を生成できるモデルを作成することを望んでいます。

この問題を解決するためには、3つの障壁があります:

  1. トレーニングデータセットには1枚の画像しかなく、数百のインスタンスしかありません。
  2. これらの数少ない状況には、幅広い可能なピクセル値があります。これは、姿勢も照明条件も記録されていないか、または不明であるためです。
  3. どのバラも同じではなく、形状、質感、材料の分布をキャプチャする必要があります。したがって、推論されるオブジェクト固有量は確定的ではなく、確率的です。これは、静的なオブジェクトやシーンに対する現在のマルチビュー再構成またはニューラルレンダリングアプローチと比較して、重要な変更です。

提案されたアプローチは、モデル作成にバイアスを誘導するためにオブジェクト固有量を出発点としています。これらのルールには2つの部分があります:

  1. 提示されるインスタンスはすべて、同じオブジェクト固有量またはジオメトリ、質感、材料の分布を持つ必要があります。
  2. 固有の特性は、レンダリングエンジンによって定義され、最終的には物理世界によって定義された特定の方法で相互に関連しています。

より具体的には、彼らのモデルは、単一の入力画像を取り、インスタンスマスクのコレクションとインスタンスの特定のポーズ分布を使用して、オブジェクトの3D形状、表面反射率、および艶の分布のニューラル表現を学習し、姿勢と照明の変動の影響を排除します。この物理的に基礎づけられた明示的な分離は、彼らのインスタンスの簡単な説明を支援します。モデルは、単一の画像によって提供される疎な観測に過剰適合することなく、オブジェクト固有量を取得することができます。

研究者たちが言及するように、その結果得られたモデルによって、多くの異なる用途が可能になります。たとえば、学習されたオブジェクト固有量からランダムにサンプリングすることで、異なるアイデンティティを持つ新しいインスタンスを生成できます。外部要素を調整して、新しいカメラ角度や照明セットアップで合成インスタンスを再レンダリングすることができます。

チームは、モデルの改良された形状再構成と生成性能、革新的なビュー合成、およびリライト性能を示すために、徹底的なテストを実施しました。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

研究者は、解釈可能で効率的な量子風機械学習のためのテンソルネットワークを研究しています

<img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/11/Screen...

コンピュータサイエンス

このツールは、AIによる画像の操作からあなたの写真を保護することができます

「PhotoGuard」は、MITの研究者によって作成されたもので、我々には感知できない方法で写真を変更することで、AIシステムがそ...

機械学習

写真を撮るだけで、財産の査定を簡単にする

MIT卒業生によって設立されたHosta a.i.の技術は、写真から詳細な物件評価を作成します

AI研究

「次世代ニューラルネットワーク:NeurIPSでの多くのAIの技術進歩をNVIDIA Researchが発表」

世界中の学術機関と協力して、NVIDIAの研究者は< a href=”https://www.voagi.com/ai-for-sustainable-banking-reduc...

データサイエンス

「LangChain、Google Maps API、Gradioを使用してスマートな旅行スケジュール案内ツールを作る(パート1)」

2022年の後半にChatGPTがリリースされて以来、大規模な言語モデル(LLM)とそれらの応用に対する興味が、チャットボットや検...

機械学習

「Perplexity(パープレキシティ)が2つの新たなオンラインLLMモデルを発表:『pplx-7b-online』と『pplx-70b-online』」

パープレキシティ(Perplexity)は、革新的なAIスタートアップとして、情報検索システムを変革する解決策を発表しました。こ...