韓国のこの人工知能(AI)論文では、FFNeRVという新しいフレーム単位のビデオ表現が提案されていますフレーム単位のフローマップと多重解像度の時空グリッドを使用しています

In this Korean AI paper, a new frame-based video representation called FFNeRV is proposed. It utilizes frame-based flow maps and multi-resolution spatio-temporal grids.

最近では、ニューラルネットワークを用いて座標を数量(スカラーまたはベクトル)にマッピングして信号を表すニューラルフィールドの研究が急速に進展しています。これにより、音声、画像、3D形状、動画など、さまざまな信号を扱うためにこの技術を利用することへの関心が高まっています。普遍近似定理と座標エンコーディング技術は、脳フィールドの正確な信号表現のための理論的な基盤を提供しています。最近の調査では、データ圧縮、生成モデル、信号操作、基本的な信号表現における適応性が示されています。

図1は、提案されたフローガイドのフレームごとの表現(a)、フレームごとの動画表現(b)、ピクセルごとの動画表現(FFNeRV)(c)を示しています。

最近では、ニューラルネットワークを用いて座標を数量(スカラーまたはベクトル)にマッピングして信号を表すニューラルフィールドの研究が急速に進展しています。これにより、音声、画像、3D形状、動画など、さまざまな信号を扱うためにこの技術を利用することへの関心が高まっています。普遍近似定理と座標エンコーディング技術は、脳フィールドの正確な信号表現のための理論的な基盤を提供しています。最近の調査では、データ圧縮、生成モデル、信号操作、基本的な信号表現における適応性が示されています。

各時刻座標は、MLPと畳み込み層のスタックによって作成されたビデオフレームによって表されます。基本的なニューラルフィールドの設計に比べて、私たちの手法はエンコーディング時間を大幅に削減し、一般的なビデオ圧縮技術を上回ります。このパラダイムは、最近提案されたE-NeRVによっても追求され、さらにビデオの品質を向上させるものです。図1に示すように、彼らはフローガイドのフレームごとのニューラル表現(FFNeRV)を提供しています。彼らは光学フローをフレームごとの表現に埋め込んで、時間的冗長性を利用しています。これは一般的なビデオコーデックからのインスピレーションを得たものです。フローによって導かれる近くのフレームを組み合わせることにより、FFNeRVは前のフレームからピクセルの再利用を強制するビデオフレームを作成します。ネットワークがフレーム間で同じピクセル値を再度覚えることを避けるように促すことで、パラメータの効率性が劇的に改善されます。

実験結果によると、UVGデータセットでのビデオ圧縮とフレーム補間では、FFNeRVが他のフレームごとのアルゴリズムを上回っています。さらなる圧縮性能の向上のために、連続的な時間座標を対応する潜在的な特徴にマッピングするために、固定された空間解像度の多重解像度の時間グリッドを使用することを提案しています。これは、グリッドベースのニューラル表現に触発されたものです。さらに、より縮小された畳み込みアーキテクチャを利用することを提案しています。彼らは、フレームごとのフロー表現において、高品質の画像と軽量なニューラルネットワークを生成する生成モデルによってドライブされたグループとポイントワイズの畳み込みを使用しています。FFNeRVは、量子化意識トレーニングとエントロピー符号化を使用した人気のあるビデオコーデック(H.264およびHEVC)を上回り、最先端のビデオ圧縮アルゴリズムと同等の性能を発揮します。コードの実装はNeRVに基づいており、GitHubで利用可能です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「AIの革命:WatsonXの力を明らかにする」

「ワトソンX」という革命的なAI技術に出会ってくださいそれは、量子コンピューティング、高度な機械学習、自然言語処理が融合...

機械学習

「拡散を支配するための1つの拡散:マルチモーダル画像合成のための事前学習済み拡散モデルの調節」

画像生成AIモデルは、ここ数ヶ月でこの領域を席巻しています。おそらく、midjourney、DALL-E、ControlNet、またはStable dDif...

機械学習

このAIニュースレターはあなたが必要なものです #68

今週は、マルチモーダルの能力を持つ GPT-4 に対抗する候補として、新しいオープンソースのマルチモーダルモデルである LLaVA...

機械学習

コンテンツクリエーターに必要不可欠なChatGPTプラグイン

「CodeGenius、StoryWeaver、およびFactFinderなどの必須のChatGPTプラグインを見つけて、コンテンツ作成プロセスを向上させ...

AIニュース

Googleの安全なAIフレームワークを紹介します

今日、GoogleはSecure AI Frameworkをリリースし、協力してAI技術を安全に保護するのを支援します

人工知能

2023年に使用するための10の最高のAI画像生成ツール

2023年、最高のAI画像生成ツールは非常に複雑で高度であり、ユニークなデザインを育んでいます。デザイナーは時間制約やクリ...