イタリアの新しいAI研究は、音楽合成と音源分離の両方が可能な拡散ベースの生成モデルを紹介しています

Italian AI research introduces a diffusion-based generative model capable of both music synthesis and source separation.

人間は、音楽の作曲や合成、分析、つまり音源の分離など、複数の音源を同時に処理することができます。つまり、人間の脳は、混合物から個々の音源を分離し、逆に、複数の音源を結合して一貫した組み合わせを形成することができます。この知識を数学的に表現する際、研究者は音源の結合確率密度を使用します。たとえば、音楽の混合物は、個々の音源の積の形に因子分解できないような文脈を持っています。

現在、深層学習モデルは、多数の音源を一貫した混合物に合成し、混合物から個々の音源を分離することはできません。音楽の作曲や生成のタスクにおいては、モデルは直接的に混合物の分布を学習し、混合物のモデリングは正確になりますが、個々の音源に関する知識はすべて失われます。対照的に、音源分離のためのモデルは、各音源分布に対して単一のモデルを学習し、推論時には混合物に条件づけます。したがって、音源の相互依存関係に関する重要な詳細は失われます。どちらのシナリオでも、混合物の生成は困難です。

音源分離と音楽生成の両方を行う深層学習モデルの構築に向けた一歩を踏み出すため、ローマ大学のGLADIA研究室の研究者たちは、Multi-Source Diffusion Model(MSDM)を開発しました。このモデルは、文脈を共有する音源の結合確率密度(事前分布)を使用して訓練されます。生成タスクは事前分布を使用してサンプリングされ、分離タスクは事前分布を混合物に条件づけて得られる事後分布からサンプリングされます。このアプローチは、世界初のジェネレーションと分離の両方を実行できるモデルであるため、汎用オーディオモデルに向けた重要な第一歩です。

研究者たちは、実験にはSlakh2100データセットを使用しました。Slakh2100データセットは2100以上のトラックで構成されており、音源分離のための標準的なデータセットです。Slakh2100は、他の多音源データセットよりもデータ量が大幅に多いため、生成モデルの性能を確立するために重要です。このモデルの基盤は、音源の結合分布である事前分布の推定にあります。その後、事前分布を使用して推論時にさまざまなタスクが解決されます。ピアノトラックを補完するドラムなど、他の音源が与えられた場合に一部の音源を生成するソース補完などの部分的な推論タスクも、古典的な総合推論タスクと並行して行われます。

研究者たちは、事前を学習するためにスコアマッチングを使用した拡散ベースの生成モデルを使用しました。この手法は通常、「ノイズ除去スコアマッチング」として知られています。スコアマッチングの主なアイデアは、分布そのものではなく、ターゲット分布の「スコア」関数を近似することです。研究者たちが行ったもう1つの重要な追加は、ディラックデルタ関数に基づく新しいサンプリング方法を導入し、音源分離タスクで注目すべき結果を得ることです。

研究者たちは、分離、部分生成、総合生成のモデルの評価のためにいくつかのテストを実行しました。分離タスクでのモデルのパフォーマンスは、他の最先端の回帰モデルと同等でした。研究者たちはまた、現在利用可能なコンテキストデータの量がアルゴリズムのパフォーマンスを制限していると説明しました。チームは、混合物を事前に分離し、それらをデータセットとして使用して問題を解決することを検討しています。まとめると、GLADIA研究室によって提供される音楽領域の分離、総合、部分生成のためのMulti-Source Diffusion Modelは、革新的なパラダイムです。研究グループは、自身の業績が他の研究者による音楽領域のより詳細な研究を促進することを期待しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

「グラスゴー大学のスピンアウト企業が「化学のデジタル化」のために4300万ドルを調達」

「Chemifyは、2022年に英国のグラスゴー大学からスピンアウトした企業であり、化学を「デジタル化」する取り組みをさらに推進...

機械学習

ビデオオブジェクトセグメンテーションの革命:高度なオブジェクトレベルのメモリ読み取り技術による可愛い子の明らかな化身

オープンボキャブラリーで定義されたフレームアノテーションからのオブジェクトのトラッキングとセグメンテーションは、ビデ...

データサイエンス

ICAと現実のカクテルパーティの問題

「独立成分分析(ICA)は、1990年代以降の重要な発展¹以降、一般的に使用されるようになったデータ分解および前処理技術ですI...

コンピュータサイエンス

AI教授:ハーバード大学、ChatGPTのようなボットをコンピュータサイエンスの講師として導入予定

ハーバード大学は、コンピュータサイエンスの一つの授業で、ChatGPTのようなAIボットを講師として導入する予定です

機械学習

「ゲームを一段と盛り上げる:スタートアップのスポーツビジョンAIが世界中にアスレチックを放送」

Pixellotは、ビジョンAIによって得点を稼いでおり、各国の視聴者にリアルタイムのスポーツ放送と分析を提供する組織にとって...

機械学習

「大規模言語モデルの謎解き:インフルエンス関数とそのスケーラビリティの深い探求」

大規模な言語モデル(LLM)は、様々な現実世界の分野で開発を加速させ、文脈に基づいた学習や思考の連鎖による推論など、予期...