JEN-1に会ってください:テキストまたは音楽表現に応じて条件付けられた高品質な音楽を生成するために、双方向および単方向のモードを組み合わせたユニバーサルAIフレームワーク

JEN-1 A universal AI framework combining both bidirectional and unidirectional modes to generate high-quality music conditioned on text or musical expressions.

音楽は、ヘンリー・ワズワース・ロングフェローによって「人間の普遍的な言語」として讃えられ、調和、メロディ、リズムの本質を内包し、文化的な意義を織り交ぜて、世界中の人々と深く共鳴するものです。深層生成モデルの最近の進歩により、音楽生成の進歩が実現されています。ただし、テキストの説明に基づいて条件付けられた場合に、その複雑さやニュアンスを捉えた、高品質で現実的な音楽を生成するという課題は、依然として困難です。

既存の音楽生成方法は大きな進歩を遂げていますが、自由形式のテキストプロンプトと一致する複雑でリアルな音楽を開発するためには、さらなる改善が必要です。楽器やハーモニーの複雑な相互作用とメロディやハーモニーのアレンジにより、複雑で複雑な音楽構造が生まれます。音楽は不協和音に非常に敏感であるため、精度が重要です。

  1. 音楽は広い周波数スペクトルを持っており、細部を捉えるために44.1KHzステレオのような高いサンプリングレートが必要です。これは、低いサンプリングレートで動作する音声とは対照的です。
  2. 楽器の複雑な相互作用とメロディやハーモニーのアレンジは、複雑で複雑な音楽構造を生み出します。音楽は不協和音に非常に敏感であるため、精度が重要です。
  3. キー、ジャンル、メロディのような属性を制御し続けることは、意図した芸術的なビジョンを実現するために重要です。

テキストから音楽を生成するという課題に対処するために、Futureverse研究チームはJEN-1を設計しました。JEN-1は、オートレグレッシブ(AR)と非オートレグレッシブ(NAR)のパラダイムを組み合わせたユニークな全方向拡散モデルを活用し、シーケンシャルな依存関係を捉えながら生成を加速することができます。音声データをメルスペクトログラムに変換する従来の方法とは異なり、JEN-1は生のオーディオ波形を直接モデル化し、より高い忠実度と品質を維持します。これは、ノイズに強いマスク付きオートエンコーダを使用して元のオーディオを潜在表現に圧縮することによって実現されます。研究者は、潜在埋め込みにおける異方性を減少させる正規化ステップを導入し、モデルのパフォーマンスをさらに向上させました。

JEN-1のコアアーキテクチャは、バイドとユニディレクショナルモードを組み合わせた全方向1D拡散モデルです。このモデルは、Efficient U-Netアーキテクチャに触発された時間的な1D効率的なU-Netを活用しています。このアーキテクチャは、波形を効果的にモデル化するために設計されており、シーケンシャルな依存関係と文脈情報の両方を捉えるために、畳み込み層とセルフアテンション層の両方を含んでいます。音楽生成において時系列性が重要であるため、ユニディレクショナルモードは因果パディングとマスク付きセルフアテンションを介して組み込まれており、生成された潜在埋め込みが右側の潜在埋め込みに依存するようにしています。

JEN-1のユニークな強みの一つは、統一された音楽マルチタスクトレーニングアプローチにあります。JEN-1は、主に次の3つの音楽生成タスクをサポートしています:

  • 双方向テキストガイドの音楽生成
  • 双方向音楽インペインティング(欠落セグメントの復元)
  • ユニディレクションの音楽継続(外挿)

マルチタスクトレーニングにより、JEN-1はタスク間でパラメータを共有し、より良い汎化性能を持ち、シーケンシャルな依存関係をより効果的に処理することができます。この柔軟性により、JEN-1はさまざまな音楽生成シナリオに適用できる多目的なツールとなります。

実験設定では、JEN-1を高品質の音楽データを5,000時間分トレーニングしました。モデルはマスク付き音楽オートエンコーダとFLAN-T5を使用しています。トレーニング中には、マルチタスク目的をバランスさせ、分類器フリーガイダンスを採用しています。JEN-1は、8つのA100 GPUでAdamWオプティマイザを使用して200kステップでトレーニングされました。

JEN-1の性能は、客観的および主観的な評価基準を用いていくつかの最新の手法と比較されます。JEN-1は、信憑性(FAD)、音声テキストの整合性(CLAP)、人間の評価に基づくテキストから音楽への品質(T2M-QLT)および整合性(T2M-ALI)の面で他の手法を上回っています。計算効率にもかかわらず、JEN-1はテキストから音楽への合成において競合モデルを上回っています。

除去実験により、JEN-1の異なる構成要素の効果が示されています。自己回帰モードの組み込みとマルチタスキング目標の採用により、音楽の品質と汎化性能が向上しています。提案手法は、トレーニングの複雑さを増加させることなく、一貫して高品質な音楽生成を実現しています。

総括すると、JEN-1はテキストから音楽を生成するための強力な解決策を提供し、この分野を大幅に前進させています。波形の直接モデリングと自己回帰および非自己回帰トレーニングの組み合わせにより、高品質な音楽を生成します。統合拡散モデルとマスクされたオートエンコーダーは、シーケンスモデリングを向上させます。JEN-1は、強力なベースラインと比較して主観的品質、多様性、および制御性において優れた性能を発揮し、音楽合成における効果を示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「トップの画像処理Pythonライブラリ」

コンピュータビジョンは、デジタル写真、ビデオ、その他の視覚的な入力から有用な情報を抽出し、そのデータに基づいてアクシ...

AIニュース

マサチューセッツ大学アマースト校のコンピューターサイエンティストたちは、Pythonプログラミングを劇的に高速化するためのオープンソースのAIツール、Scaleneを開発しました

Pythonの人気は最近急上昇しており、使いやすさと豊富なライブラリがその原動力です。しかし、Pythonの効率性は常に懸念され...

AIニュース

「OpenAI、マイクロソフトの支援を受けてGPT-5開発に向けて準備を進める」

次世代AI分野を指し示す大胆な動きとして、OpenAIのCEOサム・オルトマンは人気の高いChatGPTの後継機であるGPT-5の開発を示唆...

機械学習

「人工知能生成コンテンツ(AIGC)におけるビデオ拡散モデルの包括的なレビュー」

人工知能は急速に発展しており、そのサブフィールドであるコンピュータビジョンの分野も同様です。研究者、学術界、学者など...

データサイエンス

Weaviate入門:ベクトルデータベースを使った検索の初心者ガイド

Weaviateベクトルデータベースを使用することでできることの3つの例には、セマンティック検索、質問応答、OpenAI LLMsを用い...

機械学習

ソースフリーのドメイン適応における壁の破壊:バイオアコースティクスとビジョン領域へのNOTELAの影響

ディープラーニングは、さまざまなアプリケーション領域で重要な進展を遂げています。その一因は、ますます大規模なデータセ...