JEN-1に会ってください:テキストまたは音楽表現に応じて条件付けられた高品質な音楽を生成するために、双方向および単方向のモードを組み合わせたユニバーサルAIフレームワーク

JEN-1 A universal AI framework combining both bidirectional and unidirectional modes to generate high-quality music conditioned on text or musical expressions.

音楽は、ヘンリー・ワズワース・ロングフェローによって「人間の普遍的な言語」として讃えられ、調和、メロディ、リズムの本質を内包し、文化的な意義を織り交ぜて、世界中の人々と深く共鳴するものです。深層生成モデルの最近の進歩により、音楽生成の進歩が実現されています。ただし、テキストの説明に基づいて条件付けられた場合に、その複雑さやニュアンスを捉えた、高品質で現実的な音楽を生成するという課題は、依然として困難です。

既存の音楽生成方法は大きな進歩を遂げていますが、自由形式のテキストプロンプトと一致する複雑でリアルな音楽を開発するためには、さらなる改善が必要です。楽器やハーモニーの複雑な相互作用とメロディやハーモニーのアレンジにより、複雑で複雑な音楽構造が生まれます。音楽は不協和音に非常に敏感であるため、精度が重要です。

  1. 音楽は広い周波数スペクトルを持っており、細部を捉えるために44.1KHzステレオのような高いサンプリングレートが必要です。これは、低いサンプリングレートで動作する音声とは対照的です。
  2. 楽器の複雑な相互作用とメロディやハーモニーのアレンジは、複雑で複雑な音楽構造を生み出します。音楽は不協和音に非常に敏感であるため、精度が重要です。
  3. キー、ジャンル、メロディのような属性を制御し続けることは、意図した芸術的なビジョンを実現するために重要です。

テキストから音楽を生成するという課題に対処するために、Futureverse研究チームはJEN-1を設計しました。JEN-1は、オートレグレッシブ(AR)と非オートレグレッシブ(NAR)のパラダイムを組み合わせたユニークな全方向拡散モデルを活用し、シーケンシャルな依存関係を捉えながら生成を加速することができます。音声データをメルスペクトログラムに変換する従来の方法とは異なり、JEN-1は生のオーディオ波形を直接モデル化し、より高い忠実度と品質を維持します。これは、ノイズに強いマスク付きオートエンコーダを使用して元のオーディオを潜在表現に圧縮することによって実現されます。研究者は、潜在埋め込みにおける異方性を減少させる正規化ステップを導入し、モデルのパフォーマンスをさらに向上させました。

JEN-1のコアアーキテクチャは、バイドとユニディレクショナルモードを組み合わせた全方向1D拡散モデルです。このモデルは、Efficient U-Netアーキテクチャに触発された時間的な1D効率的なU-Netを活用しています。このアーキテクチャは、波形を効果的にモデル化するために設計されており、シーケンシャルな依存関係と文脈情報の両方を捉えるために、畳み込み層とセルフアテンション層の両方を含んでいます。音楽生成において時系列性が重要であるため、ユニディレクショナルモードは因果パディングとマスク付きセルフアテンションを介して組み込まれており、生成された潜在埋め込みが右側の潜在埋め込みに依存するようにしています。

JEN-1のユニークな強みの一つは、統一された音楽マルチタスクトレーニングアプローチにあります。JEN-1は、主に次の3つの音楽生成タスクをサポートしています:

  • 双方向テキストガイドの音楽生成
  • 双方向音楽インペインティング(欠落セグメントの復元)
  • ユニディレクションの音楽継続(外挿)

マルチタスクトレーニングにより、JEN-1はタスク間でパラメータを共有し、より良い汎化性能を持ち、シーケンシャルな依存関係をより効果的に処理することができます。この柔軟性により、JEN-1はさまざまな音楽生成シナリオに適用できる多目的なツールとなります。

実験設定では、JEN-1を高品質の音楽データを5,000時間分トレーニングしました。モデルはマスク付き音楽オートエンコーダとFLAN-T5を使用しています。トレーニング中には、マルチタスク目的をバランスさせ、分類器フリーガイダンスを採用しています。JEN-1は、8つのA100 GPUでAdamWオプティマイザを使用して200kステップでトレーニングされました。

JEN-1の性能は、客観的および主観的な評価基準を用いていくつかの最新の手法と比較されます。JEN-1は、信憑性(FAD)、音声テキストの整合性(CLAP)、人間の評価に基づくテキストから音楽への品質(T2M-QLT)および整合性(T2M-ALI)の面で他の手法を上回っています。計算効率にもかかわらず、JEN-1はテキストから音楽への合成において競合モデルを上回っています。

除去実験により、JEN-1の異なる構成要素の効果が示されています。自己回帰モードの組み込みとマルチタスキング目標の採用により、音楽の品質と汎化性能が向上しています。提案手法は、トレーニングの複雑さを増加させることなく、一貫して高品質な音楽生成を実現しています。

総括すると、JEN-1はテキストから音楽を生成するための強力な解決策を提供し、この分野を大幅に前進させています。波形の直接モデリングと自己回帰および非自己回帰トレーニングの組み合わせにより、高品質な音楽を生成します。統合拡散モデルとマスクされたオートエンコーダーは、シーケンスモデリングを向上させます。JEN-1は、強力なベースラインと比較して主観的品質、多様性、および制御性において優れた性能を発揮し、音楽合成における効果を示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

「Google DeepMindの研究者たちは、PROmptingによる最適化(OPRO)を提案する:大規模言語モデルを最適化器として」

人工知能の分野では、自然言語処理、自然言語生成、自然言語理解、およびコンピュータビジョンなどのサブフィールドがますま...

機械学習

「Falcon 180Bをご紹介します:1800億のパラメータを持つ、公開されている最大の言語モデル」

強力かつ多目的な言語モデルへの需要は、自然言語処理と人工知能においてますます迫り来るものとなっています。これらのモデ...

AIニュース

「3Dで身体のポーズを解釈するために、メガネがソナーとAIを使用します」

コーネル大学の研究者たちは、聞こえない音波と人工知能を使った着用型デバイスを開発しましたこのデバイスは、ユーザーの上...

機械学習

「ResFieldsをご紹介します:長くて複雑な時間信号を効果的にモデリングするために、時空間ニューラルフィールドの制約を克服する革新的なAIアプローチ」

ニューラル連続空時フィールドを表現するための最も人気のあるニューラルネットワークアーキテクチャは、マルチレイヤーパー...

コンピュータサイエンス

「中小企業オーナーが未来に向けて前向きになる 過半数が生成型AIを採用すると発表」と言われています

アンケートによると、3人中2人のビジネスオーナーが次の12ヶ月でこの技術を試す予定です44%の人々はAIの導入により従業員を...

機械学習

NLPの探求 - NLPのキックスタート(ステップ#3)

「以下は、特に単語の埋め込みについて、私が週間で学んだいくつかの概念です実際に手を動かして試してみましたので、その一...