Google AIが簡単なエンドツーエンドの拡散ベースのテキスト読み上げE3-TTSを提案します:拡散に基づくシンプルで効率的なエンドツーエンドのテキスト読み上げモデルに基づくものです

Google AIが提案する拡散ベースの簡単なエンドツーエンドテキスト読み上げモデル:シンプルで効率的な拡散ベースのエンドツーエンドテキスト読み上げE3-TTS

機械学習において、拡散モデルは画像や音声生成のタスクによく使われる生成モデルです。拡散モデルは、複雑なデータ分布をより単純な分布に変換する拡散プロセスを使用します。その主な利点は、特に画像や音声合成のようなタスクで高品質な出力を生成できることにあります。

テキスト・トゥ・スピーチ(TTS)システムの文脈では、拡散モデルの適用により、従来のTTSシステムと比べて明らかな改善が見られました。これは、中間的な特徴量の品質に対する強い依存や、展開、トレーニング、設定手続きに伴う複雑さなど、既存のシステムが抱える問題を解決する能力によるものです。

Googleの研究チームは、E3 TTS:イージーエンドツーエンド拡散ベースのテキスト・トゥ・スピーチを提案しました。このテキスト・トゥ・スピーチモデルは、拡散プロセスを利用して時間構造を維持します。このアプローチにより、モデルはプレーンなテキストを入力として受け取り、直接オーディオの波形を生成することができます。

E3 TTSモデルは、非自己回帰的な方法で入力テキストを効率的に処理し、連続処理を必要とせずに直接波形を出力することができます。さらに、話者の識別とアライメントの決定は、拡散中に動的に行われます。このモデルは、2つの主要なモジュールから構成されています。入力テキストから関連情報を抽出するために、事前学習済みのBERTモデルが使用され、BERTの出力を処理するために拡散UNetモデルが使用されます。拡散UNetモデルは、初期のノイズのある波形を反復的に洗練し、最終的な生波形を予測します。

E3 TTSは、オーディオの波形を生成するための反復的な洗練プロセスを採用しています。拡散プロセスを使うことで、追加の条件付け情報なしに、与えられたオーディオ内の柔軟な潜在的な構造をモデル化することができます。

E3 TTSは、事前学習済みのBERTモデルに基づいて構築されています。また、このシステムは音素やグラフェムのような音声表現に頼らずに動作します。BERTモデルはサブワード入力を取り、その出力は1D U-Net構造によって処理されます。これには、ダウンサンプリングとアップサンプリングのブロックが含まれ、リジッドな接続で接続されています。

E3 TTSは、現在の大規模言語モデルの最新の開発を活用し、事前学習済みのテキスト言語モデルからのテキスト表現を使用します。E3 TTSは、テキスト入力を使用して生成プロセスを合理化します。

このモデルはテキスト入力を使用して多言語でトレーニングすることができるため、システムの適応性が向上します。

E3 TTSで使用されるU-Net構造は、リジッドな接続で接続された一連のダウンサンプリングとアップサンプリングのブロックで構成されています。BERTの出力からの情報抽出を改善するために、クロスアテンションはトップのダウンサンプリング/アップサンプリングブロックに組み込まれています。下部のブロックではアダプティブソフトマックス畳み込みニューラルネットワーク(CNN)カーネルが使用され、そのカーネルサイズはタイムステップと話者によって決定されます。話者とタイムステップの埋め込みはFeature-wise Linear Modulation(FiLM)を介して結合され、チャネルごとのスケーリングとバイアスの予測を含みます。

E3 TTSのダウンサンプラーは、ノイズが多い情報を洗練し、24kHzからエンコードされたBERTの出力と同じ長さのシーケンスに変換することで、全体的な品質を大幅に向上させる重要な役割を果たします。逆に、アップサンプラーは、入力波形と同じ長さのノイズを予測します。

まとめると、E3 TTSは高品質なオーディオを生成する能力を示し、この分野の注目に値する品質レベルに近づいています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

ビジネスにおけるAIの潜在的なリスクの理解と軽減

「この技術を導入する際に遭遇する可能性のあるAIのリスクを学びましょうビジネスオーナーとして、そのようなリスクを避ける...

データサイエンス

「二つの頭を持つ分類器の使用例」

実際のコンピュータビジョンタスクの実例について話しましょう初めて見ると、分類問題は非常に単純ですが、それは一部当ては...

人工知能

自動化されたアクセシビリティテストと手動のアクセシビリティテストの包括的な探求

最新のブログで、自動化およびマニュアルのアクセシビリティテストの微妙なニュアンスを探求してくださいCXスコアが両方のア...

人工知能

認知AI:人間のように考えるAIへの道

目的は、関連する予測を行い、自動的な意思決定をすることができるようにすることですつまり、新しい文脈情報をアクションに...

データサイエンス

『Re Invent 2023の私のお勧め』

ここに私のお気に入りのリストがありますが、特定の順序はありません (Koko ni watashi no okiniiri no risuto ga arimasu ga...

機械学習

SalesForce AIはCodeChainを導入:代表的なサブモジュールによる自己改訂の連鎖を通じたモジュラーコード生成のための革新的な人工知能フレームワーク

“`html 人工知能の研究における重要な目標の一つは、困難な問題に対処するための有用なコンピュータプログラムを提供で...