PlayHTチームは、感情の概念を持つAIモデルをGenerative Voice AIに導入しますこれにより、特定の感情で話しの生成を制御し、指示することができるようになります

PlayHTチームは、感情を持つAIモデルをGenerative Voice AIに導入し、感情で話しを制御することができるようになります

I had trouble accessing your link so I’m going to try to continue without it.

音声認識は、自然言語処理(NLP)の領域で最近開発された技術の一つです。研究者たちは、テキストから音声を生成するための大規模な言語モデルも開発しました。AIは、声の品質、表現、人間の行動など、さまざまな面で人間と同等の結果を達成できることが非常に明確になりました。しかし、これらのモデルにはいくつかの問題がありました。これらのモデルは言語の多様性が少なかったです。音声認識、感情などにも問題がありました。多くの研究者がこれらの問題に気付き、これらはモデルに使用された小さなデータセットに起因することがわかりました。

改善が始まり、PlayHTチームはこのケーススタディの解決策としてPlayHT2.0を導入しました。このモデルの主な利点は、複数の言語を使用し、大量のデータセットを処理することでした。また、このモデルを使用することでモデルのサイズも増加しました。NLPのトランスフォーマーもこのモデルの実装に重要な役割を果たしました。モデルは与えられたトランスクリプトを処理し、音を予測します。これはトークン化と呼ばれるテキストから音声への変換プロセスを経ます。これにより、簡略化されたコードが音波に変換され、人間の音声が生成されます。

このモデルは非常に高い会話能力を持ち、いくつかの感情を持った通常の人間との会話ができます。AIチャットボットを介したこれらの技術は、多くの多国籍企業がオンライン通話やセミナーで使用しています。PlayHT2.0モデルは、それに使用される最適化技術により音声の品質も向上させました。また、元の声を再現することもできます。モデルに使用されるデータセットが非常に大きいため、モデルは元の言語を保持しながら他の言語も話すことができます。モデルのトレーニングプロセスは、多数のエポックとさまざまなハイパーパラメータを使用して行われました。これにより、モデルは音声認識技術においてさまざまな感情を表現するようになりました。

このモデルはまだ進行中であり、さらなる改善が行われる予定です。研究者たちはまだ感情の改善に取り組んでいます。プロンプトエンジニアや多くの研究者も、モデルが今後の数週間で速度、正確性、良いF1スコアの面で更新される可能性があることを発見しました。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「機械学習入門:その多様な形式を探索する」

最近、機械学習はどこにでもありますねもしもあなたがここにいるなら、機械学習が一体何なのかに興味を持ったのかもしれませ...

AI研究

中国の研究者がiTransformerを提案:時間系列予測のためのTransformerアーキテクチャの見直し

トランスフォーマーは、自然言語処理とコンピュータビジョンで大成功を収めた後、スケーリングのルールに従う基本モデルとな...

AIニュース

Adobe Illustratorの「Generative Recolor」AIであなたの画像を変換しましょう

デザインソフトウェアの有名企業Adobeは、デザイナーとマーケターを強化する発表をしました。Adobe Illustratorの最先端のAI...

データサイエンス

「ChatGPTが連邦取引委員会によって潜在的な被害の調査を受ける」

重要な進展として、連邦取引委員会(FTC)が人工知能(AI)スタートアップ企業であるOpenAIの調査を開始しました。OpenAIはAI...

機械学習

FlashAttentionアルゴリズムの深い探求-パート3

私たちのFlash Attentionシリーズの第3部へようこそ!このセグメントでは、FlashAttention V1アルゴリズムの内部機能について...

データサイエンス

「モデルの解釈性のためのPFIに深く入り込む」

「モデルの評価方法を知っていることは、データサイエンティストとしての仕事において不可欠ですステークホルダーに完全に理...