Google AIがSpectronを導入:スペクトログラムを入力および出力として直接処理する、最初のスポークンランゲージAIモデルとしてエンドツーエンドでトレーニングされたものです

Google AIがSpectronを導入:リアルタイムのスペクトログラム処理を可能にする最初のスポークンランゲージAIモデル、エンドツーエンドでトレーニングされました

音声継続および質疑応答型のLLMsは、さまざまなタスクや産業に適用できる多才なツールであり、生産性の向上、ユーザーエクスペリエンスの向上、およびさまざまな分野の研究開発の推進に貢献しています。主なこれらのLLMsの例には、GPT-3とその後継機があり、テキストの理解および生成において優れたパフォーマンスを発揮し、注目を集めています。

これらのLLMsは、通常、深層学習アーキテクチャ上に構築されます。彼らは膨大なテキストデータで事前トレーニングされており、統計的なパターンとテキストベースの自然言語の構造を捉えることにより、文脈に即した関連性のあるテキストを理解し生成することができます。

Google ResearchとVerily AIのチームは、スペクトログラムとしての入力と出力の両方を直接処理する新しいスポークンランゲージモデル「Spectron」を発表しました。スペクトログラムは、信号の周波数スペクトルの時間とともに変化する様子を視覚的に表現したものです。このモデルは、事前にトレーニングされた音声エンコーダのオーディオ機能を活用するための中間投影層を使用しています。このモデルは、通常事前トレーニングされたエンコーダとデコーダで生じる帰納的なバイアスを排除するだけでなく、再現性の保持も妨げることなくこれを行います。

この言語モデルは、テキストの継続を転写し生成し、オーディオ生成にさらに応える「中間の書き読み台帳」として機能します。グラウンドトゥルースの導関数は、信号の形状についての豊富な情報を表現します。チームは、この事実を利用して、スペクトログラム回帰を使用してグラウンドトゥルースの高次の時間および特徴の変化をモデルに対応させます。

モデルのアーキテクチャは、事前にトレーニングされた音声エンコーダと事前にトレーニングされた言語デコーダで初期化されます。エンコーダは音声発話をプロンプトとして入力し、それらを言語的特徴にエンコードします。特徴は、デコーダへのプレフィックスとして入力され、全体のエンコーダ-デコーダは、交差エントロピーを最小化するために最適化されます。この方法では、音声の音声プロンプトを提供し、エンコードされ、デコードされてテキストと音声の継続を提供します。

研究者たちは、中間テキストとスペクトログラムのデコードに同じアーキテクチャを使用しました。これには2つの利点があります。まず第一に、テキスト領域でLMの事前トレーニングを行い、音声を合成する前にプロンプトをテキスト領域で継続することです。第二に、予測されたテキストは、テキストベースの言語モデルの改善に伴い、合成された音声の品質を高めるための中間的推論を担当します。

ただし、この作業は時間と空間の複雑さが高く、複数のスペクトログラムフレームの生成が必要です。これには時間がかかりますので、長い音声発話の生成は不可能です。また、モデルはテキストとスペクトログラムのデコードプロセスを並行して実行することができません。将来的には、チームは並列化されたデコーディングアルゴリズムの開発に注力する予定です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「ヘルスケアとゲノミクス産業が機械学習とAIで革新する方法」

AIと機械学習は医療研究のやり方を変えつつありますAIが薬剤探索、ゲノミクス、およびタンパク質の折りたたみに革新をもたら...

データサイエンス

ビジネス戦略において機械学習を使用する時と使用しない時の選択

それは明らかな質問ではありません初心者のデータサイエンティストにとっては、すぐに機械学習モデルを推進することは間違い...

機械学習

自然言語処理:BERTやGPTを超えて

技術の世界は常に進化しており、その中でも特に進歩が見られる分野の一つが自然言語処理(NLP)です数年前には、BERTとGPTと...

データサイエンス

MLがDevOpsと出会うとき:MLOpsの理解方法

この記事では、機械学習とDevOpsの統合、モデルの管理、ベストプラクティス、成功した解決策について取り上げています

機械学習

このスペースを見る:AIを使用してリスクを推定し、資産を監視し、クレームを分析する新しい空間金融の分野

金融の意思決定をする際には、ドローン、衛星、またはAIパワードセンサーから取得した大局的な情報を見ることが重要です。 空...

機械学習

インフレクション-2はGoogleのPaLM-2を超える:AI言語モデルのブレークスルー

In a groundbreaking announcement, Inflection AI, the creators of the popular PI AI Personal Assistant, unveiled their...