Google研究者がAudioPaLMを導入:音声技術における革新者 – 聞き、話し、そして前例のない精度で翻訳する新しい大規模言語モデル

Google researchers introduce AudioPaLM an innovative large-scale language model for speech technology to listen, speak, and translate with unprecedented accuracy.

大規模言語モデル(LLM)が数ヶ月間注目を集めています。人工知能の分野で最も優れた進歩の1つであり、これらのモデルは人間と機械の相互作用の方法を変革しています。すべての業界がこれらのモデルを採用しているため、これらはAIが世界を支配する最良の例です。LLMは、複雑な相互作用や知識の取得を必要とするタスクに対してテキストを生成することで優れており、その最良の例は、GPT 3.5とGPT 4のTransformerアーキテクチャに基づくOpenAIが開発した有名なチャットボットであるChatGPTです。テキストの生成だけでなく、CLIP(コントラスティブ言語-画像事前トレーニング)のようなモデルも画像生成のために開発されており、画像の内容に応じてテキストを作成することができます。

音声生成と理解の進展を目指して、Googleの研究者チームは、音声理解と生成のタスクに対応できる大規模言語モデルであるAudioPaLMを紹介しました。AudioPaLMは、PaLM-2モデルとAudioLMモデルの2つの既存のモデルの利点を組み合わせて、テキストと音声の両方を処理および生成できる統一されたマルチモーダルアーキテクチャを生成します。これにより、AudioPaLMは音声認識から音声-to-テキスト変換までのさまざまなアプリケーションを処理できます。

AudioLMは話者のアイデンティティやトーンなどの並列言語情報を維持することに優れていますが、テキストベースの言語モデルであるPaLM-2は、テキスト固有の言語知識に特化しています。これら2つのモデルを組み合わせることで、AudioPaLMはPaLM-2の言語的専門知識とAudioLMの並列言語情報の保存を活用し、テキストと音声のより徹底的な理解と生成を実現します。

AudioPaLMは、限られた数の離散トークンを使用して音声とテキストの両方を表すことができる共通の語彙を使用しています。この共通の語彙をマークアップタスクの説明と組み合わせることで、さまざまな音声およびテキストベースのタスクに対して単一のデコーダーのみのモデルをトレーニングすることができます。従来は別々のモデルが対処していた音声認識、テキスト-to-スピーチ合成、音声-to-音声翻訳などのタスクが、単一のアーキテクチャとトレーニングプロセスに統合されるようになりました。

評価の結果、AudioPaLMは音声翻訳の既存システムを大幅に上回りました。未知の言語の組み合わせに対してゼロショット音声-to-テキスト翻訳を実行できるため、より広範な言語サポートの可能性を開くことができます。また、AudioPaLMは短い音声プロンプトに基づいて言語間で声を転送でき、異なる言語で特定の声を捕捉して再生することができるため、声の変換と適応が可能になります。

チームが言及した主な貢献は次のとおりです。

  1. AudioPaLMは、テキストのみの事前トレーニングからPaLMとPaLM-2sの能力を利用しています。
  1. 自動音声翻訳および音声-to-音声翻訳のベンチマークでSOTAの結果を達成し、自動音声認識のベンチマークでも競争力のあるパフォーマンスを発揮しています。
  1. モデルは、見たことのないスピーカーの声転送で音声-to-音声翻訳を実行し、音声品質と声の保存において既存の方法を超えています。
  1. AudioPaLMは、見たことのない言語の組み合わせで自動音声翻訳を実行することにより、ゼロショットの機能を実証しています。

結論として、AudioPaLMは、テキストベースのLLMの能力を利用し、オーディオプロンプティング技術を組み合わせて、音声とテキストの両方を処理する統一されたLLMであり、LLMのリストに有望な追加です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

「CMUの研究者がBUTD-DETRを導入:言語発話に直接依存し、発話で言及されるすべてのオブジェクトを検出する人工知能(AI)モデル」

画像内のすべての「オブジェクト」を見つけることは、コンピュータビジョンの基礎です。カテゴリの語彙を作成し、この語彙の...

AIニュース

「ドバイ、ロボタクシーの試験を開始する予定」

「アラブ首長国連邦の都市ドバイは、混雑や事故を減らすため、今月初めてのロボットタクシーの導入を開始します」

コンピュータサイエンス

2050年までに、ロボットはワールドカップの優勝者に勝利するか?

ロボカップの夢は、数世代のロボティストたちにインスピレーションを与えてきました

人工知能

アンソロピックは、以前のモデルと比べて、コーディング、数学、論理思考において大幅な改善を果たしたClaude 2モデルをリリースしました

Anthropicは、Claude 2という新しいモデルを発表しました。このモデルは、改善されたパフォーマンス、より長い応答時間、API...

AIニュース

「2023年の最高のAIスプレッドシートツール」

他の情報源と組み合わせると、マーケティングデータプラットフォームを含めて、Excelは迅速に貴重な洞察を提供するかもしれま...