「LLaSMと出会う:音声と言語の指示に従うクロスモーダルな対話能力を持つエンドツーエンドで訓練された大規模なマルチモーダル音声言語モデル」

Large-scale multimodal speech and language model trained end-to-end with cross-modal dialogue capabilities Introducing LLaSM.

音声はトーンなどの意味論的およびパラ言語的情報を含むため、書き込みよりも多くの情報を伝えます。さらに、話すことは人々がAIとのコミュニケーションを行うためのより実践的で有機的な方法です。そのため、一般的な目的のアシスタントを作成する際には、音声と言語のガイドラインに従うことが重要です。しかし、多くの大規模言語モデルはテキスト入力のみを受け付けるため、その潜在能力は制限されます。マルチモーダルなビジョンと言語のモデルにより、一般的な人工知能(AGI)の進歩が可能になりましたが、人間がテキストの指示を入力することは依然として手間がかかります。

音声認識(ASR)モデルは、カスケードパラダイムアプローチで使用され、音声入力をテキスト入力に変換し、モデルがジョブを処理するために使用できます。声からテキストへのモーダルの移行は、情報の消費を引き起こし、ASRシステムのエラーを導入する可能性があります。最近では、音声言語のマルチモーダルモデルが大規模言語モデルを使用して音声とテキストを理解し、生成することができるようになりました。音声信号は異なるトークンに分割され、LLMの語彙に拡張されます。この意味では、LLMは広範なマルチモーダルデータと強力な計算リソースを再トレーニングする必要があります。

LinkSoul.AI、北京大学、01.aiの著者らは、この研究で音声と言語の相互作用を理解し、話された命令に従う能力を持つ大規模な音声と言語のモデルLLaSMを提案しています。彼らは、LLaVAと同様に、訓練済みの音声モーダルエンコーダとLLMを使用しており、これによりLLaSMはリソースを節約できます。彼らは特に、音声エンコーダとしてWhisperを使用し、音声信号を組み込みます。大規模言語モデルの入力テキスト埋め込みは、モーダルアダプタを使用して音声埋め込みと一致させます。音声とテキストの埋め込みを組み合わせて、交互になったシーケンスを作成します。交互になったシーケンスは、監督付きの微調整のためにLLMに供給されます。

トレーニング手順には2つのフェーズがあります。初期段階では、パブリックのASRデータセットを使用してモーダルアダプタの事前トレーニングを行います。モーダルアダプタのみがトレーニングされ、音声エンコーダとLLMはロックされます。この段階では、モーダルアダプタの一部のパラメータが導入されるため、モデルのパラメータの大部分はまだ修正が必要ですが、リソースを消費することはありません。2番目のステップでは、クロスモーダルな指示データを使用して、モデルがマルチモーダルな指示を処理し、クロスモーダルな相互作用を分析できるようにします。クロスモーダル教育のために言語モデルとモーダルアダプタの設定が変更される間、音声エンコーダは固定されます。

重要なことは、オープンソースの音声テキストクロスモーダル指示フォローのデータセットはほとんど存在しないということです。したがって、彼らはLLaSM-Audio-Instructionsデータセットを作成し、公開しました。このデータセットは、GPT4-LLM、ShareGPT、WizardLMからの会話を慎重に選び、テキスト読み上げ技術を使用して大量の会話音声データを作成しています。彼らの知る限り、これは最大の中国語と英語の音声テキストクロスモーダル指示フォローのデータセットであり、199,000の対話、80,000の中国語の音声サンプル、428,000の英語の音声サンプルを含んでいます。

彼らの研究は以下の貢献をしています:

• 音声と言語を理解し、音声と言語のコマンドを実行できる音声言語のマルチモーダルモデルを作成しました。これにより、人々が人工知能とコミュニケーションを取るためのより実践的で有機的な方法が提供されます。

• 中国語と英語の音声とテキストを組み合わせたクロスモーダルな指示フォローの大規模データセットLLaSM-Audio-Instructionsを作成し、公開しました。

• デモはHuggingFaceのオンラインで、コードはGitHubで閲覧できます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

OpenAIがBaby Llamaを発表 - 低電力デバイス向けのLLM!

人工知能の世界からの最新ニュース! OpenAIの有名な深層学習の専門家、Andrej Karpathy氏が、リソース制約のあるデバイス上...

人工知能

150以上のミッドジャーニーロゴのプロンプト

「Midjourneyのような生成AIツールを使って、ビジネスのために美しいロゴを作成することができます」

機械学習

GLIP オブジェクト検出への言語-画像事前学習の導入

今日は、言語-画像の事前学習であるCLIPの素晴らしい成功を基に、物体検出のタスクに拡張した論文であるGLIPについて掘り下げ...

機械学習

科学者たちは、AIと迅速な応答EEGを用いて、せん妄の検出を改善しました

うつ病を検出することは容易ではありませんが、それには大きな報酬があります。患者に必要な治療を迅速かつ確実に行うことで...

人工知能

デヴオプスにおけるジェネレーティブAI:ピークなデヴオプスパフォーマンスを実現するスマートな(そして効果的な)方法

ジェネレーティブAIがDevOpsでチームワークを改善し、手続きを迅速化し、よりアジャイルかつ効率的な職場を作り出す方法を調...

人工知能

「チャットボットとAIアシスタントの構築」

この記事は、自然言語処理(NLP)とチャットボットフレームワークの総合ガイドを紹介します詳しくは、学んでください!