このNYUとGoogleの論文は、クロスモーダル表現におけるシーケンス長の不一致を克服するための共同音声テキストエンコーダの仕組みを説明しています

このNYUとGoogleの論文は、シーケンス長の不一致を克服するための共同音声テキストエンコーダの仕組みを説明しています

I had trouble accessing your link so I’m going to try to continue without it.

非常に大きなモデルが、単一のモダリティで大量の非監督コーパスでトレーニングされることで、驚くべき結果を達成できることがますます明らかになってきています。これは、音声ドメインでは、単一のモデルが驚くほど広範な音響タスクに適応できることが示され、テキストドメインでは、言語モデルが例外的なゼロショットの能力を獲得していることが証明されています。同様の成果は、従来、手動でペアリングされたデータに依存していた2つのモダリティを組み合わせた状況においても、同様の技術をどのように適用するかについての調査を促しました。

興味深いアプローチの1つは、両方のモダリティに対して大きなエンコーダをトレーニングすることであり、その結果、どちらかがペアリングされていない例として提示されると、エンコーダは2つのモダリティを表現空間の似た場所にマッピングすることを学習します。このような表現は、単一のモデルを使用して数多くの画像理解およびテキスト理解タスクで最先端のパフォーマンスを実現できるだけでなく、画像/テキストドメインでも実現可能であることが示されています。

ニューヨーク大学とGoogleによる新しい研究では、明示的なアラインメントで見つかったパフォーマンスの向上が、アップサンプリングシステムで学習された暗黙のアラインメントに一貫性正則化を適用することで達成できるかどうかを調査しています。彼らは、動的時間歪みに触発された方法を開発し、音声とテキストの例のエンコーダの表現を最適にアラインメントします。明示的なアラインメントモデルが存在しない場合、チームは最適なアラインメントがトレーニング中だけでなく、ネットワークのレイヤを進むにつれて改善することも示しています。

音声認識の分野では、非ペアリングの音声とテキストデータの事前トレーニングを容易にするために、共通の音声とテキストエンコーダを持つモデルへの最近の傾向があります。音声を表現するために使用されるより長いシーケンスは、2つのシーケンスモダリティを含むため、音声認識にとって独特の難しさを提供します。そのため、エンコーダの音声表現をテキスト表現とフレームごとに比較することは、同じ埋め込み空間で両方のモダリティが表現されているにもかかわらず、より困難なプロセスとなります。

最後に、この研究では、単一言語および多言語の設定で、学習されたアラインメントモデルなしで、一貫性正則化の基準を直接のフレームワイズの比較ではなく、あるアラインメントの下で一貫性を促進するように変更することで、強力な半教師ベースラインに対して有意なWERの改善が実現できることが示されています。彼らの結果に基づくと、ミスアラインメントを許容することが、クロスモーダル表現の一貫性を強制するために必要なすべてであるようです。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

シリコンボレー:デザイナーがチップ支援のために生成AIを活用

今日公開された研究論文によれば、生成AIは、最も複雑なエンジニアリングプロジェクトの1つである半導体設計を支援できる方法...

人工知能

「質問、肩をすくめること、そして次は何か:変化の25年」

「Googleが設立されて以来、私たちは難しい質問に答えるために取り組み、人々が自分の質問に答えを得るのを助け、世界のため...

AIニュース

「イギリスの全ての人に無料のAIトレーニングを提供しています」

「ジョニー・コットムは、一人でスタートアップを運営する際に必要なジャグリングの技術を知っています昨年、エコフレンドリ...

人工知能

I/O 2023 で発表した100のこと

Google I/O 2023はニュースとローンチで満ち溢れていましたここではI/Oで発表された100のことを紹介します

データサイエンス

「AIベースのサイバーセキュリティがビジネスの強靭性を高める方法」

世界の50億人以上のインターネットユーザーとおよそ540億個のデバイスが、IDCによると1秒あたり3.4ペタバイトのデータを生成...

機械学習

音声合成:進化、倫理、そして法律

ロマン・ガーリン、シニアバイスプレジデント @イノベーション、スポートレーダー この記事では、音声合成の進化を辿り、それ...