「トランスフォーマーは長い入力をどのように扱うのか?CMUとGoogleの研究者が新しいアプローチを発表(FIRE):相対位置エンコーディングのための機能的補間」

「トランスフォーマーが長い入力をどのように処理するのか?CMUとGoogleの研究者が新しい手法を発表(FIRE):相対位置エンコーディングの効果的な補間」

Transformerベースの言語モデルは、近年、自然言語処理(NLP)の領域を引き上げてきました。人間らしいテキストを理解し生成する能力により、さまざまなNLPタスクで画期的な改善がもたらされました。しかし、これらのモデルには重大な欠点があります。訓練中に遭遇したものよりも長い入力シーケンスにさらされると、パフォーマンスが明らかに低下する傾向があります。現実のアプリケーションにおいてより長い文脈を管理する能力を向上させる方法を見つける必要性が、この制限によって刺激されています。

Transformerアーキテクチャ自体は潜在的に異なる入力期間を処理する能力を持っていますが、トレーニング中に使用される位置エンコーディングによって長い入力の取り扱い能力が制限されることがあります。そこで、カーネギーメロン大学、Google Research、Google DeepMindの研究者チームは、Functional Interpolation for Relative Positional Encoding(FIRE)と呼ばれる独自のアプローチを導入しました。FIREの目的は、Transformerの長い文脈の一般化能力を向上させることです。これは、新たな進行的な補間と機能的な相対位置エンコーディングの組み合わせによって実現されています。

FIREの基本的なアイデアは、シーケンス内のトークンの配置を理解するためのTransformerモデルに柔軟性のある手段を提供することです。FIREは、事前定義された位置エンコーディングスキームの代わりに、位置情報をエンコードするための動的で学習可能なメカニズムを提供します。この戦略は重要です。なぜなら、モデルが遭遇する特定の文脈とシーケンスの長さに対して、位置の理解を修正および変更することができるからです。

FIREは、Kerple、Alibi、T5のRelative Positional Encoding(RPE)など、よく使用される相対位置エンコーディング技術の一部を概念的に説明する能力も持っています。これは、FIREが現行の手法とモデルとの互換性を保持しながら、パフォーマンスを向上させるということを示しています。

長い文脈の理解が重要な状況において、FIREを装備したモデルのパフォーマンスを評価するために、さまざまなベンチマークで実験が行われました。この評価では、ゼロショットの言語モデリングや長文入力の問題などがカバーされています。この新しい手法を使用した改良モデルは、長い文脈を扱う際の汎化性能においてより優れたパフォーマンスを示しました。これは、長いシーケンスが与えられた場合、個人はより意味のあるテキストを理解し生成する能力が高まることを意味し、実用的な状況で非常に有用なスキルです。

研究者たちは、主な貢献を次のようにまとめました。

  1. Alibi、Kerple、T5のRPEなど、一部の人気のある位置エンコーディング手法を含む、新しい機能的な相対位置エンコーディング手法であるFIREが導入されました。
  1. FIREは、さまざまなデータセットやベンチマークにおいて、ゼロショットとファインチューニングのシナリオで現行の技術を上回るパフォーマンスを示し、高い長さの汎化性能を発揮します。C4言語モデリングの問題において、最高のベースラインを2.28パープレキシティポイント上回り、その有用性を示しました。SCROLLSの長いテキストテストでも、他の手法を平均1ポイント以上上回ります。
  1. FIREの柔軟性により、ローカルおよび逆ローカルの位置バイアスの両方を捉える能力が向上し、学習された位置の埋め込みの視覚化によって示されます。

まとめると、FIREはTransformerモデルにおける持続的な問題に対する優れた解決策を提供します。相対位置エンコーディングは柔軟で学習可能な方法で取り組まれるため、これらのモデルは以前に経験したことのない長さの入力シーケンスに直面しても高いパフォーマンスで動作を続けることができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

「先進的なマルチモーダル生成AIの探求」

イントロダクション テクノロジーの進歩する現代において、興奮すべき展開が現れています – 高度なマルチモーダルジェ...

機械学習

学習率のチューニングにうんざりしていますか?DoGに会ってみてください:堅牢な理論的保証に裏打ちされたシンプルでパラメータフリーの最適化手法

テルアビブ大学の研究者は、学習率パラメータを必要とせず、経験的な量のみに依存する調整フリーの動的SGDステップサイズ公式...

データサイエンス

PatchTST 時系列予測における画期的な技術革新

トランスフォーマーベースのモデルは、自然言語処理の分野(BERTやGPTモデルなど)やコンピュータビジョンなど、多くの分野で...

AI研究

コンピュータビジョンが脳のように機能するとき、それは人々が見るようにもっと見ることができます

実際の脳からのデータを使用して人工ニューラルネットワークを訓練することにより、コンピュータビジョンをより堅牢にするこ...

機械学習

ジェネラティブ人工知能を解明:拡散モデルと視覚コンピューティングの進化についての詳細な解説

コンピュータグラフィックスおよび3Dコンピュータビジョングループは、コンピュータ生成の視覚を組み合わせたり、写真からシ...

機械学習

ピクセルを説明的なラベルに変換する:TensorFlowを使ったマルチクラス画像分類のマスタリング

「今日のビジュアル中心のデジタル環境では、画像を正確に分類できる能力がますます重要になっています医療、eコマース、自動...