新しいAI論文で、CMUとGoogleの研究者が言語モデルの出力を再定義します:応答を一時停止トークンで遅延させることが、QAや推論のタスクでのパフォーマンスを向上させる方法

AI論文による新たな発見:CMUとGoogleの研究者が言語モデルの革新的な改良、一時停止トークンを用いた回答の遅延がQAや推論のパフォーマンスを進化させる方法

トークンは、トランスフォーマーに基づく因果言語モデルを使用して、高速に生成されます。このモデルは、K個の前のトークンを受け取り、各隠れ層でK個の中間ベクトルを反復的に計算して(K + 1)番目のトークンを生成します。モジュールは前のレイヤーの出力ベクトルに作用し、各ベクトルはそれ自体がモジュールの出力です。全体の手順の複雑さにもかかわらず、次のトークンを決定するために必要な操作の数は、すでに表示されたトークンの数で制約されなければなりません。

カーネギーメロン大学とGoogleによる最近の研究では、デコーダのみのモデルの入力に偽のトークンを追加して出力を遅らせる戦略を調査しました。この研究では、(学習可能な)一時停止トークンを選択し、それを一度以上の連続したシーケンスで入力に追加することにしました。最後のトークンが表示された後のモデルの答えを得るために、それまでの一致する出力は単純に無視します。

重要なのは、研究者たちは、このような遅延を推論時およびダウンストリームの組織微調整および事前学習時に挿入することを考えています。この表面上小さな調整が現実世界でどのような効果をもたらすかは現時点ではわかりません。遅延は、トランスフォーマーが利用できる「広い」計算チャネルを作成します。より単純な結果としては、モデルがトークンによる遅延の能力を無視し、実行を継続する可能性があります。トークン自体も、単一のトークンを埋め込むことによって導入されるわずかな新しいパラメータの数も、トレーニングデータから追加の情報をエンコードするのに適切ではありません。これらの意味のないトークンは、有用な信号を不明確にし、モデルを弱体化させる可能性があります。

チームは、すべてのトレーニングおよび推論フェーズで(追加)遅延を導入した場合の結果を理解するために実証的な評価を行いました。彼らは、C4 (Raffel et al., 2019) で初めにトレーニングされ、抽出型質問回答、推論、一般的な理解、事実の回想をカバーする9つのダウンストリームタスクで微調整された10億パラメータのデコーダのみモデルに休止トレーニングを行った。最も重要なことは、この方法により、SQuAD抽出型質問回答タスクで1Bモデルの完全一致スコアが18%向上しました。同様に、CommonSense QAの一般的な理解タスクで8%の向上と、GSM8kの推論タスクで標準モデルの正確さ7.5%に対する1%の精度向上が観察されました。

一方、トークンが最終的な微調整段階のみで導入される場合(ベースラインの事前学習モデルを使用)、改善はごく一部のケースで見られます。チームはまた、以下の重要な欠点を含む一連の実験も行いました:

  1. トークンを追加することが一般的に前置することよりも優れていることを発見しました。
  2. 任意のダウンストリームタスクに対して最適なトークンの数があることを発見しました。
  3. 推論時のトークン数を減らすことが、優雅なパフォーマンスの低下につながることを発見しました。

チームは、通常の事前学習モデルで遅延を直接役立たせる方法の開発が、次の重要なステップであると考えています。彼らは、遅延次のトークン予測のパラダイムを拡張することで、新たな理論的および応用研究の方向性が開かれると予想しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

自然言語処理における転移学習:テキスト分類のための事前学習済みモデルの活用

この記事では、転移学習の概念について説明し、いくつかの人気のある事前学習済みモデルを探求し、テキスト分類に使用する方...

データサイエンス

このAI研究は、パーソン再識別に適したデータ拡張手法であるStrip-Cutmixを提案しています

コンピュータビジョンでは、個人再識別は現在の相互接続された世界における重要な追求です。これは、しばしば非理想的な状況...

機械学習

MPT-7Bをご紹介します MosaicMLによってキュレーションされた1Tトークンのテキストとコードでトレーニングされた新しいオープンソースの大規模言語モデルです

MosaicMLは最近、予測分析と意思決定のアプローチを変革する画期的なツール、MPT-7Bを発表しました。この新しいツールは、最...

人工知能

「AIレポート2023年」を解説する

アニュアルAIレポートは、人工知能の急速に進化する領域での明確さと方向性を提供する重要な基準として機能しますその包括的...

機械学習

「ラマ-2、GPT-4、またはクロード-2;どの人工知能言語モデルが最も優れているのか?」

大規模言語モデル(LLMs)は、自然言語処理と自然言語理解の分野で世界的な評価を受け、非常に人気があります。これにより、...

機械学習

ソースフリーのドメイン適応における壁の破壊:バイオアコースティクスとビジョン領域へのNOTELAの影響

ディープラーニングは、さまざまなアプリケーション領域で重要な進展を遂げています。その一因は、ますます大規模なデータセ...