コンピュート最適な大規模言語モデルトレーニングの経験的分析

Empirical Analysis of Optimal Large-scale Language Model Training for Compute

ここ数年、言語モデリングの焦点は、トランスフォーマーベースのモデルのパラメータ数を増やすことでパフォーマンスを向上させることにありました。このアプローチにより、多くの自然言語処理タスクで印象的な結果と最先端のパフォーマンスが得られました。

DeepMindでもこの研究の一環として、最近になってGopherという2800億パラメータのモデルを開発し、言語モデリング、読解力、質問応答などの幅広いタスクで最先端のパフォーマンスを実現しました。その後、さらに大きなモデルであるMegatron-Turing NLGが5300億パラメータで公開されました。

これらの大規模モデルの訓練コストが非常に高いため、リソースの無駄遣いを避けるために最適な訓練セットアップを見積もることが非常に重要です。特に、トランスフォーマーの訓練計算コストは、モデルのサイズと訓練トークンの数の2つの要素によって決まります。

現在の大規模言語モデルの世代では、大規模モデルのパラメータ数を増やし、訓練データのサイズを約3000億トークンに固定するために、計算リソースを増やしています。この研究では、計算リソースの増加に伴うモデルサイズと訓練データ量の最適なトレードオフについて実証的に調査しました。具体的には、「与えられた計算予算に対して最適なモデルサイズと訓練トークン数は何か?」という問いに答えるため、さまざまなサイズとトークン数のモデルを訓練し、このトレードオフを実証的に見積もりました。私たちの主な結論は、現在の大規模言語モデルは計算予算に対して非常に大きすぎるため、訓練データが不足しているということです。実際、私たちはGopherの訓練に使用されたトレーニングFLOPの数に対して、データ量が4倍である4分の1のサイズのモデルの方が好ましいという結果を見つけました。

図1: 当社のアプローチに基づいて、最適な訓練トークン数とパラメータ数の予測を示します。当社の新モデルChinchillaとともに、3つの異なる既存の大規模言語モデルのトレーニングセットアップを示しています。

私たちはChinchillaという70億パラメータのモデルを13兆トークンで訓練することで、データスケーリングの仮説を検証しました。ChinchillaとGopherの訓練計算コストは同じですが、Chinchillaの方がほとんどの測定タスクでGopherや他の大規模言語モデルよりも優れたパフォーマンスを発揮します。

図2: Question Answering (TriviaQA)、CommonSense (HellaSwag、PIQA、Winogrande、BoolQ)、Reading Comprehension (LAMBADA)、および大規模なマルチタスク言語理解(MMLU)一般知識ベンチマークなど、さまざまな一般的なベンチマークで、Gopher、Chinchilla、GPT-3、Megatron-Turing NLGのパフォーマンスを比較します。

Chinchillaの公開後、PaLMというモデルが5400億パラメータで7680億トークンを訓練しました。このモデルはChinchillaの計算予算の約5倍で訓練され、さまざまなタスクでChinchillaを上回りました。訓練コーパスは異なりますが、私たちの手法は、私たちのデータで訓練されたこのようなモデルがChinchillaを上回ると予測しています。PaLMの計算予算を考慮すると、3兆トークンで訓練された1400億パラメータのモデルが最適であり、推論においても効率的です。

小さな性能の優れたモデルの追加の利点は、推論時間とメモリのコストが削減され、モデルへのクエリがより高速かつ少ないハードウェアで実行可能になることです。実際、GopherとChinchillaの訓練FLOPは同じですが、Chinchillaの使用コストはかなり低く、さらに優れたパフォーマンスを発揮します。さらに、大きな利益をもたらす可能性のある簡単な最適化も可能です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

デコード Transformersを平易な英語で説明します

コード、数学、またはキー、クエリ、値の言及なし

AIニュース

AWSを使用したジェネレーティブAIを使用したサーバーレスイメージ生成アプリケーション

このチュートリアルでは、Amazon Bedrockを使用してGoで画像生成ソリューションを構築し、AWS CDKを使用して展開する方法を学...

AIニュース

「世界最大の広告主がAIの力を受け入れる:広告業界におけるパラダイムシフト」

広告業界を再構築する可能性を秘めた動きとして、世界でも有名な広告主の一部が生成型人工知能(AI)の可能性を活用していま...

機械学習

NLPとAIを利用したPythonにおけるテンプレートベースの文書生成の力

Pythonを利用したテンプレートベースの文書生成の機能をNLPやAIの機能と融合させ、その力を活用してください文書生成の作業フ...

機械学習

「メタのMusicGenを使用してColabで音楽を生成する」

「ColabでMusicGenをセットアップする方法を学びましょうこの先進のテキストから音楽へ変換するモデルは、人工知能アルゴリズ...

機械学習

「BoomiのCEOが統合と自動化プラットフォームのビジョンを概説」

「AIを活用したプラットフォームがデジタルの分断を乗り越え、開発者に力を与え、企業がより迅速にデータからビジネス価値を...