プリンストン大学の研究者が、MeZOというメモリ効率の高いゼロ次最適化器を紹介しましたこの最適化器は、大規模言語モデル(LLM)を微調整することができます

プリンストン大学の研究者がMeZOというメモリ効率の高いゼロ次最適化器を紹介しましたこの最適化器は大規模言語モデル(LLM)を微調整できます' The condensed version is 'プリンストン大学の研究者がMeZOというメモリ効率の高いゼロ次最適化器を紹介しましたこの最適化器は大規模言語モデル(LLM)を微調整できます

大きな言語モデルは、過去数ヶ月のジェネレーティブ人工知能の大成功により、急速に進化しています。これらのモデルは、驚くべき経済的および社会的変革に寄与しており、その最良の例はOpenAIによって開発されたChatGPTです。このチャットボットは、自然言語処理(NLP)と自然言語理解(NLU)に基づいており、ユーザーが人間のような意味のあるテキストを生成することができます。質問に意味を持って回答したり、長いパラグラフを要約したり、コードやメールを補完したりすることができます。PaLM、Chinchilla、BERTなどの他のLLMもAIの領域で優れたパフォーマンスを示しています。

事前に学習された言語モデルの微調整は、多くの言語関連のタスクにおいて人気のある手法です。微調整により、これらのモデルは特定のドメインに適応し、人間の指示を組み込み、個々の好みに合わせることができます。基本的には、既に学習されたLLMのパラメータを、より小さくドメイン固有のデータセットを使用して調整します。言語モデルがパラメータを増やすにつれて、微調整は逆伝播中の勾配計算の過程で計算量が多く、メモリを多く必要とします。メモリ使用量は、アクティベーションや勾配のキャッシュ、勾配履歴の保存などの関与により、推論に必要なものよりも大幅に高くなります。

最近、プリンストン大学の研究チームがメモリの問題に対する解決策を提案しました。MeZOと呼ばれるメモリ効率の高い零次勾配最適化手法は、従来のZO-SGD手法を改変して開発され、損失値の差分のみを使用して勾配を推定し、推論と同じメモリフットプリントで動作します。MeZOでは、ZO手法が2つの順方向パスのみを使用して勾配を推定できるため、メモリ効率が高いとされています。

MeZOアルゴリズムは、数十億のパラメータを持つ大規模な言語モデルの最適化に特に設計されています。チームが挙げた主な貢献は次のとおりです。

  1. MeZOは、ZO-SGD手法といくつかの変種を修正して、任意のサイズのモデルでインプレースで実行し、ほとんどメモリのオーバーヘッドを発生させずに開発されました。
  1. MeZOは、PEFTやLoRA、接頭辞調整などの包括的なパラメータ調整と互換性があります。
  1. MeZOは、同じメモリ量を使用しながら、精度やF1スコアなどの微分できない目標を改善することができます。
  1. 適切な事前学習により、MeZOのステップごとの最適化率とグローバル収束率は、大数のパラメータによるというよりも、特定の条件数であるランドスケープの効果的なローカルランクに依存することが保証されます。これは、収束率がパラメータの数に応じて遅くなるという以前のZOの下限とは対照的です。
  1. 実験では、マスクされたLMや自己回帰LMなどのさまざまなモデルタイプでのテスト、および分類、多肢選択、生成などの下流タスクで、モデルは350Mから66Bまでスケーリングされました。
  1. MeZOは、zero-shot、ICL、および線形プロービングに対して実験で優れたパフォーマンスを発揮し、OPT-13Bにおいては、RoBERTa-largeや通常の微調整よりも約12倍少ないメモリを消費しながら、11つのテストのうち7つで微調整と同等かそれ以上のパフォーマンスを発揮します。

評価によれば、MeZOは単一のNvidia A100 80GB GPUを使用して30兆パラメータのモデルをトレーニングすることができましたが、同じメモリ制約内ではバックプロパゲーションは2.7兆パラメータのLMのみをトレーニングすることができます。結論として、MeZOはメモリ効率の高い零次勾配最適化手法であり、大規模な言語モデルを効果的に微調整することができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Related articles

Discover more

AI研究

メイヨークリニックのAI研究者たちは、拡散モデルを活用したマルチタスク脳腫瘍インペインティングアルゴリズムを構築するための機械学習ベースの手法を紹介しました

近年、医用画像に関連するAI、特に機械学習(ML)に関する出版物の数は急増しています。Meshキーワード「人工知能」と「放射...

データサイエンス

高度なRAG 01:小から大への検索

RAG(Retrieval-Augmented Generation)システムは、与えられた知識ベースから関連情報を検索することで、事実に基づいて文脈...

機械学習

「Prompt Diffusionを紹介する:拡散ベースの生成モデルにおけるコンテキスト内学習を可能にするAIフレームワーク」

最新の大規模言語モデル(LLM)であるBERT、GPT-2、BART、T5、GPT-3、およびGPT-4は、機械学習の最近の進歩、特に自然言語処...

データサイエンス

テキストデータのチャンキング方法-比較分析

自然言語処理(NLP)における「テキストチャンキング」プロセスは、非構造化テキストデータを意味のある単位に変換することを...

データサイエンス

「LP-MusicCapsに会ってください:データの乏しさ問題に対処するための大規模言語モデルを使用したタグから疑似キャプション生成アプローチによる自動音楽キャプション作成」

音楽のキャプション生成は、与えられた音楽トラックの自然言語による説明を生成することによる音楽情報の検索です。生成され...

AI研究

メリーランド大学の新しいAI研究は、1日で単一のGPU上で言語モデルのトレーニングをするためのクラミングの課題を調査しています

自然言語処理の多くの領域では、言語解釈や自然言語合成を含む機械学習モデルの大規模トレーニングにおいて、トランスフォー...