メリーランド大学の新しいAI研究は、1日で単一のGPU上で言語モデルのトレーニングをするためのクラミングの課題を調査しています

Maryland University's new AI research investigates the challenges of training language models on a single GPU in one day.

自然言語処理の多くの領域では、言語解釈や自然言語合成を含む機械学習モデルの大規模トレーニングにおいて、トランスフォーマーのトポロジーを利用した画期的な進展が生まれています。これらのシステムの広く認識されている特性は、モデルのパラメータ数やデータのボリュームが増えるにつれて安定的にスケーリングするか、さらなる性能向上を続ける能力です。

ほとんどの研究は、極端な計算の限界を押し上げる新しい方法を見つけることに焦点を当てていますが、メリーランド大学の研究チームは、言語モデルのトレーニングを縮小する最善の方法とそのトレードオフについて調査しています。

研究者たちは、スケールの力が引き起こした非常に大きなモデルを構築する競争のために、言語モデルのトレーニングが可能であると考えています。初期のBERTモデルは、自然言語処理の多くの実世界アプリケーションで使用されています。ただし、このモデルをトレーニングするには、かなりの計算が必要でした。

比較的限られたリソースで、BERTと同等の性能を持つ言語モデルをトレーニングすることが可能であり、それにはいくつかの興味深い結果があります。その1つは、大規模モデルでは現在難しい追加の学術的な問い合わせを可能にし、スケールダウンしたモデルの事前トレーニングが大規模な計算の事前トレーニングの有望な相互対応関係であるかどうかを明確にすることです。研究者によると、公共のデータでトレーニングされた、出所の疑わしいモデルが受け入れられるかどうかは法的な問題があります。

メリーランド大学の研究者による新しい研究は、「Cramming」というチャレンジに取り組んでいます。つまり、試験の前日に言語モデル全体を学習することです。彼らの研究は、この制約のある状況でも、パフォーマンスが大規模な計算環境で見つかるスケーリングルールに密接に従うことを証明しています。この研究では、トレーニングパイプラインの変更がスケールダウンした状況でのパフォーマンス向上につながるかどうかを調査しています。

スケールダウンは困難です。モデルのサイズを小さくすることで、より高速な勾配計算が可能になりますが、時間の経過に伴うモデルの改善率はほぼ一定です。ただし、スケーリング法則を利用するトレーニングレシピの変更により、モデルのサイズを減少させることなく、勾配計算の効果的な速度を増加させることで、利益を生み出すことができます。最終的に、チームは予算の制約の中でモデルをトレーニングし、尊敬できるパフォーマンスを提供し、GLUEタスクでBERTに頻繁に迫り、時には超えることもありました。

チームは、トランスフォーマーベースの言語モデルが非常に限られた計算環境に収まる状況でのパフォーマンスを評価しています。彼らは、さまざまな変更要素がGLUEでの尊敬できる下流パフォーマンスをもたらすことを発見しました。チームは、この研究が「Cramming」の問題に関する調査の出発点となり、さまざまな改善策や戦略にさらなる洞察をもたらすことを期待しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

将来のイベントの予測:AIとMLの能力と限界

あなたは、占い師、占星術師、または有名なババ・ヴァンガがどのように未来の出来事を予測していたのか、考えたことがありま...

人工知能

2023年の音楽制作に最適なAIツール

新しい音楽の創作からアルバム(または雑誌)のカバーデザインまで、AIは既にアーティストの作品の開発とプロモーションに大...

AI研究

マイクロソフトの研究者が「InstructDiffusion:コンピュータビジョンタスクを人間の指示に合わせるための包括的かつ汎用的なAIフレームワーク」というタイトルで発表しました

マイクロソフトリサーチアジアの研究者たちは、適応性のある汎用的なビジョンモデルに向けた画期的な進展であるInstructDiffu...

AIニュース

「イーロン・マスク氏、中国での超知能の台頭に警鐘を鳴らす」と警告

著名な起業家であるイーロン・マスク氏が最近、Twitter Spacesのコールで大胆な発言をし、中国における超知能の可能性につい...

AI研究

「Appleの研究者たちは、暗黙的なフィードバックを持つ協調フィルタリングのための新しいテンソル分解モデルを提案する」

過去の行動からユーザーの好みを推測する能力は、効果的な個別の提案にとって重要です。多くの製品には星の評価がないため、...

データサイエンス

ノースウェスタン大学の研究者は、AIのエネルギー使用量を99%削減したオフグリッド医療データの分類のための画期的な機械学習フレームワークを提案しました

最近、ノースウェスタン大学の研究者たちは、特に心電図(ECG)の解釈の文脈で、オフグリッド医療データの分類と診断に画期的...