マサチューセッツ州ローウェル大学の研究者たちは、高ランクのトレーニングに低ランクの更新を使用する新しいAIメソッドであるReLoRAを提案しています

Researchers at the University of Massachusetts Lowell propose a new AI method called ReLoRA, which uses low-rank updates for high-rank training.

以下は、HTMLのコードを日本語に翻訳したものです(HTMLコードはそのまま表示されます):

過去10年間、より大きなパラメータを持つネットワークや「より多くの層を積む」戦略によるトレーニングが機械学習の標準となってきました。パラメータの数も1億から数千億に増える中で、多くの研究グループはこのようなネットワークのトレーニングにかかる計算コストが高すぎるため、正当化できないと考えています。それにもかかわらず、トレーニングインスタンスよりも桁違いに多くのパラメータを持つモデルをトレーニングする必要性については、理論的な理解が不足しています。

より計算効率の良いスケーリングオプティマ、リトリーバルの強化モデル、およびより長い時間トレーニングするための小さいモデルのトレーニングというストレートな戦略は、スケーリングの代替手法として新しい魅力的なトレードオフを提供しています。しかし、これらのモデルのトレーニングを民主化することはほとんどなく、なぜ過パラメータ化されたモデルが必要なのかを理解するのに役立ちません。

最近の多くの研究によれば、トレーニングには過パラメータ化は必要ありません。経験的な証拠は、Lottery Ticket Hypothesisを支持しています。これは、初期化(または初期トレーニング)のある時点で、トレーニングすると全体のネットワークの性能を達成する孤立したサブネットワーク(当選券)が存在するというものです。

マサチューセッツ大学ローウェル校の最近の研究では、ReLoRAという方法を紹介し、ランクの合計特性を利用して、一連の低ランクアップデートを行うことで高ランクネットワークをトレーニングすることが可能となりました。彼らの研究結果は、ReLoRAが高ランクアップデートを実現し、標準のニューラルネットワークトレーニングと同等の結果をもたらすことを示しています。ReLoRAは、ロットリーチケット仮説と巻き戻しを用いたフルランクトレーニングのウォームスタートを使用します。マージアンドリニット(再起動)アプローチ、ジャグドラーニングレートスケジューラ、および部分的なオプティマイザのリセットの追加により、ReLoRAの効率が向上し、特に大規模ネットワークではフルランクトレーニングに近づけられます。

彼らは350MパラメータのトランスフォーマーランゲージモデルでReLoRAをテストしました。テストでは、自己回帰言語モデリングに重点を置きました。なぜなら、それがさまざまなニューラルネットワークの応用に適用可能であることが証明されているからです。結果は、ReLoRAの効果はモデルのサイズとともに向上し、数十億のパラメータを持つネットワークのトレーニングに適した選択肢となる可能性があることを示しています。

大規模な言語モデルやニューラルネットワークのトレーニングに関して、研究者は低ランクトレーニングのアプローチを開発することでトレーニング効率を向上させる可能性があると考えています。彼らは、勾配降下法を介してニューラルネットワークがどのようにトレーニングされ、その驚異的な汎化能力を達成するかについて、過パラメータ化の領域で低ランクトレーニングから学ぶことができると信じており、これは深層学習理論の発展に大きく貢献する可能性があると考えています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

LMQL — 言語モデル用のSQL

「SQLについて聞いたことがあるか、あるいはスキルを習得したことがあるはずですSQL(Structured Query Language)はデータベ...

AI研究

DeepMindの研究者が、成長するバッチ強化学習(RL)に触発されて、人間の好みに合わせたLLMを整列させるためのシンプルなアルゴリズムであるReinforced Self-Training(ReST)を提案しました

大規模言語モデル(LLM)は、優れた文章を生成し、さまざまな言語的な問題を解決するのに優れています。これらのモデルは、膨...

機械学習

「OceanBaseを使用して、ゼロからLangchainの代替を作成する」

「オーシャンベースとAIの統合からモデルのトレーニングやチャットボットの作成まで、興味深い旅を通じてこのトピックを探求...

AIニュース

「トップAIランダム顔生成アプリ(2023年)」

ランダムフェースジェネレーターは、最先端の画像処理技術を使用してランダムな顔を生成します。ビッグデータ技術によって、...

人工知能

「NVIDIAスタジオ」で美しく写実的なフードレンダリングを作り出す3Dアーティストが今週登場しました

エディターの注釈:この投稿は、私たちの週間In the NVIDIA Studioシリーズの一部であり、注目のアーティストを称え、クリエ...

機械学習

マイクロソフトAIチームがPhi-2を紹介:2.7Bパラメーターの小型言語モデルで、優れた推論能力と言語理解能力を示します

“`html 言語モデルの開発は、従来、モデルのサイズが大きいほど性能が優れているという前提のもとで行われてきました。...