このAI研究では、BOFT(Foundationモデルの適応のための新しい一般ファインチューニングAIメソッド)を紹介します

『BOFT(Foundationモデルの適応のための新しい一般ファインチューニングAIメソッド)を紹介するAI研究』

人工知能の分野における最近の進展、特に大規模言語モデルの導入は、ほぼすべての領域でAIの道を開いています。ChatGPTやStable Diffusionなどの基本モデルは、顕著な汎化能力を持っています。しかし、これらのモデルをゼロからトレーニングすることは、パラメータの数の増加のために難しい課題です。

モデルの微調整アプローチは、追加の推論遅延を伴わないため簡単です。しかし、従来の微調整技術では、低い学習率を持つために、重み行列の関係情報を最適に維持することが難しいです。研究者は、オーソゴナル微調整(OFT)技術を研究しており、同じ直交行列を使用して同じ層のニューロンを変換することにより、微調整中にニューロン間のペアワイズ角度を維持します。この技術には良い潜在能力がありますが、同じ制限が生じるという問題があります。それは、直交行列の高次元性から生じる訓練可能なパラメータの膨大な数です。

この課題に対処するために、研究チームはオーソゴナルバタフライ(BOFT)というパラメータ効率の向上を可能にするユニークな最新の方法を紹介しました。Cooley-Tukey高速フーリエ変換技術におけるバタフライ構造からインスピレーションを受けて、BOFTは多数の因子化スパース行列と組み立てることで密な直交行列を生成します。直交行列をスパース行列の積として表現するためには、計算時間を空間と交換する必要があります。

研究チームは、これをグリッド構造のグラフ上の情報伝達問題と比較することで理解できると共有しており、表現力を保ちながら訓練可能なパラメータを制限するさまざまなスパース行列因子化技術を使用することが可能になります。BOFTは、Cooley-Tukeyのバタフライグラフに触発されており、その主な革新はバタフライ因子化プロセスです。

この因子化を利用することで、O(log d)のスパース行列の積で密な行列を生成することができます。各スパース行列において直交性を保証することで、BOFTはO(d log d)のパラメータで効率的な直交パラメータ化を実現し、オリジナルのOFTパラメータ化から大幅に削減します。BOFTは一般的な直交微調整フレームワークを提供し、OFTを包括します。

研究チームは、OFTのブロック対角構造とBOFTを比較し、効果的な訓練可能なパラメータを削減するためにBOFTとOFTの両方が直交行列にスパース性を追加することを示しました。しかし、ダウンストリームアプリケーションでは、BOFTのバタフライ構造によって、フル直交行列と単位行列の間でよりスムーズな補間が可能な、より小さな仮説クラスが提供されます。この構造的アプローチは、ローラの低ランク構造と比較することで、低ランクとスパース行列の両方がパラメータ効率を達成する構造化アプローチであることを強調するために行われました。

研究者たちは、主な貢献を以下のようにまとめています。

  1. ダウンストリームタスクのための大規模モデルの適合性を向上させるために、直交微調整のパラメータ効率の問題を研究しました。
  1. 情報伝達のための新しいフレームワークが紹介され、パラメータ効率の高い密な直交行列の構築の問題がグリッド構造グラフ内の課題として再構成されました。
  1. パラメータ効率の高い直交微調整手法であるオーソゴナルバタフライ(BOFT)が紹介されました。
  1. BOFTによる訓練可能なパラメータの劇的な削減を保ちながら、表現力とトレーニング安定性を維持するための行列因子化と理論的な説明が議論されました。
  1. BOFTは、適応アプリケーションにおいて最先端の技術を上回り、その優れたパラメータ効率と汎化能力を示しました。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

機械学習エンジニアの必須ツール

約4年前、私はSAPコンサルタントからデータサイエンティストに転身しました自分で設計したカリキュラムに従って、スタートア...

データサイエンス

オフポリシーモンテカルロ制御を用いた強化学習レーストラックの演習問題の解決

『「強化学習入門 第2版」の「オフポリシーモンテカルロ制御」セクション(112ページ)では、著者が興味深い演習を残してくれ...

データサイエンス

「枝は何も必要ありません:私たちの主観的なMLバージョニングフレームワーク」

「Gitブランチを使用したMLプロジェクトのバージョニングを簡素化し、ワークフローをシンプルにし、データとモデルを整理し、...

AI研究

「MITの研究者が提案するAskIt:ソフトウェア開発における大規模言語モデルの統合を効率化するためのドメイン固有言語」

最近の研究では、大規模言語モデル(LLM)の非凡な能力が明らかになりました。モデルが成長するにつれて、さらに印象的になり...

機械学習

「デバイス内AIの強化 QualcommとMetaがLlama 2テクノロジーと共同開発」

Metaの新しいオープンソースのLlama 2のリリースにより、大規模言語モデル(LLMs)の使用事例についての議論が起こっています...

機械学習

「RNNにおける誤差逆伝播法と勾配消失問題(パート2)」

このシリーズの第1部では、RNNモデルのバックプロパゲーションを解説し、数式と数値を用いてRNNにおける勾配消失問題を説明し...