このAI研究は、「Atom」という低ビット量子化技術を導入し、効率的かつ正確な大規模言語モデル(LLM)の提供を行っています

このAI研究は、「Atom」という低ビット量子化技術を導入し、効率的かつ正確な大規模な言語モデル(LLM)の提供を行っています


大規模言語モデル(LLM)は、最近の人工知能コミュニティで最新の導入であり、世界中で大きな話題となっています。これらのモデルは、その驚異的な能力により、研究者、科学者、学生など、誰もが利用しています。これらのモデルは、質問に答える、コンテンツを生成する、テキストを要約する、コードを完成させるなど、人間を模倣する潜在能力を持つため、非常に進歩してきました。

LLMは、感情分析、インテリジェントなチャットボット、コンテンツ作成など、多くのドメインで必要とされています。これらのモデルは、多くの計算リソースを使用するため、GPUリソースを効果的に利用してスループットを増加させます。これは、複数のユーザリクエストをバッチ処理することによって行われ、さらにメモリ効率と計算能力を向上させるために、LLMの量子化技術が使用されています。ただし、8ビットのウェイト-アクティベーションの量子化など、既存の量子化手法では、新しいGPUの可能性を十分に活用していません。これらのGPU上の整数演算子は4ビットですので、現在の量子化技術は最大の効率を追求した設計ではありません。

この問題を解決するために、研究者たちはAtomという新しい方法を導入しました。Atomは、精度を犠牲にせずにスループットを大幅に増加させるために作成されたロービットの量子化技術です。これを達成するために、低ビットの演算子と低ビットの量子化を使用してメモリ使用量を削減します。Atomは細粒度と混合精度の量子化の特別な組み合わせを使用して優れた精度を維持します。

研究チームは、Atomが具体的なセットアップでの最大スループットを保ちながら、4ビットのウェイト-アクティベーションの量子化構成で評価されたことを共有しました。その結果、Atomは従来の16ビット浮動小数点(FP16)アプローチと比較してエンドツーエンドのスループットを最大7.73倍向上させ、8ビットの整数(INT8)量子化と比較して2.53倍向上させることが示されました。これにより、Atomは彼らのサービスへの需要の増加に対応するための実用的な解決策となり、望ましい応答時間を維持しながらLLMがリクエストを処理する速度を大幅に向上させます。

研究者たちは、主な貢献を以下のようにまとめました。

  1. 研究のパフォーマンス分析の一環として、LLMの提供が徹底的に分析されました。低ビットのウェイト-アクティベーションの量子化手法を使用することによる重要なパフォーマンスの利点が特定されました。
  1. Atomというユニークで正確なロービットのウェイト-アクティベーションの量子化手法が提示されました。
  1. 研究チームは、ピークパフォーマンスを保証するためにさまざまな戦略を採用していることを共有しました。混合精度を使用し、主要なアクティベーションとウェイトは精度を保ったまま、残りの部分は低精度を使用しています。細かいグループの量子化は、量子化プロセス中のエラーを減らすために使用されています。
  1. Atomは動的アクティベーションの量子化を使用し、各入力の一意の分布に合わせて量子化エラーを減らします。さらに全体のパフォーマンスを向上させるために、この方法はキーバリューキャッシュの量子化にも対応しています。
  1. 研究では、長期管理(LLM)の提供のための統合フレームワークも提案されています。研究チームは効果的な推論システムを共同設計し、Atomの実際の環境での有用なエンドツーエンドのスループットと待ち時間を示しています。
  1. Atomのパフォーマンスは徹底的に評価され、Atomはわずかな精度の損失を伴う可能な最大スループットの向上を実現することが示されています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「BlindChat」に会いましょう:フルブラウザおよびプライベートな対話型AIを開発するためのオープンソースの人工知能プロジェクト

BlindChatは、MithrilSecurityによって立ち上げられたオープンソースでプライバシー重視のChatGPTの代替案です。BlindChatは...

機械学習

BQMLを使用した多変量時系列予測

GoogleのBQMLは、時系列モデルを作成するために使用することができます最近、マルチバリエート時系列モデルを作成するために...

機械学習

マルチモーダル言語モデル:人工知能(AI)の未来

大規模言語モデル(LLM)は、テキストの分析や生成などのタスクをこなすことができるコンピュータモデルです。これらは膨大な...

データサイエンス

「考古学的アプローチがAIの偏りのあるデータを活用して医療を改善する方法」

「コンピュータ科学者は、データのバイアスとエラーを最初は迷惑なものとして扱うかもしれませんが、研究者たちはそれが社会...

AI研究

UCサンタクルーズの研究者たちは、概念や価値観間の暗黙的なステレオタイプと、画像内のそれらを定量化する画像対テキスト関連性テストツールを提案しています

UCサンタクルーズの研究チームが、Text to Image Association Testと呼ばれる画期的なツールを紹介しました。このツールは、T...

データサイエンス

線形回帰と勾配降下法

線形回帰は機械学習に存在する基本アルゴリズムの1つですその内部ワークフローを理解することは、データサイエンスの他のアル...