ハギングフェイスTGIを使用した大規模言語モデルの展開

大規模言語モデルの展開には、ハギングフェイスTGIを使用します

Amazon SageMakerを使用してLLMを効率的にホストおよびスケールする別の方法

大規模言語モデル（LLMs）は、新しいモデルがほぼ毎週リリースされることで人気が高まっています。これらのモデルの数が増えるにつれて、ホストする方法も増えています。以前の記事では、Amazon SageMaker内でDJL Servingを利用してLLMを効率的にホストする方法を探索しました。この記事では、HuggingFace Text Generation Inference（TGI）という最適化されたモデルサーバーおよびソリューションを探索します。

注意：AWS初心者の方は、以下のリンクでアカウントを作成してください。この記事では、SageMakerのデプロイメントの中級レベルの理解を前提としています。デプロイメント/推論について詳しく理解するために、この記事に従うことをおすすめします。

免責事項：私はAWSの機械学習アーキテクトであり、私の意見は私自身のものです。

なぜHuggingFace Text Generation Inferenceを選ぶのか？Amazon SageMakerとの連携はどのように機能するのか？

TGIは、HuggingFaceが作成したRust、Python、gRPCモデルサーバーであり、特定の大規模言語モデルをホストするために使用することができます。HuggingFaceはNLPの中心的なハブであり、特にLLMsに関しては多くの最適化が含まれています。以下にいくつかの最適化の例と、詳細なリストのドキュメントを示します。

複数のGPUを跨いだ効率的なホスティングのためのテンソル並列処理
SSEによるトークンストリーミング
bitsandbytesによる量子化
ロジットの変更（温度、top-k、top-nなどのパラメーターの異なる設定）

このソリューションの大きな利点の1つは、使用の簡単さです。TGIは現時点で以下の最適化されたモデルアーキテクチャをサポートしており、TGIコンテナを直接デプロイすることができます。

BLOOM
FLAN-T5
Galactica
GPT-Neox
Llama
OPT
SantaCoder
Starcoder
Falcon 7B
Falcon 40B

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Was this article helpful?

93 out of 132 found this helpful

ハギングフェイスTGIを使用した大規模言語モデルの展開

Amazon SageMakerを使用してLLMを効率的にホストおよびスケールする別の方法

なぜHuggingFace Text Generation Inferenceを選ぶのか？Amazon SageMakerとの連携はどのように機能するのか？

Was this article helpful?

「Langchain x OpenAI x Streamlit — ラップソングジェネレーター🎙️」

ピクトリーレビュー（2023年7月）：最高のAIビデオジェネレーター？

機械学習

「2023年に知っておく必要のあるトップ10のディープラーニングツール」

「エンタープライズ環境におけるゼロトラストの実装」

「JavaとGradleを使用したAIアプリケーションの開発」

AIが置き換えることができない仕事

ヴァンダービルト大学とUCデービスからの研究者は、学習および再構築フェーズの両方でメモリ効率の良いPRANCというディープラーニングフレームワークを紹介しました

関数呼び出し：GPTチャットボットを何にでも統合する