インテルの研究者たちは、CPU上でLLMs(Large Language Models)をより効率的に展開するための新しい人工知能のアプローチを提案しています

「インテルの研究者たちが新しい人工知能のアプローチを提案、CPU上で効率的に展開するLLM(Large Language Models)」

大型言語モデル(LLM)は、その驚異的なパフォーマンスと多様なタスクでの潜在能力により、世界中で話題となっています。テキスト生成、言語理解、テキスト要約などの能力でよく知られています。ただし、これらのモデルの広範な採用の一方で、モデルパラメータの膨大なサイズにより、推論には大きなメモリ容量と専用のハードウェアが必要であり、これまでこれらのモデルの展開は非常に困難でした。

推論に必要な計算能力を削減する方法の一つは、量子化手法を使用することです。つまり、人工ニューラルネットワークの重みと活性化関数の精度を低下させることです。INT8や重みのみの量子化など、推論コストを改善するための方法はいくつかありますが、これらの方法は一般的にCUDAに最適化されており、必ずしもCPU上で動作するわけではありません。

このIntelの研究論文の著者は、LLMを効率的にCPU上に展開する方法を提案しています。彼らのアプローチは、自動INT-4重みのみの量子化(低精度がモデルの重みにのみ適用され、活性化関数の精度は高く保たれます)のフローをサポートしています。また、CPU上の推論プロセスを加速する高度に最適化されたカーネルを持つ特定のLLMランタイムも設計しています。

量子化フローは、Intel Neural Compressorをベースに開発され、異なる量子化レシピ、粒度、グループサイズでのチューニングが可能で、精度目標を満たすINT4モデルを生成することができます。モデルはその後、LLMランタイムに渡され、量子化モデルのパフォーマンスを評価するために設計された特殊環境で評価されます。このランタイムは、CPU上のLLMの効率的な推論を提供するために設計されています。

実験では、研究者たちはパラメータサイズが異なる人気のあるLLMをいくつか選びました(7Bから20Bまで)。オープンソースのデータセットを使用してFP32モデルとINT4モデルのパフォーマンスを評価しました。選択したデータセット上での量子化モデルの精度は、FP32モデルとほぼ同等であることが観察されました。さらに、次のトークン生成のレイテンシの比較分析を行い、LLMランタイムがggmlベースのソリューションよりも最大1.6倍優れていることがわかりました。

結論として、この研究論文は、LLMに関連する最大の課題の1つであるCPU上での推論に対する解決策を提案しています。従来、これらのモデルはGPUのような専用ハードウェアが必要であり、多くの組織にとって利用できない状況でした。この論文では、INT4モデルの量子化と専用のLLMランタイムを提供することで、CPU上のLLMの効率的な推論を実現しています。人気のあるLLMの一連の評価では、この手法はggmlベースのソリューションに比べて優位性を示し、FP32モデルと同等の精度を提供します。ただし、今後の改善の余地もあり、研究者はAI生成コンテンツの成長する需要に対応するために、PC上での生成型AIを強化する計画です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「機械学習を使ってイタリアのファンタジーフットボールで勝利した方法」

「機械工学の専門家としてプログラミングとコンピュータサイエンスに興味を持っていた私は、数年前に機械学習と人工知能の世...

機械学習

「検索強化生成システムのパフォーマンスを向上させるための10の方法」

LLMは素晴らしい発明ですが、1つの重要な問題がありますそれは、彼らが事実とは異なる情報を作り出すことですRAGは、LLMにク...

機械学習

効果的な小規模言語モデル:マイクロソフトの13億パラメータphi-1.5

「Microsoftの13億パラメーターモデルについて学び、Llama 2の70億パラメーターモデルをいくつかのベンチマークで上回ったこ...

機械学習

「グラフ彩色の魅力的な世界を探索する」

この記事では、グラフ塗り分けの複雑さに深く入り込み、その実用的な応用事例を探求し、いくつかの注目すべきアルゴリズムに...

AIニュース

「センチネル衛星がメタンの超排出源をマッピング」

国際的な研究チームが、機械学習を使用して、衛星データからメタンの超放出プルームを自動的に検出するアルゴリズムを開発し...

AIニュース

「AI企業は、彼らが引き起こす損害について責任を負わなければならない」と『ゴッドファーザー』が言う

一群の専門家は、人工知能企業は彼らの製品が引き起こす損害に対して責任を負う必要があると述べました