『広範な展望:NVIDIAの基調講演がAIの更なる進歩の道を指し示す』

NVIDIA's Keynote Speech Points the Way to Further Advances in AI

ハードウェア性能の劇的な向上により、生成型AIが生まれ、将来の高速化のアイデアの豊富なパイプラインが構築され、機械学習を新たな高みに導くでしょう。これについて、NVIDIAの最高科学者であり、研究担当のシニアバイスプレジデントであるビル・ダリー氏は、今日の基調講演で述べました。

ダリー氏は、プロセッサとシステムアーキテクトのための年次イベントであるHot Chipsでの講演で、すでに印象的な結果を示しているいくつかの手法について説明しました。

「AIの進歩は莫大であり、ハードウェアのおかげで可能になっていますが、まだ深層学習ハードウェアに制約を受けています」とダリー氏は述べ、世界有数のコンピュータ科学者であり、かつてスタンフォード大学のコンピュータ科学部の部長を務めた人物です。

彼は、例えば、数百万人に使用されている大規模言語モデル(LLM)であるChatGPTが、彼の講演のアウトラインを提案することができることを示しました。このような能力は、過去10年間のGPUによるAI推論性能の向上に大いに負うところがあると彼は述べました。

シングルGPUの性能向上は、データセンターサイズのスーパーコンピュータへのスケーリングで数百万倍の進歩を含んでいます。

研究成果:100 TOPS/Wattを達成

研究者たちは、次の進歩に向けて準備を整えています。ダリー氏は、LLM上で1ワットあたりほぼ100テラオペレーションを実証したテストチップについて説明しました。

この実験では、生成型AIで使用されるトランスフォーマーモデルをさらに高速化する省エネの方法を示しました。これには、将来の進歩を約束するいくつかの簡略化された数値アプローチの1つである4ビット算術が適用されています。

ビル・ダリー氏

さらにダリー氏は、対数的な数学を使用して計算を高速化し、エネルギーを節約する方法についても議論しました。これは、NVIDIAが2021年に特許を取得した手法です。

AI向けのハードウェアの最適化

彼は、AIタスクに合わせてハードウェアを最適化するための半ダースの他の手法を探求しました。これは、新しいデータ型や演算を定義することで実現されることが多いです。

ダリー氏は、ニューラルネットワークを簡素化する方法についても説明しました。NVIDIA A100 Tensor Core GPUで最初に採用された構造的疎結合という手法で、シナプスとニューロンを剪定します。

「スパース化に関してはまだ終わっていません」と彼は言いました。「アクティベーションに何かする必要があり、重みにもより大きなスパース化を行うことができます。」

彼はまた、研究者がハードウェアとソフトウェアを同時に設計する必要があると述べ、貴重なエネルギーをどこに使うかを慎重に決定する必要があると指摘しました。たとえば、メモリと通信回路はデータ移動を最小限に抑える必要があります。

「コンピュータエンジニアであることは楽しい時代です。AIにおけるこの巨大な革命を実現していますが、まだその革命がどれほど大きいかを完全に理解していないのです」とダリー氏は述べました。

より柔軟なネットワーク

別の講演では、NVIDIAのネットワーキング副社長であるケビン・ディアリング氏が、NVIDIA BlueField DPUsとNVIDIA Spectrumネットワーキングスイッチのユニークな柔軟性について説明しました。これにより、ネットワークトラフィックやユーザールールの変更に基づいてリソースを割り当てることができます。

これらのチップは、ハードウェアアクセラレーションパイプラインを秒単位で動的に切り替えることができるため、最大限のスループットで負荷分散を実現し、コアネットワークに新しい適応性をもたらします。これは、サイバーセキュリティの脅威に対抗するのに特に有用です。

「現在の生成型AIのワークロードやサイバーセキュリティでは、すべてが動的で、常に変化しています」とディアリング氏は述べました。「したがって、ランタイムのプログラム可能性と、フライで変更できるリソースに移行しています。」

さらに、NVIDIAとライス大学の研究者は、人気のあるP4プログラミング言語を使用して、ユーザーがランタイムの柔軟性を活用する方法を開発しています。

GraceがサーバーCPUをリード

ArmによるNeoverse V2コアに関する講演では、NVIDIA Grace CPU Superchipのパフォーマンスについての最新情報が含まれています。これは、それらを実装した最初のプロセッサです。

テストによると、同じ電力の条件下で、GraceシステムはさまざまなCPUワークロードにおいて、現行のx86サーバーのスループットを最大2倍向上させることができます。さらに、ArmのSystemReadyプログラムにより、Graceシステムは既存のArmオペレーティングシステム、コンテナ、およびアプリケーションを変更せずに実行できることが認定されています。

Graceは、データセンターオペレーターがより高いパフォーマンスを提供するか、より少ない電力を使用する選択肢を与えます。

Graceは、シングルダイ内に72のArm Neoverse V2コアを接続するための超高速ファブリックを使用し、それらのダイを2つのパッケージで接続するNVLinkのバージョンを使用して、900 GB/sの帯域幅を提供します。これは、サーバークラスのLPDDR5Xメモリを使用する最初のデータセンターCPUであり、似たコストでメモリ帯域幅を50%増加させながら、通常のサーバーメモリの1/8の電力を使用します。

Hot Chipsは8月27日にAIの推論やチップ間接続のプロトコルについてのNVIDIAの専門家による講演を含むチュートリアルの一日をもってスタートし、今日まで続きます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

マシンラーニングのロードマップ:コミュニティの推奨事項2023

前回の記事で、このロードマップの第1部では、機械学習のための出発点と方向性について簡単に説明しました初心者が堅固な基盤...

データサイエンス

AI 幻覚の危険性:課題と影響の解明

「AIの幻覚に魅了される探求に乗り出しましょう ― その複雑な原因を解明し、結果をナビゲートし、重要な保護策を見つけましょ...

データサイエンス

「データサイエンスプロジェクトを変革する:YAMLファイルに変数を保存する利点を見つけよう」

このブログ投稿では、データサイエンスプロジェクトで変数、パラメータ、ハイパーパラメータを保存するための中心的なリポジ...

AI研究

J-WAFS創設大会は、改良された作物品種を開発し、研究室から現地に移行させることを目的としています

マット・ショルダーズ氏は、農業収量を向上させるための究極の目標とされている光合成酵素RuBisCOの改良を目指す、学際的なチ...

AIニュース

「14%のコンバージョン率成長ストーリー:Pixis AIとのダイナミックなパートナーシップを解き明かすJOE&THE JUICE」

この html を日本語に翻訳する(結果には html コードを保持する): 2002年、JOE & THE JUICE はデンマークの都市オアシ...

AIニュース

ホワイトキャッスルへようこそそれに人との会話を希望されますか?

ホワイトキャッスルのようなファストフードチェーンは、ドライブスルーで人工知能を活用したチャットボットを展開しています