「コーネリスネットワークスのソフトウェアエンジニアリング担当副社長、ダグ・フラーラー氏 – インタビューシリーズ」

Interview series with Doug Flaher, Vice President of Software Engineering at Cornelis Networks

ソフトウェアエンジニアリング担当副社長であるDougは、Cornelis Networksのソフトウェアスタック全体、Omni-Path Architectureのドライバ、メッセージングソフトウェア、および組み込みデバイス制御システムを含むすべての側面に責任を持っています。Cornelis Networksに参加する前は、Red Hatでクラウドストレージとデータサービスのソフトウェアエンジニアリングチームを率いていました。DougのHPCとクラウドコンピューティングのキャリアは、Ames National LaboratoryのScalable Computing Laboratoryで始まりました。大学の研究コンピューティングでいくつかの役割を経験した後、Dougは2009年に米国エネルギー省のオークリッジ国立研究所に参加し、世界クラスのオークリッジリーダーシップコンピューティング施設で新しい技術を開発・統合しました。

Cornelis Networksは、主要な商業、科学、学術、政府機関に向けて、高性能な目的別ハイパフォーマンスファブリックを提供するテクノロジーリーダーです。これには、High Performance Computing(HPC)、High Performance Data Analytics(HPDA)、およびArtificial Intelligence(AI)が含まれます。

コンピューターサイエンスに最初に興味を持ったきっかけは何でしたか?

技術と一緒に働くことが楽しいと感じました。育ちながらコンピューターと一緒に働くのが楽しかったです。学校にはインターネットを試すことができるモデムがあり、それが興味深いと思いました。大学の新入生として、国立科学ボウルのボランティア活動中に米国エネルギー省の計算科学者に出会いました。彼は私を彼のHPCラボに案内してくれ、私はその魅力に引かれました。それ以来、私はずっとスーパーコンピューターギークです。

2015年から2019年までRed Hatで働いた際に取り組んだプロジェクトとこの経験から得た主な教訓について教えてください。

私のメインプロジェクトはRed HatでのCeph分散ストレージでした。以前は完全にHPCに焦点を当てていましたが、これによってクラウドインフラストラクチャに重要な技術に取り組む機会を得ました。それは韻を踏みます。スケーラビリティ、管理性、信頼性の原則の多くは、わずかに異なる問題を解決するために設計されていても非常に類似しています。技術的には、クラウドとHPCはお互いから多くを学ぶ必要があります。私たちはますます同じレゴセットで異なるプロジェクトを構築しています。それは、ファブリックを含むエンエーブル技術がHPC、クラウド、およびAIアプリケーションにどのように役立つかを理解するのに本当に役立ちました。これはまた、私がCornelis Networksにもたらしたオープンソースとオープンソースファーストのソフトウェア開発哲学の価値を理解した場所でもあります。個人的には、Red Hatは私が本当に成長し、リーダーとして成熟した場所です。

現在、Cornelis Networksのソフトウェアエンジニアリング副社長を務めていますが、主な責任と平均的な1日はどのようなものですか?

ソフトウェアエンジニアリング担当副社長として、Cornelis NetworksのOmni-Path Architectureドライバ、メッセージングソフトウェア、ファブリック管理、組み込みデバイス制御システムなど、Cornelis Networksのソフトウェアスタック全体に責任を持っています。Cornelis Networksは、この瞬間とこの市場で非常にエキサイティングな場所です。そのため、私には「平均的な」日はありません。ある日は、最新の技術的な課題を解決するためにチームと一緒に仕事をしています。他の日は、次世代の製品が顧客に提供できるようにハードウェアアーキテクトと連携しています。私は頻繁に現場に出向き、すばらしい顧客および協力者のコミュニティと会って、彼らのニーズを理解し、予測しています。

Cornelis Networksは、High Performance ComputingおよびAIアプリケーション向けの次世代ネットワーキングを提供していますが、提供されるハードウェアの詳細を共有できますか?

私たちのハードウェアは、高性能なスイッチドファブリック型ネットワークファブリックソリューションで構成されています。そのため、HPC、クラウド、およびAIファブリックを完全に統合するために必要なすべてのデバイスを提供しています。Omni-Path Host-Fabric Interface(HFI)は、エンドポイントデバイス用の低プロファイルのPCIeカードです。また、48ポートの1Uの「トップオブラック」スイッチも提供しています。より大規模な展開には、288ポートを7Uに収めた「ディレクタークラス」スイッチと、1152ポートの20Uデバイスを提供しています。

このインフラストラクチャを管理するソフトウェアと、レイテンシを低減するためにどのように設計されているかについて話していただけますか?

まず、私たちの組み込み管理プラットフォームは、簡単なインストールと設定、およびスイッチASICが生成するさまざまなパフォーマンスおよび設定メトリクスへのアクセスを提供します。

ドライバーソフトウェアはLinuxカーネルの一部として開発されています。実際、私たちはすべてのソフトウェアパッチを直接Linuxカーネルコミュニティに提出しています。これにより、すべての顧客がLinuxディストリビューション間で最大の互換性を楽しんだり、Lustreなどの他のソフトウェアと簡単に統合したりできます。レイテンシパスではありませんが、ツリー内のドライバーを使用することでインストールの複雑さが劇的に低減されます。

Omni-Pathファブリックマネージャ(FM)は、Omni-Pathファブリックの設定とルーティングを行います。トラフィックの経路を最適化し、障害から迅速に回復することで、FMは10ノードから数千ノードまでのファブリックで業界をリードするパフォーマンスと信頼性を提供します。

Omni-Path Express(OPX)は、2022年11月にリリースされた高性能なメッセージングソフトウェアです。以前のメッセージングソフトウェアと比較してレイテンシを低減するために特別に設計されました。私たちは、送信と受信のコードパスのサイクルに正確なシミュレーションを実行し、命令数とキャッシュの利用を最小限に抑えるために努力しました。その結果、マイクロ秒の領域では、すべてのサイクルが重要です!

また、OpenFabrics Allianceによって作成されたオープンな標準であるOpenFabrics Interfaces(OFI)とも統合しました。OFIのモジュラーアーキテクチャにより、MPIなどの上位ソフトウェアが追加の関数呼び出しを必要とせずにファブリックの機能を活用できるため、レイテンシを最小限に抑えるのに役立ちます。

ネットワーク全体もスケーラビリティを向上させるよう設計されていますが、その詳細を教えていただけますか?

スケーラビリティはOmni-Pathの設計原則の中核です。最低レベルでは、Crayリンク層技術を使用してリンクエラーを修正し、レイテンシに影響を与えません。これはすべてのスケールのファブリックに影響しますが、特に大規模なファブリックではリンクエラーがより多く発生するため、重要です。私たちのファブリックマネージャーは、最適なルーティングテーブルをプログラミングすることに焦点を当て、迅速に実行することも重要です。これにより、最大のファブリックでも最短時間でルーティングを完了することができます。

スケーラビリティはOPXの重要な要素でもあります。キャッシュの利用を最小限に抑えることで、大規模なコア数を持つ個々のノードでのスケーラビリティが向上します。レイテンシを最小限に抑えることも、集合アルゴリズムの完了時間を改善することによりスケーラビリティを向上させます。ホスト-ファブリックインターフェースリソースをより効率的に使用することで、各コアはより多くのリモートピアと通信できます。libfabricの戦略的な選択により、標準のインターフェースを使用してスケーラブルなエンドポイントなどのソフトウェア機能を活用できます。

コーネリスネットワークスでは、AIがワークフローにどのように組み込まれているかについて、詳細を教えていただけますか?

私たちはまだ外部に対してAIの内部利用や計画について話す準備が整っていません。しかし、私たちは自らの製品であるOmni-Pathのレイテンシとスケーラビリティの向上を活用することができます。これにより、それらの利点をお客様やパートナーと共有することができることは、私たちにとってますます興奮を覚えます。私たちは、伝統的なHPCと同様に、インフラストラクチャを拡張することが唯一の進むべき道であることを確信していますが、ネットワークのパフォーマンスはイーサネットや他の伝統的なネットワークによって容易に制約されます。

生成AIの出現により、業界にどのような変化が予想されますか?

まず第一に、生成AIの利用により人々はより生産的になるでしょう – 人間を不要にするような技術は存在しません。綿ジン、自動織機、電話、インターネットなどの技術の進化は、特定の仕事を効率的にするものである一方で、人間を存在しなくしたわけではありません。

生成AIの適用により、企業は技術的により速い速度で進歩すると私は信じています。なぜなら、企業を運営している人々がより自由な時間を持ち、それらの進歩に集中できるからです。例えば、生成AIがより正確な予測、報告、計画などを提供する場合、企業は専門分野でのイノベーションに集中することができます。

私は具体的には、AIによって私たち一人一人が多分野の専門家になると感じています。例えば、スケーラブルなソフトウェアの専門家として、HPC、ビッグデータ、クラウド、AIアプリケーションのつながりについて理解しています。生成AIアシスタントを備えていることで、お客様が使用するアプリケーションの意味をより深く探求することができます。私たちは、これによりより効果的なハードウェアとソフトウェアを設計することができると確信しています。

また、ソフトウェアの品質全体の向上も予想しています。AIはコードを静的に分析し、バグやパフォーマンスの問題に対する洞察を開発する「別の一対の目」として効果的に機能することができます。これは特にパフォーマンスの問題が特に見つけにくく、再現に高いコストがかかる大規模な場合に興味深いでしょう。

最後に、生成AIがAIやHPCの以前の経験を持たないソフトウェアの専門家を育成し、オンボーディングするのに役立つと私は希望し、信じています。私たちの分野は多くの人にとって困難に思えるかもしれず、「並列に考える」ことに時間がかかるかもしれません。基本的に、機械が物を製造するのを容易にしたように、生成AIは概念を考え、推論することを容易にします。

お仕事やコーネリスネットワークスについて共有したいことはありますか?

私は、特にHPCやAIの分野で、コンピュータ関連のキャリアを追求することをお勧めします。この分野では、これまでに作られた最も強力なコンピューティングリソースを持ち、それらを人類の最も大きな課題に対して活用しています。これは非常にエキサイティングな場所であり、私はそのすべての段階で楽しんできました。生成AIは、能力の向上の需要が急増する中で、私たちの分野をさらに新たな高みに押し上げるものです。次にどこに進むのかを見るのが待ちきれません。

素晴らしいインタビューをありがとうございました。さらに詳しく知りたい読者は、Cornelis Networksを訪れてください。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

アーティスの創設者兼CEO、ウィリアム・ウーによるインタビューシリーズ

ウィリアム・ウーは、Artisseの創設者兼CEOであり、ユーザーの好みに基づいて写真を精密に変更する技術を提供していますそれ...

人工知能

「パクストンAIの共同創業者兼CEO、タングイ・シャウ - インタビューシリーズ」

タングイ・ショウは、Paxton AIの共同創設者兼CEOであり、法的研究と起草の負担を軽減するためにGenerative AIを使用するプラ...

データサイエンス

2023年にAmazonのデータサイエンティストになる方法は?

ほとんどのビジネスは現在、膨大な量のデータを生成し、編集し、管理しています。しかし、ほとんどのビジネスは、収集したデ...

人工知能

「シフトのCEOであるクリス・ナーゲル – インタビューシリーズ」

クリスはSiftの最高経営責任者です彼は、Ping Identityを含むベンチャー支援および公開SaaS企業のシニアリーダーシップポジシ...

人工知能

「アナコンダのCEO兼共同創業者、ピーターウォングによるインタビューシリーズ」

ピーター・ワンはAnacondaのCEO兼共同創設者ですAnaconda(以前はContinuum Analyticsとして知られる)を設立する前は、ピー...

人工知能

『DeepHowのCEO兼共同創業者、サム・ジェン氏によるインタビューシリーズ』

ディープハウのCEO兼共同創設者であるサム・ジェンは、著名な投資家から支持される急速に進化するスタートアップを率いていま...