Ruijie NetworksがUECに加入し、インテリジェントコンピューティングネットワークの継続的なアップグレードをアシスト

時間:2024-01-18

Ruijie Networksはこのほど、ウルトライーサネットコンソーシアム(UEC)の新しいメンバになりました。このコンソーシアムは、Linux Foundationのリーダーシップのもと、複数の世界トップクラス企業によって共同で設立されたもので、従来のイーサネットにおける性能上のボトルネックを打破し、AIや高性能コンピューティングにおけるインテリジェントコンピューティング力に対する激しい需要の高まりに応えるよう取り組んでいます。

Ruijie Networksは常に、テクノロジとアプリケーションを創造的に融合することに注力し、次世代のインテリジェントコンピューティングネットワーク向けの革新的なテクノロジをオープンな姿勢で全面的に受け入れ、イーサネット規格の最適化や高性能ネットワークの実現に向けて新たな活力を注ぐとともに、未来のネットワークテクノロジに向けた貢献を続けています。

1.jpg

将来のAI/HPCネットワークにおけるRoCE利用の限界性

RDMA(Remote Direct Memory Access)は、現在のAIトレーニング運用の基本コンポーネントです。CPU、GPU、TPUなどのアクセラレータが送信側メモリから受信側メモリにデータを直接転送できるようにし、1つのGPU/TPUアクセラレータで複数の同型または異種のネットワークI/Oを統合できます。その中で、Verbs APIで表現されるRoCE(RDMA over Converged Ethernet)の歴史は20世紀末に遡り、数年前に初めてIBTA(InfiniBand Trade Association)によって標準化されました。基盤となるイーサネットネットワークは、すでに当初想定してたシナリオよりも数桁大きい400G/秒、あるいは800G/秒の速度で提供されており、AI/HPCネットワークコアが採用する最下層伝送プロトコルとネットワークAPIの見直しは必然となっています。

実際、人工知能モデルの規模拡大と通信モデルや計算方法の多様化に伴い、従来のRoCEベースのRDMAソリューションには多くの問題が存在します。

  • RoCEとDCQCNは、リンクオーバーランの回避と速度向上に用いる輻輳制御アルゴリズムです。ただし、DCQCNはその下方ネットワークや負荷の性質に対して敏感であるため、パフォーマンスを手動で調整する必要があります。将来のAIネットワークでは、あらゆるデータセンタに適した伝送プロトコルが必要です。

  • ネットワークプロバイダは、この動作を回避するために「ロスレス」ネットワーク(InfiniBand と RoCE)上でRDMA を実行していますが、これは非効率的です。優先フロー制御(PFC)は、ホップバイホップのバックプレッシャーイーサネットをロスレスで生成しますが、バックプレッシャーの伝播により、輻輳ツリーやHOLブロッキング、ループデッドロックなどが発生し、ネットワークの性能が低下します。PFC/ECNとDCQCNは、ネットワークの状況に応じて調整や操作、監視をする必要があり、コストが高くなります。将来のAIネットワークには、ロスレス構造に依存しない伝送プロトコルが必要です。

  •  帯域幅の観点からも、ピアツーピアポイントの数に関してもVerbs APIの設計規模ではすでに対応しきれなくなっています。RC(高信頼性接続)伝送モードでは、高速パスが減らない状態の場合、高レートでハードウェアを効率的にオフロードするのには適していません。このほか、固有のプロセス間(N*P*P) の拡張問題も大きな制約となっています。これらの問題に対する完璧な解決策はまだありません。将来のAIネットワークでは、Verbs API設計規模をサポートできる伝送プロトコルが必要になります。

  •  AIアプリケーションは大量のデータを伝送しますが、NIC QPスケールとAIモデルのデータインタラクション方式の制約を受けます。従来のRoCEでは、リンクの過負荷を防ぐためにエレファントフローのロードバランシングを注意深く実施します。AIのワークロードは、すべてのストリームの正常配信でコンピューティングサイクル全体に制約が生じるか否かを左右します。このため、将来のより高性能なAIネットワークには、改善されたロードバランシングテクノロジが必要になります。

  • 一方で、TCP/IPは、エコシステム、性能/規模、ツール、コスト、規格調整、GPUの超大規模展開など、RoCEにはない利点を備えています。しかし、AIネットワークのニーズを真に満たすためには、イーサネットを改善、刷新して、参加しているすべてのエンドポイントにできるだけ早くメッセージを配信し、少数のエンドポイントでの長い遅延を回避すること、そして「テールレイテンシ」を最小限に抑え、より高い性能を提供し、将来のAI/HPCやクラウドネットワークの規模拡大、帯域幅の増加、レイテンシの削減というニーズに適応することが必要です。

ウルトライーサネットトランスポート(UET)プロトコル

TCP/IPにはRoCEにはない利点がいくつかありますが、ロスレスアーキテクチャ下(Lossless Network)で運用し、パケットロス再送信機能を提供すると同時にHOLブロッキングや輻輳拡散のトリガを回避するといった課題もあります。この課題に対処するために、ウルトライーサネットコンソーシアム(UEC)は、ウルトライーサネットトランスポート(UET)プロトコルをリリース。このプロトコルはイーサネット/IPエコシステムの利点を維持しながら、AIおよびHPCアプリケーションに必要なパフォーマンスを提供することができます。UET伝送プロトコルは、以下の機能を提供することにより現状を打破します。

  • オープンプロトコル仕様が、最初からIPとイーサネット上で運用するように設計します。

  • マルチパス、データパケットの噴射伝送においてAIネットワークを最大限に活用し、輻輳やHOLブロッキングを引き起こさず、集中型のロードバランシングアルゴリズムやルートコントローラを必要としません。

  •  Incast管理メカニズムは、ターゲットホストの最終リンクへのファンインをコントロールし、最小のパケットロス率にて制御します。

  •  効率的なレート制御アルゴリズムにより、伝送速度を回線速度まで上げることができると同時に、競合ストリームのパフォーマンス低下を防ぎます。

  • アウトオブオーダパケット転送に用いるAPIは、インオーダによるメッセージ完了を選択することも可能。ネットワークとアプリケーションの同時実行性を最大限高め、メッセージレイテンシを最小限に抑えます。

  • 将来的なネットワーク拡大に向け、1000000個のエンドポイントをサポートします。

  • 性能とネットワーク使用率の最適化において、ネットワークとワークロードについて輻輳アルゴリズムのパラメータを調整する必要がありません。

  • 商用ハードウェアで800G、1.6T、そして将来的にはより高速なイーサネットワイヤスピードパフォーマンスを実現するように設計されています。

UETプロトコルはトランスポート層にとどまらず、標準的なセマンティック層、改良された低レイテンシ配信メカニズム、一貫性のあるAIとHPC APIを定義するとともに、UEC トランスポートプロトコルを通じてこれらの API を実現するための標準的なマルチベンダサポートを提供します。

相互運用性に関する業界全体の協力を実現するために、UECは急速に拡大する大規模なAI/HPCワークロードに最もマッチするとともに、一流の機能、性能、相互運用性、TCO、開発者およびエンドユーザの使いやすさを提供する完全なイーサネットベースの通信スタックアーキテクチャを構築しました。UECは、高性能ソリューションにおいて長い歴史と経験を持つ企業によって設立され、メンバ全員が平等な形で幅広い高性能エコシステム構築に向けて大きな貢献をしてきました。メンバには、AMD、アリスタ、ブロードコム、シスコ、エビデン、HPE、インテル、メタ、マイクロソフトが含まれます。いずれもネットワークや人工知能、クラウド、ハイパフォーマンスコンピューティングの大規模な導入において数十年の経験を持ち、UEC の 4 つのワーキンググループ(物理層、リンク層、トランスポート層、ソフトウェア層)に貢献を果たすでしょう。

Ruijie Networksのアクション

Ruijie Networksは、インテリジェントコンピューティングセンタのネットワークビルダとして、大規模なコンピューティングパワークラスタの構築をサポートするために、イーサネットロスレスネットワークソリューションにも取り組んでいます。Ruijie Networksは、AI-Fabricインテリジェントコンピューティングセンタネットワークソリューションをリリース。ロスレスメカニズムとロードバランシングを自然にサポートします。ソリューションの具体的なメリットは次のとおりです。

  •  AI-Fabricに基づくアーキテクチャ設計で、NCPレイヤは1.1:1の過速度比を採用し、ネットワーク内のIncastの問題を軽減して輻輳を回避します。Cellベースの効率的なルーティングにより、相互接続されたリンクの障害コンバージェンス時間を短縮でき、複雑で非効率的なBGPルートを導入する必要がなくなります。 

  • Cellベースのスライシングテクノロジが、リンクのロードバランシング効果を最適化してネットワーク帯域幅利用率を向上。サービスのフロー完了時間(FCT)を短縮します。

  • VoQキャッシュとCreditに基づく輻輳制御メカニズムにより、Fabricネットワークでのロスレスデータ転送を実現。パケットロス再送信の問題を完全に解決して、サービスがが引き続き高スループットで転送されるようにします。これにより、コンピューティングパワークラスタ全体のGPU利用率が向上します。

(詳細については、「Ruijie Networkの高性能ネットワークソリューションがAIGCのツボを突く」を参照してください)

2.png

同時に、Ruijie Networksは従来のRoCEプロトコルを踏まえてマルチパストラフィックスケジューリングテクノロジを刷新し、RALB(Remote Adaptive Load Balancing)テクノロジをリリースしました。リンク品質の感知を通じてグローバルな動的ロードバランシングをパケットごとに実行してネットワーク帯域幅利用率を97.6%まで高め、エンドネットワークのリンクを効果的に実現します。(詳細については、「データセンタのネットワーク混雑を解決 Ruijie RALBロードバランシングテクノロジが効率的なデータ転送をアシスト」を参照してください)

3.PNG

世界的なインターネットトラフィックの増加とデータアプリケーションに対するニーズの多様化という背景のもと、Ruijie Networksはネットワークテクノロジの進歩と発展に力を注いでいます。グローバルロードバランシングソリューションのリリースは、その継続的な探求とイノベーションを確かに証明するものです。Ruijie Networksは、継続的な技術研究開発と製品イノベーションを通じて、引き続きオープンさとイノベーションの精神により国内外の先進技術を積極的に模索し、世界のデータセンタ向けにより効率的で信頼性が高く、インテリジェントなネットワークソリューションを提供し、インターネット、プロバイダおよび各業界の急速な発展を支援します。