生成AIに特化したネットワーク輻輳を解決できるRALB(Remote Adaptive Load Balance)技術を発表

時間:2023-11-16
データセンターのネットワークロードバランシングの背景

現在のデータセンターは、インターネットにおける大半のデータトラフィックやアプリケーション機能を支えています。理想的な状況では、データセンターは異なるユーザーの多様なアプリケーショントラフィックに対して、差別化された高スループットかつ低遅延のサービスを提供します。その中で、データセンターネットワークの伝送性能がデータセンターのサービス能力に直結しています。そのため、データセンターのトラフィックを効果的に管理することで、ネットワークリンクの総使用率を向上させ、輻輳を軽減し、再送信の発生を回避することが可能です。新型データセンターを構築するには、合理的で効率的なネットワークロードバランスソリューションをどのように設計するかが鍵となります。

ネットワークロードバランシングの課題

現在のデータセンターは非常に複雑であり、その要求を満たすデータセンターネットワークロードバランシングソリューションを設計することは容易ではありません。以下に、設計上の難しさに関する具体的なポイントを示します。

1.トラフィックの動態性:

·  データセンターネットワークのトラフィックは動的に変動しており、一部の大規模なフローがネットワークの大半の負荷を占めています。同時に、多数の小規模なフローがネットワーク状態に急激な変化をもたらし、トラフィックのスケジューリングに遅延が発生します。これにより、データセンターネットワークのロードバランス設計がより複雑になります。

2. 輻輳検知の難しさ:

·  データセンターの高い動態性により、ネットワーク輻輳の検知に遅れが生じます。つまり、現在の輻輳情報が既に過去の状態になる可能性があります。このため、ネットワークの輻輳を正確にかつ適切なタイミングで検知することが、ロードバランシングのパフォーマンスに直結します。

3. パケットの無秩序化:

·  従来のデータセンターネットワークのロードバランシングテクノロジーは、通常、フローベースのスケジューリングを採用しています。しかし、パケットの粒度を用いてスケジューリングする場合、トランスポート層プロトコルの確認機構において、データパケットを分割する技術により、パケットの無秩序化が生じる可能性があります。

4. 異常なトラフィックスケジューリング:

·  ネットワーク機器やリンクに障害が発生すると、ネットワーク内のアップ・ダウンリンクが非対称になり、ネットワークが輻輳し、データ伝送効率が著しく低下します。ロードバランシングソリューションは、障害発生時に迅速に対応し、影響を受けるトラフィックを再スケジュールして、ネットワーク伝送を最適化する必要があります。

 

データセンターネットワークにおけるマルチリンクロードバランシングの問題

データセンターのネットワークトポロジは通常、CLOS構造を採用しており、ホスト間には常に複数のパスが存在します。スループットに敏感なトラフィックの要件を満たすために、データフローをさまざまなパスに分散してデータ転送を行います。また、輻輳を回避し、データセンター内のリソース使用率を向上させるため、通常、データセンターのネットワークロードバランシングソリューションにはECMPテクノロジーが利用されます。

ECMPは、Equal-cost-multi-pathを意味し、つまり、同じ宛先アドレスに対して同じコストのパスが複数存在することを指します。デバイスがECMPをサポートしている場合、宛先IPアドレスまたは宛先CIDRブロック向けのレイヤ3転送トラフィックを異なるパスで分散して、ネットワークリンクのロードバランシングを実現します。リンクに障害が発生した場合、ECMP高速切替のパス選択戦略を実現するには、複数の方法があります。

1. HASH:

·  IPの5タプルに基づいてHASHを計算し、ストリーム向けに指定パスを選択します。         

2. ポーリング:

·  個々のストリームが複数のパス間の伝送をポーリングします。

3. パスの重みに基づく:

·  フローはパスの重みに従って割り当てられ、重みの大きいパスにはより多くのストリームが割り当てられます。

?1.PNG

ECMPは比較的簡単なロードバランシング戦略である一方で、実際の使用では多くの問題にも直面します。

1. HASHの極化問題:

·  HASH極化問題は、マルチレベルロードバランシングシナリオでよく見られます。つまり、複数のデバイスが相互接続され、同じロードバランシングモードまたはHASHアルゴリズムが使用されている場合、HASH極化問題が発生する可能性があります。

2. HASHの一貫性の問題:

·  エラスティックHASH機能が有効になっている場合、単一のリンクで障害が発生した場合にスイッチはECMPグループ内のデータトラフィックについてHASH値を計算し直し、残りの有効なリンクのロードバランシングを行って元のHASHトラフィックの一貫性を確保します。ただし、エラスティックHASHは1つのポートまたはリンクで障害が発生した場合にのみHASHバランシングが保証でき、2つ以上のポートまたはリンクに障害が発生した場合はHASHのロードバランシングが実現できません。

3. 静的HASHの不均衡:

·  静的HASHは、アルゴリズムによってHASHキー値を生成し、キー値に基づきリンク内からメンバリンクを1つ選択してパケットを転送します。静的HASHの欠点は、ロードバランシングリンク内の各メンバリンクの使用率が考慮されないため、メンバリンク間の負荷が不均衡になり、特に大きなフローが発生した場合に、選択したメンバリンクの輻輳が悪化し、スイッチキャッシュが深くなるにつれてPFCとECNがトリガーされ、速度が低下することです。

·  従来のイーサネットで構築されたデータセンターネットワークは、ECMP HASHを使用してロードバランシングを実現しており、多数の小さなストリームで理想的なロードバランシング効果が得られるネットワークトラフィック特性を持っています。しかし、AIトレーニングのトラフィック特性は、同時に一定数の大きなストリームが存在し、HASHが不均一な場合にロングテール遅延が発生してトレーニング効率に影響を与えることであり、これもイーサネットを介した大規模な機械学習トレーニングをサポートする上での課題となっています。

 

Ruijie RALBロードバランシングテクノロジー

Ruijieは、上記の問題に対処するために、マルチパストラフィックスケジューリングテクノロジーを刷新しました。RALB(Remote Adaptive Load Balancing)テクノロジーは、リンク品質を検知することで、パケットごとにグローバルな動的ロードバランシングを実行し、ネットワーク帯域幅使用率を97.6%にまで向上させました。

?2.PNG

パケットごとの動的ロードバランシング:

ローカルリンクの品質を検知し、パケットごとの動的ロードバランシング戦略を採用して、ネットワークが輻輳せずにフルスループットに近づけるようにします。

?3.PNG

静的HASHはフローごとのロードバランシング方式を使用し、HASH計算後にECMPグループのうち1つのリンクを選択して転送します。これに対して、動的ロードバランシングはパケットごとの転送方式を採用します。フローをより細かい粒度の小さなパケットに分割し、リンクの負荷に応じてECMPグループのリンク全体においてパケットごとにフローを転送します。このため、AIトレーニングシナリオでは、RALBテクノロジーを導入し、読み取りおよび書き込みのデータメッセージを更に小さなパケットに分割し、パケットごとの動的ロードバランシングを実行します。他のタイプのメッセージについては引き続き静的なフローごとのHASH方式を採用することで、より高い帯域幅使用率を実現します。

• グローバルロードバランス:

リモートリンクの品質の変化を検知し、これに基づいてリーフ層で正確なトラフィックスケジューリングを行うことで、グローバルロードバランシングの効果を実現します。

DCN??.jpg

データセンターネットワークにおいて、光モジュールやスイッチポートの障害、ファイバリンクの切断などが発生すると、スイッチのアップリンクとダウンリンクが非対称になり、エグレスポートで輻輳が生じます。スイッチはキューが輻輳すると、ECNでデータパケットをマークし、これを受信側に渡します。受信側はECNでマークされたパケットを受信すると、CNP(Congestion Notification Packet)輻輳通知を生成し、送信側に返します。送信側はCNPメッセージを受信し、関連する優先度のキューに対してダウンスピード処理を行います。

以下は、Spine1からLeaf2へのリンクの1つが切断され、Spine1とLeaf2の間に100GBのリンクが1つしかない場合のシナリオです。Leaf1からSpine1を経由してLeaf2へのトラフィックでは、Leaf1のエグレス輻輳がトリガーされ、輻輳を回避するためにLeaf1のイングレスを100GBに減速する必要があります。送信側でのダウンスピードは、発信トラフィックを同時にダウンスピードさせ、パケットごとのロードバランシングによりLeaf1の上りトラフィックも同時にダウンスピードします。Leaf1からSpine1およびSpine2を経由しLeaf2に達するトラフィックが十分にバランシングされている場合、Leaf1からSpine2を通りLeaf2へ到達するトラフィックも100Gにダウンスピードします。この結果、全体の帯域幅は200Gに制限されます。

ネットワークリンクに障害が発生した場合、RALB(Remote Adaptive Load Balancing)を採用し、Spineスイッチは障害を即座に感知します。同時にTORスイッチに素早く通知して、Leaf1がリモートリンクの変更を感知し、Leaf2宛のトラフィックに対してリモート適応型ロードバランシングを実行し、ネクストホップがLeaf2のリンク上にトラフィックをスケジュールしてグローバルロードバランシングを実現します。

RALBテクノロジーの採用により、Leaf2宛てかつSpine1を通過する2つのリンクのトラフィックに対して正確なダウンスピードが実施され、他のLeaf2宛てリンクのトラフィックに影響を与えません。具体的には、RALBテクノロジーを導入すると、Leaf1はLeaf2宛のトラフィックの1/3をSpine1に転送し、残りの2/3をSpine2に転送します。これにより、Leaf1からLeaf2への最大300Gの帯域幅を十分に活用し、適用前の200Gから50%向上させることが可能です。なお、Spineスイッチの数が増加すると、効果が高まり、Spineスイッチが3つある場合は3/6から5/6に増加し、Spineスイッチが4つある場合は4/8から7/8に増加します。同時に、RALB技術を適用することで、Leaf1でフロー制御を事前にトリガーでき、遅延を低減する効果も期待できます。

Ruijie NetworksのRALB(Remote Adaptive Load Balancing)ロードバランシングテクノロジーは、従来の技術の制約を克服しています。このテクノロジーは、現在のリンク負荷に適応してグローバルトラフィックバランシングを実現し、さらにパケットごとの動的転送と組み合わせて、ネットワークの無輻輳と超高帯域幅利用の効果を発揮し、データ伝送の効率と安定性を大幅に向上させ、データセンターの効率的な運用を強力にサポートします。

世界的なインターネットトラフィックの増加とデータアプリケーションへの需要の多様化の中で、Ruijie Networksはネットワーク技術の進歩と発展に注力しています。グローバルロードバランシングソリューションのリリースは、同社が継続的な探求とイノベーションを通じて、データセンターに効率的で信頼性が高く、インテリジェントなネットワークソリューションを提供し、AIGC時代のインターネット企業および各業界の急速な発展を支援していることを確かに示しています。 Ruijie Networksは、技術研究開発と製品イノベーションにおいて継続的な取り組みを通じて、世界のデータセンターに先進的で効果的なネットワークソリューションを提供し続けることでしょう。