なぜ今、GB200 NVL72 と Slurm スケジューリングが注目されるのか
AIモデルの大規模化に伴い、ハードウェアのスペックだけでは性能を引き出せない時代になりました。特に NVIDIA GB200 NVL72 は、1ラックに72基の Blackwell GPU と130TB/sの帯域幅を持つ NVLink を搭載した、事実上のスーパーコンピュータです。
しかし、どんなに優れたハードウェアでも、複数ユーザーが同時にジョブを実行する共有クラスタ環境では、ジョブをどのように配置するかが性能を左右します。ネットワークトポロジーを考慮せずにジョブを割り当てると、NVLinkで高速通信すべきGPUが異なるスイッチに分散され、通信ボトルネックが発生します。
この問題を解決する鍵が Slurm のトポロジーアウェアスケジューリングです。本記事では、GB200 NVL72 アーキテクチャの特徴を理解し、Slurm ブロックプラグインを活用してGPU使用率とジョブ性能を同時に最適化する方法を解説します。

GB200 NVL72 の階層的ネットワーク構造を理解する
GB200 NVL72 は1ラック内でも NVLink ドメイン と呼ばれる階層構造を持ちます。複数のNVL72ラックが集まってクラスタを形成すると、この構造はさらに複雑になります。
セグメント(Segment)の概念
Slurmにおける セグメント とは、NVLinkで完全に接続されたノードのグループを指します。従来のHGX H100システムではセグメントサイズは最大1ノード(4GPU)に制限されていましたが、GB200 NVL72 は 最大18ノード(72GPU) まで1つのセグメントとして扱えます。
# Slurm ブロックトポロジー設定例 (slurm.conf)
# GB200 NVL72 4ラッククラスタ (合計288 GPU)
# 各ラックを1つのブロックとして定義
NodeName=gpu[01-18] NodeAddr=10.0.0.[1-18] Feature=nvl72_rack1
NodeName=gpu[19-36] NodeAddr=10.0.0.[19-36] Feature=nvl72_rack2
NodeName=gpu[37-54] NodeAddr=10.0.0.[37-54] Feature=nvl72_rack3
NodeName=gpu[55-72] NodeAddr=10.0.0.[55-72] Feature=nvl72_rack4
PartitionName=normal Nodes=gpu[01-72] Default=YES MaxTime=INFINITE
# ブロックプラグインを有効化
TopologyPlugin=topology/block
TopologyParam=BlockSched
セグメントサイズ選択の戦略
適切なセグメントサイズはワークロードの特性によって異なります。NVIDIAのモデリング結果から、以下のガイドラインが示されています。
| ジョブGPU数 | 推奨セグメントサイズ (ノード) | ワークロード例 |
|---|---|---|
| 128 | 16 | MoEモデル学習 (Mixture-of-Experts) |
| 32 ~ 64 | 4 | 大規模密モデル学習 |
| 32未満 | 1 | 小規模モデル学習、推論 |
ポイント: クラスタ全体のGPU時間の90%以上を占める「大規模ジョブ」はセグメントサイズ16に設定し、残り10%は小さなセグメントで柔軟に配置するのが効果的です。

シミュレーションで検証した最適なスケジューリングポリシー
NVIDIAは実運用環境に適用する前に、Slurm シミュレーターを用いて様々なポリシーを検証しました。
シミュレーション環境
- クラスタ規模: 5,000ノードのGB200 NVL72 (20,000 GPU)
- ワークロード: 7日間で15,000ジョブ
- 信頼性: 平均2.5%のノード障害を反映
比較ポリシー
- Large_Perf_Custom: 32ノード以上のジョブはセグメント16、それ以外はセグメント2
- NoTopo: トポロジーを無視 (理論上の最大使用率)
主な結果
- フラグメンテーションの最小化: ブロックプラグインは小規模ジョブを各NVLinkドメインの末尾2ノードに集中配置し、大規模ジョブ向けの帯域幅を確保しました。
- GPU使用率の差はわずか1%: Large_Perf_Custom ポリシーは NoTopo と比較して使用率が約1%低いだけで、ほぼ同等の水準を記録。トポロジーアウェアスケジューリングが性能低下なしに高い使用率を達成できることを示しています。

まとめ:GB200 NVL72 クラスタ運用のための重要戦略
GB200 NVL72 のポテンシャルを最大限に引き出すには、トポロジーアウェアスケジューリングが不可欠です。NVIDIAとSchedMDが協力して開発した Slurm topology/block プラグインは、シンプルな設定で大きな効果を発揮します。
主要な推奨事項
- 64GPU以上の大規模ジョブには最大のNVLinkドメインを割り当て、セグメントサイズ16を優先的に検討してください。
- 小規模ジョブはセグメントサイズ2〜8の範囲でワークロード特性に合わせて調整してください。
- 定期的なモニタリングでフラグメンテーション指標を追跡し、ワークロードの変化に合わせてセグメントサイズを再調整してください。
- シミュレーターを活用し、新しいポリシーを本番環境に適用する前に必ず検証してください。
関連記事
参考資料: 本記事は NVIDIA 技術ブログ を基に、日本のクラスタ運用環境向けに再構成しました。