なぜNVIDIA GB300 NVL72(ブラックウェル・ウルトラ)が重要なのか🤔?

NVIDIAは、72基のBlackwell Ultra GPUと36基のGrace CPUを液冷ラックスケールのユニットに統合し、約120kWの消費電力と、GB300 NVL72で1.1エクサフロップスのFP4コンピューティングを実現しました。このキャビネット1つで、現代のデータセンター内の電力、冷却、配線に関するあらゆる前提が変わります。ここでは、GB300 NVL72の初回生産分の納入に向けてサイトを準備する中で、配備エンジニアが学んでいることを紹介します。

1.ラックを分解する

コンポーネント数主な仕様消費電力ソースGrace-Blackwellコンピュート・トレイ各18~6.5 kW合計117 kWSupermicro 2025NVLink-5スイッチ・トレイ9130 TB/sアグリゲート・ファブリック合計3.6 kWSupermicro 2025パワー・シェルフ合計8132 kW DC出力0.8 kWオーバーヘッドSupermicro 2025Bluefield-3 DPUs18ストレージおよびセキュリティ・オフロードコンピュート内に含まれるThe Register 2024

キャビネットの重量は約1.36トン(3,000ポンド)で、従来の42Uラックと同じ設置面積です(The Register、2024年)。GB300 NVL72は、Blackwell Ultraを代表するもので、GPUあたり288GBのHBM3eメモリ(オリジナルのB200の192GBより50%多い)を備えた強化B300 GPUを搭載しています。各スーパーチップは現在、4つのB300 GPUと2つのGrace CPUをペアにしています。各Grace-Blackwellスーパーチップは、2.6GHzの72個のBlackwell Ultra GPUコアと、ベース周波数3.1GHzで動作する128コアのArm Neoverse V2 CPUをペアにしています。統合されたHBM3eメモリは、288GBの容量でGPUあたり8TB/秒を実現する。

現場の洞察ラックの重心は、上部トレイにコンピュート・リソースを高密度に配置しているため、標準的なサーバーよりも18%高くなっています。現在、ベストプラクティスでは、全負荷動作時に見られる微小振動に対処するため、標準的なケージナットではなく、M12ボルトでマウントレールを固定することを推奨しています。

2.野獣に餌を与える:パワー・デリバリー

An GB300 NVL72 rack ships with built‑in PSU shelves, delivering 94.5% efficiency at full load. Peak consumption hits 120.8 kW during mixed‑precision training workloads—power quality analyzers typically record 0.97 power factor with <3% total harmonic distortion.

電圧トポロジーの比較:

  • 208V/60Hz:ライン電流335A、4/0 AWG銅(107mm²)が必要

  • 415V/50-60Hz:168Aライン電流、わずか70mm²の銅が必要

  • 480V/60Hz:145Aライン電流、最小限の北米展開

業界のベスト・プラクティスでは、160A IEC 60309 コネクタを経由して、ラックごとにデュアル 415V 三相給電を供給します。この選択により、ヨーロッパの設備規格との互換性を維持しながら、I²R ロスを 208V と比較して 75%削減することができます。現場での測定によると、ブレーカー・パネルは、22℃の室内で通常85%以下の温度軽減を維持しています。

高調波緩和:GB300 NVL72ラックは、典型的なAIトレーニング負荷の下で4.8%の全高調波歪みを示す。8ラックを超える配備では、IEEE 519準拠を維持するために、通常、専用トランス上の12パルス整流器が必要です。

3.冷却プレイブック熱工学の現実

各Blackwell Ultra GPUダイのサイズは744 mm²で、コールドプレート・インターフェイスを通じて最大1,000Wを放熱する。Grace CPUは128コアでさらに500Wを追加する。デルの IR7000 プログラムは、Blackwell クラスのギアのデフォルトの経路として液体を位置付けており、密閉型リアドア熱交換器により、ラックあたり最大 480 kW の容量を謳っています(Dell Technologies、2024 年)。

推奨される熱ヒエラルキー:

  • ≤80 kW/ラック:リアドア式熱交換器、供給水温18℃、流量35 L/分

  • 80-132 kW/ラック:ダイレクト・ツー・チップ(DTC)ループ必須、15℃供給、最低30L/min

  • 132kW/ラック:液浸冷却またはスプリットラック構成が必要

現場配備によるDTCの仕様:

  • コールドプレートΔT:全負荷時12~15℃(GPUジャンクション温度83~87)

  • 圧力損失:30%プロピレングリコールを使用した場合、ループ全体で2.1バール

  • 流量分布:全72GPUコールドプレートで±3%のばらつき

  • Leak rate: <2 mL/year per QDC fitting (tested over 8,760 hours)

重要な洞察Blackwell Ultraの電力供給ネットワークはマイクロ秒スケールの過渡現象を示し、勾配同期中に定常状態の電力の1.4倍に達します。業界の慣例では、GPUのスロットリングなしにこれらの熱スパイクを処理するために、定格TDPの110%に冷却のサイジングをすることが推奨されています。

4.ネットワーク・ファブリック: NVLink 5.0 と拡張コネクティビティの管理

各GB300 NVL72には、NVLink 5.0を搭載した72個のBlackwell Ultra GPUが搭載されており、GPU1個あたり1.8TB/秒の帯域幅、システム全体で130TB/秒のNVLink帯域幅を提供します。第5世代のNVLinkは、1リンクあたり200 Gbpsのシグナリングレートで動作し、GPUあたり18個のリンクがあります。9個のNVSwitchチップは、300ナノ秒のスイッチレイテンシでこのトラフィックをルーティングし、576ウェイのGPU間通信パターンをサポートします。

ラック間接続には、NVIDIA Quantum-X800 InfiniBandとSpectrum-X Ethernetプラットフォームの両方をサポートし、GPUあたり800Gb/秒(前世代の400Gb/秒の2倍)のネットワーク接続を提供するConnectX-8 SuperNICが採用されています。

ケーブリング・アーキテクチャ:

  • Intra‑rack: 1,728 copper Twinax cables (75‑ohm impedance, <5m lengths)

  • ラック間OM4 MMF経由800Gトランシーバーによる90個のQSFP112ポート

  • ストレージ/管理各デュアル800Gリンク搭載Bluefield-3 DPU×18台

フィールドでの測定:

  • 光バジェット:150mのOM4スパンで1.5dBの挿入損失バジェット

  • BER performance: <10⁻¹⁵ sustained over 72‑hour stress tests

  • コネクター密度:1ラックあたり1,908極(電源含む)

ベスト・プラクティスとしては、終端処理済みの 144 ファイバー・トランク・アセンブリを APC ポリッシュで出荷し、TIA-568 規格の挿入損失/リターン損失テストですべてのコネクタを検証することです。経験豊富な 2 人のクルーは、GB300 NVL72 ファイバーの設置を平均 2.8 時間で完了できます。

Signal integrity insight: NVLink‑5 operates with 25 GBd PAM‑4 signaling. Typical installations maintain a 2.1 dB insertion loss budget per Twinax connection and <120 fs RMS jitter through careful cable routing and ferrite suppression.

5.現場でテストされた配備チェックリスト

構造上の要件:

  • 床荷重:14kN/m²(2,030psf)以上を保証。

  • 耐震ブレース:ゾーン4の設置には、IBC2021によるXブレースの追加が必要。

  • Vibration isolation: <0.5g acceleration at 10–1000 Hz to prevent NVLink errors

電力インフラ:

  • デュアル415Vフィード、各160A、シュナイダーPM8000分岐回路監視付き

  • UPSサイジング: オンライン二重変換トポロジーでラックあたり150 kVA (125% 安全マージン)

  • Grounding: Isolated equipment ground with <1Ω resistance to facility MGB

冷却仕様:

  • Coolant quality: <50 µS/cm conductivity, 30% propylene glycol, pH 8.5–9.5

  • フィルター交換:5μmプリーツフィルター:1,000時間ごと、1μmファイナルフィルター:2,000時間ごと

  • 漏れ検知:すべてのQDC継手に0.1mLの感度で導電性流体センサーを装備

スペアパーツの在庫

  • NVSwitchトレイ1個(リードタイム:6週間)

  • CDUポンプカートリッジ2個(MTBF:8,760時間)

  • 20個のQSFP112トランシーバー(フィールド故障率:年間0.02)

  • 緊急用サーマルインターフェイス材(ハネウェルPTM7950、5gチューブ)

リモートハンズSLA:4時間のオンサイト対応は業界標準になりつつあり、業界をリードする展開パートナーは、99%以上のアップタイムで複数の国にわたってこの目標を維持しています。

6.生産負荷下での性能評価

AI推論ベンチマーク(初期導入レポートより):

  • DeepSeek R1-671Bモデル:最大1,000トークン/秒の持続スループット

  • GPT-3 175Bパラメータモデル:847トークン/秒/GPU平均

  • ステイブル・ディフュージョン2.1:解像度1024×1024で14.2枚/秒

  • ResNet-50 ImageNetトレーニング:2,340サンプル/秒の持続的スループット

電力効率のスケーリング:

  • シングルラックの利用率1.42GFLOPS/ワット、GPU使用率95%時

  • 10ラッククラスタ1.38 GFLOPS/ワット(冷却オーバーヘッドにより効率低下)

  • ネットワークアイドル電力:1ラックあたり3.2kW(NVSwitch + トランシーバ)

AI推論性能の向上:GB300 NVL72は、Hopperと比較して、ユーザー1人当たり1秒当たりのトークンを10倍、メガワット当たりのTPSを5倍向上させ、AI工場の出力性能を合わせて50倍向上させる可能性があります。

熱サイクルの影響:2,000時間の生産運転後、初期の導入事例では、熱界面材料のポンピングアウトによる性能劣化が0.3%と報告されている。18ヶ月間隔で定期的にTIMを交換することで、ピーク性能を維持。

7.クラウドとオンプレミスのTCO分析

ラムダは、B200 GPUをGPU1時間当たり2.99ドルという低価格で、複数年契約(ラムダ2025)で提供しています。業界の導入事例から実際の設備コストを組み込んだ財務モデリングでは、以下のように示されています:

36ヶ月間のラックあたりのコスト内訳:

  • ハードウェア設備投資:GB300 NVL72で$3.7-4.0M(スペアと工具を含む

  • 施設電力:平均利用率85%で310Kドル(0.08ドル/kWh

  • 冷却インフラ:18万ドル(CDU、配管、制御装置)

  • 運営スタッフ:24万ドル(0.25FTEフル稼働コスト)

  • 合計:443~473万ドル vs 470万ドル(クラウド換算

損益分岐点は、減価償却費、資金調達、機会費用を考慮した18ヶ月間の平均稼働率67%で発生する。企業のCFOは、クラウドベンダーのロックインを回避しながら、予算の予測可能性を得ることができます。

8.GB300とGB200の比較ブラックウェル・ウルトラを理解する

写真の先代GB200

GB300 NVL72(Blackwell Ultra)は、オリジナルのGB200 NVL72から大きく進化しました。主な改良点には、1.5倍のAI演算性能、GPUあたり288GB HBM3eメモリ(対192GB)、AI推論アプリケーションのテストタイム・スケーリング推論への強化が含まれます。

新アーキテクチャは、Hopperと比較して、1ユーザーあたり1秒あたりのトークンを10倍、メガワットあたりのTPSを5倍向上させ、AI工場の生産量を合計で50倍増加させる可能性があります。これにより、GB300 NVL72は、DeepSeek R1のようなモデルが精度を向上させるために推論時に大幅に多くの計算を必要とする、AI推論の新時代向けに特に最適化されています。

提供開始時期:現在発売中のGB200 NVL72に対し、GB300 NVL72システムは2025年後半にパートナーから発売される予定です。

9.フォーチュン500社が専門展開パートナーを選ぶ理由

大手導入スペシャリストは、850以上のデータセンターに10万以上のGPUを設置し、広範なフィールドエンジニアリングチームを通じて4時間のグローバルサービスレベル合意(SLA)を維持している。業界は2022年以降、数千マイルのファイバーと数メガワットのAI専用インフラを委託している。

最近の配備指標:

  • サイト準備期間の平均:6.2週間(業界平均の11週間から短縮)

  • ファーストパス成功率パワーオン・テスト97.3

  • 配備後の問題最初の90日間の部品故障率0.08

OEMはハードウェアを出荷し、専門パートナーはハードウェアを生産インフラに変換する。計画段階で経験豊富な配備チームを関与させることで、プレハブ化された電源ハーネス、あらかじめ段階化された冷却ループ、工場で終端処理されたファイバーバンドルを使用することにより、スケジュールを45%短縮することができます。

餞の言葉

GB300 NVL72キャビネットは、「ラック内のサーバー」から「キャビネット内のデータセンター」への根本的な転換を意味します。物理学は容赦がありません:120kWのコンピュート密度には、電源接続、冷却ループ、ファイバー終端処理に至るまで精度が要求されます。初日にエンジニアリングの基本をマスターすることで、Blackwell Ultraは今後何年にもわたってAI推論性能の変革をもたらすでしょう。

2,000字では語り尽くせない技術的な詳細について話し合う準備はできていますか?私たちのデプロイメント・エンジニアは、このような会話を大切にしています。 solutions@introl.com.

参考文献

デル・テクノロジーズ2024."Dell AI Factory、先進の冷却、高密度コンピュート、AIストレージの革新でデータセンターを変革".プレスリリース、10月15日。 デルテクノロジーズ・ニュースルーム

イントロダクション2025."GPUインフラの展開とグローバルフィールドエンジニア"6月23日アクセス。 introl.com

ラムダ2025."AI Cloud Pricing - NVIDIA B200 Clusters".6月23日アクセス。 ラムダラボの価格

エヌビディア2025."GB300 NVL72 製品ページ".6月23日アクセス。 NVIDIAデータセンター

エヌビディア2025."NVIDIA Blackwell Ultra AI Factory Platform Paves Way for Age of AI Reasoning".プレスリリース、3月18日。 NVIDIA ニュース

スーパーマイクロ2025."NVIDIA GB300 NVL72 SuperCluster Datasheet".2月。 Supermicro データシート

レジスター2024.Mann, Tobias.「1ラック、120kWのコンピュート:NVIDIA の DGX GB200 NVL72 Beast に迫る".3月21日。 The Register



次のページ
次のページ

スケーラブルなオンサイト人材派遣:重要インフラを超高速で立ち上げる