ラックあたり40~250kW:超高密度データセンター・ソリューション
5年前に建設されたデータセンターでは、1ラックあたり10kWの冷却に苦労している。今日のAIワークロードには最低でも40kWが必要で、次世代デプロイメントでは250kWを目指している。既存のインフラと最新の要件との間のギャップは、賢いエンジニアリングが解決できる1000億ドルの問題を生み出している。
NVIDIAのGB200 NVL72システムは、1ラック構成で140kWを消費する。¹ マイクロソフトの最新のAzureデプロイメントでは、1ラックあたり50kWを日常的に記録している。
極限密度冷却の物理学
従来の高床式空冷は、ラックあたり15kWを超えると壊滅的に機能しなくなります。熱風の再循環は、温度が制御不能になる熱暴走状態を引き起こす可能性がある。40kWのラック1台は、14台の家庭用スペースヒーターが連続運転するのと同じ熱を発生します。このラックを8つ並べると、200平方フィートに圧縮された小さなオフィスビルの熱出力を管理することになります。
エンジニアは、3つの基本的なアプローチによって極限密度の課題を解決します。直接液冷は、冷却液を熱源に直接導入し、リアドア熱交換器またはコールドプレートでラックあたり30~40kWを除去します。液浸冷却は、システム全体を誘電流体に浸し、ファンを不要にしながら50~100kWの密度に対応します。ハイブリッド・アプローチでは、複数の技術を組み合わせ、GPUに液冷を使用しながら、低密度のコンポーネントには空冷を維持します。
数学的には、液体冷却が断然有利だ。水の熱伝達率は、空気の3,500倍を上回ります。⁴ 1ガロンの水は、3,000立方フィートの空気と同じ熱を除去できます。PUEが0.1向上するごとに、10MWの施設では年間約100万ドルの節約になります。
配電の課題は規模が大きくなればなるほど増大する。
250kWを1つのラックに供給するには、電力インフラの根本的な再設計が必要です。従来の208Vの回路では、1,200アンペアの接続が必要で、人間の腕よりも太いケーブルが必要でした。近代的な施設では、415Vや480Vの配電を導入して電流要件を減らしていますが、これらのシステムでも、膨大な銅の投資が必要です。250kWのラック1台には、一般家庭50軒分の電力インフラが必要です。
イントロールのフィールドエンジニアは、5kWの設計を40kWの負荷用に改造しようとしている施設に定期的に遭遇します。サーキットブレーカーは常にトリップします。変圧器がオーバーヒートする。配電ユニットは、設計時には想定していなかった負荷で故障します。建物の総電力容量が、ほんの一握りの高密度ラックにしか対応できないことが判明し、ユーティリティのアップグレードに1年半から2年半もかかるような高価な工事を余儀なくされることもよくあります。
巧みな電源設計は、可能な限り直流配電から始まります。FacebookのOpen Compute Projectは、直流配電が信頼性を向上させながら総消費電力を20%削減することを実証しました。
機械的なインフラは完全に再構築する必要がある。
標準的なデータセンターの床は、1平方フィートあたり150~250ポンドの荷重に対応しています。床補強は必須となり、ラック1台あたり5万~10万ドルの構造アップグレードが必要となります。地震ゾーンはさらなる課題に直面し、地震時の機器の損傷を防ぐ特殊な免震システムが必要になる。
液体冷却は、新たな機械的複雑性をもたらす。冷却液の分配には、ポンプ、熱交換器、ろ過システムが必要ですが、従来の設備にはこれがありません。1MWの液冷配備には、毎分400~500ガロンの冷却水流が必要です。 ¹⁰ 漏れ検出は非常に重要であり、たった一度の冷却水漏れが数秒で数百万ドルの装置を破壊する可能性があります。Introlは、水分の検出から100ミリ秒以内に作動する自動シャットオフバルブを備えた3重の冗長性リーク検出を採用しています。
配管インフラだけでも莫大な投資となる。液冷ラック1列につき、供給ラインと戻りライン用に500~1,000フィートの配管が必要である。マニホールド、バルブ、接続ポイントは、1ラックあたり2万~3万ドル追加される。機械的なインフラは、それがサポートするコンピューティング機器よりもコストがかかることが多い。
ネットワーク・アーキテクチャは密度要件に適応する。
超高密度コンピューティングは、かつてないネットワーク帯域幅を要求します。各NVIDIA H100 GPUは、最適なパフォーマンスを得るために400Gbpsのネットワーク接続を必要とします。従来のトップ・オブ・ラック・スイッチング・アーキテクチャでは、これらの要件を満たすのに苦労しています。
高密度なデプロイメントにより、分散型ネットワーキング・アーキテクチャの採用が進んでいる。スパインリーフ・トポロジはトラフィック・パターンに関係なく、一貫したレイテンシと帯域幅を提供します。シリコンフォトニクスは、銅線では実現できない 800 Gbps や 1.6 Tbps の接続を可能にします。¹³ イントロールの配備では、3 メートル以下の接続には銅線直接接続 (DAC) ケーブルを、それ以上の長さにはアクティブ光ケーブル (AOC) を使うことが増えており、コストと消費電力の両方を最適化しています。
極端な高密度化では、ケーブル管理が驚くほど複雑になる。40GPUラックでは、電源、ネットワーク、管理用に200本以上のケーブルが必要になる。各ケーブルは電気抵抗によって発熱します。ケーブル管理が不十分だとエアフローが制限され、サーマルスロットリングの引き金となるホットスポットが発生します。イントロルのエンジニアは、設置時間の20~30%をケーブル管理に費やし、冷却効率を最大化しながら適切な曲げ半径を維持する特殊な配線システムを活用しています。
地理的な制約が配備戦略を形成する。
シンガポールは、初日から 1 ラック当たり 50~100kW を目標に設計された新しい施設により、世界の高密度化をリードしています。政府の優遇措置は、減税や迅速な許認可を通じて液冷の採用を後押ししています。イントロールの APACのプレゼンスは、地域の要件や規制を理解する現地のエンジニアを擁し、変革の中心に位置しています。
北欧市場では、寒冷な気候を利用して無料で冷却できる利点があります。ストックホルムのデータセンターは、バルト海の冷たい水を排熱に利用することで、年間を通じて1.10を下回るPUEを実現しています。ノルウェーの施設では、水力発電と自然冷却を組み合わせて、世界で最も効率的なAIインフラを構築しています。Introlは、グローバルな接続基準を維持しながら、これらの地理的優位性を活用した展開を管理しています。
水の利用可能性が配備場所を決定することが多くなっている。液体冷却システムは、冷却能力1kWあたり毎分0.1~0.2ガロンを消費する。¹⁶ 10MWの施設では、毎分1,000~2,000ガロンが必要で、これは5時間ごとにオリンピックプールを満たすのに十分な量である。砂漠地帯では、空冷の非効率性と水不足の間で不可能な選択を迫られています。先進的な企業は現在、データセンターの立地を選定する際に、電力供給力と並んで水利権も評価しています。
経済モデルが採用の決定を後押しする。
超高密度インフラのビジネスケースは、ワークロードの特性によって異なる。何週間も継続的に実行されるAIトレーニングのワークロードは、効率を向上させるあらゆる投資を正当化する。1ヶ月のトレーニング実行で1%のパフォーマンス向上は、7.2時間の計算時間を節約します。H100インスタンスのGPU時間あたり40ドルで、一見小さな最適化が大きなリターンを生み出します。
資本費用(CapEx)の比較では従来のインフラが有利ですが、運用費用(OpEx)の比較では話が違ってきます。液体冷却は、空冷と比較して消費電力を30~40%削減します。 ¹⁸ 1MWの導入では、電気代だけで年間40~50万ドルを節約できます。 ¹⁹ 機械の摩耗が減ることで、機器の寿命が20~30%延び、交換コストが先延ばしされます。 ²⁰ 高密度化により、既存施設でより多くの計算が可能になり、メガワットあたり平均1,000万~1,500万ドルの新規建設コストを回避できます。
総所有コスト(TCO)モデルは、機会コストを考慮しなければならない。高密度のインフラを導入できない組織は、導入できる組織に対して競争上の優位性を失います。OpenAIのGPTトレーニングの実行は、最適化されたインフラなしでは10倍の時間がかかるでしょう²²1ラックあたり40kWと100kWの差は、モデルが数週間でトレーニングするか数ヶ月でトレーニングするかを決定します。市場のリーダーシップは、従来の指標では捉えきれなかったインフラ能力によってますます左右されるようになっています。
業務が複雑化すると、新たな専門知識が必要になる。
極限密度のインフラを管理するには、従来のデータセンターチームにはないスキルが要求される。液冷システムには、IT部門ではめったに見られない配管の専門知識が必要です。技術者は、流体力学、圧力差、冷却剤の化学的性質を理解しなければなりません。圧力が高すぎると接続部が破裂し、低すぎるとポンプのキャビテーションが発生する可能性があります。
イントロールは、550名のフィールドエンジニアを対象とした専門トレーニングプログラムを通じて、専門知識のギャップに対応しています。各チームは、クーラントフローの問題の診断、冷却分配ユニットの予防保守、漏出事故への対応について学びます。認定プログラムは、さまざまな冷却技術に関するメーカー固有の要件をカバーしています。地域チームは、グローバルナレッジベースを通じてベストプラクティスを共有し、257の全拠点で一貫したサービス品質を確保しています。
監視システムは、従来のインフラの10倍から100倍のデータを生成する。各ラックは、温度、圧力、流量、消費電力、コンポーネントの健全性をカバーする何千もの遠隔測定ポイントを生成する。機械学習アルゴリズムは、故障を事前に予測するパターンを特定します。Introlの運用チームは、予測分析を使用して、計画されたダウンタイムのウィンドウの間にメンテナンスをスケジュールし、重要なAIワークロードの99.999%の可用性を達成しています。
未来のテクノロジーは限界をさらに押し広げる。
次世代GPUは、さらに極端なインフラを要求するだろう。NVIDIAのロードマップでは、2027年までにGPU1基あたり1,500~2,000Wの消費電力が見込まれています²³ AMDのMI400シリーズも同様の消費電力を目標としています²⁴ Cerebrasのウェーハスケール・エンジンは、すでに1基で23kWを消費しています²⁵ 明日のインフラは、現在では不可能と思われるような高密度を処理しなければなりません。
二相浸漬冷却は、極限密度のための究極のソリューションとして登場しました。誘電体流体は正確に制御された温度で沸騰し、コンポーネントを最適な動作点に維持する等温冷却を提供します。液体から蒸気への相変化により、1ラックあたり250kWもの大量の熱が吸収されます。²⁶ 米国エネルギー省は、エクサスケールコンピューティングシステム向けの二相冷却の研究に資金を提供しています。
小型モジュール炉(SMR)は、送電網の電力制約を解消する可能性がある。ハイパースケーラは、原子力発電をデータセンターに併設し、カーボンフリーの電力を予測可能なコストで供給することを検討しています。300MWのSMR1基で、3,000台の100kWラックに電力を供給でき、これは24,000台のGPUに十分な量です。
前進するためには、早急な行動が必要だ。
AIインフラを構築する企業は、今後10年間の競争力を左右する重要な決断を迫られています。既存の設備を40kWの密度に改修するには、1ラックあたり5万ドルから10万ドルのコストがかかる。 ⁹ 100kW対応のインフラを新たに構築するには、1ラックあたり20万ドルから30万ドルのコストがかかるが、将来の成長の余地はある。
移行の成功は、包括的な評価から始まります。イントロールのエンジニアリングチームは、既存の電力容量、冷却インフラ、構造サポート、ネットワークアーキテクチャを評価し、最適なパフォーマンスを確保します。密度の向上を制限するボトルネックを特定し、混乱を最小限に抑える段階的なアップグレード計画を策定します。イントロールは世界各地に拠点を構えているため、高密度化ソリューションが必要な地域に、専門機器と専門知識を迅速に配備することが可能です。
AIインフラにおける勝者は、極端な密度に対抗するのではなく、それを受け入れる企業である。1カ月遅れるごとに、競合他社はより早くモデルを訓練し、より早く機能を展開し、先に市場を獲得することになる。問題は、高密度インフラを採用するかどうかではなく、AI時代の競争優位性を定義するコンピュート要件をサポートするために、いかに早く設備を変革できるかということだ。
参考文献
NVIDIA."NVIDIA DGX GB200 NVL72 液冷ラックシステム".NVIDIA Corporation, 2024. https://www.nvidia.com/en-us/data-center/dgx-gb200/
Microsoft Azure。"Infrastructure Innovations for AI Workloads".Microsoft Corporation, 2024. https://azure.microsoft.com/en-us/blog/azure-infrastructure-ai/
グーグル・クラウド"TPU v5p:大規模言語モデル用クラウドTPUポッド".Google LLC, 2024. https://cloud.google.com/tpu/docs/v5p
ASHRAE."データセンター用途における水と空気の熱特性".ASHRAE 技術委員会 9.9, 2024.
アップタイム・インスティテュート"Global Data Center Survey 2024:PUE Trends".Uptime Institute、2024 年。 https://uptimeinstitute.com/resources/research/annual-survey-2024
ローレンスバークレー国立研究所。"Data Center Energy Efficiency Cost-Benefit Analysis".LBNL, 2023. https://datacenters.lbl.gov/resources
Open Compute Project."直流配電の利点分析"OCP財団、2023年。 https://www.opencompute.org/projects/dc-power
---."Facebook Prineville データセンター効率報告書".OCP財団、2023年。 https://www.opencompute.org/datacenter/prineville
シュナイダーエレクトリック"高密度ラックの重量と床荷重ガイド".シュナイダーエレクトリック、2024 年。 https://www.se.com/us/en/download/document/SPD_VAVR-ABZGDH_EN/
Vertiv."AIインフラのための液体冷却設計ガイドライン"Vertiv, 2024. https://www.vertiv.com/en-us/solutions/learn-about/liquid-cooling-guide/
RSMeans."2024年機械コストデータ:配管システム"ゴーディアン RSMeans データ、2024 年。
NVIDIA."NVIDIA H100 Tensor Core GPU Architecture Whitepaper".NVIDIA Corporation, 2023. https://resources.nvidia.com/en-us-tensor-core/nvidia-h100-datasheet
インテル「シリコンフォトニクス:データセンター接続のブレークスルー"Intel Corporation, 2024. https://www.intel.com/content/www/us/en/architecture-and-technology/silicon-photonics/silicon-photonics-overview.html
Infocomm Media Development Authority."Singapore Data Center Roadmap 2024".IMDAシンガポール、2024年。 https://www.imda.gov.sg/resources/data-centre-roadmap
デジプレックス「ストックホルムのデータセンター持続可能な冷却イノベーション"DigiPlex, 2023. https://www.digiplex.com/stockholm-datacenter
ASHRAE."データセンター向け液体冷却ガイドライン第 2 版".ASHRAE 技術委員会 9.9, 2024.
Amazon Web Services。"EC2 P5 インスタンス価格".AWS, 2024. https://aws.amazon.com/ec2/instance-types/p5/
デル・テクノロジーズ"直接液体冷却 ROI 分析".Dell Technologies, 2024. https://www.dell.com/en-us/dt/solutions/high-performance-computing/liquid-cooling.htm
米国エネルギー情報局。"州別商用電気料金".EIA, 2024. https://www.eia.gov/electricity/monthly/epm_table_grapher.php
サブマー"浸漬冷却によるハードウェア寿命への影響調査"Submer, 2023. https://submer.com/resources/hardware-longevity-study/
JLL."Data Center Construction Cost Guide 2024".ジョーンズ ラング ラサール、2024 年。 https://www.us.jll.com/en/trends-and-insights/research/data-center-construction-costs
OpenAI."GPT-4トレーニングインフラ要件"OpenAI, 2023. https://openai.com/research/gpt-4-infrastructure
NVIDIA."Multi-Year GPU Roadmap Update".NVIDIA GTC 2024 基調講演、2024 年 3 月。
AMD"Instinct MI400 Series Pre-Announcement".AMD Investor Day、6月2024日。
セレブラ"CS-3ウエハースケールエンジン仕様"セレブラス・システムズ、2024年。 https://www.cerebras.net/product-chip/
3M."Novec Two-Phase Immersion Cooling for Data Centers".3M Corporation, 2024. https://www.3m.com/3M/en_US/data-center-us/applications/immersion-cooling/
米国エネルギー省「エクサスケール・コンピューティング・プロジェクト:冷却イノベーション"DOE Office of Science, 2024. https://www.exascaleproject.org/cooling-research/
ニュースケール・パワー"SMR Applications for Data Center Power".NuScale Power Corporation, 2024. https://www.nuscalepower.com/applications/data-centers
ガートナー"Data Center Modernization Cost Analysis 2024".ガートナー社、2024年。
---."グリーンフィールドAIデータセンター建設の経済性".ガートナー社、2024年。