Isambard-AIが4カ月で5,448GPUを導入した方法:AIインフラの新しい設計図
ブリストルのナショナル・コンポジット・センターにある倉庫を改造した建物に入ると、150トンもの最先端コンピューティング・ハードウェアが液冷キャビネットの奥でうなるように動いている:英国で最もパワフルな人工知能スーパーコンピューター、Isambard-AIである。もちろん、見出しには21エクサフロップスのAI性能が謳われているが、ここで彼らが見落としているのは、この2億2500万ポンドのプロジェクトをわずか24ヶ月でオンライン化するためにチームが克服した並外れたインフラの課題である。5年前?不可能なスケジュールだ。
Isambard-AIの5,448個のNVIDIA Grace Hopper Superchipsの配備は、重要な進展を明らかにしている。AIコンピューティングの成功は、今やGPUを購入するだけではありません。最新のAIインフラが要求する電力、冷却、ネットワーキング、ロジスティクスの複雑なエコシステムを使いこなす必要があります。大規模なGPUの導入を計画している企業は、これらの課題とそれを克服するために必要な専門知識をよりよく理解する必要があります。
5メガワットが150トンのシリコンと出会うとき
Isambard-AIの規模は、従来のデータセンターの常識を覆す。12台のHPE Cray EX4000キャビネットにはそれぞれ440個のGPUが搭載され、従来のシステムなら溶けてしまうほどの熱密度を発生する。従来の空冷は、ラックあたり20kWを超えると苦戦を強いられる。イサンバードAIは?キャビネットあたり400kW以上。解決策は100%直接液冷でしたが、その導入にはまったく新しいスキルが必要でした。
「Isambard-AIのような展開に見られるのは、データセンターの専門知識を構成するものの根本的な変化です。従来のラック・アンド・スタック運用に注力していた企業は現在、液体冷却の力学、高密度ケーブルの管理、何千ものGPUを同時に稼働させる方法などを理解するエンジニアを必要としている。ブリストル大学のチームは、専門の導入パートナーと協力し、4万本以上の光ファイバー接続を設置した。これは小さな都市を一周するのに十分なケーブル配線量だ。そして、1.8TB/秒で動作するシステムの第5世代NVLink相互接続に必要な精度を維持しなければならなかった。
このプロジェクトは、契約締結から運用開始まで4ヶ月足らずで完了した。どうやって?GPUインフラ配備の専門会社は、72時間以内に数百人の熟練技術者を動員できるようになった。彼らは従来のIT請負業者ではない。彼らは、液体冷却接続の具体的なトルク仕様や、電源システムを圧迫することなく何千ものGPUをオンラインにするための最適な順序を知っている専門チームなのだ。
AIファーストのインフラに隠された複雑さ
従来のスーパーコンピューターをAIワークロード用に改修。Isambard-AIは、人工知能アプリケーションのためにゼロから設計されました。AIを第一に考えたアプローチは、あらゆるインフラの決定に影響を与えた。チームはHPEのモジュール式データセンター設計を選択し、わずか48時間でオンサイトで組み立てた。また、エネルギー効率で世界第4位を獲得したシステムに合わせて、ゼロカーボン電源を選択しました。
ネットワーキング・インフラだけでも、大規模なエンジニアリング調整の偉業を成し遂げている。このシステムのHPE Slingshot 11ネットワークは、64ポートで25.6Tb/秒の双方向帯域幅を提供し、各ノードは800Gbpsのネットワークインジェクション帯域幅を受信します。この複雑な接続網の設置と検証には、一般的な企業展開をはるかに超える、高性能ネットワーキングの専門知識が必要でした。最新のGPUインフラの専門家は、物理層を理解し、さまざまな相互接続トポロジーがAIワークロードのパフォーマンスにどのように影響するかを理解する必要があります。
電力供給は独自の課題を生み出したIsambard-AIの総設備電力5MWは、ハイパースケールのデータセンターと比較すると控えめに見えるかもしれませんが、この電力供給の密度と重要性は、独自の要件を生み出しました。各Grace Hopper Superchipは、正確な電力供給を要求します。5,448個が協調して動作しているため、わずかな変動でもシステムが不安定になる可能性があります。配備チームは、ミリ秒単位で異常を検出して対応できるリアルタイム監視機能を備えた高度な電力管理システムを導入しました。
欧州のAIインフラ競争から学ぶ
Isambard-AIの配備は、ヨーロッパ諸国がAIの覇権を激しく争っている最中に行われた。フィンランドのLUMIシステムは、380ペタフロップスの従来の計算能力を提供する。ドイツの次期スーパーコンピューターJupiterは、ヨーロッパ初のエクサスケールシステムとなる予定だ。しかし、Isambard-AIは、ヨーロッパの同業他社のどこよりも早く運用を開始した。最初の提案から運用開始まで2年足らずだった。同種のシステムの一般的な4〜5年のスケジュールと比べてみてほしい。
このスピードの優位性は、英国のブレグジット後の調達プロセスが合理化されたことにも起因している。しかし、それ以上に重要なのは、GPU導入手法の進化に起因するものだ。従来のスーパーコンピューターの導入は、インフラ、ハードウェア、ネットワーク、ソフトウェアという順次的な段階を踏んでいた。最新のGPU導入では、並列ワークフローが活用されている。専門チームが液体冷却装置の設置、GPUの試運転、ネットワーク設定を同時に行うことで、タイムラインを劇的に短縮している。
ヨーロッパの他の配備との対比は、貴重な教訓を与えてくれる。スペインのMareNostrum 5は、その素晴らしい仕様にもかかわらず、既存施設の大規模な改修を必要とした。イタリアのレオナルド・システムは、AIアクセラレーション機能の統合の遅れに直面した。Isambard-AIの成功は、特定のGPUの専門知識を持つチームによって導入された専用のAIインフラが、後付けされたHPCシステムよりも科学までの時間を短縮できることを示している。
AIの野望を脅かす専門知識の格差
世界中の企業がAIインフラの導入にしのぎを削っているが、決定的なスキルの差が生じている。従来のデータセンター技術者は、どんなに経験が豊富でも、最新のGPU導入に必要な専門知識が不足していることが多い。液冷システムには流体力学と熱管理の理解が必要です。高密度GPU構成には、従来のサーバー配備を超える電力供給とエアフロー最適化の専門知識が必要です。
この専門知識の差は、いくつかの分野で最も深刻だ。GPUクラスタのケーブル管理は、専門的な分野になっている。Isambard-AIの何千もの高速接続には、メンテナンスアクセスを可能にしながら信号の完全性を維持するための正確な配線が必要でした。電源と冷却の技術者は、定常状態の要件だけでなく、ミリ秒単位でアイドル状態からフルパワー状態へと変化するAIワークロードの動的挙動も理解する必要がある。
introl.comのような企業はこのギャップを埋めるために登場し、従来のデータセンターのスキルとGPUに特化した専門知識を組み合わせた専門チームを開発している。1,000GPUノードを超えるシステムの導入は、この新しいタイプのインフラ専門家が活動する規模の大きさを示している。最近の大手GPUクラウドプロバイダーの展開に見られるように、1週間以内に40人の技術者を動員する能力は、従来のデータセンター業界には存在しなかった新しい運用能力を示している。
導入の先にあるもの:卓越したAIインフラを維持する
課題は、最後のGPUの電源が入っても終わらない。Isambard-AIのようなシステムを維持するには、継続的な最適化と積極的な管理が必要だ。ブリストル大学のチームは、GPUの利用パターンから冷却水の流量まですべてを追跡する高度な監視システムを導入した。ノードあたり850GBのユニファイド・メモリ・アドレス空間を持つこのシステムでは、わずかな非効率性でも研究の生産性に大きな影響を与えかねない。
最新のGPUインフラストラクチャでは、物理システムに対するDevOpsアプローチが要求される。ファームウェアのアップデートは、エンジニアリング・チームによって何千ものデバイスにわたって慎重にオーケストレーションされなければなりません。冷却システムには、使用パターンと環境条件に基づく予測メンテナンスが必要です。ネットワーク構成は、進化するワークロードパターンに最適化するために継続的なチューニングが必要です。このような運用の複雑さが、インフラ・パートナーが1回限りの導入ではなく、継続的な最適化を提供する特殊なサービス・モデルの開発を後押ししている。
経済的な影響は大きい。グレース・ホッパー・スーパーチップは1個あたり多額の設備投資を必要とします。アイドル時間は投資収益率に直接影響します。大規模なGPUクラスターを導入する組織は、導入だけでなく継続的な最適化サービスを提供できるパートナーへの依存度を高めています。主要なAIインフラが目標とする95%以上の利用率を維持するには、ワークロードのスケジューリング、リソースの割り当て、システムの健全性に常に注意を払う必要があります。
AIインフラの未来を描く
Isambard-AIの展開の成功は、独自のAIインフラ構想を計画している組織にとって重要な教訓を与えてくれる。第一に、GPUを単純なサーバーコンポーネントとして扱う時代は終わった。最新のAIシステムには、初期の計画段階から電力、冷却、ネットワーク、運用に関する総合的な思考が必要です。第二に、Isambard-AIによって達成された圧縮されたスケジュール(コンセプトから運用まで2年未満)は、新しい標準になりつつあるが、専門的な展開チームと提携する組織に限られる。
今後、インフラの課題は強まるばかりです。NVIDIAのBlackwellアーキテクチャは、GPUあたり1,000Wを超える構成もあり、さらなる高電力密度を約束する。液冷は、先進的なオプションから絶対的な必需品へと移行するでしょう。ネットワーク帯域幅の要件は、モデルサイズが10兆パラメータに向けて押し進められるにつれて、指数関数的に増加し続けるでしょう。GPUインフラに特化した専門知識を利用できない組織は、AI革命にますます太刀打ちできなくなるだろう。
英国のイザムバードAIへの投資は、単なる技術的な成果以上のものである。国や組織が世界クラスのAIインフラを迅速に展開する方法の青写真なのだ。専用施設、合理化された調達プロセス、専門的な展開チームとのパートナーシップを組み合わせることで、このプロジェクトは、AI時代のインフラ課題は手ごわいものの、克服不可能なものには程遠いことを示している。適切な専門知識とパートナーシップへの投資を厭わない人々にとって、野心から運用可能なAIスーパーコンピューティングへの道はかつてないほど容易なものとなっている。
世界中の大学、企業、政府が、独自のAIインフラ投資を検討しています。Isambard-AIは、適切なアプローチと適切なパートナーがいれば、最も野心的なGPU導入でさえ、イノベーションのスピードで提案から本番稼動まで移行できることを証明している。もはや問題は、AIインフラを構築するかどうかではなく、それを正しく行うために必要な専門知識を利用できるかどうかである。
参考文献
アライアンス・ケミカル"AI GPU冷却革命:脱イオン水、エチレングリコール、プロピレン。"アライアンス・ケミカル.2025年8月1日アクセス。 https://alliancechemical.com/blogs/articles/ai-gpu-cooling-revolution-deionized-water-ethylene-glycol-propylene-glycol-the-ultimate-liquid-cooling-guide.
コンピュータ・ウィークリー"ブリストル、英国のAIスーパーコンピューターを稼動"Computer Weekly, 2025. https://www.computerweekly.com/news/366584173/Bristol-goes-live-with-UK-AI-supercomputer.
Computer Weekly"英国政府、HPEとのブリストル大学AIスパコン構築に2億2500万ポンド拠出を約束"Computer Weekly, November 2023. https://www.computerweekly.com/news/366558036/UK-government-pledges-225m-to-fund-University-of-Bristol-AI-supercomputer-build-with-HPE.
データセンター・ナレッジ「Direct-to-Chip Liquid Cooling:データセンター効率の最適化".データセンター・ナレッジ.2025年8月1日アクセス。 https://www.datacenterknowledge.com/cooling/direct-to-chip-liquid-cooling-optimizing-data-center-efficiency.
EuroHPC共同事業。"Inauguration of MareNostrum 5: Europe welcomes a new world-class supercomputer".2023年12月21日 https://www.eurohpc-ju.europa.eu/inauguration-marenostrum-5-europe-welcomes-new-world-class-supercomputer-2023-12-21_en.
EuroHPC 共同事業。"MareNostrum5:スペインの新しいEuroHPC世界クラスのスーパーコンピュータ"2022年6月16日。 https://eurohpc-ju.europa.eu/marenostrum5-new-eurohpc-world-class-supercomputer-spain-2022-06-16_en.
ユーリッヒ研究センター。"JUPITER技術概要"2025年8月1日アクセス。 https://www.fz-juelich.de/en/ias/jsc/jupiter/tech.
GOV.UK."Sovereign AI AIRR立ち上げの機会:研究者募集".2025年8月1日アクセス。 https://www.gov.uk/government/publications/sovereign-ai-airr-launch-opportunity-call-for-researchers/sovereign-ai-airr-launch-opportunity-call-for-researchers.
ヒューレット・パッカード・エンタープライズ"英国政府、ブリストル大学およびヒューレット・パッカード・エンタープライズと共同で、英国で最も強力なAIスーパーコンピューターを構築するために2億2500万ポンドを投資"プレスリリース、2023年11月。 https://www.hpe.com/us/en/newsroom/press-release/2023/11/uk-government-invests-225m-to-create-uks-most-powerful-ai-supercomputer-with-university-of-bristol-and-hewlett-packard-enterprise.html.
HPCwire."ブリストル大学がIsambard-AIスパコンをホスト、AIとHPCの新時代を築く".HPCwire.2025年8月1日アクセス。 https://www.hpcwire.com/off-the-wire/university-of-bristol-to-host-isambard-ai-supercomputer-marking-a-new-era-in-ai-and-hpc/.
ハイパースタック「NVIDIA Blackwell GPUのすべて:アーキテクチャ、機能、チップスペック".2025年8月1日アクセス。 https://www.hyperstack.cloud/blog/thought-leadership/everything-you-need-to-know-about-the-nvidia-blackwell-gpus.
IBM"Introl Solutions, LLC."IBM PartnerPlus Directory.2025年8月1日アクセス。 https://www.ibm.com/partnerplus/directory/company/9695.
はじめに"GPUインフラ導入|GPU導入の最適化".2025年8月1日アクセス。 https://introl.com/gpu-infrastructure-deployments.
イントロール"イントロール - GPUインフラとデータセンター展開のエキスパート".2025年8月1日アクセス。 https://introl.com.
イントロール"イントロール|GPUインフラ、データセンター・ソリューション、HPC展開".2025年8月1日アクセス。 https://introl.com/blog.
IT Pro."イサンバードAI内部:英国最強のスーパーコンピューター".IT Pro.2025年8月1日アクセス。 https://www.itpro.com/infrastructure/inside-isambard-ai-the-uks-most-powerful-supercomputer.
IT4イノベーションズ"LUMI".2025年8月1日アクセス。 https://www.it4i.cz/en/infrastructure/lumi.
ジェットクール"AIデータセンター向け直接液体冷却とは?"2025年8月1日アクセス。 https://jetcool.com/post/what-is-direct-liquid-cooling-for-ai-data-centers/.
NVIDIA."NVLink & NVSwitch for Advanced Multi-GPU Communication".2025年8月1日アクセス。 https://www.nvidia.com/en-us/data-center/nvlink/.
NVIDIA。"AIファクトリーを支えるエンジン|NVIDIA Blackwell Architecture".2025年8月1日アクセス。 https://www.nvidia.com/en-us/data-center/technologies/blackwell-architecture/.
NVIDIAブログ。"NVIDIA Blackwellプラットフォームが水効率を300倍以上高める".2025年8月1日アクセス。 https://blogs.nvidia.com/blog/blackwell-platform-water-efficiency-liquid-cooling-data-centers-ai-factories/.
ResearchGate"Isambard-AI:人工知能に特化して最適化されたリーダークラスのスーパーコンピュータ"2024年10月 https://www.researchgate.net/publication/384938455_Isambard-AI_a_leadership_class_supercomputer_optimised_specifically_for_Artificial_Intelligence.
SDxCentral."英国の3億ドルのIsambard-AIスーパーコンピュータが正式にローンチ".SDxCentral.2025年8月1日アクセス。 https://www.sdxcentral.com/news/uks-300m-isambard-ai-supercomputer-officially-launches/.
TechTarget"液冷の瞬間はAIによってもたらされる"TechTarget.2025年8月1日アクセス。 https://www.techtarget.com/searchdatacenter/feature/Liquid-coolings-moment-comes-courtesy-of-AI.
エンジニア"イサンバードAIスーパーコンピューター、ブリストルで起動"The Engineer.2025年8月1日アクセス。 https://www.theengineer.co.uk/content/news/isambard-ai-supercomputer-launches-in-bristol/.
英国の研究とイノベーション"新しいAI研究リソースの第一段階立ち上げに3億ポンド".2025年8月1日アクセス。 https://www.ukri.org/news/300-million-to-launch-first-phase-of-new-ai-research-resource/.
ブリストル大学"2023:イザムバードAIブリストル"キャボット環境研究所.2025年8月1日アクセス。 https://www.bristol.ac.uk/cabot/news/2023/isambard-ai-bristol.html.
ブリストル大学"7月英国で最も強力なスーパーコンピューターがブリストルで起動"ニュースと特集, July 2025. https://www.bristol.ac.uk/news/2025/july/isambard-launch.html.
ブリストル大学"11月前代未聞の2億2500万ポンド投資で英国最強スパコン誕生 "ニュースと特集、2023年11月。 https://www.bristol.ac.uk/news/2023/november/supercomputer-announcement.html.
ウィキペディア"ブラックウェル (マイクロアーキテクチャ)".2025年8月1日アクセス。 https://en.wikipedia.org/wiki/Blackwell_(マイクロアーキテクチャ).
ウィキペディア"LUMI"。2025年8月1日アクセス。 https://en.wikipedia.org/wiki/LUMI.
"Isambard-AI: a leadership class supercomputer optimised specifically for Artificial Intelligence." arXiv preprint arXiv:2410.11199 (2024). http://arxiv.org/pdf/2410.11199.