人工知能時代におけるダウンタイムのコスト削減

ある程度の精度でハードウェア障害を予測する能力は、情報技術(IT)に大規模な設備投資を行うサービス・プロバイダーに莫大なコスト削減の可能性を提供する。高価なハイパフォーマンス・コンピューティング(HPC)や人工知能(AI)プラットフォームを大規模に運用する企業顧客にとって、サービス提供の可用性はすべてです。システムがダウンすると、顧客やトラップ・リソースが閉め出され、多大なコストをかけて使い物にならなくなります。この種の停止は、収益の損失を引き起こし、従業員全体の生産性に影響を与え、企業のブランドを傷つける可能性がある。業種にもよりますが、1時間の計画外ダウンタイムの平均コストは、1時間10万ドルから50万ドルをはるかに超えるという調査結果もあります[1] [2]。

故障予知分析(PFA)に入る

大量の履歴データを評価することで、故障予測分析(PFA)は機能停止の可能性について貴重な洞察を提供することができます。チップセット、回路基板、ハードドライブ、はんだ付けされた接続部はすべて、有限の耐用年数を持っています。過去の故障データの傾向は、将来の故障の時間的な見通しを示すかもしれません。

大型機器メーカーや自動車メーカー(およびその顧客)にとって、PFAは資産の寿命を改善し、将来の支出を最大5%削減できる可能性がある。PFAはまた、オペレーターや技術者がより自由に利用でき、より安価なときにメンテナンスをスケジュールするために使用することもでき、最大20%の効率化と節約を生み出すことができる[3]。

PFAのパフォーマンスには数多くの要因が影響する。問題のシステムの平均的な作業負荷、使用される履歴データの範囲、関係する機械学習(ML)または深層学習(DL)アルゴリズムによっては、PFAの精度が疑問視されることがある。

線形回帰や多項式回帰は残存耐用年数(RUI)を決定するためにしばしば使用され、一方、LSTM(Long Short-Term Memory)やランダムフォレスト・アルゴリズムは故障予測を改良するために使用され、その成功の度合いは様々である。[4] [5] [6] 

PFAに具体的な利点があることは明らかだが、確実というわけではない。同レベルのサービス・アベイラビリティを提供し、設備投資の価値を保護するためには、PFAを利用したサポート・プログラムをリモート・ハンド契約で補強することを検討するのが賢明である。

保険としてのリモートハンズ

PFAと組み合わせてリモート・ハンドを使用することで、計画停電と計画外停電の両方にメリットがある。  

計画停電はかなり前からスケジュールを組むことができるため、リソースが自由に利用でき、最も手頃なときに割り当てることができる。リモートハンズ・プロバイダーは、規模の経済も享受できます:豊富なリソースを配置できるため、自社で技術者を雇用し、トレーニングし、管理するよりも大幅なコスト削減が可能です。(必要なスキルセットにもよりますが、1人のエンジニアに年間6桁以上のコストがかかることもあります)。

計画外の停電では、サービスの復旧が最大の関心事です。 リモートハンズ契約を結んでいない計画外の停電は、解決に時間がかかります。現場でのトラブルシューティングと問題解決のために配置されるリソースは、まず、配置される前に、確認、保険、およびオンボードされる必要があります。規模の大きなリソースを持つリモートハンズ・プロバイダーは、すでにリソースを吟味して割り当てているため、レスポンスタイムが速くなる。

戦略的技術投資

サービスの性質にもよるが、大規模な環境で継続的な停電が発生した場合、数百万ドルのコストがかかることもある。リモートハンズ契約は、単独で、あるいはPFAを含むより広範なディザスタリカバリ計画の一部として運用される場合、費用項目として扱うことができ、より大規模なソフトウェアやサービスのサブスクリプションの一部として資産計上される可能性さえある。

わずかな運用コストの増加で、長期的なサービス停止に伴う数百万ドルの損失を防ぐことができる。

リモートハンズサポートへの投資を正当化するために、どのようなアプローチを用いるべきか?企業財務の指標は企業によって異なるが、いくつかの図式を描くことができる。

ケーススタディ

あなたは、北米のデータセンターにある3つの環境を1年間カバーする25万ドルのリモートハンズ契約を評価しています。ダウンタイムの推定コストは1時間あたり10万ドルです(立ち往生やアイドル状態のリソース、収益の損失、ブランドへの影響などを含む)。前回、ハードウェアの故障による障害が発生したとき、アプリケーションは6時間ダウンしました。会社への正味の影響は600,000ドルでした。

企業財務は、投資が10%のハードル・レート(最低許容収益率またはMAARと呼ばれることもある)をクリアしない限り、IT支出を承認しない。

遠隔操作契約によって期待されるメリットは、計画外停電の平均復旧時間(MTTR)の短縮である。推定によれば、MTTRは大幅に短縮できる。前回の停電でMTTRが50%短縮されれば、サービスを3時間早く復旧させることができ、30万ドルの節約になった。

企業財務は、将来の予定外のダウンタイムを減らすための保険として、このリモートハンズ契約の購入を承認すべきだろうか?

ROIの簡単な計算式を使う:

ROI = (純利益 / 投資コスト) * 100

この場合、純利益は30万ドルの節約から25万ドルの契約費用を差し引いた5万ドルとなる。

ROI = ($300,000-$250,000)/$250,000 * 100

万ドルを25万ドルで割ると20%、つまりファイナンスが要求するMARRの2倍となる。

(このリターンは、たった1回の停電に対するものであることに留意してほしい。1年間に複数回の計画外停電が発生した場合、節約効果はかなり高くなる)。

コーポレートファイナンスは、リモートハンズ契約への投資を承認すべきである。

概要

人工知能は故障予知解析の分野で大きな進歩を遂げており、PFAの有効性は今後数カ月、数年でさらに高まるだろう。

その間も、投資保護の必要性は変わりません。リモートハンズ契約への戦略的投資は、計画的なダウンタイムの柔軟性を活用しながら、計画外の停止による財務的影響を軽減するのに役立ちます。

備考

[1] https://medium.com/@brijesh_soni/why-random-forests-outperform-decision-trees-a-powerful-tool-for-complex-data-analysis-47f96d9062e7

[2] Yadav, D. K., Kaushik, A., & Yadav, N. (n.d.).Predicting machine failures using machine learning and deep learning algorithms.ScienceDirect. https://www.elsevier.com/locate/smse

[3] https://www.bakerhughes.com/bently-nevada/blog/unplanned-downtime-key-disruptor-industry

[4]https://medium.com/@jatin2707/machine-failure-prediction-a-comprehensive-guide-524726c3b1fd

[5] https://www.atlassian.com/incident-management/kpis/cost-of-downtime

[6] 「予知保全」より:デロイトのアプローチ」 https://www2.deloitte.com/content/dam/Deloitte/us/Documents/process-and-operations/us-predictive-maintenance.pdf

 

トピックスリモートハンド、機械学習(ML)、人工知能(AI)、ディープラーニング(DL)、生産性、データセンター、クラウド、故障予測分析(PFA)、リカレントニューラルネットワーク(RNN)、ハイパフォーマンスコンピューティング(HPC)、企業財務、戦略的投資、線形回帰、長期短期記憶(LSTM)、 ランダムフォレスト、ポートフォリオ理論

次のページ
次のページ

エヌビディアのComputex 2025革命:データセンターをAI工場に変える