ハードウェア

2万基のGPUを同時管理するクラウド企業がGPUクラスタの安定性の低さを解説


クラウドコンピューティング企業はAIの開発や運用に役立つGPUクラスタを製品として展開しています。そんなクラウドGPUの安定性について、これまでに400万基以上のGPUインスタンスを管理してきたModalが解説しています。

Keeping 20,000 GPUs healthy
https://modal.com/blog/gpu-health


Modalは「Amazon Web Services(AWS)」「Google Cloud(GCP)」「Microsoft Azure」「Oracle Cloud Infrastructure(OCI)」といった大手クラウド企業からコンピューティングリソースを調達してGPUクラウドサービスを展開しています。記事作成時点では2万基のGPUを同時に管理しており、過去数年間で管理したGPUの数は400万基を超えています。

Modalは「クラウドA」「クラウドB」「クラウドC」「クラウドD」と名前を伏せつつ、各クラウド企業の特徴を以下のように説明しています。

・クラウドAのインスタンス起動APIは最もシンプルで信頼性が高い。ベアメタルもしくは仮想マシンにリクエストしてHTTP 201が返ってきた場合、99.6%の確率で起動に成功し、起動時間は2~3分と比較的短時間である。
・クラウドAのH100で画像生成AIのStable Diffusionを実行した場合、クラウドCやクラウドDと比べてパフォーマンスが50%低くなる。
・クラウドCでは2025年の数カ月間にH100が非常に高温になり、90度を超えることもあった。温度が70度後半に達すると処理性能が低下し始める。
・クラウドCのH100は他のクラウドより228MiB多くメモリを予約する。このため、ユーザーが使用できるメモリが少なくなる。
・クラウドDのA10ではクロック周波数の低下が頻繁に発生する。
・クラウドDのアメリカリージョンの1つのA10では修正不可能なECCエラーが頻繁に発生する。
・クラウドDはコストパフォーマンスが最も良好。特にベアメタルサーバーは最高である。

上記の特徴からも分かる通り、GPUクラウドサービスはCPUクラウドサービスと比べて全体的に信頼性が低いとのこと。以下のグラフは1時間ごとのエラー発生率をクラウド別に示したもので、2025年11月9日にはクラウドBで0.18という高いエラー率を記録したことが分かります。


また、GPUクラウドではマシンイメージのバージョンによって信頼性が大きく変化することも確認されています。以下のグラフはある1週間におけるマシンイメージのバージョン推移を示したもので、各色が異なるバージョンを表しています。グラフ左端の月曜日頃から「青色バージョンからオレンジ色バージョンへのアップデート」が始まったものの、オレンジ色バージョンで問題が発生し、水曜日を境に青色バージョンへのロールバックが必要となったことが分かります。


Metaが発表したLlama3のトレーニングに関するレポートでも「予期せぬ問題の58.7%がGPUに由来するものだった。一方で、CPUに由来する問題は0.5%だった」ということが報告されています。これらの結果をもとに、Modalは「GPUの性能は驚異的ですが、信頼性が足かせとなっています」と結論付けています。

この記事のタイトルとURLをコピーする

・関連記事
半導体業界は前例のない「ギガサイクル」に突入、AIの大規模な発展によりコンピューティング・メモリ・ネットワーク・ストレージの経済性が同時に高まる - GIGAZINE

「データセンター」の中身はどうなっているのか? - GIGAZINE

NVIDIAがジョブスケジューラー「Slurm」の開発企業を買収、AIやHPCのエコシステム強化へ - GIGAZINE

TPU vs GPU、なぜGoogleは長期的にAI競争に勝てる立場にあるのか? - GIGAZINE

AIブームによってSSD価格が急騰して重量当たりの価格が「金」に匹敵するレベルに - GIGAZINE

2026年は供給されるメモリの最大70%をデータセンターが消費し他分野にも品不足が波及へ - GIGAZINE

in ハードウェア, Posted by log1o_hf

You can read the machine translated English article A cloud company managing 20,000 GPUs sim….