2025年06月05日 12時10分ハードウェア

AIインフラのトレーニング性能を測定する「MLPerf Training v5.0」の結果が公開される、NVIDIAは前世代から2倍高速化＆AMDは一部のテストでNVIDIAを上回る

AIインフラの性能測定結果をまとめている業界団体のMLCommonsが、AIインフラストラクチャーのトレーニング性能を測定するベンチマーク「MLPerf Training v5.0」の測定結果を2025年6月4日(水)に公開しました。AIチップを開発するNVIDIAとAMDは自社製チップを搭載するAIインフラストラクチャーの優秀さをアピールしています。

New MLCommons MLPerf Training v5.0 Benchmark Results Reflect Rapid Growth and Evolution of the Field of AI - MLCommons
https://mlcommons.org/2025/06/mlperf-training-v5-0-results/

NVIDIA Blackwell Delivers Breakthrough Performance in Latest MLPerf Training Results | NVIDIA Blog
https://blogs.nvidia.com/blog/blackwell-performance-mlperf-training/

AMD Expands AI Momentum with First MLPerf Training Submission
https://www.amd.com/en/blogs/2025/amd-drives-ai-gains-with-mlperf-training-results.html

AI処理用のチップはNVIDIAやAMD、Intelなど複数の企業によって開発されており、それらのAIチップを搭載したAIインフラストラクチャーがDellやOracleなどのベンダーによって展開されています。MLCommonsはAIインフラストラクチャーの推論性能やトレーニング性能を測定できるベンチマークツールを開発しており、チップ開発企業やベンダーによるベンチマーク結果を収集して公開しています。今回発表されたのはトレーニング性能を測定する「MLPerf Training v5.0」の結果です。

MLPerf Trainingには「大規模言語モデルのトレーニングにかかる時間の測定」や「大規模言語モデルの追加学習にかかる時間の測定」といった複数の種類のテストが含まれています。MLCommonsはAIの進歩に応じてテスト内容を更新しており、MLPerf Training v5.0ではこれまでのバージョンで採用されていた「GPT-3のトレーニングにかかる時間の測定」に代わって「Llama 3.1 405Bのトレーニングにかかる時間の測定」というテストが導入されました。

以下のグラフは2024年11月に測定されたMLPerf Training v4.1のスコア(青)とMLPerf Training v5.0のスコア(青緑)を比較したものです。縦軸は各モデルのトレーニングにかかる時間を示しており、バーが短いほど高性能ということになります。AIインフラストラクチャーの処理性能は半年で著しく向上しており、Stable Diffusionの学習速度は2.28倍、Llama 2 70Bの学習速度は2.10倍に向上しました。

NVIDIAはHopper世代とBlackwell世代のAIチップを搭載したAIインフラストラクチャーのテスト結果比較グラフを公開し、BlackwellがHopperの2倍以上の性能を発揮していることをアピールしています。また、NVIDIAはMLPerf Training v5.0のスコアを提出した企業の中で唯一すべてのカテゴリのテスト結果を提出したとのことです。