2025年03月07日 12時40分ソフトウェア

AMDがAMD製GPUでトレーニングしたオープンソースの言語モデル「Instella」をリリース、同等モデルより高性能

AMDがオープンソースの言語モデル「Instella」を発表しました。InstellaはAMD Instinct MI300X GPUを使用してトレーニングされた30億パラメーターのモデルで、Llama-3.2-3B、Gemma-2-2B、Qwen-2.5-3Bなどの最先端のオープンウェイトモデルと比較して競争力のあるパフォーマンスを発揮すると述べられています。

Introducing Instella: New State-of-the-art Fully Open 3B Language Models — ROCm Blogs
https://rocm.blogs.amd.com/artificial-intelligence/introducing-instella-3B/README.html

Instellaは30億パラメーターを持つテキスト専用のトランスフォーマーベースの言語モデルで、36個のデコーダーレイヤーを持ち、それぞれのデコーダーレイヤーに32個のアテンションヘッドがあります。最大4096トークンのシーケンスに対応し、語彙サイズは約5万トークンとのこと。

Instellaは128個のAMD Instinct MI300X GPUを使用して4兆1500億トークンのデータでトレーニングされています。トレーニングに使用されたトークン数と性能のバランス面で既存の完全オープンなモデルを上回ったほか、最先端のオープンウェイトモデルと比較しても引けを取らない性能を発揮したとのこと。

下図は縦軸をベンチマークの平均スコア、横軸をトレーニングに使用したトークン数としてInstellaとLlama-3.2-3B、Gemma-2-2B、Qwen-2.5-3Bなどの最先端のオープンウェイトモデルを並べたもの。左の事前トレーニング済みモデル同士の比較ではInstellaが既存のモデルを上回り、右の命令調整済みモデル同士の比較でもInstellaは互角以上のポジションについています。

命令調整済みモデルの具体的なベンチマークの結果は以下の通り。各ベンチマークにおいて最も優れている数字が太字で、2番目に優れている数字に下線が引いてあります。

Models	Size	Training Tokens	Avg	MMLU	TruthfulQA	BBH	GPQA	GSM8K	Minerva MATH	IFEval	AlpacaEval 2	MT-Bench
Open Weight Models
Gemma-2-2B-Instruct	2.61B	~2T	39.04	58.35	55.76	42.96	25.22	53.45	22.48	55.64	29.41	8.07
Llama-3.2-3B-Instruct	3.21B	~9T	47.53	61.50	50.23	61.50	29.69	77.03	46.00	75.42	19.31	7.13
Qwen2.5-3B-Instruct	3.09B	~18T	48.72	66.90	57.16	57.29	28.13	75.97	60.42	62.48	22.12	8.00
Fully Open Models
StableLM-zephyr-3B	2.8B	4T	30.50	45.10	47.90	39.32	25.67	58.38	10.38	34.20	7.51	6.04
OpenELM-3B-Instruct	3.04B	~1.5T	14.11	27.36	38.08	24.24	18.08	1.59	0.38	16.08	0.21	1.00
Instella-3B-SFT	3.11B	~4T	42.05	58.76	52.49	46.00	28.13	71.72	40.50	66.17	7.58	7.07
Instella-3B-Instruct	3.11B	~4T	44.87	58.90	55.47	46.75	30.13	73.92	42.46	71.35	17.59	7.23

トレーニングパイプラインは以下の通り。まず4兆トークンのデータで1段階目の事前トレーニングを行い、続いて580億トークンのデータで多段階の推論や数学の能力を強化する2段階目の事前トレーニングを行ったそう。その後、267億トークンの指示応答ペアデータでユーザーのクエリに応答する能力を高め、最後に7億6000万トークンのデータで出力の有用性、正確性、安全性を高めるためのトレーニングを行いました。

Instellaは「完全にオープンでアクセス可能なモデル」として、トレーニングのハイパーパラメータやデータセット、使用したコードなどが公開されています。トレーニングの各段階のチェックポイントもそれぞれHugging Faceからダウンロード可能です。

AMDはInstellaの取り組みを通して、「AMD製のGPU上で言語モデルをトレーニングする可能性を示せた」とコメントしました。今後もコンテキストの長さ、推論能力、マルチモーダル機能など複数の側面からモデルを強化していく予定とのことです。