ソフトウェア

DeepseekがAIモデル「DeepSeek-R1-0528」をリリース、O4-miniに匹敵する性能でオープンモデルとして公開


中国のAI企業であるDeepSeekが、推論AIモデルのDeepSeek R1をマイナーアップデートし「DeepSeek-R1-0528」をリリースしたと中国SNSのWeChatで発表しました。Hugging Faceのリポジトリにはモデルの説明は含まれておらず、モデルの動作を導く内部コンポーネントである設定ファイルと重みのみが含まれています。

deepseek-ai/DeepSeek-R1-0528 · Hugging Face
https://huggingface.co/deepseek-ai/DeepSeek-R1-0528


マイナーアップデートされた「DeepSeek-R1-0528」はパラメーター数6850億で、やや重みが増しています。アップデート内容は主に推論能力の向上で、「Googleモデルのように深く推論するようになった」「コード生成課題の改善」「速いだけでなく思慮深い、独特な推論スタイル」「1つのタスクにつき最大30~60分という長時間の思考セッション」が特徴だとのこと。


コードの生成や修復、コード実行、出力予測など広範なコーディングでベンチマークを行うLiveCodeBenchではすでにDeepSeek-R1-0528がランキングに掲載されています。DeepSeek-R1-0528の順位(2024年8月1日~2025年5月1日)は記事作成時点だと4位で、OpenAIのo4-mini(medium)とほぼ肩を並べる性能を示すスコアが掲載されています。


DeepSeek-R1-0528に、Trasformerアーキテクチャを発表した論文「Attention Is All You Need」を読ませて要約させているところが以下。


なお、Deepseek-R1-0528はMITライセンスのもとで公開されており、誰でも無料でモデルデータを入手できます。

◆つづき
中国製高性能AIモデル「DeepSeek-R1-0528」はGoogleのAI「Gemini」を使用して蒸留した可能性ありとの臆測が飛び交う - GIGAZINE

この記事のタイトルとURLをコピーする

・関連記事
DeepSeekが数学的推論に特化した「DeepSeek-Prover-V2」をひっそりとリリース、複雑な定理の形式証明に対応 - GIGAZINE

DeepSeekと清華大学の研究者がLLMの推論能力を強化する新しい手法を発表 - GIGAZINE

DeepSeek-V3をアップデートした「DeepSeek-V3-0324」はあらゆるテストで高速化、「最高の非推論モデルになった」との意見も - GIGAZINE

DeepSeek R1のパフォーマンスと価格に匹敵する新しいAIモデル「Hunyuan T1」をTencentが公開 - GIGAZINE

OpenAIがDeepSeekを「中国共産党の管理下にある」として中国製AI技術への制限を主張 - GIGAZINE

in ソフトウェア, Posted by log1i_yk

You can read the machine translated English article Deepseek releases AI model 'DeepSeek-R1-….