ソフトウェア

中国のAI企業・DeepSeekがGPT-4oに匹敵するAIモデル「DeepSeek-V3」をリリース、パラメーター数は脅威の6710億個


中国のAI企業であるDeepSeekが、2024年12月26日に大規模言語モデル「DeepSeek-V3」を発表しました。6710億個ものパラメーターを持つDeepSeek-V3はOpenAIのマルチモーダルAIモデル「GPT-4o」に匹敵し、場合によってはGPT-4oを上回る性能を発揮するとのことです。

deepseek-ai/DeepSeek-V3-Base · Hugging Face
https://huggingface.co/deepseek-ai/DeepSeek-V3-Base



DeepSeek-V3, ultra-large open-source AI, outperforms Llama and Qwen on launch | VentureBeat
https://venturebeat.com/ai/deepseek-v3-ultra-large-open-source-ai-outperforms-llama-and-qwen-on-launch/

DeepSeek-V3 is Now The Best Open Source AI Model
https://analyticsindiamag.com/ai-news-updates/deepseek-v3-is-the-best-open-source-ai-model/

DeepSeek is preparing Deep Roles and released a new V3 model
https://www.testingcatalog.com/deepseek-preparing-deep-roles-and-dropping-high-performing-v3-model/

今回発表されたDeepSeek-V3は、6710億のパラメーターを持ち14兆8000のトークンでトレーニングされた大規模言語モデルです。海外メディアのTestingCatalogによると、DeepSeek-V3はこれまでLlama 3.1 405Bが持っていたパラメーター数4050億の記録を上回り、過去最大のパラメーターを持つ大規模言語モデルとのこと。

DeepSeek-V3のトレーニングにはNVIDIAのGPU「H800」を約278万8000GPU時間用いたとのことで「約557万ドル(約8億7000万円)を要しましたが、大規模言語モデルの事前トレーニングには一般的に数億ドル(数千億円)を要するため、DeepSeek-V3のトレーニング費用ははるかに安価です」と語っています。


マルチヘッドアテンションと複数の専門的ニューラルネットワークを統合する手法であるMixture of Experts(MoE)アーキテクチャを組み合わせて設計されたDeepSeek-V3では、6710億という膨大なパラメーターの中から各タスクの処理に最適な370億パラメーターのみを選択して活性化させることで、計算効率と処理性能の両立を実現しています。

また、DeepSeek-V3はMoEアーキテクチャ上にモデル全体のパフォーマンスを損なうことなく、ネットワーク間の負荷を動的に監視・調整する負荷分散戦略を採用。さらに複数の将来トークンを同時に予測することを可能にする「マルチトークン予測(MTP)」と呼ばれる技術を実装しています。これにより、前世代のDeepSeek-V2と比べて3倍高速となる毎秒60トークンの生成が可能です。

DeepSeekはDeepSeek-V3に関するベンチマークスコアを公開しており、「Qwen2.5 72B」「Llama 3.1 405B」「Claude 3.5 Sonnet-1022」「GPT-4o 0513」に匹敵することが報告されています。特に「HumanEval-Mul」などのプログラミングや「CNMO 2024」などの数学、「C-Eval」などの中国語処理において他のAIモデルに対して際立った結果を示していることが明らかになりました。


さらにDeepSeekは「当社はDeepSeek-R1の検証パターンとリフレクションパターンをDeepSeek-V3に巧みに組み込み、推論能力を大幅に向上させることに成功しました」と述べています。

また、2025年2月8日までの期間限定でDeepSeek-V3のAPI料金はDeepSeek-V2から据え置きとなっています。入力時の価格は100万トークンあたり0.27ドル(約42円)、出力時は100万トークンあたり1.10ドル(約173円)です。


なお、DeepSeekはDeepSeek-V3をオープンソース化しており、ソースコードなどはGitHubからダウンロード可能です。

deepseek-ai/DeepSeek-V3
https://github.com/deepseek-ai/DeepSeek-V3

この記事のタイトルとURLをコピーする

・関連記事
中国のAI企業DeepSeekがOpenAI o1に匹敵する推論AIモデル「DeepSeek-R1-Lite-Preview」公開、オープンソース化する計画も - GIGAZINE

OpenAIが推論能力を大幅に強化した「o3」シリーズを発表、 推論の中でOpenAIの安全ポリシーについて「再考」する仕組みを導入 - GIGAZINE

OpenAIは次世代AIモデル「GPT-5」の開発で次々と問題に直面しておりコストが膨らんでいる - GIGAZINE

AlibabaのQwenチームが画像を認識できるオープンウェイトAIモデル「QVQ」をリリース - GIGAZINE

AIモデルが爆速で賢くなっているのでテスト方法が追いついていない - GIGAZINE

in ソフトウェア, Posted by log1r_ut

You can read the machine translated English article Chinese AI company DeepSeek releases 'De….