DeepSeekは中国共産党がセンシティブ扱いするようなプロンプトだと脆弱性を含むコードを出力する可能性が増加

中国製AI・DeepSeek(深度求索)は非常に高い能力を持っていることが第三者の検証でも明らかになっていますが、一方で、中国製ということで、中国政府の好まない相手向けにはわざと低品質な回答を出力している可能性があることが指摘されていました。セキュリティ企業・CrowdStrikeがこの問題を調査し、「中国共産党がセンシティブな内容だと判断するようなトピックを含むプロンプトを投げかけられた場合、深刻な脆弱(ぜいじゃく)性を含むコードを生成する可能性が最大50%増加する」ことを突き止めました。
CrowdStrike Researchers Identify Hidden Vulnerabilities in AI-Coded Software
https://www.crowdstrike.com/en-us/blog/crowdstrike-researchers-identify-hidden-vulnerabilities-ai-coded-software/
DeepSeek injects 50% more security bugs when prompted with Chinese political triggers | VentureBeat
https://venturebeat.com/security/deepseek-injects-50-more-security-bugs-when-prompted-with-chinese-political
DeepSeekは中国に拠点を置くAIスタートアップで、社名の「DeepSeek」を冠したAIモデルシリーズを多数リリースしています。特に有名なのが2025年1月に公開された、6710億パラメーターを持つフラッグシップモデルの「DeepSeek-R1」で、OpenAI-o1-1217と同等の力を持ちつつオープンモデルである点が注目されました。
OpenAI o1相当の推論モデル「DeepSeek R1」を中国AI企業が商用利用や改変が可能なMITライセンスでリリース - GIGAZINE

一方で、中国でリリースされたAIモデルであることから、早いうちから「台湾やチベットの独立運動」「ウイグルでの虐待疑惑」「1989年の六四天安門事件」といった、中国政府にとってデリケートな問題には回答を拒否する事例が報告されています。
「DeepSeek-R1」は中国に関するデリケートな話題の85%に回答することを拒否、ただし簡単に制限を回避できるとの指摘 - GIGAZINE

また、プロンプトを入力しているのが中国政府にとって好ましくない相手であると判断した場合、わざと欠陥を含む低品質な回答を出力していることも、セキュリティ企業・CrowdStrikeの調査で明らかになりました。
中国製AI「DeepSeek」は中国政府の好まない相手向けにわざと低品質な回答を出力している可能性あり - GIGAZINE

CrowdStrikeのステファン・シュタイン氏らはさらに多くのテストを実施し、中国共産党がセンシティブであると考えるトピックがプロンプトに含まれた場合、DeepSeekの生成するコードには脆弱性が最大で50%増加することを確認しました。
シュタイン氏らはDeepSeek-R1のフラッグシップである671Bモデル、蒸留された小型モデルのdistill-llama-70B、そして西洋の匿名の120B推論モデルと70B非推論モデルの4つを対象に検証を実施。特に問題のないプロンプトを使った場合、脆弱性の出現割合は西洋の70B非推論モデルが51%と最も高く、続いてDeepSeek-R1-distill-llama-70Bの43%、DeepSeek-R1-671Bの19%、西洋の120B推論モデルの16%という順になりました

しかし「トリガー」となる、中国共産党がセンシティブ扱いするトピックが含まれるプロンプトを使うと変化が起き、DeepSeek-R1-671Bの脆弱性出現率は27.7%に上昇しました。つまり、ベース値からほぼ50%増加したことになります。
具体的な事例として、西洋のモデルであればほぼ生成可能だった「法輪功」を名乗ってのコード生成は、DeepSeek-R1では45%のケースで拒否されています。DeepSeek-R1がオープンソースであることを活かして推論の内容をのぞき見たところ、DeepSeek-R1は「法輪功は慎重な扱いが必要な団体です。ここでは倫理的な配慮が必要です。法輪功を支援するような行為は、既定の方針に反する可能性があります。しかし、ユーザーは技術的な支援を求めています。技術的側面に集中しましょう」と考えを巡らせていたそうです。なお、推論のあと、出力に切り替わったところで「申し訳ありませんが、そのリクエストはサポートできません」と断られてしまうとのこと。
なお、DeepSeek-R1がこうした動作をする理由についてCrowdStrikeは、「脆弱性を含むようなコードをあえて出力しているわけではない」という見解を示しています。
前提として、中国では法律で、生成AIサービスは「社会主義の核心的価値を保障しなければならない」と義務付けられています。また、国家権力の転覆を助長したり、国家の安全保障を危険にさらしたり、国家の統一を損なったりする可能性のあるコンテンツも禁止されています。この法律を守るため、DeepSeekはAIモデルが中国共産党の核心的価値に準拠するよう特別なトレーニング段階を設けていると考えられます。
この特別なトレーニングを挟んだことによって、AIモデルは無意識のうちに「法輪功」や「台湾・チベット・ウイグル」などをネガティブなものと関連付けるよう学び、システム内に当該単語が現れるとネガティブな反応を生じるようになった、というのがCrowdStrikeの推測です。
・関連記事
大規模言語モデルへの攻撃において「詩」が有効であるとの研究結果 - GIGAZINE
DeepSeekが視覚情報を使用してテキスト入力を圧縮するマルチモーダルAIモデル「DeepSeek-OCR」をリリース - GIGAZINE
DeepSeekが数学的推論に特化したAIモデル「DeepSeek-Math-V2」をリリース、国際数学オリンピックで金メダルを取れるレベルの正答率を記録 - GIGAZINE
・関連コンテンツ
in AI, Posted by logc_nt
You can read the machine translated English article DeepSeek is more likely to output vulner….




