Googleが高精度でがんの遺伝子変異を検出するAI「DeepSomatic」を発表、オープンソース化で全世界のがん研究を加速へ

Googleの研究開発部門であるGoogle Reearchが、がんの遺伝的変異を特定するためのオープンソースのAIツール「DeepSomatic」を、カリフォルニア大学サンタクルーズ校などと共同で開発したことを発表しました。
Using AI to identify genetic variants in tumors with DeepSomatic
https://research.google/blog/using-ai-to-identify-genetic-variants-in-tumors-with-deepsomatic/
Accurate somatic small variant discovery for multiple sequencing technologies with DeepSomatic | Nature Biotechnology
https://www.nature.com/articles/s41587-025-02839-x
Today, @GoogleResearch announced DeepSomatic, a new machine learning model developed with our partners, including @ucscgenomics and @ChildrensMercy, that accurately identifies genetic variants in cancer cells — a critical step for delivering more precise treatments for patients.…
— Google (@Google) October 16, 2025
がんの遺伝子解析では、親から受け継がれて体の全ての細胞に存在する先天的な変異と、紫外線や化学物質、DNA複製の際の偶然のエラーなどによる後天的な変異を正確に見分ける必要があります。
DeepSomaticは、先天的変異を発見するためのツール「DeepVariant」の拡張機能で、がん細胞と正常な細胞のゲノム配列データを画像に変換し、それを畳み込みニューラルネットワーク(CNN)で解析します。この画像解析により、遺伝子配列を読み取るシーケンシングの過程で生じる微細なエラーと、本物の遺伝的変異を区別し、がん特有の体細胞変異を高精度で検出します。

この手法により、DeepSomaticは既存の解析ツールを上回る性能を発揮。特にこれまで検出が難しかった、遺伝子コードの一部が挿入されたり欠失したりする「インデル」と呼ばれる変異の特定において、大幅な精度向上を実現したと研究チームは報告しています。
DeepSomaticの高性能を支えているのは、「CASTLE」と名付けられた高品質な学習用データセットです。このデータセットは、乳がんと肺がんのサンプルについて、3種類の主要なシーケンシングシステムのデータが統合されたもので、各プラットフォームが含んでいるエラーを取り除くことで非常に正確なものになっているとのこと。
実際に、主要なシーケンシングシステムであるIlluminaのデータを用いたインデル変異の検出において、既存のツールの精度を示すF1スコアがおよそ80%だったのに対し、DeepSomaticは90%を達成。また、PacBioのデータでは、既存のツールが50%未満のスコアだったところ、DeepSomaticは80%以上という高い精度を記録し、その優位性を示したそうです。
さらにDeepSomaticは、ホルマリンで固定された古い組織サンプルや、ゲノム全体のうちタンパク質の設計図となる部分だけを解析するエクソームシーケシングのデータなど、解析が難しい条件下や情報量が少ないデータに対しても高い性能を維持できることが確認されています。

加えて、DeepSomaticは、学習に使用した乳がんや肺がんだけでなく、全く異なる種類のがんにもその能力を応用できるとGoogle Researchはアピール。実際に、悪性度の高い脳腫瘍である膠芽腫(こうがしゅ)のサンプルを解析したところ、原因となる遺伝的変異を正確に特定することに成功しました。
また、小児で最も多いがんである小児白血病の解析も行われました。白血病は血液のがんであるため、比較対象となる正常な血液細胞を採取することが困難ですが、がん細胞のデータのみを用いる「腫瘍のみ」の解析でも、既に知られていた変異に加えて、新たに10個の変異を発見することができたのこと。

Google Researchは「Google Researchは、人々に真の具体的な影響を与える基礎的なブレークスルーを起こしています。私たちがこの仕事をするのは、未来への道は、人々にとって現実をより良くすることができる研究に基づいているからです」と述べています。
DeepSomaticはBSDライセンスの下で、GitHubでリポジトリが公開されています。
GitHub - google/deepsomatic: DeepSomatic is an analysis pipeline that uses a deep neural network to call somatic variants from tumor-normal and tumor-only sequencing data.
https://github.com/google/deepsomatic
また、データセットのCASTLEもGitHubにホストされています。
GitHub - CASTLE-Panel/castle: CAncer Standards Long-read Evaluation
https://github.com/CASTLE-Panel/castle
・関連記事
がん治療などに役立つ細胞分析AI「C2S-Scale 27B」をGoogleが開発 - GIGAZINE
世界で初めてAIでウイルスのゲノムを設計することに成功 - GIGAZINE
OpenAIがタンパク質設計モデル「GPT-4b micro」を開発、iPS細胞に関与するタンパク質の再設計を目指す - GIGAZINE
タンパク質構造予測AIモデル「AlphaFold3」のオープンソース実装がついに公開される - GIGAZINE
がん細胞の特定や腫瘍内の遺伝子異常の検出などができる病理学に特化した世界最大のオープンソースAIモデル「H-optimus-0」 - GIGAZINE
・関連コンテンツ
in AI, ソフトウェア, サイエンス, Posted by log1i_yk
You can read the machine translated English article Google launches DeepSomatic AI for highl….







