ソフトウェア

AIが科学的発見に起こす「革命」についてGoogle DeepMindのAlphaFoldチームを率いた人物が語る


Google DeepMindが2018年に開発した、アミノ酸の配列情報からタンパク質の立体構造を予測するAI「AlphaFold」は、多くの重要な分野での研究を加速させることを目的に、2021年にオープンソース化され、2024年にはより多くの生命分子の構造と相互作用を予測できるAIモデル「AlphaFold 3」がリリースおよびオープンソース化されています。そんなAlphaFoldのチームを率いたジョン・ジャンパー氏が、AlphaFoldのなにがそこまで優れていて、いかに科学的発見に革命をもたらすのかについて、AIスタートアップスクールの講演で語りました。

Nobel Laureate John Jumper: AI is Revolutionizing Scientific Discovery - YouTube - YouTube


AIスタートアップスクールの講演に登場したジャンパー氏は、「AIのシステム、テクノロジーおよびアイデアは、非常に具体的な方法で世界を変え、科学の進歩を加速させて新たな発見を可能にするために使用できると、私は心から信じています」と語りました。


ジャンパー氏は物理学を専攻して博士号を取得していましたが、あまり物理学の分野に興味を引かれなくなり、計算生物学の会社に勤めたそうです。計算生物学とは、生物学の問題の解決やデータ解析に、計算機科学、応用数学、統計学の手法を応用する分野です。その後仕事を辞めたジャンパー氏は再度大学に戻り、生物物理学を学びました。その後、ジャンパー氏はGoogle DeepMindに入社します。

ジャンパー氏は、生物学研究の難しい点として、細胞の複雑さを挙げました。例えば、タンパク質は筋肉の収縮・血液の輸送・光の感知・食物のエネルギー変換など、ほぼすべての生物学的プロセスに関連する物質ですが、人間が発見した2億を超えるタンパク質のほとんどはアミノ酸配列しか判明していないほど複雑な構造を持っています。アミノ酸配列から立体構造を推測することは「タンパク質のフォールディング問題」と呼ばれ、長年にわたり生物学上の大きな問題となってきました。


また、タンパク質の構造を何らかの形で特定できた場合に、それをデータバンクに登録するまでのプロセスも手順が複雑で時間がかかるものになっています。ジャンパー氏は「コミュニティが解明したタンパク質構造に関する学術的正解のほぼ全てを表すデータセットが存在し、誰でも簡単に利用できるように集める必要があります。解明されるデータは毎年増え続けていますが、研究のためには圧倒的に足りていません」と指摘しました。

そこで活躍しているのがAlphaFoldです。AlphaFoldは既知のタンパク質の約半数にあたる1億以上のタンパク質の立体構造予測を1年で発表しており、AlphaFoldがオープンソースとなって以降はAlphaFoldを使用した論文の引用数が急増するほど高い影響力を持っています。

タンパク質の立体構造を予測するAI「AlphaFold」はどのように生物学の世界を変えているのか? - GIGAZINE


AlphaFoldが大きな貢献をしたのはデータベースの充実だけではありません。タンパク質構造の研究をする場合、データに基づいてコンピューティングし、その立体構造予測を実験的手法によって決定する必要があります。しかし、AlphaFoldによる立体構造予測は、実験的手法で得られたデータを解釈する際に役立つ近似値となるため、携わる人数が少なくても実験を行えたり、研究のスピードを速めることができたりといった効率性の面でも大きな貢献をしています。


ジャンパー氏は、優れたAIシステムを構築する際のポイントとして、「外部ベンチマークを利用する」ことを挙げています。新しいAIモデルを発表する際、ほとんどの場合で「このような高いベンチマークを記録した」と発表がありますが、「自分のアイデアに過剰に適合したベンチマークを選んでしまう」ことがしばしばあるとジャンパー氏は指摘。現実に直面する問題は、トレーニングで扱う問題よりも難しいことがほとんどであるため、優れたAIシステムを構築するには、「開発中」と「ユーザーがシステムを使用するか決めるとき」の両方で、適切に測定する必要があるとジャンパー氏は述べています。

その上で、AlphaFoldをより優れたものにした非常に重要な要因として、ジャンパー氏は2点を挙げました。1つはAlphaFoldのコードをオープンソース化することです。ジャンパー氏によると、専門家が使うためのコードをリリースした場合と、データベース形式で広く公開した場合では、社会への影響力が大きく違ったそうです。ジャンパー氏は「『正しい問題を解くための正しいツール』を作ると、他の研究者の人生や仕事に大きな影響を与えます。Google DeepMindが直接関与してなくても、ツールを公開することで、科学的イノベーションの触媒になることができます。そして、私たちが予想もしていなかったような素晴らしい発見も、いくつも生まれています。単に専門家向けにコードを公開するよりも、データベース形式で広くアクセス可能にする方が、社会学的・科学的インパクトが大きくなります」と語りました。


2点目は、AlphaFoldの「応用範囲の広さ」です。AlphaFoldは主要目的であったタンパク質構造の解析で多く使われただけではなく、「複数のタンパク質の相互作用」や「新しいタンパク質の設計」など、もともと想定されていなかった問題にも活用されました。

以下は、XユーザーのYoshitaka Moriwaki氏が「AlphaFold2使ってちょっとしたバグ技使えるんちゃうかと思った」としてXに投稿したもので、ジャンパー氏が講演で引用しています。Moriwaki氏によると、「タンパク質AとBが結合してAB複合体になるとき、どの部分同士がくっつくか」というのを「共進化情報」から予測するという発想自体は研究者たちの中で知る人ぞ知るものであったそうですが、AlphaFold2ほど精度が高いならばくっつく部分を当てられるのではと思い試してみたところ、完全一致ではないものの複合体予測が可能であったとのこと。ジャンパー氏は、「ツールが学習した知識を別の用途に応用できる能力」が、AlphaFoldをより強力にした要因であると述べています。



ジャンパー氏は「AlphaFoldによって、いわゆる構造生物学の分野全体が5~10%進歩したと思っています。これが世界にとってどれほど重要かは計り知れず、今後さらに多くの発見が生まれるでしょう」とAlphaFoldの貢献について語りました。

この記事のタイトルとURLをコピーする

・関連記事
Google DeepMindがAIですべての生命分子の構造と相互作用を予測できる「AlphaFold 3」をオープンソース化、科学的発見と創薬の加速へ - GIGAZINE

タンパク質の立体構造を予測するAI「AlphaFold」はどのように生物学の世界を変えているのか? - GIGAZINE

「OpenAIのポリシーのせいでAIに関する100件近い論文の再現性が失われてしまう」という指摘 - GIGAZINE

2億件超えのタンパク質立体構造をGoogle検索なみに簡単検索可能なデータベースがDeepMindによって公開される - GIGAZINE

タンパク質の「フォールディング問題」とは何なのか? - GIGAZINE

in ソフトウェア,   サイエンス, Posted by log1e_dh

You can read the machine translated English article The head of Google DeepMind's AlphaF….