富士通と理化学研究所,独自の生成AIに基づく創薬技術を開発
電子顕微鏡画像からタンパク質の広範囲な構造変化の予測を実現
2023-10-10
富士通(株)(注1)(以下 富士通)と国立研究開発法人理化学研究所(注2)(以下 理研)計算科学研究センター(R-CCS)HPC/AI駆動型医薬プラットフォーム部門(注3)は,創薬の開発期間や費用を劇的に削減する次世代IT創薬技術の開発などを目指し2022年5月に開始した共同研究において,生成AIを活用し,大量の電子顕微鏡画像からタンパク質の構造変化を広範囲に予測できるAI創薬技術を2023年1月に開発した。
生命活動や病気のメカニズムと深く関わっているタンパク質は柔軟で,さまざまな形態をとることで生体内の他の分子と相互作用している。例えば,ウイルスへの感染を抑制する薬を効率的に設計するには,薬の標的となるタンパク質の形態や構造変化の様子を把握することが重要。しかし,標的タンパク質の広範囲な構造変化を捉える上では,高度な専門知識や長期におよぶ研究期間,多くの研究開発費用が求められることが課題であった。
本共同研究では,標的タンパク質の大量の電子顕微鏡の画像から,その立体構造の多様な形態とそれらが取り得る割合を正確に推定する生成AI技術と,推定された割合から標的タンパク質の構造変化を予測する技術を開発し,それら二つの技術を基にタンパク質の構造変化を3D密度マップの連続的な変形として予測できるAI創薬技術を開発した。両者は,本技術に関する論文を,2023年10月10日(日本時間)に,医療用画像処理分野のトップ国際会議「MICCAI 2023」で発表した。
この技術は,従来の手順(注4)に比べて10倍以上高速に大量の電子顕微鏡画像からタンパク質の形態と構造変化の推定が可能になるため,細菌やウイルスなどの標的タンパク質に結合する薬剤の設計過程を革新することが期待できる。
両者は今後,今回開発した生成AI技術を,標的タンパク質と抗体の複合体解析や分子の大域的な構造変化を高精度かつ高速に予測する次世代IT創薬技術を実現するためのコア技術のひとつとして活用していく。また,富士通は,タンパク質の構造変化の予測技術を,先端技術を素早く試せるAIプラットフォーム「Fujitsu Kozuchi (code name) - Fujitsu AI Platform」のAIイノベーションコンポーネントとして,2023年10月10日より提供開始する。
背景
生物の生命活動や病気のメカニズムと深く関わっているタンパク質は非常に柔軟で,さまざまな形態を取り得ることで生体内の他の分子と相互作用している。例えば,ヒトに感染するウイルスが体内に侵入するには,ウイルス表面のタンパク質の形態が変化して細胞表面のタンパク質と結合するため,感染を抑制する薬を効率的に設計するには,ウイルス表面におけるタンパク質の多様な変化の形態を知ることが重要となる。しかし,タンパク質はそれぞれの原子が3次元の座標を持ち,原子数×3の次元を持つ高次元データとなる。このような高次元空間で,標的タンパク質の広範囲な構造変化の情報を得るには,高度な専門知識と試行錯誤が必要であり,長い期間と多くの費用が必要であった。この課題解決に向けて,富士通と理研は,独自の生成AI技術とスーパーコンピュータ「富岳」(注5)で処理した大規模な画像データを活用することで以下の二つの新たな技術を開発した。
二つの創薬技術について
タンパク質の広範囲な構造変化を予測するためには,最初に構造の割合を推定し,次に構造の時間変化を正確に推定するという2つのステップの推定を実現する必要がある。富士通独自の生成AI技術「DeepTwin(ディープツイン)」と理研の創薬分子シミュレーションの知見を応用して開発した二つの技術を活用して,標的タンパク質の構造変化の予測を従来の1日から2時間に短縮(注6)することが可能となった。今回開発した技術は,製薬企業の創薬プロセスの迅速化・効率化に貢献することが期待される。
1. タンパク質の立体構造の多様な形態と割合を正確に推定する生成AI技術
広範囲な構造変化の正確な予測には,標的タンパク質がどのように変化するのか,その形態の割合を正確に捉える必要がある。今回標的タンパク質のある瞬間をとらえた大量の投影画像と投影角から投影対象を組み立てる計算をして立体構造の多様な形態を3D密度マップとして復元すると同時に,復元された立体構造の各形態への変化の頻度を手掛かりに標的タンパク質が取り得る形態の割合を実験データに基づく形で見積もることを可能にした。
2. タンパク質の立体構造の低次元特徴量をもとに構造変化を予測する技術
標的タンパク質の立体構造は通常,高次元データであるため,その構造変化を直接分析することは困難である。そこで,今回低次元化された特徴量を用いて化学分野で使われる反応経路(注7)の分析を適用可能にする技術を開発した。低次元での分析結果を独自の生成AIにより元の高次元データに復元することで,標的タンパク質の構造変化の予測を実現した。
技術の詳細
タンパク質の広範囲な構造変化を予測するには,高次元の構造分布となる多様な形態と各形態の割合(図の(2))を正確に捉える必要があるが,タンパク質の構造分布は高次元であるため,直接高次元の構造分布を得ることは困難であった。
そこで,本技術では,高次元の構造分布から,本質的な性質を保存した分析可能な低次元の潜在分布を獲得する「DeepTwin」のノウハウを応用した。具体的には,さまざまな方位からの多様な形態が映し出された大量の電子顕微鏡像を生成AIの学習に用いることで,3D密度マップそのもののデータがなくても,タンパク質の構造変化分析が可能な低次元の潜在分布を獲得する生成AIを開発した。この生成AIモデルでは,理論上(注8),撮影画像数が十分であれば,図の②と同一の分布(図の(1))を低次元空間内で平易(注9)な数式として得ることができる。つまり,本技術に大量の電子顕微鏡画像を適用すれば,従来は得ることが困難であったタンパク質の各形態の割合を間接的に高精度に推定することができる。
タンパク質立体構造の構造変化とは図の(3)の水色の破線で示されるように,ある形態(3D密度マップ)から別の形態への変化の様子を意味している。この構造変化は,図の(2)のような分布が獲得できた場合,例えば理論化学分野で開発された最適反応経路方程式(注10)を解くことで得ることができる。しかしながら,実践的には高次元の分布上で方程式を解き最適化経路を求めて構造変化を得ることは困難である。
本技術では,タンパク質のある形態から別の形態への構造変化予測を,本来の高次元空間の本質的な情報を保存した低次元の潜在空間を介すことにより実現した。まず,前項の生成AIモデルの訓練(図)を通して得られる低次元の潜在分布上で平易な数式を基に最適経路(図の(4)の水色破線)を求める。次に,得られた低次元の変化列を,復号化器を用いて高次元化し3D密度マップの変化列に変換する。これにより,これまで困難であったタンパク質の構造変化の予測を可能とした。また,撮影画像が十分な場合,本技術が予測する構造変化は,タンパク質の最適反応経路(前述方程式の解)と等価になることを数学的に示した。
今後について
両者は今後,今回開発したAI創薬技術を,標的タンパク質と抗体の複合体解析や分子の大域的な構造変化を高精度かつ高速に予測するためのコア技術の一つとして活用していく。
理研は,医薬分野におけるSociety 5.0の実現に向け,「富岳」への創薬DXプラットフォーム構築を進めており,標的タンパク質の多様な構造状態を推定する新たな技術の一つとして活用することで創薬プロセスの革新を目指す。また,現在,理研では,今回の成果のように,自らの強みである最先端研究プラットフォーム群(スーパーコンピュータ「富岳」,バイオリソース事業など)を有機的に連携させ,新たな知の領域を,研究分野を超えて効果的に生み出す革新的な研究プラットフォームを創り出すことを目指した様々な取組み(TRIP(注11)など)を推進している。
富士通は,タンパク質の構造変化の予測技術を,先端技術を素早く試せるAIプラットフォーム「Fujitsu Kozuchi (code name) - Fujitsu AI Platform」のコアエンジンとして,2023年10月10日より提供開始する。富士通はサステナブルな世界の実現を目指す「Fujitsu Uvance」の下,あらゆる人のライフエクスペリエンスを最大化する「Healthy Living」を推進しており,今後も富士通が強みをもつAIおよびHPCを組み合わせた技術開発を行うことで,医療分野における社会問題の解決に貢献していく。
商標について
記載されている製品名などの固有名詞は,各社の商標または登録商標。
注釈
注1 富士通(株):
本社 東京都港区,代表取締役社長 時田 隆仁
注2 国立研究開発法人理化学研究所:
本部 埼玉県和光市,理事長 五神 真
注3 計算科学研究センター(R-CCS)HPC/AI駆動型医薬プラットフォーム部門:
部門長 奥野 恭史,上級研究員 徳久 淳師
注4 従来の手順:
論文[Kinman et al, (2023)]で示されている標的タンパク質の構造変化列の構成手順を指す。この手順において変化列は,標的タンパク質の大量の投影画像で訓練された既存生成AIであるcryoDRGNを利用して構成される。
注5 スーパーコンピュータ「富岳」:
スーパーコンピュータ「京」の後継機。2020年代に社会的・科学的課題を解決し日本の成長に貢献すること,世界をリードする成果を生み出すことを目的とし,2021年3月に共用が開始された。電力性能,計算性能,ユーザーの利便性・使い勝手の良さ,画期的な成果の創出,ビッグデータやAIの加速機能の総合力において世界最高レベルを誇る。現在,「富岳」は日本が目指すSociety 5.0の実現に不可欠なハイパフォーマンスコンピューティング(HPC)インフラとして活用されている。
注6 2時間に削減:
タンパク質合成にかかわるタンパク質であるリボソームデータを本技術に適用した場合の効果。
注7 反応経路:
タンパク質の構造変化の過程で,ある形態からエネルギー障壁を乗り越えて新しい形態にたどり着くまでの道のり。
注8 理論上:
多様体仮説や情報科学分野でよく知られたレート歪み理論にもとづき数学的に証明。
注9 平易:
ガウス混合分布で潜在分布の数式を得ることができる。
注10 最適反応経路方程式:
論文[Huo et al, (1997)]で開発されたMaxFlux方程式。
注11 TRIP:
Transformative Research Innovation Platform of RIKEN platformsの略。
https://www.riken.jp/medialibrary/riken/pr/news/2022/trip.pdf
●問い合わせ先
富士通(株)
富士通コンタクトライン(総合窓口)
TEL 0120-933-200(通話無料)
受付時間: 9時~12時および13時~17時30分(土曜日・日曜日・祝日・富士通指定の休業日を除く)
国立研究開発法人理化学研究所
神戸事業所計算科学研究推進室 アウトリーチグループ
https://krs2.riken.jp/m/media-form
理化学研究所 広報室 報道担当
TEL 050-3495-0247
E-mail:ex-press@ml.riken.jp