[スポンサーリンク]

化学者のつぶやき

高選択的な不斉触媒系を機械学習で予測する

[スポンサーリンク]

2019年、イリノイ大学・Scott E. Denmarkらは、原料および触媒構造データを機械学習させ、不斉触媒反応における選択性予測を可能とするワークフローの確立に始めて成功した。また、これを用いて高不斉収率を示す触媒構造を予測することに成功した。これにより、経験則に依拠する不斉触媒系の最適化プロセスを、機械学習で代替できる可能性が示唆された。

“Prediction of higher-selectivity catalysts by computer-driven workflow and machine learning”
Zahrt, A. F.; Henle, J. J.; Rose, B. T.; Wang, Y.; Darrow, W. T.; Denmark, S. E. Science 2019, 363, eaau5631. DOI: 10.1126/science.aau5631

問題設定

新規有機合成法の開発は、経験的手法に大きく依存している。触媒設計も例外ではなく、反応機構が不明であること、ビッグデータのパターン把握における人間的限界、触媒選択における定量的ガイドラインの欠如などがハードルとなっている。特に不斉触媒においてはわずかなエネルギー差(ΔΔG~1 kcal/mol)が不斉収率(ee)に大きな影響を及ぼすこと、バックグラウンド反応の影響などを理由に、量子計算化学のみに依拠する最適化支援が困難とされている。

これについては、LipkowitzおよびKozlowskiが不斉触媒の3D-QSARを分子相互作用場法(MIF)によって取得するという萌芽的研究[1]を行っているものの、方法論としては普及していない。Sigmanらはこの課題に着目し、化学記述子の多変量回帰分析によって不斉触媒反応のパフォーマンス向上を目指す研究に長年取り組んでいる[2]。しかしながらいずれの系でも、教師データから遠く離れた領域のアウトプット予測は達成されていない

技術や手法のキモ

ケモインフォマティクスおよび機械学習を用い、上記課題の解決を試みることが本論文の目標となる。この戦略は、反応機構解析が不要、候補分子の立体/電子的特性を定量的に記述可能、実験データと記述子を比較することで妥当性が検証可能、などの利点を享受できる。

本論文の主張は、「ワークフローに従えば、現場ニーズを踏まえた二つの予測ができる」ということに集約される。

① 未検討の生成物―触媒の組み合わせが示すeeを予測できる
② 低ee反応を教師データとして用いても、高ee触媒を予測できる

ワークフローの具体的内容は下記の通り。各項目の詳細は次項で説明する。

(A) 触媒構造のin silicoライブラリを作る (B) 各触媒構造に対応する化学記述子を計算 (C) 触媒ライブラリから部分集合を選び、教師データとする (D) 実験データの収集 (E) 機械学習によって予測モデルを生成する (図は頭論文より引用)

今回の研究では、寺田・秋山触媒を用いる不斉N,S-アセタール形成法[4]がモデル反応として選択された。選定理由は以下の通りである。

・触媒の構造多様化が容易
・高収率・高再現性・室温・短時間反応なので迅速スクリーニングに向く
・触媒構造の違いにより幅広い不斉収率(0~99%ee)が出る

 

ワークフローの詳細

A) 触媒構造のin silicoライブラリを作る

Synthetic accessibilityを考慮に入れ、806種のリン酸触媒in silicoライブラリを構築した。403種は合成可能であることが報告されて入る構造、残りは市販試薬から合理的に考案可能な構造にしている。

B) 各触媒構造に対応する化学記述子を計算

配座異性体の三次元情報を反映している、低コストで計算可能、不斉触媒構造の微細な違いを捉えうるetc の特性が化学記述子には求められる。しかしながら既知の記述子を用いる限り、予測は全く上手く行かなかった。これは、記述子が触媒ごとに単一配座のみを考慮しているためだと考えられた。

そこでAverage Steric Occupancy(ASO)という記述子を新たに導入している。ASOは下記の手順で計算され、立体項に加えて配座異性体分布の影響を盛り込んだ記述子となっている。

  1. 各触媒ごとに配座異性体分布を計算で生成
  2. 触媒の配座異性体を同一座標系に定置
  3. 近接原子のvan der Waals半径内にある格子点を1、無ければ0とラベル
  4. 全ての配座異性体に対してiii)を行い、各格子点毎に値を平均する。これにより0 < ASO < 1の値となる。

冒頭論文より引用

ASO記述子を用いて触媒を表現すると、リン酸まわりは緑~基(ASO=中)、BINOL骨格まわりは青(ASO=高)、触媒から離れた格子点は赤(ASO=低)にラベルされる(下図)。つまり、活性中心(リン酸)周りは、配座異性の影響が大きいことが、視覚的にも理解される。

冒頭論文より引用

これに加えて電子的特性を盛り込むため、置換基の静電ポテンシャルマップも計算し、追加の記述子として用いた。結果として触媒1つあたり、16384パラメータを設定し、計算を行った。

C) 触媒ライブラリから代表部分集合を選び、教師データとする

開発現場では、反応そのものや機構について初期段階からは不可知であるという前提を踏まえ、教師データ候補のサンプリングをなるべくランダムに行う必要がある。この目的にKennard-Stoneアルゴリズムを用いている。こうして作られる教師データを論文中ではuniversal training set (UTS)と呼称している。これが十分にランダムであることは主成分分析によって評価される。

D) 実験データの収集

触媒43種×生成物25種(イミン5種×チオール5種)=1075反応を実施し、eeを測定した。

E) 機械学習によって予測モデルを生成する

475反応をテストデータ、残り600反応を教師データとしてランダムに選定し、機械学習を行った。Random Forest、LassoLarsなどいくつかのモデルを検討した中で、サポートベクターマシンが最もよい結果を示した。

機械学習モデルを用いたアウトプットの予測

① 未検討の生成物―触媒の組み合わせが示すee(ΔΔG)を予測する

触媒24種×生成物16種(イミン4種×チオール4種)=384サンプルを教師データとして、サポートベクターマシンによる学習モデルを生成した。残りのサンプルを下記の通り3分割してテストデータとし、それぞれの試験を通じてee値(ΔΔG値)の予測精度を評価した。

<I>テストデータ生成物+教師データ触媒:検討済触媒から未検討生成物の選択性を予測する想定(生成物9種×触媒24種=216反応)。

<II>教師データ生成物+テストデータ触媒:検討済生成物から未検討触媒の選択性を予測する想定(生成物16種×触媒19種=304反応)。

<III>テストデータ生成物+テストデータ触媒:未検討反応の性能を予測する想定(生成物9種×触媒19種=171反応)。

いずれも0.15-0.20 kcal/mol程度の平均偏差(MAD)にて、ee値(ΔΔG値)の予測が可能であった。ベスト触媒Aが与えるee値について、実験値と予測値を比較したものが下図になる。概ね±2%eeで良い一致を示しており、これは現行の量子化学計算による最高予測精度と同等か、それ以上の結果となっている。

② 低ee反応を教師データとして用いて、高ee触媒を予測する

実験データのうち、80%ee以下を示す718サンプルだけを集めて教師データとし、Deep feed-forward neural networkを用いた学習モデルを生成した。80%ee以上を与える残り357サンプルはテストデータとした。

このモデルを用いても、やはり触媒Aがベストな触媒として同定されてくる(ee値はテストデータに共通して含まれる生成物の平均値を示す)。次善として触媒B、Cが同定された。低選択性触媒(例えばD)についても性能予測が良い精度でなされている。

※ee値はテストデータに共通に含まれる生成物の平均値(散布図は冒頭論文より引用)

議論すべき点

  • 「不斉触媒反応の予測」という、かつて決定的手法が存在しなかったフィールドに対し、実用レベルの機械学習を持ち込み解決出来ることを示したマイルストーン的研究といえる。配座柔軟性を考慮に入れたモデル設計の重要性を指摘している点は、不斉触媒研究の大家ならではの実験センスの賜物に思える。
  • やはりそれなりの実験数は前提となるようだが、その事情から大流行した触媒反応を選択している点は見過ごせない。無数の既知反応形式からデータ数を稼ぎやすい反応形式を上手くピックアップできる土壌が既にあるため、概念実証を最速で行う目的にはスマートな選択といえる。
  • この手の問題解決に適した機械学習モデルは前例がなく、どれがいいのか分からなかった様子。こういう世界では、やはり手当たり次第モデルを試して上手く行くものを採用せざるを得ないのだろうと思われる。

次に読むべき論文は?

  • Doyleらによる触媒反応開発に対する機械学習の応用研究[4]。非不斉反応を標的とした場合の進め方の一つ。
  • 本論文の登場後、Sigmanらによる同様趣旨の論文がNatureに公開されている[5]。化学記述子としては、お得意の多変量回帰でよく使われるものを採用しており、予測可能な反応を複数実証している点が異なる。

参考文献

  1.  (a) K. B. Lipkowitz, M. Pradhan, J. Org. Chem. 2003, 68, 4648. doi:10.1021/jo0267697 (b) M. C. Kozlowski, S. L. Dixon, M. Panda, G. Lauri, J. Am. Chem. Soc. 2003, 125, 6614. doi:10.1021/ja0293195
  2. M. S. Sigman, K. C. Harper, E. N. Bess, A. Milo, Acc. Chem. Res. 2016, 49, 1292. doi:10.1021/acs.accounts.6b00194
  3. G. K. Ingle, M. G. Mormino, L. Wojtas, J. C. Antilla, Org. Lett. 2011, 13, 4822. doi:10.1021/ol201899c
  4.  (a) D. T. Ahneman, J. G. Estrada, S. Lin, S. D. Dreher, A. G. Doyle, Science 2018, 360, 186. DOI: 10.1126/science.aar5169; correction, DOI: 10.1126/science.aat7648  (b) M. K. Nielsen, D. T. Ahneman, O. Riera, A. G. Doyle, J. Am. Chem. Soc. 2018, 140, 5004.  doi:10.1021/jacs.8b01523
  5. J. P. Reid & Matthew S. Sigman, Nature, 2019, 571, 343. doi:10.1038/s41586-019-1384-z
  6. ソースコード公開場所:https://gitlab.com/SEDenmarkLab/ccheminfolib
Avatar photo

cosine

投稿者の記事一覧

博士(薬学)。Chem-Station副代表。国立大学教員→国研研究員にクラスチェンジ。専門は有機合成化学、触媒化学、医薬化学、ペプチド/タンパク質化学。
関心ある学問領域は三つ。すなわち、世界を創造する化学、世界を拡張させる情報科学、世界を世界たらしめる認知科学。
素晴らしければ何でも良い。どうでも良いことは心底どうでも良い。興味・趣味は様々だが、そのほとんどがメジャー地位を獲得してなさそうなのは仕様。

関連記事

  1. 革新的なオンライン会場!「第53回若手ペプチド夏の勉強会」参加体…
  2. アメリカ化学留学 ”立志編 ーアメリカに行く前に用意…
  3. インタラクティブ物質科学・カデットプログラム第一回国際シンポジウ…
  4. “アルデヒドを移し替える”新しいオレフィ…
  5. 日本化学会 第103春季年会 付設展示会ケムステキャンペーン P…
  6. 第3のエネルギー伝達手段(MTT)により化学プラントのデザインを…
  7. 有機アジド(4)ー芳香族アジド化合物の合成
  8. 高用量ビタミンB12がALSに治療効果を発揮する。しかし流通問題…

注目情報

ピックアップ記事

  1. ヒュー・デーヴィス Huw M. L. Davies
  2. 抗生物質の誘導体が神経難病に有効 名大グループ確認
  3. 日本化学会 第104春季年会 付設展示会ケムステキャンペーン Part1
  4. 有機合成化学協会誌2021年11月号:英文特集号 Special Issue in English
  5. 「女性用バイアグラ」開発・認可・そして買収←イマココ
  6. フッフッフッフッフッ(F5)、これからはCF3からSF5にスルフィド(S)
  7. プラナーボラン - 有機エレクトロニクス界に期待の新化合物
  8. ヨードラクトン化反応 Iodolactonization
  9. 酵素を照らす新たな光!アミノ酸の酸化的クロスカップリング
  10. 株式会社メカノクロス – メカノケミストリーの社会実装に向けた企業の設立

関連商品

ケムステYoutube

ケムステSlack

月別アーカイブ

2019年10月
 123456
78910111213
14151617181920
21222324252627
28293031  

注目情報

最新記事

アンモニウム構造によりラジカル種の発生位置を完全に制御!

第710回のスポットライトリサーチは、関西学院大学理工学研究科 村上研究室の榊原 陽太(さかきばら …

化学つれづれ草【ある研究者の回想】

概要物理化学者で量子機能材料を専門とする著者によるエッセイ集.化学者としての研究,教育,人生…

第60回有機反応若手の会

開催概要有機反応若手の会は、有機化学分野で研究を行う全国の大学院生を中心とした若手研究者が集い、…

ノーベル賞受賞者と語り合う5日間!「第18回HOPEミーティング」参加者募集!

申し込みはこちら概要主催:独立行政法人 日本学術振興会(JSPS)開催地:神奈川…

光触媒による高効率なCO2還元の実現―まさかの光を弱く当てることが重要だった―

第709回のスポットライトリサーチは、東京科学大学 理学院(前田研究室)博士後期課程2年の仲田竜一 …

「π-πスタッキング」という言葉が生む誤解【芳香環の相互作用を見直す: 前編】

芳香環が平行に並んで近接しているとき、その構造を「π–π スタッキング」と表されることがよくあります…

一重項酸素によるC(sp2)−P結合切断を用いた長波長光によるリン化合物のアンケージング

第 708 回のスポットライトリサーチは、同志社女子大学 薬学部 医療薬学科 5…

マテリアルズ・インフォマティクスにおける画像解析の活用ガイド

開催概要材料開発において、電子顕微鏡やX線トモグラフィーを用いて材料の微細構造を観察するために画…

世界初のPROTAC医薬、ついに承認 ―「タンパク質を阻害する」から「分解する」時代へ

2026年5月、創薬化学の歴史に残る大きな出来事が起きました。米国 FDA は、…

有機蛍光とは異なる新しい有機りん光の分子設計指針の発見

第707回のスポットライトリサーチは、電気通信大学 情報理工学研究科(牧昌次郎研究室)の林希久也 助…

実験器具・用品を試してみたシリーズ

スポットライトリサーチムービー

PAGE TOP