[スポンサーリンク]

化学者のつぶやき

高選択的な不斉触媒系を機械学習で予測する

[スポンサーリンク]

2019年、イリノイ大学・Scott E. Denmarkらは、原料および触媒構造データを機械学習させ、不斉触媒反応における選択性予測を可能とするワークフローの確立に始めて成功した。また、これを用いて高不斉収率を示す触媒構造を予測することに成功した。これにより、経験則に依拠する不斉触媒系の最適化プロセスを、機械学習で代替できる可能性が示唆された。

“Prediction of higher-selectivity catalysts by computer-driven workflow and machine learning”
Zahrt, A. F.; Henle, J. J.; Rose, B. T.; Wang, Y.; Darrow, W. T.; Denmark, S. E. Science 2019, 363, eaau5631. DOI: 10.1126/science.aau5631

問題設定

新規有機合成法の開発は、経験的手法に大きく依存している。触媒設計も例外ではなく、反応機構が不明であること、ビッグデータのパターン把握における人間的限界、触媒選択における定量的ガイドラインの欠如などがハードルとなっている。特に不斉触媒においてはわずかなエネルギー差(ΔΔG~1 kcal/mol)が不斉収率(ee)に大きな影響を及ぼすこと、バックグラウンド反応の影響などを理由に、量子計算化学のみに依拠する最適化支援が困難とされている。

これについては、LipkowitzおよびKozlowskiが不斉触媒の3D-QSARを分子相互作用場法(MIF)によって取得するという萌芽的研究[1]を行っているものの、方法論としては普及していない。Sigmanらはこの課題に着目し、化学記述子の多変量回帰分析によって不斉触媒反応のパフォーマンス向上を目指す研究に長年取り組んでいる[2]。しかしながらいずれの系でも、教師データから遠く離れた領域のアウトプット予測は達成されていない

技術や手法のキモ

ケモインフォマティクスおよび機械学習を用い、上記課題の解決を試みることが本論文の目標となる。この戦略は、反応機構解析が不要、候補分子の立体/電子的特性を定量的に記述可能、実験データと記述子を比較することで妥当性が検証可能、などの利点を享受できる。

本論文の主張は、「ワークフローに従えば、現場ニーズを踏まえた二つの予測ができる」ということに集約される。

① 未検討の生成物―触媒の組み合わせが示すeeを予測できる
② 低ee反応を教師データとして用いても、高ee触媒を予測できる

ワークフローの具体的内容は下記の通り。各項目の詳細は次項で説明する。

(A) 触媒構造のin silicoライブラリを作る (B) 各触媒構造に対応する化学記述子を計算 (C) 触媒ライブラリから部分集合を選び、教師データとする (D) 実験データの収集 (E) 機械学習によって予測モデルを生成する (図は頭論文より引用)

今回の研究では、寺田・秋山触媒を用いる不斉N,S-アセタール形成法[4]がモデル反応として選択された。選定理由は以下の通りである。

・触媒の構造多様化が容易
・高収率・高再現性・室温・短時間反応なので迅速スクリーニングに向く
・触媒構造の違いにより幅広い不斉収率(0~99%ee)が出る

 

ワークフローの詳細

A) 触媒構造のin silicoライブラリを作る

Synthetic accessibilityを考慮に入れ、806種のリン酸触媒in silicoライブラリを構築した。403種は合成可能であることが報告されて入る構造、残りは市販試薬から合理的に考案可能な構造にしている。

B) 各触媒構造に対応する化学記述子を計算

配座異性体の三次元情報を反映している、低コストで計算可能、不斉触媒構造の微細な違いを捉えうるetc の特性が化学記述子には求められる。しかしながら既知の記述子を用いる限り、予測は全く上手く行かなかった。これは、記述子が触媒ごとに単一配座のみを考慮しているためだと考えられた。

そこでAverage Steric Occupancy(ASO)という記述子を新たに導入している。ASOは下記の手順で計算され、立体項に加えて配座異性体分布の影響を盛り込んだ記述子となっている。

  1. 各触媒ごとに配座異性体分布を計算で生成
  2. 触媒の配座異性体を同一座標系に定置
  3. 近接原子のvan der Waals半径内にある格子点を1、無ければ0とラベル
  4. 全ての配座異性体に対してiii)を行い、各格子点毎に値を平均する。これにより0 < ASO < 1の値となる。

冒頭論文より引用

ASO記述子を用いて触媒を表現すると、リン酸まわりは緑~基(ASO=中)、BINOL骨格まわりは青(ASO=高)、触媒から離れた格子点は赤(ASO=低)にラベルされる(下図)。つまり、活性中心(リン酸)周りは、配座異性の影響が大きいことが、視覚的にも理解される。

冒頭論文より引用

これに加えて電子的特性を盛り込むため、置換基の静電ポテンシャルマップも計算し、追加の記述子として用いた。結果として触媒1つあたり、16384パラメータを設定し、計算を行った。

C) 触媒ライブラリから代表部分集合を選び、教師データとする

開発現場では、反応そのものや機構について初期段階からは不可知であるという前提を踏まえ、教師データ候補のサンプリングをなるべくランダムに行う必要がある。この目的にKennard-Stoneアルゴリズムを用いている。こうして作られる教師データを論文中ではuniversal training set (UTS)と呼称している。これが十分にランダムであることは主成分分析によって評価される。

D) 実験データの収集

触媒43種×生成物25種(イミン5種×チオール5種)=1075反応を実施し、eeを測定した。

E) 機械学習によって予測モデルを生成する

475反応をテストデータ、残り600反応を教師データとしてランダムに選定し、機械学習を行った。Random Forest、LassoLarsなどいくつかのモデルを検討した中で、サポートベクターマシンが最もよい結果を示した。

機械学習モデルを用いたアウトプットの予測

① 未検討の生成物―触媒の組み合わせが示すee(ΔΔG)を予測する

触媒24種×生成物16種(イミン4種×チオール4種)=384サンプルを教師データとして、サポートベクターマシンによる学習モデルを生成した。残りのサンプルを下記の通り3分割してテストデータとし、それぞれの試験を通じてee値(ΔΔG値)の予測精度を評価した。

<I>テストデータ生成物+教師データ触媒:検討済触媒から未検討生成物の選択性を予測する想定(生成物9種×触媒24種=216反応)。

<II>教師データ生成物+テストデータ触媒:検討済生成物から未検討触媒の選択性を予測する想定(生成物16種×触媒19種=304反応)。

<III>テストデータ生成物+テストデータ触媒:未検討反応の性能を予測する想定(生成物9種×触媒19種=171反応)。

いずれも0.15-0.20 kcal/mol程度の平均偏差(MAD)にて、ee値(ΔΔG値)の予測が可能であった。ベスト触媒Aが与えるee値について、実験値と予測値を比較したものが下図になる。概ね±2%eeで良い一致を示しており、これは現行の量子化学計算による最高予測精度と同等か、それ以上の結果となっている。

② 低ee反応を教師データとして用いて、高ee触媒を予測する

実験データのうち、80%ee以下を示す718サンプルだけを集めて教師データとし、Deep feed-forward neural networkを用いた学習モデルを生成した。80%ee以上を与える残り357サンプルはテストデータとした。

このモデルを用いても、やはり触媒Aがベストな触媒として同定されてくる(ee値はテストデータに共通して含まれる生成物の平均値を示す)。次善として触媒B、Cが同定された。低選択性触媒(例えばD)についても性能予測が良い精度でなされている。

※ee値はテストデータに共通に含まれる生成物の平均値(散布図は冒頭論文より引用)

議論すべき点

  • 「不斉触媒反応の予測」という、かつて決定的手法が存在しなかったフィールドに対し、実用レベルの機械学習を持ち込み解決出来ることを示したマイルストーン的研究といえる。配座柔軟性を考慮に入れたモデル設計の重要性を指摘している点は、不斉触媒研究の大家ならではの実験センスの賜物に思える。
  • やはりそれなりの実験数は前提となるようだが、その事情から大流行した触媒反応を選択している点は見過ごせない。無数の既知反応形式からデータ数を稼ぎやすい反応形式を上手くピックアップできる土壌が既にあるため、概念実証を最速で行う目的にはスマートな選択といえる。
  • この手の問題解決に適した機械学習モデルは前例がなく、どれがいいのか分からなかった様子。こういう世界では、やはり手当たり次第モデルを試して上手く行くものを採用せざるを得ないのだろうと思われる。

次に読むべき論文は?

  • Doyleらによる触媒反応開発に対する機械学習の応用研究[4]。非不斉反応を標的とした場合の進め方の一つ。
  • 本論文の登場後、Sigmanらによる同様趣旨の論文がNatureに公開されている[5]。化学記述子としては、お得意の多変量回帰でよく使われるものを採用しており、予測可能な反応を複数実証している点が異なる。

参考文献

  1.  (a) K. B. Lipkowitz, M. Pradhan, J. Org. Chem. 2003, 68, 4648. doi:10.1021/jo0267697 (b) M. C. Kozlowski, S. L. Dixon, M. Panda, G. Lauri, J. Am. Chem. Soc. 2003, 125, 6614. doi:10.1021/ja0293195
  2. M. S. Sigman, K. C. Harper, E. N. Bess, A. Milo, Acc. Chem. Res. 2016, 49, 1292. doi:10.1021/acs.accounts.6b00194
  3. G. K. Ingle, M. G. Mormino, L. Wojtas, J. C. Antilla, Org. Lett. 2011, 13, 4822. doi:10.1021/ol201899c
  4.  (a) D. T. Ahneman, J. G. Estrada, S. Lin, S. D. Dreher, A. G. Doyle, Science 2018, 360, 186. DOI: 10.1126/science.aar5169; correction, DOI: 10.1126/science.aat7648  (b) M. K. Nielsen, D. T. Ahneman, O. Riera, A. G. Doyle, J. Am. Chem. Soc. 2018, 140, 5004.  doi:10.1021/jacs.8b01523
  5. J. P. Reid & Matthew S. Sigman, Nature, 2019, 571, 343. doi:10.1038/s41586-019-1384-z
  6. ソースコード公開場所:https://gitlab.com/SEDenmarkLab/ccheminfolib
The following two tabs change content below.
cosine

cosine

博士(薬学)。Chem-Station副代表。現在国立大学教員として勤務中。専門は有機合成化学、主に触媒開発研究。 関心ある学問領域は三つ。すなわち、世界を創造する化学、世界を拡張させる情報科学、世界を世界たらしめる認知科学。 素晴らしければ何でも良い。どうでも良いことは心底どうでも良い。興味・趣味は様々だが、そのほとんどがメジャー地位を獲得してなさそうなのは仕様。

関連記事

  1. アンモニアを用いた環境調和型2級アミド合成
  2. 単一分子の電界発光の機構を解明
  3. スイスの博士課程ってどうなの?1〜ヨーロッパの博士課程を知る〜
  4. 博士課程学生の経済事情
  5. 透明なカニ・透明な紙:バイオナノファイバーの世界
  6. 有機合成化学協会誌2019年9月号:炭素–水素結合ケイ素化・脱フ…
  7. 官能基選択的な 5 員環ブロック連結反応を利用したステモアミド系…
  8. スターバースト型分子、ヘキサアリールベンゼン合成の新手法

コメント、感想はこちらへ

注目情報

ピックアップ記事

  1. 複雑天然物Communesinの新規類縁体、遺伝子破壊実験により明らかに!
  2. 計算化学:DFT計算って何?Part II
  3. トリニトロトルエン / Trinitrotoluene (TNT)
  4. 水中で光を当てると水素が湧き出るフィルム
  5. 細菌ゲノム、完全合成 米チーム「人工生命」に前進
  6. 2004年ノーベル化学賞『ユビキチン―プロテアソーム系の発見』
  7. 化学Webギャラリー@Flickr 【Part 3】
  8. これからの研究開発状況下を生き抜くための3つの資質
  9. 鋳型合成 Templated Synthesis
  10. 可視光レドックス触媒を用いた芳香環へのC-Hアミノ化反応

関連商品

注目情報

注目情報

最新記事

動画で見れる!アメリカ博士留学生の一日

アメリカでの大学院生活って、どんな感じ?文章で読んでもなかなか想像が付きにくいかもしれません…

第51回―「超分子化学で生物学と材料科学の境界を切り拓く」Carsten Schmuck教授

第51回の海外化学者インタビューは、カルステン・シュムック教授です。ヴュルツブルク大学の有機化学研究…

乾燥剤の種類と合成化学での利用法

今回は溶液や化合物の乾燥と乾燥剤などについて話をしようかと思います。書いてみてかなり基本的な話になり…

第18回次世代を担う有機化学シンポジウム

今回の次世代シンポは一味違います!一般講演の優秀発表賞と優秀ディスカッション賞があるのはこれまで…

“秒”で分析 をあたりまえに―利便性が高まるSFC

分析化学に携わったことのある方は、「超臨界流体クロマトグラフィー」、略して「SFC」のことをご存知な…

第50回―「糖やキラル分子の超分子化学センサーを創り出す」Tony James教授

第50回の海外化学者インタビューは、トニー・ジェームズ教授です。英国バース大学の化学科で超分子化学の…

Chem-Station Twitter

PAGE TOP