[スポンサーリンク]

化学者のつぶやき

機械学習は、論文の流行をとらえているだけかもしれない:鈴木ー宮浦カップリングでのケーススタディ

[スポンサーリンク]

機械学習においては優れたモデルを作り、反応生成物や収率の予測に成功した結果を報告するのが通常ですが、機械学習を使ってうまくいかなかったことを報告した論文がJACSに発表されたので、詳細を見ていきます。

背景

機械学習は、多くの分野において活用され顕著な成功をもたらしてきた技術ですが、高い精度の予測には明確な規則と高い品質のデータセットが必要で、それらがない場合には機械学習による予測は、影響力がなくなってしまいます。これは化学でも言えることで、データセットに機械的に明確な反応例が十分含まれている場合には、精度よく反応性を予測することができ、学習データ外の化合物についても外挿することができます。一方、特異的なデータセットの選択や制御が難しい変数においては、機械学習はうまくいかなくなることがわかっています。例えば、合成ルートの策定では機械学習を使うと化学的に信じられない変換が提案されたり、合成収率の予測では人間や環境からの要素が強く、機械学習では不完全な予測になってしまうことがあります。

反応条件の最適化における基質や溶媒の選択にも重要な問題があり、機械学習が提案する最適な反応条件は、データセットとして入れた論文の反応条件の中でよく使われている条件を選択しているに過ぎず、機械知能は無いと主張されています。そこで論文の筆者らはこの問題を考えるために、 ヘテロアリール-ヘテロアリールかアリール-ヘテロアリール鈴木カップリングを題材として、ターゲットとする反応の最適化条件を機械学習で探索することを試みました。がしかしうまくいかず、機械学習の結果は、最も一般的な条件を示すだけでした(原著論文にもIntroductionでうまくいかなかったことが述べられています。)。

結果と考察

背景にてすでに結論が述べられてありますが、詳細を見ていきます。ターゲットにしたのは下記の反応で、リアクシスからデータセットを構築しました。その際、収率の記載がない反応、パラジウム化合物について記載がない反応、特許の反応例は除外し、16748反応の触媒、塩基、溶媒のデータと13337反応の触媒、塩基、溶媒に加えて温度のデータを使用しました。

テストデータとして機械学習のモデルが最も最適な条件が選択できるか試した反応 (出典:原著論文)

まず、取り込んだ反応の条件をヒストグラムとしてまとめました。触媒はPd(PPh3)4の使用がほとんどで、反応温度は80から109℃までで多くの反応が行われ、塩基は炭酸塩が多く使われています。溶媒については、他の要素ほど傾向が偏っていませんでした。このような結果から本研究では、溶媒と塩基からの予測に注力しました。具体的に過去の反応例から最も最適化された溶媒と塩基の組み合わせを学習させ、テストデータの反応について最適条件を正しく選択できるかモデルの正確性を調べました。

各条件の傾向 (出典:原著論文)

まず二つの隠れ層と二つの出力層(塩基と溶媒)を持つフィードフォワード・ニューラルネットワークにおいて予測を行いました。なお入力層(分子構造の記述方法)については、4種類の方法を試行しました。

  1. Morgan fingerprints
  2. RDKit library
  3. 1と2の組み合わせ
  4. 1のAutoencoder

結果としてはモデルの正答率は、塩基と溶媒の組み合わせを論文で報告されている数の順で並べた時にターゲットの反応が上位に入っている確率(人気順ベースライン)と変わらない結果となりました。そのためニューラルネットワークモデルは、単に論文での使用頻度の確立よりも大幅に的中精度を向上させることはないことが分かりました。

塩基/溶媒=7/7と7/13のカテゴリー別の正確性(top-1は6つのテスト反応について各モデルが1番目に正しい答えをはじき出す確率で、top-2,top-3はそれぞれ2番目までと3番目までに正しい答えがはじき出される確率) (出典:原著論文)

 

上段の溶媒の分け方: {alcohols, water/polar solvents, water/alcohols, water/amides, water, amides}, {water/aromatics, alcohols/aromatics, water/alcohols/aromatics}, {aromatics}, {ethers}, {water/ethers}, {other}

下段の溶媒の分け方: {water/ethers}, {ethers}, {water/alcohols/aromatics}, {water/amides}, {alcohols/aromatics}, {aromatics}, {amides}, {water/aromatics}, {low boiling polar aprotic solvents/water}, {water/alcohols}, {water}, {alcohols}, {other}

塩基の分け方:{carbonates}, {phosphates}, {fluorides}, {hydroxides}, {amines}, {acetates}, and {other/miscellaneous}

次にGraph Convolutional Networkと統計的な補正(PU-NNモデル)で精度を上げることを試みました。Graph Convolutional Networkは、ディープラーニングをグラフデータに適用する手法で化学においては分子の図(構造式)を直接取り扱うことができます。PU-NNモデルについては、報告例がない塩基と溶媒に関しても最適な条件についても考慮されるモデルです。

塩基/溶媒=7/7カテゴリーでの正確性 (出典:原著論文)

結果としては、一番目で正答できる確率は、50%以下であり、2,3番目までを見ても人気順ベースラインとあまり変わらない結果となりました。フィードフォワードについてもExtended Connectivity Circular FingerprintsMol2Vecを使用したモデルを構築しましたが、あまり変わらない結果となりました。

さらにモデルの正確性を向上させるために収率の情報を加えることにしました。この検討では、全ての塩基と溶媒の組み合わせに対して収率を予測し、ターゲットの反応の最適な条件が、収率の高い順の1位から3位に入っている確率を計算しました。結果、種々のインプットの方法でモデルを構築しましたが、どのモデルでも大差ない結果となりました。一方で予測された最も良いと悪い条件の収率の差は5から10%と実測値で得られている20-30%より低い値となりました。これは説明変数が収率に対して敏感に反応しないためであり、そのため正解が収率の高い順の1位から3位に入っている確率が低いこともつながっています。よってモデルによる予測は単純な人気順ベースラインよりも低い結果となりました。

収率予測の正確性 (出典:原著論文)

最後に3つの先行研究にて開発されたモデルを使って同様の試みを行いました。データセットについてリアクシスに加えて米国特許からも反応データを抽出して使用しました。結果、Rel-GATのみ人気順ベースラインよりも高い精度の結果が示されました。

先行研究にて開発されたモデルを使った予測の正確性 (出典:原著論文)

まとめ

結果として単純な指標である人気順ベースラインと比較して大幅に高い精度を持つモデルは発見されませんでした。この原因は、論文に掲載されている反応が機械学習を行う上ではフェアでないからであり、関連する研究分野において最もよく報告されている反応条件が選択されていたり、研究室において歴史的に好まれる基質や溶媒があるからだと推測されています。本研究のようなアプローチを行うためには、系統的に標準化され、繰り返し行った実験で得られた結果が必要であり、合成実験の全自動化などにおいてうまくいくとコメントされています。そのような複数の条件のデータが一般的になるまでは、機械学習のモデルは、論文での頻出度合いと比較して反応の傾向を考慮すべきだと提言しています。

コメント

紹介した内容は表層的でしたが機械学習のいろいろな手法が登場し、個人的には勉強になる内容でした。論文の内容としてはAIを使って精度の高い予測に成功した例を取り上げるのが一般的ですが、本研究ではうまくいかなかった例を提示し、その原因を考察している点が大変ユニークだと感じました。合成の研究においては、各研究室がそれぞれの設備や環境で実験を行い、論文の結果や考察のセクションでは示したいデータを自由にピックアップして報告しています。そのため論文の中では結果を比較できても、いろいろな論文からデータを抽出しても誤差が大きく、基質や溶媒を等しく繰り返し調べているわけではないのでモデルのデータセットとしては不適切であることがよくわかる一例だと思います。全ての反応研究において条件や論文の形式を規格化することは困難だと思いますが、規格化した条件で得られたデータでの議論に特化した論文誌があっても良いかと思います。

関連書籍

[amazonjs asin=”4764960230″ locale=”JP” title=”詳解 マテリアルズインフォマティクス 有機・無機化学のための深層学習 (近代科学社Digital)”] [amazonjs asin=”4526081922″ locale=”JP” title=”マテリアルズ・インフォマティクスII 機械学習を活用したマテリアルDX超入門”]

関連リンクと機械学習に関するケムステ過去記事

Avatar photo

Zeolinite

投稿者の記事一覧

ただの会社員です。某企業で化学製品の商品開発に携わっています。社内でのデータサイエンスの普及とDX促進が個人的な野望です。

関連記事

  1. PACIFICHEM2010に参加してきました!③
  2. 触媒表面の化学反応をナノレベルでマッピング
  3. 天然イミンにインスパイアされたペプチド大環状化反応
  4. お”カネ”持ちな会社たちー2
  5. 続・企業の研究を通して感じたこと
  6. 近くにラジカルがいるだけでベンゼンの芳香族性が崩れた!
  7. サッカーボール型タンパク質ナノ粒子TIP60の設計と構築
  8. リンダウ会議に行ってきた④

注目情報

ピックアップ記事

  1. MSH試薬 MSH reagent
  2. 史 不斉エポキシ化 Shi Asymmetric Epoxidation
  3. 甲種危険物取扱者・合格体験記~cosine編
  4. アンモニアで走る自動車 国内初、工学院大が開発
  5. 創薬に求められる構造~sp3炭素の重要性~
  6. 特許庁「グリーン早期審査・早期審理」の試行開始
  7. 旭化成、5年で戦略投資4千億
  8. シリカゲル担持4-ヒドロキシ-TEMPOを用いたアルコール類の空気酸化反応
  9. あなたの合成ルートは理想的?
  10. 金属-有機構造体 / Metal-Organic Frameworks

関連商品

ケムステYoutube

ケムステSlack

月別アーカイブ

2022年4月
 123
45678910
11121314151617
18192021222324
252627282930  

注目情報

最新記事

アンモニウム構造によりラジカル種の発生位置を完全に制御!

第710回のスポットライトリサーチは、関西学院大学理工学研究科 村上研究室の榊原 陽太(さかきばら …

化学つれづれ草【ある研究者の回想】

概要物理化学者で量子機能材料を専門とする著者によるエッセイ集.化学者としての研究,教育,人生…

第60回有機反応若手の会

開催概要有機反応若手の会は、有機化学分野で研究を行う全国の大学院生を中心とした若手研究者が集い、…

ノーベル賞受賞者と語り合う5日間!「第18回HOPEミーティング」参加者募集!

申し込みはこちら概要主催:独立行政法人 日本学術振興会(JSPS)開催地:神奈川…

光触媒による高効率なCO2還元の実現―まさかの光を弱く当てることが重要だった―

第709回のスポットライトリサーチは、東京科学大学 理学院(前田研究室)博士後期課程2年の仲田竜一 …

「π-πスタッキング」という言葉が生む誤解【芳香環の相互作用を見直す: 前編】

芳香環が平行に並んで近接しているとき、その構造を「π–π スタッキング」と表されることがよくあります…

一重項酸素によるC(sp2)−P結合切断を用いた長波長光によるリン化合物のアンケージング

第 708 回のスポットライトリサーチは、同志社女子大学 薬学部 医療薬学科 5…

マテリアルズ・インフォマティクスにおける画像解析の活用ガイド

開催概要材料開発において、電子顕微鏡やX線トモグラフィーを用いて材料の微細構造を観察するために画…

世界初のPROTAC医薬、ついに承認 ―「タンパク質を阻害する」から「分解する」時代へ

2026年5月、創薬化学の歴史に残る大きな出来事が起きました。米国 FDA は、…

有機蛍光とは異なる新しい有機りん光の分子設計指針の発見

第707回のスポットライトリサーチは、電気通信大学 情報理工学研究科(牧昌次郎研究室)の林希久也 助…

実験器具・用品を試してみたシリーズ

スポットライトリサーチムービー

PAGE TOP