[スポンサーリンク]

化学者のつぶやき

機械学習は、論文の流行をとらえているだけかもしれない:鈴木ー宮浦カップリングでのケーススタディ

[スポンサーリンク]

機械学習においては優れたモデルを作り、反応生成物や収率の予測に成功した結果を報告するのが通常ですが、機械学習を使ってうまくいかなかったことを報告した論文がJACSに発表されたので、詳細を見ていきます。

背景

機械学習は、多くの分野において活用され顕著な成功をもたらしてきた技術ですが、高い精度の予測には明確な規則と高い品質のデータセットが必要で、それらがない場合には機械学習による予測は、影響力がなくなってしまいます。これは化学でも言えることで、データセットに機械的に明確な反応例が十分含まれている場合には、精度よく反応性を予測することができ、学習データ外の化合物についても外挿することができます。一方、特異的なデータセットの選択や制御が難しい変数においては、機械学習はうまくいかなくなることがわかっています。例えば、合成ルートの策定では機械学習を使うと化学的に信じられない変換が提案されたり、合成収率の予測では人間や環境からの要素が強く、機械学習では不完全な予測になってしまうことがあります。

反応条件の最適化における基質や溶媒の選択にも重要な問題があり、機械学習が提案する最適な反応条件は、データセットとして入れた論文の反応条件の中でよく使われている条件を選択しているに過ぎず、機械知能は無いと主張されています。そこで論文の筆者らはこの問題を考えるために、 ヘテロアリール-ヘテロアリールかアリール-ヘテロアリール鈴木カップリングを題材として、ターゲットとする反応の最適化条件を機械学習で探索することを試みました。がしかしうまくいかず、機械学習の結果は、最も一般的な条件を示すだけでした(原著論文にもIntroductionでうまくいかなかったことが述べられています。)。

結果と考察

背景にてすでに結論が述べられてありますが、詳細を見ていきます。ターゲットにしたのは下記の反応で、リアクシスからデータセットを構築しました。その際、収率の記載がない反応、パラジウム化合物について記載がない反応、特許の反応例は除外し、16748反応の触媒、塩基、溶媒のデータと13337反応の触媒、塩基、溶媒に加えて温度のデータを使用しました。

テストデータとして機械学習のモデルが最も最適な条件が選択できるか試した反応 (出典:原著論文)

まず、取り込んだ反応の条件をヒストグラムとしてまとめました。触媒はPd(PPh3)4の使用がほとんどで、反応温度は80から109℃までで多くの反応が行われ、塩基は炭酸塩が多く使われています。溶媒については、他の要素ほど傾向が偏っていませんでした。このような結果から本研究では、溶媒と塩基からの予測に注力しました。具体的に過去の反応例から最も最適化された溶媒と塩基の組み合わせを学習させ、テストデータの反応について最適条件を正しく選択できるかモデルの正確性を調べました。

各条件の傾向 (出典:原著論文)

まず二つの隠れ層と二つの出力層(塩基と溶媒)を持つフィードフォワード・ニューラルネットワークにおいて予測を行いました。なお入力層(分子構造の記述方法)については、4種類の方法を試行しました。

  1. Morgan fingerprints
  2. RDKit library
  3. 1と2の組み合わせ
  4. 1のAutoencoder

結果としてはモデルの正答率は、塩基と溶媒の組み合わせを論文で報告されている数の順で並べた時にターゲットの反応が上位に入っている確率(人気順ベースライン)と変わらない結果となりました。そのためニューラルネットワークモデルは、単に論文での使用頻度の確立よりも大幅に的中精度を向上させることはないことが分かりました。

塩基/溶媒=7/7と7/13のカテゴリー別の正確性(top-1は6つのテスト反応について各モデルが1番目に正しい答えをはじき出す確率で、top-2,top-3はそれぞれ2番目までと3番目までに正しい答えがはじき出される確率) (出典:原著論文)

 

上段の溶媒の分け方: {alcohols, water/polar solvents, water/alcohols, water/amides, water, amides}, {water/aromatics, alcohols/aromatics, water/alcohols/aromatics}, {aromatics}, {ethers}, {water/ethers}, {other}

下段の溶媒の分け方: {water/ethers}, {ethers}, {water/alcohols/aromatics}, {water/amides}, {alcohols/aromatics}, {aromatics}, {amides}, {water/aromatics}, {low boiling polar aprotic solvents/water}, {water/alcohols}, {water}, {alcohols}, {other}

塩基の分け方:{carbonates}, {phosphates}, {fluorides}, {hydroxides}, {amines}, {acetates}, and {other/miscellaneous}

次にGraph Convolutional Networkと統計的な補正(PU-NNモデル)で精度を上げることを試みました。Graph Convolutional Networkは、ディープラーニングをグラフデータに適用する手法で化学においては分子の図(構造式)を直接取り扱うことができます。PU-NNモデルについては、報告例がない塩基と溶媒に関しても最適な条件についても考慮されるモデルです。

塩基/溶媒=7/7カテゴリーでの正確性 (出典:原著論文)

結果としては、一番目で正答できる確率は、50%以下であり、2,3番目までを見ても人気順ベースラインとあまり変わらない結果となりました。フィードフォワードについてもExtended Connectivity Circular FingerprintsMol2Vecを使用したモデルを構築しましたが、あまり変わらない結果となりました。

さらにモデルの正確性を向上させるために収率の情報を加えることにしました。この検討では、全ての塩基と溶媒の組み合わせに対して収率を予測し、ターゲットの反応の最適な条件が、収率の高い順の1位から3位に入っている確率を計算しました。結果、種々のインプットの方法でモデルを構築しましたが、どのモデルでも大差ない結果となりました。一方で予測された最も良いと悪い条件の収率の差は5から10%と実測値で得られている20-30%より低い値となりました。これは説明変数が収率に対して敏感に反応しないためであり、そのため正解が収率の高い順の1位から3位に入っている確率が低いこともつながっています。よってモデルによる予測は単純な人気順ベースラインよりも低い結果となりました。

収率予測の正確性 (出典:原著論文)

最後に3つの先行研究にて開発されたモデルを使って同様の試みを行いました。データセットについてリアクシスに加えて米国特許からも反応データを抽出して使用しました。結果、Rel-GATのみ人気順ベースラインよりも高い精度の結果が示されました。

先行研究にて開発されたモデルを使った予測の正確性 (出典:原著論文)

まとめ

結果として単純な指標である人気順ベースラインと比較して大幅に高い精度を持つモデルは発見されませんでした。この原因は、論文に掲載されている反応が機械学習を行う上ではフェアでないからであり、関連する研究分野において最もよく報告されている反応条件が選択されていたり、研究室において歴史的に好まれる基質や溶媒があるからだと推測されています。本研究のようなアプローチを行うためには、系統的に標準化され、繰り返し行った実験で得られた結果が必要であり、合成実験の全自動化などにおいてうまくいくとコメントされています。そのような複数の条件のデータが一般的になるまでは、機械学習のモデルは、論文での頻出度合いと比較して反応の傾向を考慮すべきだと提言しています。

コメント

紹介した内容は表層的でしたが機械学習のいろいろな手法が登場し、個人的には勉強になる内容でした。論文の内容としてはAIを使って精度の高い予測に成功した例を取り上げるのが一般的ですが、本研究ではうまくいかなかった例を提示し、その原因を考察している点が大変ユニークだと感じました。合成の研究においては、各研究室がそれぞれの設備や環境で実験を行い、論文の結果や考察のセクションでは示したいデータを自由にピックアップして報告しています。そのため論文の中では結果を比較できても、いろいろな論文からデータを抽出しても誤差が大きく、基質や溶媒を等しく繰り返し調べているわけではないのでモデルのデータセットとしては不適切であることがよくわかる一例だと思います。全ての反応研究において条件や論文の形式を規格化することは困難だと思いますが、規格化した条件で得られたデータでの議論に特化した論文誌があっても良いかと思います。

関連書籍

関連リンクと機械学習に関するケムステ過去記事

Zeolinite

投稿者の記事一覧

ただの会社員です。某企業で化学製品の商品開発に携わっています。社内でのデータサイエンスの普及とDX促進が個人的な野望です。

関連記事

  1. 「アニオン–π触媒の開発」–ジュネーブ大学・Matile研より
  2. アンモニアがふたたび世界を変える ~第2次世界大戦中のとある出来…
  3. 電気化学の力で有機色素を自在に塗布する!
  4. Reaction Plus:生成物と反応物から反応経路がわかる
  5. わずか6工程でストリキニーネを全合成!!
  6. 有機合成化学協会誌2021年7月号:PoxIm・トリアルキルシリ…
  7. 炭素を1つスズに置き換えてみたらどうなる?
  8. Org. Proc. Res. Devのススメ

コメント、感想はこちらへ

注目情報

ピックアップ記事

  1. ステファン・カスケル Stefan Kaskel
  2. 持田製薬、創薬研究所を新設
  3. 量子力学が予言した化学反応理論を実験で証明する
  4. 有機合成化学協会誌2017年11月号:オープンアクセス・英文号!
  5. トム・スタイツ Thomas A. Steitz
  6. とある水銀化合物のはなし チメロサールとは
  7. 2007年度ノーベル化学賞を予想!(1)
  8. フラグメント創薬 Fragment-Based Drug Discovery/Design (FBDD)
  9. 論文執筆&出版を学ぶポータルサイト
  10. トンネル構造をもつマンガン酸化物超微粒子触媒を合成

関連商品

ケムステYoutube

ケムステSlack

月別アーカイブ

2022年4月
 123
45678910
11121314151617
18192021222324
252627282930  

注目情報

注目情報

最新記事

【技術系スタートアップ合同フォーラムのお知らせ】 ディープテックのリアル-業界ならでは魅力と社会課題解決への想い

ディープテックに関心がある方、スタートアップへのジョインに興味のある方、スタート…

【速報】2022年ノーベル化学賞は「クリックケミストリーと生体直交化学」へ!

2022年のノーベル化学賞は「クリックケミストリーと生体直交化学」の開発業績で、バリー・シャープレス…

in-situ放射光X線小角散実験から明らかにする牛乳のナノサイエンス

第425回のスポットライトリサーチは、高エネルギー加速器研究機構 物質構造科学研究所(物構研)の高木…

アセトアミノフェン Acetaminophen

 アセトアミノフェン (acetaminophen) は、有機化合物の一つ。海外ではパラセタ…

不安定な高分子原料を従来に比べて 50 倍安定化することに成功! ~水中での化学反応・材料合成に利用可能、有機溶媒の大幅削減による脱炭素に貢献~

第424回のスポットライトリサーチは、京都工芸繊維大学大学院工芸科学研究科 バイオベースマテリアル学…

【10月開催】マイクロ波化学ウェブセミナー

<内容>今月もテーマを分けて2回開催いたします。第一…

越野 広雪 Hiroyuki Koshino

越野 広雪(こしの ひろゆき)は、NMRやマススペクトルなどのもとにした有機分子の構造解析を専門とす…

bassler ボニー・L.・バスラー Bonnie L. Bassler

ボニー・L.・バスラー (Bonnie Lynn Bassler , 1962年XX月XX日-)は、…

電子を閉じ込める箱: 全フッ素化キュバンの合成

第 423 回のスポットライトリサーチは、東京大学 工学系研究科 化学生命工学専…

プラズモンTLC:光の力でナノ粒子を自在に選別できる新原理クロマトグラフィー

第422回のスポットライトリサーチは、名古屋大学 大学院工学研究科 鳥本研究室の秋吉 一孝 (あきよ…

Chem-Station Twitter

実験器具・用品を試してみたシリーズ

スポットライトリサーチムービー

PAGE TOP