[スポンサーリンク]

化学者のつぶやき

機械学習は、論文の流行をとらえているだけかもしれない:鈴木ー宮浦カップリングでのケーススタディ

[スポンサーリンク]

機械学習においては優れたモデルを作り、反応生成物や収率の予測に成功した結果を報告するのが通常ですが、機械学習を使ってうまくいかなかったことを報告した論文がJACSに発表されたので、詳細を見ていきます。

背景

機械学習は、多くの分野において活用され顕著な成功をもたらしてきた技術ですが、高い精度の予測には明確な規則と高い品質のデータセットが必要で、それらがない場合には機械学習による予測は、影響力がなくなってしまいます。これは化学でも言えることで、データセットに機械的に明確な反応例が十分含まれている場合には、精度よく反応性を予測することができ、学習データ外の化合物についても外挿することができます。一方、特異的なデータセットの選択や制御が難しい変数においては、機械学習はうまくいかなくなることがわかっています。例えば、合成ルートの策定では機械学習を使うと化学的に信じられない変換が提案されたり、合成収率の予測では人間や環境からの要素が強く、機械学習では不完全な予測になってしまうことがあります。

反応条件の最適化における基質や溶媒の選択にも重要な問題があり、機械学習が提案する最適な反応条件は、データセットとして入れた論文の反応条件の中でよく使われている条件を選択しているに過ぎず、機械知能は無いと主張されています。そこで論文の筆者らはこの問題を考えるために、 ヘテロアリール-ヘテロアリールかアリール-ヘテロアリール鈴木カップリングを題材として、ターゲットとする反応の最適化条件を機械学習で探索することを試みました。がしかしうまくいかず、機械学習の結果は、最も一般的な条件を示すだけでした(原著論文にもIntroductionでうまくいかなかったことが述べられています。)。

結果と考察

背景にてすでに結論が述べられてありますが、詳細を見ていきます。ターゲットにしたのは下記の反応で、リアクシスからデータセットを構築しました。その際、収率の記載がない反応、パラジウム化合物について記載がない反応、特許の反応例は除外し、16748反応の触媒、塩基、溶媒のデータと13337反応の触媒、塩基、溶媒に加えて温度のデータを使用しました。

テストデータとして機械学習のモデルが最も最適な条件が選択できるか試した反応 (出典:原著論文)

まず、取り込んだ反応の条件をヒストグラムとしてまとめました。触媒はPd(PPh3)4の使用がほとんどで、反応温度は80から109℃までで多くの反応が行われ、塩基は炭酸塩が多く使われています。溶媒については、他の要素ほど傾向が偏っていませんでした。このような結果から本研究では、溶媒と塩基からの予測に注力しました。具体的に過去の反応例から最も最適化された溶媒と塩基の組み合わせを学習させ、テストデータの反応について最適条件を正しく選択できるかモデルの正確性を調べました。

各条件の傾向 (出典:原著論文)

まず二つの隠れ層と二つの出力層(塩基と溶媒)を持つフィードフォワード・ニューラルネットワークにおいて予測を行いました。なお入力層(分子構造の記述方法)については、4種類の方法を試行しました。

  1. Morgan fingerprints
  2. RDKit library
  3. 1と2の組み合わせ
  4. 1のAutoencoder

結果としてはモデルの正答率は、塩基と溶媒の組み合わせを論文で報告されている数の順で並べた時にターゲットの反応が上位に入っている確率(人気順ベースライン)と変わらない結果となりました。そのためニューラルネットワークモデルは、単に論文での使用頻度の確立よりも大幅に的中精度を向上させることはないことが分かりました。

塩基/溶媒=7/7と7/13のカテゴリー別の正確性(top-1は6つのテスト反応について各モデルが1番目に正しい答えをはじき出す確率で、top-2,top-3はそれぞれ2番目までと3番目までに正しい答えがはじき出される確率) (出典:原著論文)

 

上段の溶媒の分け方: {alcohols, water/polar solvents, water/alcohols, water/amides, water, amides}, {water/aromatics, alcohols/aromatics, water/alcohols/aromatics}, {aromatics}, {ethers}, {water/ethers}, {other}

下段の溶媒の分け方: {water/ethers}, {ethers}, {water/alcohols/aromatics}, {water/amides}, {alcohols/aromatics}, {aromatics}, {amides}, {water/aromatics}, {low boiling polar aprotic solvents/water}, {water/alcohols}, {water}, {alcohols}, {other}

塩基の分け方:{carbonates}, {phosphates}, {fluorides}, {hydroxides}, {amines}, {acetates}, and {other/miscellaneous}

次にGraph Convolutional Networkと統計的な補正(PU-NNモデル)で精度を上げることを試みました。Graph Convolutional Networkは、ディープラーニングをグラフデータに適用する手法で化学においては分子の図(構造式)を直接取り扱うことができます。PU-NNモデルについては、報告例がない塩基と溶媒に関しても最適な条件についても考慮されるモデルです。

塩基/溶媒=7/7カテゴリーでの正確性 (出典:原著論文)

結果としては、一番目で正答できる確率は、50%以下であり、2,3番目までを見ても人気順ベースラインとあまり変わらない結果となりました。フィードフォワードについてもExtended Connectivity Circular FingerprintsMol2Vecを使用したモデルを構築しましたが、あまり変わらない結果となりました。

さらにモデルの正確性を向上させるために収率の情報を加えることにしました。この検討では、全ての塩基と溶媒の組み合わせに対して収率を予測し、ターゲットの反応の最適な条件が、収率の高い順の1位から3位に入っている確率を計算しました。結果、種々のインプットの方法でモデルを構築しましたが、どのモデルでも大差ない結果となりました。一方で予測された最も良いと悪い条件の収率の差は5から10%と実測値で得られている20-30%より低い値となりました。これは説明変数が収率に対して敏感に反応しないためであり、そのため正解が収率の高い順の1位から3位に入っている確率が低いこともつながっています。よってモデルによる予測は単純な人気順ベースラインよりも低い結果となりました。

収率予測の正確性 (出典:原著論文)

最後に3つの先行研究にて開発されたモデルを使って同様の試みを行いました。データセットについてリアクシスに加えて米国特許からも反応データを抽出して使用しました。結果、Rel-GATのみ人気順ベースラインよりも高い精度の結果が示されました。

先行研究にて開発されたモデルを使った予測の正確性 (出典:原著論文)

まとめ

結果として単純な指標である人気順ベースラインと比較して大幅に高い精度を持つモデルは発見されませんでした。この原因は、論文に掲載されている反応が機械学習を行う上ではフェアでないからであり、関連する研究分野において最もよく報告されている反応条件が選択されていたり、研究室において歴史的に好まれる基質や溶媒があるからだと推測されています。本研究のようなアプローチを行うためには、系統的に標準化され、繰り返し行った実験で得られた結果が必要であり、合成実験の全自動化などにおいてうまくいくとコメントされています。そのような複数の条件のデータが一般的になるまでは、機械学習のモデルは、論文での頻出度合いと比較して反応の傾向を考慮すべきだと提言しています。

コメント

紹介した内容は表層的でしたが機械学習のいろいろな手法が登場し、個人的には勉強になる内容でした。論文の内容としてはAIを使って精度の高い予測に成功した例を取り上げるのが一般的ですが、本研究ではうまくいかなかった例を提示し、その原因を考察している点が大変ユニークだと感じました。合成の研究においては、各研究室がそれぞれの設備や環境で実験を行い、論文の結果や考察のセクションでは示したいデータを自由にピックアップして報告しています。そのため論文の中では結果を比較できても、いろいろな論文からデータを抽出しても誤差が大きく、基質や溶媒を等しく繰り返し調べているわけではないのでモデルのデータセットとしては不適切であることがよくわかる一例だと思います。全ての反応研究において条件や論文の形式を規格化することは困難だと思いますが、規格化した条件で得られたデータでの議論に特化した論文誌があっても良いかと思います。

関連書籍

[amazonjs asin=”4764960230″ locale=”JP” title=”詳解 マテリアルズインフォマティクス 有機・無機化学のための深層学習 (近代科学社Digital)”] [amazonjs asin=”4526081922″ locale=”JP” title=”マテリアルズ・インフォマティクスII 機械学習を活用したマテリアルDX超入門”]

関連リンクと機械学習に関するケムステ過去記事

Avatar photo

Zeolinite

投稿者の記事一覧

ただの会社員です。某企業で化学製品の商品開発に携わっています。社内でのデータサイエンスの普及とDX促進が個人的な野望です。

関連記事

  1. 「重曹でお掃除」の化学(その1)
  2. 有機合成化学協会の公式ページがリニューアル!!
  3. 天然物の構造改訂:30年間信じられていた立体配置が逆だった
  4. かさ高い非天然α-アミノ酸の新規合成方法の開発とペプチドへの導入…
  5. ポンコツ博士の海外奮闘録⑥ 〜博士,アメ飯を食す。おうち系お肉編…
  6. ベンゼン環をつないで 8 員環をつくる! 【夢の三次元ナノカーボ…
  7. 錯体と有機化合物、触媒はどっち?
  8. 不斉カルボニル触媒で酵素模倣型不斉マンニッヒ反応

注目情報

ピックアップ記事

  1. ストックホルム国際青年科学セミナー参加学生を募集開始 ノーベル賞のイベントに参加できます!
  2. ポリセオナミド :海綿由来の天然物の生合成
  3. 投票!2017年ノーベル化学賞は誰の手に!?
  4. 飯野 裕明 Hiroaki Iino
  5. 2021年、ムーアの法則が崩れる?
  6. 大村 智 Satoshi Omura
  7. Lithium Compounds in Organic Synthesis: From Fundamentals to Applications
  8. 海水から微量リチウムを抽出、濃縮できる電気化学セルを開発
  9. 2016年化学10大ニュース
  10. ゲノムDNA中の各種修飾塩基を測定する発光タンパク質構築法を開発

関連商品

ケムステYoutube

ケムステSlack

月別アーカイブ

2022年4月
 123
45678910
11121314151617
18192021222324
252627282930  

注目情報

最新記事

異方的成長による量子ニードルの合成を実現

第693回のスポットライトリサーチは、東京大学大学院理学系研究科(佃研究室)の髙野慎二郎 助教にお願…

miHub®で叶える、研究開発現場でのデータ活用と人材育成のヒント

参加申し込みする開催概要多くの化学・素材メーカー様でMI導入が進む一…

医薬品容器・包装材市場について調査結果を発表

この程、TPCマーケティングリサーチ株式会社(本社=大阪市西区、代表取締役社長=松本竜馬)は、医…

X 線回折の基礎知識【原理 · 基礎知識編】

X 線回折 (X-ray diffraction) は、原子の配列に関する情報を得るために使われる分…

有機合成化学協会誌2026年1月号:エナミンの極性転換・2-メチル-6-ニトロ安息香酸無水物(MNBA)・細胞内有機化学反応・データ駆動型マルチパラメータスクリーニング・位置選択的重水素化法

有機合成化学協会が発行する有機合成化学協会誌、2026年1月号がオンラインで公開されています。…

偶然と観察と探求の成果:中毒解毒剤から窒素酸化物を窒素分子へ変換する分子へ!

第692回のスポットライトリサーチは、同志社大学大学院理工学研究科(小寺・北岸研究室)博士後期課程3…

嬉野温泉で論文執筆缶詰め旅行をしてみた【化学者が行く温泉巡りの旅】

論文を書かなきゃ!でもせっかくの休暇なのでお出かけしたい! そうだ!人里離れた温泉地で缶詰めして一気…

光の強さで分子集合を巧みに制御!様々な形を持つ非平衡超分子集合体の作り分けを実現

第691回のスポットライトリサーチは、千葉大学大学院 融合理工学府 分子集合体化学研究室(矢貝研究室…

化学系研究職の転職は難しいのか?求人動向と転職を成功させる考え方

化学系研究職の転職の難点は「専門性のニッチさ」と考えられることが多いですが、企業が求めるのは研究プロ…

\課題に対してマイクロ波を試してみたい方へ/オンライン個別相談会

プロセスの脱炭素化及び効率化のキーテクノロジーである”マイクロ波”について、今回は、適用を検討してみ…

実験器具・用品を試してみたシリーズ

スポットライトリサーチムービー

PAGE TOP