[スポンサーリンク]

化学者のつぶやき

機械学習は、論文の流行をとらえているだけかもしれない:鈴木ー宮浦カップリングでのケーススタディ

[スポンサーリンク]

機械学習においては優れたモデルを作り、反応生成物や収率の予測に成功した結果を報告するのが通常ですが、機械学習を使ってうまくいかなかったことを報告した論文がJACSに発表されたので、詳細を見ていきます。

背景

機械学習は、多くの分野において活用され顕著な成功をもたらしてきた技術ですが、高い精度の予測には明確な規則と高い品質のデータセットが必要で、それらがない場合には機械学習による予測は、影響力がなくなってしまいます。これは化学でも言えることで、データセットに機械的に明確な反応例が十分含まれている場合には、精度よく反応性を予測することができ、学習データ外の化合物についても外挿することができます。一方、特異的なデータセットの選択や制御が難しい変数においては、機械学習はうまくいかなくなることがわかっています。例えば、合成ルートの策定では機械学習を使うと化学的に信じられない変換が提案されたり、合成収率の予測では人間や環境からの要素が強く、機械学習では不完全な予測になってしまうことがあります。

反応条件の最適化における基質や溶媒の選択にも重要な問題があり、機械学習が提案する最適な反応条件は、データセットとして入れた論文の反応条件の中でよく使われている条件を選択しているに過ぎず、機械知能は無いと主張されています。そこで論文の筆者らはこの問題を考えるために、 ヘテロアリール-ヘテロアリールかアリール-ヘテロアリール鈴木カップリングを題材として、ターゲットとする反応の最適化条件を機械学習で探索することを試みました。がしかしうまくいかず、機械学習の結果は、最も一般的な条件を示すだけでした(原著論文にもIntroductionでうまくいかなかったことが述べられています。)。

結果と考察

背景にてすでに結論が述べられてありますが、詳細を見ていきます。ターゲットにしたのは下記の反応で、リアクシスからデータセットを構築しました。その際、収率の記載がない反応、パラジウム化合物について記載がない反応、特許の反応例は除外し、16748反応の触媒、塩基、溶媒のデータと13337反応の触媒、塩基、溶媒に加えて温度のデータを使用しました。

テストデータとして機械学習のモデルが最も最適な条件が選択できるか試した反応 (出典:原著論文)

まず、取り込んだ反応の条件をヒストグラムとしてまとめました。触媒はPd(PPh3)4の使用がほとんどで、反応温度は80から109℃までで多くの反応が行われ、塩基は炭酸塩が多く使われています。溶媒については、他の要素ほど傾向が偏っていませんでした。このような結果から本研究では、溶媒と塩基からの予測に注力しました。具体的に過去の反応例から最も最適化された溶媒と塩基の組み合わせを学習させ、テストデータの反応について最適条件を正しく選択できるかモデルの正確性を調べました。

各条件の傾向 (出典:原著論文)

まず二つの隠れ層と二つの出力層(塩基と溶媒)を持つフィードフォワード・ニューラルネットワークにおいて予測を行いました。なお入力層(分子構造の記述方法)については、4種類の方法を試行しました。

  1. Morgan fingerprints
  2. RDKit library
  3. 1と2の組み合わせ
  4. 1のAutoencoder

結果としてはモデルの正答率は、塩基と溶媒の組み合わせを論文で報告されている数の順で並べた時にターゲットの反応が上位に入っている確率(人気順ベースライン)と変わらない結果となりました。そのためニューラルネットワークモデルは、単に論文での使用頻度の確立よりも大幅に的中精度を向上させることはないことが分かりました。

塩基/溶媒=7/7と7/13のカテゴリー別の正確性(top-1は6つのテスト反応について各モデルが1番目に正しい答えをはじき出す確率で、top-2,top-3はそれぞれ2番目までと3番目までに正しい答えがはじき出される確率) (出典:原著論文)

 

上段の溶媒の分け方: {alcohols, water/polar solvents, water/alcohols, water/amides, water, amides}, {water/aromatics, alcohols/aromatics, water/alcohols/aromatics}, {aromatics}, {ethers}, {water/ethers}, {other}

下段の溶媒の分け方: {water/ethers}, {ethers}, {water/alcohols/aromatics}, {water/amides}, {alcohols/aromatics}, {aromatics}, {amides}, {water/aromatics}, {low boiling polar aprotic solvents/water}, {water/alcohols}, {water}, {alcohols}, {other}

塩基の分け方:{carbonates}, {phosphates}, {fluorides}, {hydroxides}, {amines}, {acetates}, and {other/miscellaneous}

次にGraph Convolutional Networkと統計的な補正(PU-NNモデル)で精度を上げることを試みました。Graph Convolutional Networkは、ディープラーニングをグラフデータに適用する手法で化学においては分子の図(構造式)を直接取り扱うことができます。PU-NNモデルについては、報告例がない塩基と溶媒に関しても最適な条件についても考慮されるモデルです。

塩基/溶媒=7/7カテゴリーでの正確性 (出典:原著論文)

結果としては、一番目で正答できる確率は、50%以下であり、2,3番目までを見ても人気順ベースラインとあまり変わらない結果となりました。フィードフォワードについてもExtended Connectivity Circular FingerprintsMol2Vecを使用したモデルを構築しましたが、あまり変わらない結果となりました。

さらにモデルの正確性を向上させるために収率の情報を加えることにしました。この検討では、全ての塩基と溶媒の組み合わせに対して収率を予測し、ターゲットの反応の最適な条件が、収率の高い順の1位から3位に入っている確率を計算しました。結果、種々のインプットの方法でモデルを構築しましたが、どのモデルでも大差ない結果となりました。一方で予測された最も良いと悪い条件の収率の差は5から10%と実測値で得られている20-30%より低い値となりました。これは説明変数が収率に対して敏感に反応しないためであり、そのため正解が収率の高い順の1位から3位に入っている確率が低いこともつながっています。よってモデルによる予測は単純な人気順ベースラインよりも低い結果となりました。

収率予測の正確性 (出典:原著論文)

最後に3つの先行研究にて開発されたモデルを使って同様の試みを行いました。データセットについてリアクシスに加えて米国特許からも反応データを抽出して使用しました。結果、Rel-GATのみ人気順ベースラインよりも高い精度の結果が示されました。

先行研究にて開発されたモデルを使った予測の正確性 (出典:原著論文)

まとめ

結果として単純な指標である人気順ベースラインと比較して大幅に高い精度を持つモデルは発見されませんでした。この原因は、論文に掲載されている反応が機械学習を行う上ではフェアでないからであり、関連する研究分野において最もよく報告されている反応条件が選択されていたり、研究室において歴史的に好まれる基質や溶媒があるからだと推測されています。本研究のようなアプローチを行うためには、系統的に標準化され、繰り返し行った実験で得られた結果が必要であり、合成実験の全自動化などにおいてうまくいくとコメントされています。そのような複数の条件のデータが一般的になるまでは、機械学習のモデルは、論文での頻出度合いと比較して反応の傾向を考慮すべきだと提言しています。

コメント

紹介した内容は表層的でしたが機械学習のいろいろな手法が登場し、個人的には勉強になる内容でした。論文の内容としてはAIを使って精度の高い予測に成功した例を取り上げるのが一般的ですが、本研究ではうまくいかなかった例を提示し、その原因を考察している点が大変ユニークだと感じました。合成の研究においては、各研究室がそれぞれの設備や環境で実験を行い、論文の結果や考察のセクションでは示したいデータを自由にピックアップして報告しています。そのため論文の中では結果を比較できても、いろいろな論文からデータを抽出しても誤差が大きく、基質や溶媒を等しく繰り返し調べているわけではないのでモデルのデータセットとしては不適切であることがよくわかる一例だと思います。全ての反応研究において条件や論文の形式を規格化することは困難だと思いますが、規格化した条件で得られたデータでの議論に特化した論文誌があっても良いかと思います。

関連書籍

関連リンクと機械学習に関するケムステ過去記事

Zeolinite

投稿者の記事一覧

ただの会社員です。某企業で化学製品の商品開発に携わっています。社内でのデータサイエンスの普及とDX促進が個人的な野望です。

関連記事

  1. 金属・ガラス・製紙・化学・土石製品業界の脱炭素化 〜合成、焼成、…
  2. 第42回ケムステVシンポ「ペプチドと膜が織りなす超分子生命工学」…
  3. カラムはオープン?フラッシュ?それとも??
  4. 好奇心の使い方 Whitesides教授のエッセイより
  5. 塩にまつわるよもやま話
  6. 元素名を名字にお持ちの方〜
  7. メタルフリー C-H活性化~触媒的ホウ素化
  8. 最近のwebから〜固体の水素水?・化合物名の商標登録〜

コメント、感想はこちらへ

注目情報

ピックアップ記事

  1. ボールペンなどのグリップのはなし
  2. 二刀流センサーで細胞を光らせろ!― 合成分子でタンパク質の蛍光を制御する化学遺伝学センサーの開発 ―
  3. howeverの使い方
  4. アルゴン Argon 空気中の体積1%を占め、医療用レーザーにも使われる
  5. 杏林製薬 耳鳴り治療薬「ネラメキサン」の開発継続
  6. 新しい太陽電池ーペロブスカイト太陽電池とは
  7. 非常に小さな反転障壁を示す有機リン化合物の合成
  8. 細胞内の温度をあるがままの状態で測定する新手法の開発 ~「水分子」を温度計に~
  9. 普通じゃ満足できない元素マニアのあなたに:元素手帳2016
  10. メントール /menthol

関連商品

ケムステYoutube

ケムステSlack

月別アーカイブ

2022年4月
 123
45678910
11121314151617
18192021222324
252627282930  

注目情報

最新記事

5/15(水)Zoom開催 【旭化成 人事担当者が語る!】2026年卒 化学系学生向け就活スタート講座

化学系の就職活動を支援する『化学系学生のための就活』からのご案内です。化学業界・研究職でのキャリ…

フローマイクロリアクターを活用した多置換アルケンの効率的な合成

第610回のスポットライトリサーチは、京都大学大学院理学研究科(依光研究室)に在籍されていた江 迤源…

マリンス有機化学(上)-学び手の視点から-

概要親しみやすい会話形式を用いた現代的な教育スタイルで有機化学の重要概念を学べる標準教科書.…

【大正製薬】キャリア採用情報(正社員)

<求める人物像>・自ら考えて行動できる・高い専門性を身につけている・…

国内初のナノボディ®製剤オゾラリズマブ

ナノゾラ®皮下注30mgシリンジ(一般名:オゾラリズマブ(遺伝子組換え))は、A…

大正製薬ってどんな会社?

大正製薬は病気の予防から治療まで、皆さまの健康に寄り添う事業を展開しています。こ…

一致団結ケトンでアレン合成!1,3-エンインのヒドロアルキル化

ケトンと1,3-エンインのヒドロアルキル化反応が開発された。独自の配位子とパラジウム/ホウ素/アミン…

ベテラン研究者 vs マテリアルズ・インフォマティクス!?~ 研究者としてMIとの正しい向き合い方

開催日 2024/04/24 : 申込みはこちら■開催概要近年、少子高齢化、働き手の不足…

第11回 慶應有機化学若手シンポジウム

シンポジウム概要主催:慶應有機化学若手シンポジウム実行委員会共催:慶應義塾大…

薬学部ってどんなところ?

自己紹介Chemstationの新入りスタッフのねこたまと申します。現在は学部の4年生(薬学部)…

実験器具・用品を試してみたシリーズ

スポットライトリサーチムービー

PAGE TOP