[スポンサーリンク]

一般的な話題

ゼロから学ぶ機械学習【化学徒の機械学習】

[スポンサーリンク]

hodaです。機械学習に興味があります。
突然ですが読者の皆さんは第13回ケムステVシンポジウム「創薬化学最前線」をご覧になりましたか?私も第13回Vシンポを見ていました。見ていないよという人も、一部講演がYou Tubeで今からも見られます。第13回のVシンポでは、AI・機械学習関連の研究のご講演がありました。

この記事では機械学習の初歩的な知識から、化学において重要な構造式を機械がどのように読み込むかについてお話しようと思います。

機械学習とは

図1 機械学習関連の言葉の分類(強化学習は教師なし学習に分けていることもありますが、今回は教師あり学習にも教師なし学習にも含まれていないとして分類しました。人工知能はAI(Artificial Intelligence)で、機械学習はML(Machine Learning)と略されます。)

 

機械学習に関連するいくつかワードを拾ってきて分けてみました。聞いたことのある言葉も入っているでしょうか。人工知能(AI)や機械学習と言った言葉はよく使われていますが、くくっていくと図1のように分類されます。機械学習により、コンピュータが与えられたデータに潜まれたパターンを分析し、その学習したパターンを利用して新たなデータに対して結果を予想することが可能になります。

ラベルがあるかないか

機械学習において、結果を予測するためにデータを集め、そのデータを処理する方法として次の2つが挙げられます。

教師あり学習(Supervised learning)
教師なし学習(Unsupervised learning)

教師あり学習、教師なし学習にはそれぞれたくさん種類があります。教師あり学習は、ラベルを元にモデルを作り未知のデータに対しても正しい予測ができるようにする汎化能力の習得を目標としています1。一方教師なし学習は、データ自体の背後にある構造や特徴を解析することを目的としています2。ここでいうラベルは、答に対応すると考えてもそれほど問題ありません。教師あり学習だけを用いてもモデルを作成し、未知データに対して予測を行うことができます。しかし、教師あり学習の前に教師なし学習でデータを処理することにより、そのままのデータを使うよりも人間が説明しやすくなったり、場合によっては教師あり学習の精度が向上させたりすることができます。他にも強化学習(Reinforcement learning)や半教師あり学習(半教師付き学習とも言う)が存在します。

教師あり学習の種類

教師あり学習は「分類(Classification)」と「回帰(Regression)」の大きく2種類に分けられます。クラス(例えば0と1)に分ける場合は分類を、連続した値から(線形または非線形に)予測する場合は回帰になります。

図2 分類のイメージ

図3 回帰のイメージ

分類のみに使うことができるアルゴリズムや、分類と回帰のどちらにも使うことができるアルゴリズムなど、各アルゴリズムに特徴があります。

・Random Forest
・AdaBoost
・Support Vector Machine (SVM)
・kNN(k近傍法)
・Neural Network
・Logistic Regression
・Liner Regression
など

教師なし学習の種類

クラスタリング(Clustering)や次元削減(Dimensionality reduction)などを行ったりします。

・PCA
・k-means
・t-SNE
など

機械学習の言語

プログラミング言語にはC/C++やJava、JavaScript、Swiftなどほかにもたくさんありますが、機械学習によく使われる言語は次の2つだと思います。

・Python
・R

特にPythonは比較的直感的なコードであるため、初心者にやさしい汎用型のプログラミング言語と言われています。汎用性があり、機械学習系のライブラリが豊富であるため機械学習などによく使われています。またR はデータ解析を得意としています。ちなみに筆者は執筆時点でPythonしかプログラミング言語を学んでいません。筆者がPythonを使っているのでここからはPythonの話ばかりになってしまうと思いますが、ご容赦ください。

化学で特に使うツール

ここまでは機械学習全般の話で、化学に限ったものではありません。
ここからは化学で特に使うツールについてです。化学において構造式は人間にたくさんの情報を与えてくれます。構造式は人間からすると視覚的にわかりやすいですが、機械にとっては構造式からうまく情報を取り込むことは難しいです。そこで構造式を機械に読み込ませる形に変換するための変換ツールが登場します。構造式の変換ツールの例として、SMILES(スマイルズと読む)が挙げられます3。SMILESはSimplified Molecular Input Line Entry Systemの略です。この表記により構造式を文字や記号を用いて1行の文字列にして情報を取り込めるようにします。そして、プログラミングやソフトウェアなどによってSMILESから構造式の画像を出すことができます。SMILESにはいくつか種類があるようなので、ここではcanonical SMILES4の例を示したいと思います。
SMILESで化合物を読み込み、計算や機械学習を行えるような形で構造情報を表す方法として、例えばfingerprints(フィンガープリントと読む)があります。fingerprintsにもいくつか種類があります。構造式をfingerprintsへ変換するアルゴリズム5, 6, 7のひとつであるECFP アルゴリズムのおおまかな流れは以下のようになっています。

  1. 水素原子以外の原子それぞれについて原子番号などの特徴を元に整数の識別子を割り当てる。
  2. それぞれの原子の識別子を隣接する原子の識別子の存在を反映して、識別子のアップデートを繰り返し行う。このことにより、部分構造の情報を加味した識別子が得られる。
  3. 重複した識別子を削除する。

ECFPs はExtended-connectivity fingerprintsの略で、上記のアルゴリズムの後に残った識別子がECFP fingerprintsです。
ここでは筆者が使ったことがあるfingerprintsのひとつであるMorgan fingerprintsの例を図4に示しました。Morgan fingerprintsは構造情報が0と1を大量に並べるビット列で表されます(fingerprintsの種類によって記述子の数やビット列、整数の列か異なります8)。複雑な化学構造式がシンプルな数字の並びだけで表現できるとは驚きですね。

図4 SMILESとfingerprintsの例(Emodinのcanonical SMILESは参考文献4から)

SMILES、fingerprintsについての詳しい説明はケムステの過去記事にもまとめられているのでご参照ください (SDF って何?〜化合物の表記法〜)。

終わりに

今回はとにかく機械学習に関して思いつく限りの基礎用語を挙げてみました。リスト方式で紹介した教師あり学習、教師なし学習の種類はまだまだたくさんありますし、1つ1つもそれぞれ特徴があります。まだまだ十分な情報ではありませんが、今回はここまでにしたいと思います。

続きは果たして作ったモデルはどのくらいよいのだろうか【化学徒の機械学習】

参考文献

[1] 杉山将 著, イラストで学ぶ 機械学習―最小二乗法による識別モデル学習を中心に, 2頁, 講談社, 2013

[2] 大曽根, 関, 米田 著, 現場で使える!Python機械学習入門, 136頁, 翔泳社, 2019

[3] 金子弘昌 著, 化学のためのPythonによるデータ解析・機械学習入門, 129頁, 134頁,オーム社, 2019

[4] Toluene (Compound), PubChem,

https://pubchem.ncbi.nlm.nih.gov/compound/Toluene#section=InChI-Key (最終閲覧日:2021年3月20日)

[5] Kensert, A.; Alvarsson, J.; Norinder, U.; Spjuth, O. Evaluating Parameters for Ligand-Based Modeling with Random Forest on Sparse Data Sets. J. Cheminform. 2018, 10 , 1–10. DOI: 10.1186/s13321-018-0304-9.

[6] Rogers, D.; Hahn, M. Extended-Connectivity Fingerprints. J. Chem. Inf. Model. 2010, 50, 742–754. DOI: 10.1021/ci100050t.

[7] A Practical Introduction to the Use of Molecular Fingerprints in Drug Discovery, https://towardsdatascience.com/a-practical-introduction-to-the-use-of-molecular-fingerprints-in-drug-discovery-7f15021be2b1 (最終閲覧日:2021年4月8日)

[8] Elton, D. C.; Boukouvalas, Z.; Butrico, M. S.; Fuge, M. D.; Chung, P. W. Applying Machine Learning Techniques to Predict the Properties of Energetic Materials. Sci. Rep. 2018, 8, 1–12. DOI: 10.1038/s41598-018-27344-x.

記事全体の参考

[9] 神崎洋治 著, 図解入門 最新人工知能がよ~くわかる本, 秀和システム, 2016

[10] 下田倫大 監訳, scikit-learnとTensorFlowによる実践機械学習, オライリー・ジャパン, 2018

[11] 中田秀基 訳, Pythonではじめる機械学習, オライリー・ジャパン, 2017

[12] Kebin P. Murphy, Machin Learning A Probabilistic Perspective, 2頁, 12頁, The MIT Press, 2012

Topの画像は写真ACから利用しています

関連書籍

図解入門 最新 人工知能がよーくわかる本

図解入門 最新 人工知能がよーくわかる本

神崎洋治
Release date: 2016/07/07
Amazon product information
scikit-learnとTensorFlowによる実践機械学習

scikit-learnとTensorFlowによる実践機械学習

Aurelien Geron, 下田倫大, 長尾高弘
Amazon product information

関連リンク

果たして作ったモデルはどのくらいよいのだろうか【化学徒の機械学習】

AI・機械学習関連

・SDFって何?~化合物の表記法~

・超合金粉末の製造方法の改善に機械学習が施試行される

・AIによる創薬に新たな可能性 その研究と最新技術に迫る ~米・Insitro社 / 英・ケンブリッジ大学の研究から~

・AIで世界最高精度のNMR化学シフト予測を達成

・日本で発展する化学向けAIと量子コンピューターテクノロジー

2021/04/19 一部修正

hoda

投稿者の記事一覧

大学院生です。ケモインフォマティクス→触媒

関連記事

  1. 有機化合物のスペクトルデータベース SpectraBase
  2. 2013年就活体験記(2)
  3. テルペンを酸化的に”飾り付ける”
  4. 元素の和名わかりますか?
  5. 光と熱で固体と液体を行き来する金属錯体
  6. 日本のお家芸、糖転移酵素を触媒とするための簡便糖ドナー合成法
  7. 電気ウナギに学ぶ:柔らかい電池の開発
  8. 第10回ケムステVシンポ「天然物フィロソフィ」を開催します

注目情報

ピックアップ記事

  1. シモン反応 Simon reaction
  2. 第134回―「脳神経系の理解を進める分析化学」Jonathan Sweeder教授
  3. 「サイエンスアワードエレクトロケミストリー賞」が気になったので調べてみた
  4. ブドウ糖で聴くウォークマン? バイオ電池をソニーが開発
  5. バナジル(アセチルアセトナト) Vanadyl(IV) acetylacetonate
  6. 有機反応を俯瞰する ーシグマトロピー転位
  7. グリチルリチン酸 (glycyrrhizic acid)
  8. 化学企業が相次いで学会や顧客から表彰される
  9. 緑色蛍光タンパク質を真似してRNAを光らせる
  10. 有機反応を俯瞰する ーリンの化学 その 1 (Wittig 型シン脱離)ー

関連商品

ケムステYoutube

ケムステSlack

月別アーカイブ

2021年4月
 1234
567891011
12131415161718
19202122232425
2627282930  

注目情報

最新記事

アンモニウム構造によりラジカル種の発生位置を完全に制御!

第710回のスポットライトリサーチは、関西学院大学理工学研究科 村上研究室の榊原 陽太(さかきばら …

化学つれづれ草【ある研究者の回想】

概要物理化学者で量子機能材料を専門とする著者によるエッセイ集.化学者としての研究,教育,人生…

第60回有機反応若手の会

開催概要有機反応若手の会は、有機化学分野で研究を行う全国の大学院生を中心とした若手研究者が集い、…

ノーベル賞受賞者と語り合う5日間!「第18回HOPEミーティング」参加者募集!

申し込みはこちら概要主催:独立行政法人 日本学術振興会(JSPS)開催地:神奈川…

光触媒による高効率なCO2還元の実現―まさかの光を弱く当てることが重要だった―

第709回のスポットライトリサーチは、東京科学大学 理学院(前田研究室)博士後期課程2年の仲田竜一 …

「π-πスタッキング」という言葉が生む誤解【芳香環の相互作用を見直す: 前編】

芳香環が平行に並んで近接しているとき、その構造を「π–π スタッキング」と表されることがよくあります…

一重項酸素によるC(sp2)−P結合切断を用いた長波長光によるリン化合物のアンケージング

第 708 回のスポットライトリサーチは、同志社女子大学 薬学部 医療薬学科 5…

マテリアルズ・インフォマティクスにおける画像解析の活用ガイド

開催概要材料開発において、電子顕微鏡やX線トモグラフィーを用いて材料の微細構造を観察するために画…

世界初のPROTAC医薬、ついに承認 ―「タンパク質を阻害する」から「分解する」時代へ

2026年5月、創薬化学の歴史に残る大きな出来事が起きました。米国 FDA は、…

有機蛍光とは異なる新しい有機りん光の分子設計指針の発見

第707回のスポットライトリサーチは、電気通信大学 情報理工学研究科(牧昌次郎研究室)の林希久也 助…

実験器具・用品を試してみたシリーズ

スポットライトリサーチムービー

PAGE TOP