[スポンサーリンク]

化学書籍レビュー

化学のためのPythonによるデータ解析・機械学習入門

[スポンサーリンク]

hodaです。今回は筆者の勉強用に読んだ機械学習関連の書籍を紹介します。

概要

本書は、化学・化学工学分野でPythonを使って機械学習を行うための入門書です。
これまでに蓄積してきた実験/製造データをデータ解析・機械学習を用いて分析することで、いままでとはまったく別のアプローチで材料開発を加速させたり、プロセス管理を効率化・安定化させたりすることができます。なぜなら、実験や製造データは、目に見えない、研究者・技術者の知識・知見・経験・勘の宝庫だからです。そして、データ解析・機械学習を用いることで、これらを目に見える形にすることができるからです。
読者が一から実践できるよう、Pythonのインストール方法、データ解析・機械学習の基本理論から、材料設計、分子設計、プロセス管理について実際にサンプルプログラムとサンプルデータセットを使った実践までを丁寧に解説しています。
(引用:オーム社HP)

対象者

・化学系、化学工学系でデータ解析や機械学習に挑戦したい人。

・ケモインフォマティクスやマテリアルズインフォマティクスの経験が多少ある中級者も。

・線形代数を少しでも学んだ大学生以上。

内容

本書は3部構成になっており、第1部で「Pythonと統計の基礎知識」、第2部で「データ解析・機械学習の基礎」、第3部で「化学・化学工学データでの実践のしかた」を学びます。

第1部では機械学習でよく用いられるプログラミング言語のPythonの基礎(第1章)と、ヒストグラムや散布図などデータの図示についての説明があります(第2章)。

第2部では、多変量データ、データの前処理、主成分分析、階層的クラスタリング、非線形の可視化手法といった多変量データとデータの可視化の説明があります(第3章)。さらに回帰分析、クラス分類といった化学データを用いたモデリングに必要な知識を学ぶことができます(第4章)。モデルの適用範囲、データ密度、アンサンブル学習法といった回帰モデル・クラス分類モデルの適用範囲についても述べられています(第5章)。

第3部では、材料設計、分子設計・医薬品設計、化学構造の表現方法、化合物群の扱い、化学構造の数値化・生成の他、化合物のデータセットを扱うときの注意点、具体的なデータセットを用いた解析を学びます(第6章)。また化学工学データを用いる機械学習として化学プラントにおける推定制御・ソフトセンサー、時系列データ解析の特徴、モデルの劣化と適応型ソフトセンサー、データ解析・機械学習による化学プラントのプロセス管理(異常検出・異常診断)といった時系列データの解析についても述べられています(第7章)。

サンプルコード、サンプルデータもダウンロード可能です。

感想

本書の構成は大きく分けると第1部、第2部がデータ解析・機械学習の基礎、第3部が化学や化学工学における機械学習の実践になっています。全体的に各コードに対しての説明が詳しいため、数値やパラメーターの変更がしやすく実践に非常に役立つと思いました。

第1部では、データの図示の章が筆者のお気に入りです。データの図示は視覚情報として重要であり、本書はデータの図示方法について簡潔にまとまっているので非常にわかりやすいです。

第2部では教師なし学習であるPCA、断層的クラスタリングなどや教師あり学習であるサポートベクターマシン、ランダムフォレストなどが具体的にどのようなデータ処理がなされていくのか説明されています(教師なし学習、教師あり学習については過去記事をご参照ください)。本書の対象者に「線形代数を少しでも学んだ大学生以上」と記載したのはこの部分で一部行列が出てくるからです。数式を避けることなくしっかりと説明されているという印象を受けたので、タイトルに「機械学習入門」と書かれてはいますが、初心者だけでなくデータ解析・機械学習の経験が多少ある中級者であっても勉強になる書籍であると思います。数式も少なくないということで、数学が得意でない人たちが心配するかもしれませんが、図も多く挿入されているので理解を助けてくれると思います。他にも回帰モデル・クラス分類モデルの適用範囲について1章分説明されており、さらに発展的な内容も含まれていて、推定モデルの適応範囲についても詳しく学ぶことができます。

第3部の「化学・化学工学データの実践のしかた」は特に実践を意識した構成になっていると感じました。材料設計における機械学習の例として樹脂材料などのデータを用いながら第2部までに学習したデータの図示、教師なし学習、教師あり学習、そしてモデルの適応範囲と実践でも行うであろう順番に沿って説明されており、初心者でも内容を追って行きやすいと思います。分子設計では特に必要な化学構造をPythonで扱うための説明も簡潔でわかりやすいです。また、薬理活性に関する機械学習の一例も紹介されています。化学工学系の機械学習としては時系列データ解析に焦点を当てており、化学プラントにおける適切な機械学習のモデル構築方法の一例が示されていると思います。

筆者はすべてのサンプルコードを動かしてみたわけではありませんが、サンプルコード、サンプルデータも充実しており、基礎から実践の具体例までが詰まっていると思いました。

関連書籍

正誤表

明治大学理工学部応用化学科・金子研のホームページに本書の正誤表が掲載されていました。

関連リンク

金子研(明治大学理工学部応用化学科)による本書の紹介

Pythonで気軽に化学・化学工学(書籍レビュー)

ゼロから学ぶ機械学習【化学徒の機械学習】

表紙の画像はオーム社HPから引用しました。

hoda

投稿者の記事一覧

学部生です。機械学習を勉強しています。

関連記事

  1. 有機反応機構の書き方
  2. タンパク質の構造と機能―ゲノム時代のアプローチ
  3. 細胞の分子生物学/Molecular Biology of th…
  4. 藤沢晃治 「分かりやすい○○」の技術 シリーズ
  5. 密度汎関数法の基礎
  6. 生涯最高の失敗
  7. Nanomaterials: An Introduction t…
  8. 有機化学の理論―学生の質問に答えるノート

コメント、感想はこちらへ

注目情報

ピックアップ記事

  1. スケールアップのポイント・考え方とトラブル回避【終了】
  2. 特殊ペプチド Specialty Peptide
  3. ケミカルバイオロジーとバイオケミストリー
  4. カーボンナノリング合成に成功!
  5. ヴァレリー・フォキン Valery V. Fokin
  6. 後発医薬品、相次ぎ発売・特許切れ好機に
  7. 酵素合成と人工合成の両輪で実現するサフラマイシン類の効率的全合成
  8. 大学入試のあれこれ ②
  9. エピジェネティクス epigenetics
  10. パリック・デーリング酸化 Parikh-Doering Oxidation

関連商品

ケムステYoutube

ケムステSlack

月別アーカイブ

2021年4月
« 3月   5月 »
 1234
567891011
12131415161718
19202122232425
2627282930  

注目情報

注目情報

最新記事

NIMS WEEK2021-材料研究の最新成果発表週間- 事前登録スタート

時代を先取りした新材料を発信し続けるNIMS。その最新成果を一挙ご紹介する、年に一度の大イベント「N…

元素記号に例えるなら何タイプ? 高校生向け「起業家タイプ診断」

今回は化学の本質とは少し離れますが、元素をモチーフにしたあるコンテンツをご紹介します。実験の合間…

多価不飽和脂肪酸による光合成の不活性化メカニズムの解明:脂肪酸を活用した光合成活性の制御技術開発の可能性

第346回のスポットライトリサーチは、東京大学 大学院総合文化研究科(和田・神保研究…

10手で陥落!(+)-pepluanol Aの全合成

高度な縮環構造をもつ複雑天然物ペプラノールAの全合成が、わずか10工程で達成された。Diels–Al…

吉野彰氏が2021年10月度「私の履歴書」を連載。

今年の10月はノーベル化学賞が有機化学分野から出て、物理学賞を真鍋淑郎先生が受賞して、非常に盛り上が…

ガラス工房にお邪魔してみたー匠の技から試験管制作体験までー

実験器具を試して見たシリーズ第10弾! ついにシリーズ10回目を迎えました。今回は特別編です…

ダイセルよりサステナブルな素材に関する開発成果と包括的連携が発表される

株式会社ダイセルは、環境にやさしい酢酸セルロースを当社独自の技術で加工した真球状微粒子を開発し、20…

市販の化合物からナノグラフェンライブラリを構築 〜新反応によりナノグラフェンの多様性指向型合成が可能に〜

第345回のスポットライトリサーチは、北海道大学大学院理学研究院 理論化学研究室(前田・高橋研究室)…

PCに眠る未採択申請書を活用して、外部資金を狙う新たな手法

みなさんは毎年何本の研究申請書を書きますか?そして、残念ながら日の目を見ずに、アイデアのままパソコン…

フラーレン〜ケージを拡張、時々、内包〜

トリアジン誘導体とN-フェニルマレイミドを用いた、フラーレンのケージを拡張する新規手法が開発された。…

Chem-Station Twitter

実験器具・用品を試してみたシリーズ

スポットライトリサーチムービー

PAGE TOP