[スポンサーリンク]

その他

Rではじめるケモ・マテリアルズ・インフォマティクスープログラミング・ノックで基礎を完全習得ー

[スポンサーリンク]

概要

【化学×デジタル人材になるための、標準かつ必須教科書!】
本書は新化学技術推進協会で開催されている「化学×デジタル人材育成講座」の講義資料を基に、ものづくりの現場において役立つRプログラミングを習得することを目指して構成されている。準備編、統計・検定編、機械学習編、より高度な機械学習編の4部構成で順に学びながら、100本以上のプログラム演習を通してケモ・マテリアルズ・インフォマティクスの基礎を理解する。初学者のために陥りがちなトラブル対策や使用する関数を一覧で掲載するなど、痒いところに手が届く充実の一冊。(引用:近代科学社

対象者

機械学習に興味があり、研究現場で得られたデータの解析に挑戦している研究者・技術者。Rの使い方をゼロから習得する入門書というよりは、幅広い手法を勉強する本であるため、Rやその他の言語でプログラミングを少しでも経験してから読むと効果的に内容が身に付くかと思います。

目次

第I部 準備
第1章 ケモ・マテリアルズ・インフォマティクス事始め
 1.1 ケモ・マテリアルズ・インフォマティクスとは?
 1.2 R プログラミングを活用できる場面
 1.3 R 言語とプラットフォームのインストール
第2章 データハンドリング~Rプログラミングの基礎事項~
 2.1 事前学習
 2.2 外部ファイルとの間のデータの入出力
 2.3 ベクトル・行列・リストの操作と応用
 2.4 グラフィックスを用いたデータの可視化
 2.5 まとめ

第II部 統計・検定
第3章 離散型データ(計数データ)の分析
 3.1 事前学習
 3.2 二項分布とそれを利用した検定
 3.3 超幾何分布とそれを利用した検定
 3.4 ポアソン分布
 3.5 まとめ
第4章 連続型データ(計量データ)の分析
 4.1 事前学習
 4.2 正規分布の特性と応用
 4.3 カイ二乗分布の特性と応用
 4.4 t 分布の特性と応用
 4.5 t 分布を利用した2 組のデータの比較
 4.6 ノンパラメトリック統計検定
 4.7 分割表を利用した独立性の検定・適合性の検定
 4.8 サンプル数に応じた検定手法の選択
 4.9 まとめ

第III部 機械学習で始めるデータマイニング ―データに潜む相互関係を見つけ予測・発見につなげよう―
第5章 データに潜む類似度・距離の分析―相関・距離・クラスターの視点から―
 5.1 事前学習
 5.2 相関分析
 5.3 主成分分析・多次元尺度構成法・自己組織化マップ
 5.4 クラスター分析
 5.5 まとめ
第6章 データに潜む変数間の関係をモデル化する手法―回帰分析の視点から―
 6.1 事前学習
 6.2 線形重回帰分析
 6.3 部分最小二乗法(PLS)
 6.4 正則化を利用した回帰(正則化最小二乗法)
 6.5 まとめ
第7章 識別・分類・認識に役立つモデル化手法―教師あり機械学習の視点から―
 7.1 事前学習
 7.2 教師なし学習
 7.3 判別分析
 7.4 k 最近傍法(kNN 法)
 7.5 ナイーブベイズモデル
 7.6 決定木モデル
 7.7 ニューラルネットワークモデル
 7.8 サポートベクトルマシーン
 7.9 アンサンブル学習とランダムフォレストモデル
 7.10 まとめ

第IV部 より高度な機械学習
第8章 化学情報処理―化学構造の解析とその応用―
 8.1 事前学習
 8.2 化学構造の表記法
 8.3 rcdk パッケージの応用
 8.4 ChemmineR・ChemmineOB パッケージの応用
 8.5 まとめ
第9章 深層学習(ディープラーニング)
 9.1 事前学習
 9.2 ニューラルネットワークの基本要素
 9.3 ニューラルネットワークの構築
 9.4 実データによる学習
 9.5 畳み込みニューラルネットワーク
 9.6 まとめ

解説

本書は、データサイエンスや計算化学に関するセミナーを開催している新化学技術推進協会が監修しており、化学×デジタル人材育成講座の1日の講義を1章にまとめた構成になっています。まえがきで強調しているのは、本書は大学の教科書のスタイルはとっておらず、読者がまず慣れてすぐ現場で活用できるようにしたことであり、実際に本章を見ていくとそれを強く感じることができます。

次に各章の内容を見ていきますが、第1章は、ケモ・マテリアルズ・インフォマティクス事始めとして、ケモ・マテリアルズ・インフォマティクスの概念や歴史、Rの統合開発環境であるRStudioのインストール方法や簡単な使い方が解説されています。分量は、20ページほどですが、材料設計手法の変遷やRプログラミングの活用方法が簡潔にまとめられており、Rのビギナーだけでなく、すでに使い慣れている人にとっても有用な情報が盛り込まれています。第2章のRプログラミングの基礎事項では、Rプログラミングの基礎文法を学習します。基礎といってもある程度プログラミングが慣れている人向けの基礎であり、ビギナー書で取り扱う1から4章ぐらいまでの内容がこの章に凝縮されています。久しぶりにプログラミングに手を付けると、いろいろな関数を忘れてしまってなかなかスクリプトを完成させられないことがあります。そんな時にこの2章は大変有用で、例えば頻繁に使うエクセルデータの入出力は、2章の5ページ目にすぐ登場するため、すぐに関数名と使い方を再確認することができます。その他、行列の取り扱いや様々なグラフの作り方もこの章を読むと習得・再確認することができます。

第3章と4章は統計・検定ということで、データの傾向を統計学的に捉える方法が紹介されています。第3章は、コインの裏表やさいころの目、成功・失敗といった離散型データについて取り扱い、第4章は身長や体重、収率のような連続型データについて解説されています。取り扱われている内容は言葉の難しさが理解の壁となって、いろいろな資料を見ても内容の習得がなかなかできていませんでしたが、どちらの章でも最後のまとめで分布や検定の違いをグラフや表で表現されており、自分の中で理解が大きく進みました。

第5章から機械学習の内容に入りますが、まず相関や距離・クラスターについて紹介されています。具体的には相関分析から主成分分析、クラスター分析と論文で一般的に使われる分析方法が紹介されています。本章では各分析のスクリプトの書き方だけでなく、それぞれに合ったグラフの作り方も同時に解説されていて、効果的に可視化する方法を確認することができます。第6章は回帰分析の内容で、重回帰モデルから部分最小二乗法(PLS)、リッジ回帰、ラッソ回帰までをカバーしています。一つの章で、多重共線性や過学習にどう対応するかまで解説している点は、自分のデータセットを使い方ながら学習する上では有用な構成になっていると思います。第7章では、様々なモデル化の手法を紹介しています。紹介されているモデル化手法の中で、ニューラルネットワークモデルは画像認識などにおいてよく使われていますが、難しいという思い込みがありなかなかチャレンジできていませんでした。一方、本書では特別なものは感じさせず淡々とスクリプトが解説されており、容易にモデルを作ることができます。

第8章は化学情報処理ということで、Rでの構造式の取り扱い方法を紹介しています。すでに統計手法やモデル化手法は、第7章までに紹介されているため、本章では構造式の取り込み方法からデータ形式の変換を中心に解説されています。ニューラルネットワークモデル同様、敷居の高さを感じていましたが、どのパッケージの使えば構造式を取り扱うことができるかがわかり、そして章の最後に登場する化合物の分類の例で化学構造の分析であっても難しくはないことを実感しました。第9章はディープラーニングの紹介であり、RからKerasを呼び出す形でモデルを実装する方法が解説されています。この章はどちらかというと紹介の面が大きいですが、それでも実例の一つであるpKaの予測は、自分で動かしてみたいと思うような展開になっています。

一通りの章を見ていきましたが、順番に読んでいく必要はなく、自分の課題に応じて該当する章のみを読んで内容を習得することができます。また特に課題が無くて漠然と機械学習に興味がある方にとっても、例題のデータセットが化学に近い題材であるため、読み進めることができる内容だと思います。スクリプトは出版社のウェブサイトからダウンロードすることができ、本書に入る前の基礎的な内容をまとめたRプログラミング超入門やコラムなどもサポート情報として同様にダウンロードできます。また、環境設定についても付録で解説されており、上手く動作環境が作れないときに大きな助けになります。入門書としてはやや高価ですが、すぐにデータの分析・解析で使用できるような構成になっており、ネットで調べながらプログラムを作っていくよりかは効率的に各手法を習得することができるかと思います。

機械学習関連のケムステ書籍紹介

Zeolinite

投稿者の記事一覧

ただの会社員です。某企業で化学製品の商品開発に携わっています。社内でのデータサイエンスの普及とDX促進が個人的な野望です。

関連記事

  1. 動画でわかる! 「575化学実験」実践ガイド
  2. 世界の化学企業ーグローバル企業21者の強みを探る
  3. Guide to Fluorine NMR for Organi…
  4. 食品添加物はなぜ嫌われるのか: 食品情報を「正しく」読み解くリテ…
  5. だれが原子を見たか【夏休み企画: 理系学生の読書感想文】
  6. 有機合成創造の軌跡―126のマイルストーン
  7. 人名反応に学ぶ有機合成戦略
  8. Greene’s Protective Groups…

コメント、感想はこちらへ

注目情報

ピックアップ記事

  1. 非専門家でもデザインはできる!「ノンデザイナーズ・デザインブック」
  2. ウォルフ・キシュナー還元 Wolff-Kishner Reduction
  3. アメリカの研究室はこう違う!研究室内の役割分担と運営の仕組み
  4. ケムステバーチャルプレミアレクチャーの放送開始決定!
  5. 仏サノフィ・アベンティス、第2・四半期は6.5%増収
  6. ホウ素が隣接した不安定なカルベン!ジボリルカルベンの生成
  7. 機械的力で Cu(I) 錯体の発光強度を制御する
  8. 元素紀行
  9. ベンザイン Benzyne
  10. 青色発光ダイオードの赤﨑勇氏らに京都賞

関連商品

ケムステYoutube

ケムステSlack

月別アーカイブ

2022年10月
 12
3456789
10111213141516
17181920212223
24252627282930
31  

注目情報

最新記事

マリンス有機化学(上)-学び手の視点から-

概要親しみやすい会話形式を用いた現代的な教育スタイルで有機化学の重要概念を学べる標準教科書.…

【大正製薬】キャリア採用情報(正社員)

<求める人物像>・自ら考えて行動できる・高い専門性を身につけている・…

国内初のナノボディ®製剤オゾラリズマブ

ナノゾラ®皮下注30mgシリンジ(一般名:オゾラリズマブ(遺伝子組換え))は、A…

大正製薬ってどんな会社?

大正製薬は病気の予防から治療まで、皆さまの健康に寄り添う事業を展開しています。こ…

一致団結ケトンでアレン合成!1,3-エンインのヒドロアルキル化

ケトンと1,3-エンインのヒドロアルキル化反応が開発された。独自の配位子とパラジウム/ホウ素/アミン…

ベテラン研究者 vs マテリアルズ・インフォマティクス!?~ 研究者としてMIとの正しい向き合い方

開催日 2024/04/24 : 申込みはこちら■開催概要近年、少子高齢化、働き手の不足…

第11回 慶應有機化学若手シンポジウム

シンポジウム概要主催:慶應有機化学若手シンポジウム実行委員会共催:慶應義塾大…

薬学部ってどんなところ?

自己紹介Chemstationの新入りスタッフのねこたまと申します。現在は学部の4年生(薬学部)…

光と水で還元的環化反応をリノベーション

第609回のスポットライトリサーチは、北海道大学 大学院薬学研究院(精密合成化学研究室)の中村顕斗 …

ブーゲ-ランベルト-ベールの法則(Bouguer-Lambert-Beer’s law)

概要分子が溶けた溶液に光を通したとき,そこから出てくる光の強さは,入る前の強さと比べて小さくなる…

実験器具・用品を試してみたシリーズ

スポットライトリサーチムービー

PAGE TOP