[スポンサーリンク]

その他

Rではじめるケモ・マテリアルズ・インフォマティクスープログラミング・ノックで基礎を完全習得ー

[スポンサーリンク]

[amazonjs asin=”4764906546″ locale=”JP” title=”Rではじめるケモ・マテリアルズ・インフォマティクスープログラミング・ノックで基礎を完全習得ー”]

概要

【化学×デジタル人材になるための、標準かつ必須教科書!】
本書は新化学技術推進協会で開催されている「化学×デジタル人材育成講座」の講義資料を基に、ものづくりの現場において役立つRプログラミングを習得することを目指して構成されている。準備編、統計・検定編、機械学習編、より高度な機械学習編の4部構成で順に学びながら、100本以上のプログラム演習を通してケモ・マテリアルズ・インフォマティクスの基礎を理解する。初学者のために陥りがちなトラブル対策や使用する関数を一覧で掲載するなど、痒いところに手が届く充実の一冊。(引用:近代科学社

対象者

機械学習に興味があり、研究現場で得られたデータの解析に挑戦している研究者・技術者。Rの使い方をゼロから習得する入門書というよりは、幅広い手法を勉強する本であるため、Rやその他の言語でプログラミングを少しでも経験してから読むと効果的に内容が身に付くかと思います。

目次

第I部 準備
第1章 ケモ・マテリアルズ・インフォマティクス事始め
 1.1 ケモ・マテリアルズ・インフォマティクスとは?
 1.2 R プログラミングを活用できる場面
 1.3 R 言語とプラットフォームのインストール
第2章 データハンドリング~Rプログラミングの基礎事項~
 2.1 事前学習
 2.2 外部ファイルとの間のデータの入出力
 2.3 ベクトル・行列・リストの操作と応用
 2.4 グラフィックスを用いたデータの可視化
 2.5 まとめ

第II部 統計・検定
第3章 離散型データ(計数データ)の分析
 3.1 事前学習
 3.2 二項分布とそれを利用した検定
 3.3 超幾何分布とそれを利用した検定
 3.4 ポアソン分布
 3.5 まとめ
第4章 連続型データ(計量データ)の分析
 4.1 事前学習
 4.2 正規分布の特性と応用
 4.3 カイ二乗分布の特性と応用
 4.4 t 分布の特性と応用
 4.5 t 分布を利用した2 組のデータの比較
 4.6 ノンパラメトリック統計検定
 4.7 分割表を利用した独立性の検定・適合性の検定
 4.8 サンプル数に応じた検定手法の選択
 4.9 まとめ

第III部 機械学習で始めるデータマイニング ―データに潜む相互関係を見つけ予測・発見につなげよう―
第5章 データに潜む類似度・距離の分析―相関・距離・クラスターの視点から―
 5.1 事前学習
 5.2 相関分析
 5.3 主成分分析・多次元尺度構成法・自己組織化マップ
 5.4 クラスター分析
 5.5 まとめ
第6章 データに潜む変数間の関係をモデル化する手法―回帰分析の視点から―
 6.1 事前学習
 6.2 線形重回帰分析
 6.3 部分最小二乗法(PLS)
 6.4 正則化を利用した回帰(正則化最小二乗法)
 6.5 まとめ
第7章 識別・分類・認識に役立つモデル化手法―教師あり機械学習の視点から―
 7.1 事前学習
 7.2 教師なし学習
 7.3 判別分析
 7.4 k 最近傍法(kNN 法)
 7.5 ナイーブベイズモデル
 7.6 決定木モデル
 7.7 ニューラルネットワークモデル
 7.8 サポートベクトルマシーン
 7.9 アンサンブル学習とランダムフォレストモデル
 7.10 まとめ

第IV部 より高度な機械学習
第8章 化学情報処理―化学構造の解析とその応用―
 8.1 事前学習
 8.2 化学構造の表記法
 8.3 rcdk パッケージの応用
 8.4 ChemmineR・ChemmineOB パッケージの応用
 8.5 まとめ
第9章 深層学習(ディープラーニング)
 9.1 事前学習
 9.2 ニューラルネットワークの基本要素
 9.3 ニューラルネットワークの構築
 9.4 実データによる学習
 9.5 畳み込みニューラルネットワーク
 9.6 まとめ

解説

本書は、データサイエンスや計算化学に関するセミナーを開催している新化学技術推進協会が監修しており、化学×デジタル人材育成講座の1日の講義を1章にまとめた構成になっています。まえがきで強調しているのは、本書は大学の教科書のスタイルはとっておらず、読者がまず慣れてすぐ現場で活用できるようにしたことであり、実際に本章を見ていくとそれを強く感じることができます。

次に各章の内容を見ていきますが、第1章は、ケモ・マテリアルズ・インフォマティクス事始めとして、ケモ・マテリアルズ・インフォマティクスの概念や歴史、Rの統合開発環境であるRStudioのインストール方法や簡単な使い方が解説されています。分量は、20ページほどですが、材料設計手法の変遷やRプログラミングの活用方法が簡潔にまとめられており、Rのビギナーだけでなく、すでに使い慣れている人にとっても有用な情報が盛り込まれています。第2章のRプログラミングの基礎事項では、Rプログラミングの基礎文法を学習します。基礎といってもある程度プログラミングが慣れている人向けの基礎であり、ビギナー書で取り扱う1から4章ぐらいまでの内容がこの章に凝縮されています。久しぶりにプログラミングに手を付けると、いろいろな関数を忘れてしまってなかなかスクリプトを完成させられないことがあります。そんな時にこの2章は大変有用で、例えば頻繁に使うエクセルデータの入出力は、2章の5ページ目にすぐ登場するため、すぐに関数名と使い方を再確認することができます。その他、行列の取り扱いや様々なグラフの作り方もこの章を読むと習得・再確認することができます。

第3章と4章は統計・検定ということで、データの傾向を統計学的に捉える方法が紹介されています。第3章は、コインの裏表やさいころの目、成功・失敗といった離散型データについて取り扱い、第4章は身長や体重、収率のような連続型データについて解説されています。取り扱われている内容は言葉の難しさが理解の壁となって、いろいろな資料を見ても内容の習得がなかなかできていませんでしたが、どちらの章でも最後のまとめで分布や検定の違いをグラフや表で表現されており、自分の中で理解が大きく進みました。

第5章から機械学習の内容に入りますが、まず相関や距離・クラスターについて紹介されています。具体的には相関分析から主成分分析、クラスター分析と論文で一般的に使われる分析方法が紹介されています。本章では各分析のスクリプトの書き方だけでなく、それぞれに合ったグラフの作り方も同時に解説されていて、効果的に可視化する方法を確認することができます。第6章は回帰分析の内容で、重回帰モデルから部分最小二乗法(PLS)、リッジ回帰、ラッソ回帰までをカバーしています。一つの章で、多重共線性や過学習にどう対応するかまで解説している点は、自分のデータセットを使い方ながら学習する上では有用な構成になっていると思います。第7章では、様々なモデル化の手法を紹介しています。紹介されているモデル化手法の中で、ニューラルネットワークモデルは画像認識などにおいてよく使われていますが、難しいという思い込みがありなかなかチャレンジできていませんでした。一方、本書では特別なものは感じさせず淡々とスクリプトが解説されており、容易にモデルを作ることができます。

第8章は化学情報処理ということで、Rでの構造式の取り扱い方法を紹介しています。すでに統計手法やモデル化手法は、第7章までに紹介されているため、本章では構造式の取り込み方法からデータ形式の変換を中心に解説されています。ニューラルネットワークモデル同様、敷居の高さを感じていましたが、どのパッケージの使えば構造式を取り扱うことができるかがわかり、そして章の最後に登場する化合物の分類の例で化学構造の分析であっても難しくはないことを実感しました。第9章はディープラーニングの紹介であり、RからKerasを呼び出す形でモデルを実装する方法が解説されています。この章はどちらかというと紹介の面が大きいですが、それでも実例の一つであるpKaの予測は、自分で動かしてみたいと思うような展開になっています。

一通りの章を見ていきましたが、順番に読んでいく必要はなく、自分の課題に応じて該当する章のみを読んで内容を習得することができます。また特に課題が無くて漠然と機械学習に興味がある方にとっても、例題のデータセットが化学に近い題材であるため、読み進めることができる内容だと思います。スクリプトは出版社のウェブサイトからダウンロードすることができ、本書に入る前の基礎的な内容をまとめたRプログラミング超入門やコラムなどもサポート情報として同様にダウンロードできます。また、環境設定についても付録で解説されており、上手く動作環境が作れないときに大きな助けになります。入門書としてはやや高価ですが、すぐにデータの分析・解析で使用できるような構成になっており、ネットで調べながらプログラムを作っていくよりかは効率的に各手法を習得することができるかと思います。

機械学習関連のケムステ書籍紹介

Avatar photo

Zeolinite

投稿者の記事一覧

ただの会社員です。某企業で化学製品の商品開発に携わっています。社内でのデータサイエンスの普及とDX促進が個人的な野望です。

関連記事

  1. 【書籍】機器分析ハンドブック3 固体・表面分析編
  2. 【書籍】セルプロセッシング工学 (増補) –抗体医薬から再生医…
  3. 【書籍】研究者の仕事術~プロフェッショナル根性論~
  4. 特許やぶりの女王 弁理士・大鳳未来
  5. 理系のための口頭発表術
  6. なぜあなたは論文が書けないのか
  7. できる研究者の論文生産術―どうすれば『たくさん』書けるのか
  8. HOW TO 分子シミュレーション―分子動力学法、モンテカルロ法…

注目情報

ピックアップ記事

  1. トビン・マークス Tobin J. Marks
  2. パール・クノール フラン合成 Paal-Knorr Furan Synthesis
  3. 分子研 大学院説明会・体験入学説明会 参加登録受付中!
  4. 有機反応を俯瞰する ーヘテロ環合成: C—C 結合で切る
  5. ジイミド還元 Diimide Reduction
  6. 少量の塩基だけでアルコールとアルキンをつなぐ
  7. Callipeltosideの全合成と構造訂正
  8. トムソン・ロイター:2009年ノーベル賞の有力候補者を発表
  9. カルベンで挟む!
  10. アカデミックから民間企業への転職について考えてみる

関連商品

ケムステYoutube

ケムステSlack

月別アーカイブ

2022年10月
 12
3456789
10111213141516
17181920212223
24252627282930
31  

注目情報

最新記事

アクリルアミド類のanti-Michael型付加反応の開発ーPd触媒による反応中間体の安定性が鍵―

第622回のスポットライトリサーチは、東京理科大学大学院理学研究科(松田研究室)修士2年の茂呂 諒太…

エントロピーを表す記号はなぜSなのか

Tshozoです。エントロピーの後日談が8年経っても一向に進んでないのは私が熱力学に向いてないことの…

AI解析プラットフォーム Multi-Sigmaとは?

Multi-Sigmaは少ないデータからAIによる予測、要因分析、最適化まで解析可能なプラットフォー…

【11/20~22】第41回メディシナルケミストリーシンポジウム@京都

概要メディシナルケミストリーシンポジウムは、日本の創薬力の向上或いは関連研究分野…

有機電解合成のはなし ~アンモニア常温常圧合成のキー技術~

(出典:燃料アンモニアサプライチェーンの構築 | NEDO グリーンイノベーション基金)Ts…

光触媒でエステルを多電子還元する

第621回のスポットライトリサーチは、分子科学研究所 生命・錯体分子科学研究領域(魚住グループ)にて…

ケムステSlackが開設5周年を迎えました!

日本初の化学専用オープンコミュニティとして発足した「ケムステSlack」が、めで…

人事・DX推進のご担当者の方へ〜研究開発でDXを進めるには

開催日:2024/07/24 申込みはこちら■開催概要新たな技術が生まれ続けるVUCAな…

酵素を照らす新たな光!アミノ酸の酸化的クロスカップリング

酵素と可視光レドックス触媒を協働させる、アミノ酸の酸化的クロスカップリング反応が開発された。多様な非…

二元貴金属酸化物触媒によるC–H活性化: 分子状酸素を酸化剤とするアレーンとカルボン酸の酸化的カップリング

第620回のスポットライトリサーチは、横浜国立大学大学院工学研究院(本倉研究室)の長谷川 慎吾 助教…

実験器具・用品を試してみたシリーズ

スポットライトリサーチムービー

PAGE TOP