[スポンサーリンク]

一般的な話題

化学研究で役に立つデータ解析入門:エクセルでも立派な解析ができるぞ編

[スポンサーリンク]

化学分野でのAIを使った研究が多数報告されていてデータ解析は流行のトピックとなっていますが、専門外からすれば、データ解析は専門知識を駆使して何千行もの長いコードを書くとても難しい作業があると思われがちです。実は、多くのPCにインストールされているMicrosoft Excelでも立派な統計解析することはできます。今回は、そんなエクセルを使った実験データの解析を紹介します。

はじめに

もちろん複雑なデータ解析には、専門的な知識を必要としますが、簡単な解析は誰もが日常行っていることです。例えば有機合成の実験において反応時間と収率を調べたときに、下記のようなグラフになれば何となく傾向がつかめ、何かの式(この場合は一次反応式)で近似できることがわかります。この「傾向を掴んで、当てはまりが良い数式を選択して近似する」という実験データを考察するときにいつも行っている作業はまさしく解析の作業であり、特別なことをせずに傾向を掴む=自然にデータ解析を行っていることになります。この例の場合では、収率に対して反応時間という一つの変数でグラフを書いたたためXYのグラフから直感で傾向を掴むことができましたが、反応時間に加えて触媒量と反応温度も同時に振った結果では、3つの変数となり、もはや直感で傾向を掴むことはできません。そこで、多変量解析が必要になります。以後、エクセルを使った分析を紹介していきますが、実用的な方法の内容になっているため、使った手法の理論については専門書を参考にしてください。

反応時間と収率をプロットしたグラフと、見た目でかける近似式

環境の準備

必要なソフトはMicrosoft Excelです。バージョンが2007以降であれば、紹介する機能を有しています。「データ」の分析にあるデータ分析という機能を使いますが、この機能が表示されていない場合にはアドインで分析ツールをアクティブにする必要があります。その方法は、こちらなどを参照してください。表計算ソフトはExcelだけでなくいろいろなソフトがありますが、下記で説明するような機能を有しているのはExcelだけのようでまた、クラウド版のExcelではこの機能は使えないようです。

解析を行うために必要なデータ分析ボタンの場所

データセットの準備

手持ちの実験データがなかったので、データアーカイブから適当なデータセットをダウンロードして使いました。これはねじの数を数える機械について、スピードやセンサーの感度を変えて機械が数えるスピードを調べた結果で、下記のような意味を持つ8つのパラメーターが調べられています。

RUN:試験した順番
SPEED1:板の回転速度
TOTAL:加えたねじの数
SPEED2:変化後の回転速度
NUMBER2:回転速度が変化した後に数えられたねじの数
SENS:センサーの感度
TIME:ねじを数えるのにかかった時間
T20BOLT:20個のねじを数えるのにかかる時間

T20BOLTは、TIMEをTOTALで割ることで算出されます。ここでは、それぞれのパラメーターの意味を深く考える必要はなく、T20BOLTに影響を与えているパラメーターを探して、なるべく早くねじを数えられる条件を探すことが目的になります。合成の実験で考えるなら、T20BOLTが収率で、他のパラメーターが、温度や反応時間、触媒量、反応スケールに相当します。

とりあえず、T20BOLTをY軸、各パラメータをX軸にプロットしてみました。

X軸に各パラメーター、Y軸にT20BOLTにプロットした図

パッと見て右肩や左肩上がりの直線が書けそうなグラフはないので、一つのパラメーターとT20BOLTが強い相関を持っていることはなさそうです。そこで、データ分析の「回帰分析」をいう機能を使って複数のパラメーターを使った近似を行います。回帰分析とは 簡単に言うとY = f(X) というモデルを当てはめる事で、XYのグラフを見て近似曲線あてはめるのも回帰分析を行っていることになります。詳しい解説は、「回帰分析」とググると山ほど解説記事が出てくるので参照してください。

回帰分析ボタン

いろいろな回帰分析がありますがこのExcelの機能では、y=ax+bz+cといった一次多項式にあてはめることを行います。手順は簡単で、Yに相当する行とパラメーターの範囲を選択するだけです。オプションで解析結果のグラフの作成ができるので、必要に応じて作成します。データの配列にはルールがあり、行ごとのパラメーター(列に一つの条件・結果)が並んでいないと分析できずエラーになります。

回帰分析を行うための設定画面

取り込んだ表

とりあえず、T20BOLTをY範囲、TIME以外をX範囲として解析を行いました。TIMEはT20BOLTと同様に結果を示すので除外しました。RUNは関係すべきでないですが、試験する順番が関係しているかもしれないのでX範囲に加えました。

回帰分析の結果1:すべてのパラメーターを入れた結果

このようなシートが出力されました。いろいろな値が出力されますが特定の値にのみ着目します。パラメーター一つ一つの詳細についてはこちらの17ページ以降がたいへん参考になります。

まず係数ですが、これが近似式の定数に相当します。つまりT20BOLT=0.41×RUN+10.65×SPEED1+0.70×TOTAL-0.17×SPEED2-2.59×NUMBER2+0.14×SENS-29.45というモデルが作られたことになります。そしてモデルの当てはまりの良さは補正R2で示され、1に近づくほど良いモデルとなります。この場合ですと0.50なので実データの半分程度を説明できると考えます。残差出力では、実測値(表示されない)と予測値の差(残差)が表の上から順に出力されていますが、残差が大きい観測値もあり、当てはまりが良いモデルとは言いにくいです。

結果1の残差出力:観測値1が表のセルH2のデータとの差に相当する。

次に、回帰分析の肝であるP値を確認します。P値とは帰無仮説の下で実際にデータから計算された統計量よりも極端な(仮説に反する)統計量が観測される確率のことで、値が低いほど有意差が高いとなり、一般的にP値が5%または1%以下の場合に帰無仮説を偽として棄却し対立仮説を採択するつまり、そのパラメーターは影響があると判断します。このモデルではSPEEDは有意差が高く、TOTALもそこそこですが、他はあまり有意差がないと言えます。

総じてそこそこのモデルが出来上がりましたが、P値が高いパラメーターが複数含まれているので、最適化が必要だと考えるのが自然です。そこで、SPEEDとTOTALのみをパラメーターとして回帰分析を行いました。

解析結果2:1で高いP値を示したSPEED1とTOTALに絞った場合

すると、補正R2が少しだけ改善しましたが、TOTALのP値が悪くなってしまいました。6個のパラメーターは必要ないが2個のパラメーターでは足りないようです。そこで、いくつかのパラメーターを加えて回帰分析を行ったところ、RUN、TOTAL、SPEED1の結果で補正R2が改善され、比較的低いP値がそれぞれのパラメーターで観測されました。よってこの検討ではT20BOLT=0.43×RUN+10.65×SPEED1+0.71×TOTAL-31.69というモデルが良くあてはまり、早くねじをカウントするには、板の回転速度を遅くして、加えるねじも少なくしてたほうが早くねじを機械が数えることができ、試験回数が増えてくると遅くなる傾向を示すと言えます。

解析結果3:結果2にNUMER2を加えた結果

解析結果4:結果2にRUNを加えた結果(この検討での最適解だと思われる組み合わせ)

上記の例のように単純にP値が高いパラメーターを抜いただけでは、良いモデルにはなるとは限らず、P値が補正R2のバランスがとれたモデルを作るにはパラメーターの抜き差しを繰り返してみる必要があります。またデータ分析の相関を使うと、それぞれのパラメーターの相関を調べることができ、反応を見たい項目と相関が高いパラメーターは、回帰分析でも考慮すべきパラメーターになる可能性があります。

データ分析の相関:調べたい範囲を指定するだけである。

相関の結果:行と列でぶつかった値が相関を示す。1に近いほど正の相関、-1に近いほど負の相関があるとなる。T20BOLTは、TIMEをTOTALで割った結果なので当然相関がみられる。

 

そもそもこの解析の目的はなく、ただ単純に当てはまりが良いモデルを作ることでしたが、実際の実験では、条件を最適化するなどの目的があると思います。この例でいうならば、SPEED1はよく調べたいがTOTALは、他の装置の都合上変えられないという前提があるなら、SPEED1は必ず入れ、TOTALは入れないモデルで検討すべきとなります。モデルの構築の答えは一つではなく、またP値が0.05以下で有意差があるというのも一般的な傾向の話なので、個々の実験の誤差に応じて柔軟に考える必要があります。ただし最初から項目を絞ると影響が強いパラメーターを見つけることができない可能性もありますので、この例でいうならRUN、合成実験では気温や湿度など、なるべく多くの項目を取り込んだほうが解析しやすいと思います。この回帰分析という機能は、いくつかの関数を走らせて値を算出しているだけなので、直接関数を入れて値を調べることもできますが、配列数式を取り扱うことになります。またエクセルでは一次多項式のモデルとなるので、それ以外の式に当てはまる場合には、値自身を変換(2次式なら二乗のパラメーターを作る、logならY範囲をlogに変換するなど)してからこの回帰分析を必要があります。

このように簡単な回帰分析はエクセルで可能ですが、できないことや手間がかかることも多くあり、より複雑な解析には別の方法が必要です。また、良いモデルを作るために最適化された条件で実験を行うことも解析においては有用です。さらには回帰分析も手法の一つであり、これ以外にもたくさんの手法が開発されています。

エクセルだけでだいぶ長い記事になったので、次回の記事にてエクセル以外を使った解析について取り上げていきます。

参考文献

使用したデータセット:Submitted by W. Robert Stephenson (wrstephe@iastate.edu), Iowa State University

関連書籍

AIに関するケムステ過去記事

Zeolinite

投稿者の記事一覧

ただの会社員です。某企業で化学製品の商品開発に携わっています。社内でのデータサイエンスの普及とDX促進が個人的な野望です。

関連記事

  1. セルロースナノファイバーの真価【オンライン講座】
  2. 光/熱で酸化特性のオン/オフ制御が可能な分子スイッチの創出に成功…
  3. 海外機関に訪問し、英語講演にチャレンジ!~③ いざ、機関訪問!~…
  4. 研究室でDIY!~エバポ用真空制御装置をつくろう~ ③
  5. 中学入試における化学を調べてみた 2013
  6. 動画:知られざる元素の驚きの性質
  7. プロペランの真ん中
  8. 高専シンポジウム in KOBE に参加しました –その 1: …

コメント、感想はこちらへ

注目情報

ピックアップ記事

  1. バリー・シャープレス Karl Barry Sharpless
  2. ボロン酸を用いた2-イソシアノビフェニルの酸化的環化反応によるフェナントリジン類の合成
  3. 第48回「分子の光応答に基づく新現象・新機能の創出」森本 正和 教授
  4. システイン選択的タンパク質修飾反応 Cys-Selective Protein Modification
  5. 2015年化学生物総合管理学会春季討論集会
  6. 2016年8月の注目化学書籍
  7. ポケットにいれて持ち運べる高分子型水素キャリアの開発
  8. ルステム・イズマジロフ Rustem F. Ismagilov
  9. 米ファイザーの第3・四半期決算は52%減益
  10. パーデュー大、10秒で爆薬を検知する新システムを開発

関連商品

ケムステYoutube

ケムステSlack

月別アーカイブ

2020年8月
 12
3456789
10111213141516
17181920212223
24252627282930
31  

注目情報

注目情報

最新記事

第27回ケムステVシンポ『有機光反応の化学』を開催します!

7月に入り、いよいよ日差しが強まって夏本格化という時期になりました。光のエネルギーを肌で感じられます…

国内最大級の研究者向けDeepTech Company Creation Program「BRAVE FRONTIER」 2022年度の受付開始 (7/15 〆切)

Beyond Next Ventures株式会社(本社:東京都中央区、代表取締役社⻑:伊藤毅、以下「…

イミンアニオン型Smiles転位によるオルトヒドロキシフェニルケチミン合成法の開発

第394回のスポットライトリサーチは、東京農工大学 大学院工学府 応用化学専攻 森研究室の神野 峻輝…

マテリアルズ・インフォマティクスで用いられる統計[超入門]-研究者が0から始めるデータの見方・考え方-

開催日:2022/07/06 申込みはこちら■開催概要近年、少子高齢化、働き手の不足の影…

表面酸化した銅ナノ粒子による低温焼結に成功~銀が主流のプリンテッドエレクトロニクスに、銅という選択肢を提示~

第393回のスポットライトリサーチは、北海道大学 大学院工学院 材料科学専攻 マテリアル設計講座 先…

高分子材料におけるマテリアルズ・インフォマティクスの活用とは?

 申込みはこちら■セミナー概要本動画は、20022年5月18日に開催されたセミナー「高分…

元素のふるさと図鑑

2022年も折り返しに差し掛かりました。2022年は皆さんにとってどんな年になり…

Q&A型ウェビナー カーボンニュートラル実現のためのマイクロ波プロセス 〜ケミカルリサイクル・乾燥・濃縮・焼成・剥離〜

<内容>本ウェビナーでは脱炭素化を実現するための手段として、マイクロ波プロセスをご紹介いたします…

カルボン酸、窒素をトスしてアミノ酸へ

カルボン酸誘導体の不斉アミノ化によりキラルα-アミノ酸の合成法が報告された。カルボン酸をヒドロキシル…

海洋シアノバクテリアから超強力な細胞増殖阻害物質を発見!

第 392回のスポットライトリサーチは、慶應義塾大学大学院 理工学研究科 博士後期課…

Chem-Station Twitter

実験器具・用品を試してみたシリーズ

スポットライトリサーチムービー

PAGE TOP