[スポンサーリンク]

一般的な話題

化学研究で役に立つデータ解析入門:エクセルでも立派な解析ができるぞ編

[スポンサーリンク]

化学分野でのAIを使った研究が多数報告されていてデータ解析は流行のトピックとなっていますが、専門外からすれば、データ解析は専門知識を駆使して何千行もの長いコードを書くとても難しい作業があると思われがちです。実は、多くのPCにインストールされているMicrosoft Excelでも立派な統計解析することはできます。今回は、そんなエクセルを使った実験データの解析を紹介します。

はじめに

もちろん複雑なデータ解析には、専門的な知識を必要としますが、簡単な解析は誰もが日常行っていることです。例えば有機合成の実験において反応時間と収率を調べたときに、下記のようなグラフになれば何となく傾向がつかめ、何かの式(この場合は一次反応式)で近似できることがわかります。この「傾向を掴んで、当てはまりが良い数式を選択して近似する」という実験データを考察するときにいつも行っている作業はまさしく解析の作業であり、特別なことをせずに傾向を掴む=自然にデータ解析を行っていることになります。この例の場合では、収率に対して反応時間という一つの変数でグラフを書いたたためXYのグラフから直感で傾向を掴むことができましたが、反応時間に加えて触媒量と反応温度も同時に振った結果では、3つの変数となり、もはや直感で傾向を掴むことはできません。そこで、多変量解析が必要になります。以後、エクセルを使った分析を紹介していきますが、実用的な方法の内容になっているため、使った手法の理論については専門書を参考にしてください。

反応時間と収率をプロットしたグラフと、見た目でかける近似式

環境の準備

必要なソフトはMicrosoft Excelです。バージョンが2007以降であれば、紹介する機能を有しています。「データ」の分析にあるデータ分析という機能を使いますが、この機能が表示されていない場合にはアドインで分析ツールをアクティブにする必要があります。その方法は、こちらなどを参照してください。表計算ソフトはExcelだけでなくいろいろなソフトがありますが、下記で説明するような機能を有しているのはExcelだけのようでまた、クラウド版のExcelではこの機能は使えないようです。

解析を行うために必要なデータ分析ボタンの場所

データセットの準備

手持ちの実験データがなかったので、データアーカイブから適当なデータセットをダウンロードして使いました。これはねじの数を数える機械について、スピードやセンサーの感度を変えて機械が数えるスピードを調べた結果で、下記のような意味を持つ8つのパラメーターが調べられています。

RUN:試験した順番
SPEED1:板の回転速度
TOTAL:加えたねじの数
SPEED2:変化後の回転速度
NUMBER2:回転速度が変化した後に数えられたねじの数
SENS:センサーの感度
TIME:ねじを数えるのにかかった時間
T20BOLT:20個のねじを数えるのにかかる時間

T20BOLTは、TIMEをTOTALで割ることで算出されます。ここでは、それぞれのパラメーターの意味を深く考える必要はなく、T20BOLTに影響を与えているパラメーターを探して、なるべく早くねじを数えられる条件を探すことが目的になります。合成の実験で考えるなら、T20BOLTが収率で、他のパラメーターが、温度や反応時間、触媒量、反応スケールに相当します。

とりあえず、T20BOLTをY軸、各パラメータをX軸にプロットしてみました。

X軸に各パラメーター、Y軸にT20BOLTにプロットした図

パッと見て右肩や左肩上がりの直線が書けそうなグラフはないので、一つのパラメーターとT20BOLTが強い相関を持っていることはなさそうです。そこで、データ分析の「回帰分析」をいう機能を使って複数のパラメーターを使った近似を行います。回帰分析とは 簡単に言うとY = f(X) というモデルを当てはめる事で、XYのグラフを見て近似曲線あてはめるのも回帰分析を行っていることになります。詳しい解説は、「回帰分析」とググると山ほど解説記事が出てくるので参照してください。

回帰分析ボタン

いろいろな回帰分析がありますがこのExcelの機能では、y=ax+bz+cといった一次多項式にあてはめることを行います。手順は簡単で、Yに相当する行とパラメーターの範囲を選択するだけです。オプションで解析結果のグラフの作成ができるので、必要に応じて作成します。データの配列にはルールがあり、行ごとのパラメーター(列に一つの条件・結果)が並んでいないと分析できずエラーになります。

回帰分析を行うための設定画面

取り込んだ表

とりあえず、T20BOLTをY範囲、TIME以外をX範囲として解析を行いました。TIMEはT20BOLTと同様に結果を示すので除外しました。RUNは関係すべきでないですが、試験する順番が関係しているかもしれないのでX範囲に加えました。

回帰分析の結果1:すべてのパラメーターを入れた結果

このようなシートが出力されました。いろいろな値が出力されますが特定の値にのみ着目します。パラメーター一つ一つの詳細についてはこちらの17ページ以降がたいへん参考になります。

まず係数ですが、これが近似式の定数に相当します。つまりT20BOLT=0.41×RUN+10.65×SPEED1+0.70×TOTAL-0.17×SPEED2-2.59×NUMBER2+0.14×SENS-29.45というモデルが作られたことになります。そしてモデルの当てはまりの良さは補正R2で示され、1に近づくほど良いモデルとなります。この場合ですと0.50なので実データの半分程度を説明できると考えます。残差出力では、実測値(表示されない)と予測値の差(残差)が表の上から順に出力されていますが、残差が大きい観測値もあり、当てはまりが良いモデルとは言いにくいです。

結果1の残差出力:観測値1が表のセルH2のデータとの差に相当する。

次に、回帰分析の肝であるP値を確認します。P値とは帰無仮説の下で実際にデータから計算された統計量よりも極端な(仮説に反する)統計量が観測される確率のことで、値が低いほど有意差が高いとなり、一般的にP値が5%または1%以下の場合に帰無仮説を偽として棄却し対立仮説を採択するつまり、そのパラメーターは影響があると判断します。このモデルではSPEEDは有意差が高く、TOTALもそこそこですが、他はあまり有意差がないと言えます。

総じてそこそこのモデルが出来上がりましたが、P値が高いパラメーターが複数含まれているので、最適化が必要だと考えるのが自然です。そこで、SPEEDとTOTALのみをパラメーターとして回帰分析を行いました。

解析結果2:1で高いP値を示したSPEED1とTOTALに絞った場合

すると、補正R2が少しだけ改善しましたが、TOTALのP値が悪くなってしまいました。6個のパラメーターは必要ないが2個のパラメーターでは足りないようです。そこで、いくつかのパラメーターを加えて回帰分析を行ったところ、RUN、TOTAL、SPEED1の結果で補正R2が改善され、比較的低いP値がそれぞれのパラメーターで観測されました。よってこの検討ではT20BOLT=0.43×RUN+10.65×SPEED1+0.71×TOTAL-31.69というモデルが良くあてはまり、早くねじをカウントするには、板の回転速度を遅くして、加えるねじも少なくしてたほうが早くねじを機械が数えることができ、試験回数が増えてくると遅くなる傾向を示すと言えます。

解析結果3:結果2にNUMER2を加えた結果

解析結果4:結果2にRUNを加えた結果(この検討での最適解だと思われる組み合わせ)

上記の例のように単純にP値が高いパラメーターを抜いただけでは、良いモデルにはなるとは限らず、P値が補正R2のバランスがとれたモデルを作るにはパラメーターの抜き差しを繰り返してみる必要があります。またデータ分析の相関を使うと、それぞれのパラメーターの相関を調べることができ、反応を見たい項目と相関が高いパラメーターは、回帰分析でも考慮すべきパラメーターになる可能性があります。

データ分析の相関:調べたい範囲を指定するだけである。

相関の結果:行と列でぶつかった値が相関を示す。1に近いほど正の相関、-1に近いほど負の相関があるとなる。T20BOLTは、TIMEをTOTALで割った結果なので当然相関がみられる。

 

そもそもこの解析の目的はなく、ただ単純に当てはまりが良いモデルを作ることでしたが、実際の実験では、条件を最適化するなどの目的があると思います。この例でいうならば、SPEED1はよく調べたいがTOTALは、他の装置の都合上変えられないという前提があるなら、SPEED1は必ず入れ、TOTALは入れないモデルで検討すべきとなります。モデルの構築の答えは一つではなく、またP値が0.05以下で有意差があるというのも一般的な傾向の話なので、個々の実験の誤差に応じて柔軟に考える必要があります。ただし最初から項目を絞ると影響が強いパラメーターを見つけることができない可能性もありますので、この例でいうならRUN、合成実験では気温や湿度など、なるべく多くの項目を取り込んだほうが解析しやすいと思います。この回帰分析という機能は、いくつかの関数を走らせて値を算出しているだけなので、直接関数を入れて値を調べることもできますが、配列数式を取り扱うことになります。またエクセルでは一次多項式のモデルとなるので、それ以外の式に当てはまる場合には、値自身を変換(2次式なら二乗のパラメーターを作る、logならY範囲をlogに変換するなど)してからこの回帰分析を必要があります。

このように簡単な回帰分析はエクセルで可能ですが、できないことや手間がかかることも多くあり、より複雑な解析には別の方法が必要です。また、良いモデルを作るために最適化された条件で実験を行うことも解析においては有用です。さらには回帰分析も手法の一つであり、これ以外にもたくさんの手法が開発されています。

エクセルだけでだいぶ長い記事になったので、次回の記事にてエクセル以外を使った解析について取り上げていきます。

参考文献

使用したデータセット:Submitted by W. Robert Stephenson (wrstephe@iastate.edu), Iowa State University

関連書籍

AIに関するケムステ過去記事

Zeolinite

Zeolinite

投稿者の記事一覧

ただの会社員です。某企業で化学製品の商品開発に携わっています。社内でのデータサイエンスの普及とDX促進が個人的な野望です。

関連記事

  1. 実験白衣を10種類試してみた
  2. 2009年10大分子発表!
  3. DNAを人工的につくる-生体内での転写・翻訳に成功!
  4. 向山アルドール反応40周年記念シンポジウムに参加してきました
  5. 光触媒ラジカルカスケードが実現する網羅的天然物合成
  6. 有機化合物で情報を記録する未来は来るか
  7. 化学者のためのエレクトロニクス入門③ ~半導体業界で活躍する化学…
  8. “研究者”人生ゲーム

コメント、感想はこちらへ

注目情報

ピックアップ記事

  1. 第47回天然有機化合物討論会
  2. ノンコーディングRNA 〜 RNA分子の全体像を俯瞰する〜
  3. 光学迷彩をまとう海洋生物―その仕組みに迫る
  4. NMR化学シフト予測機能も!化学徒の便利モバイルアプリ
  5. 最近の金事情
  6. 【書籍】英文ライティングの基本原則をおさらい:『The Element of Style』
  7. ハンチュ ピロール合成 Hantzsch Pyrrole Synthesis
  8. Reaxys Prize 2012ファイナリスト45名発表!
  9. ヴィンス・ロテロ Vincent M. Rotello
  10. NHCが触媒する不斉ヒドロフッ素化

関連商品

ケムステYoutube

ケムステSlack

月別アーカイブ

2020年8月
« 7月   9月 »
 12
3456789
10111213141516
17181920212223
24252627282930
31  

注目情報

注目情報

最新記事

【マイクロ波化学(株) 石油化学/プラスチック業界向けウェビナー】 マイクロ波による新事業 石油化学・プラスチック業界のための脱炭素・電化ソリューション

<内容>本イベントでは、石油化学/プラスチック業界における脱炭素・電化の新たなソ…

素材・化学で「どう作るか」を高度化する共同研究拠点、産総研が3カ所で整備

産業技術総合研究所、材料・化学領域は、マテリアル・プロセスイノベーションプラットフォームの整備をスタ…

自己組織化ねじれ双極マイクロ球体から円偏光発光の角度異方性に切り込む

第327回のスポットライトリサーチは、筑波大学大学院数理物質科学研究科 物性・分子工学専攻 山本・山…

第159回―「世界最大の自己組織化分子を作り上げる」佐藤宗太 特任教授

第159回の海外化学者インタビューは日本から、佐藤宗太 特任教授です。東京大学工学部応用化学科に所属…

π-アリルイリジウムに新たな光を

可視光照射下でのイリジウム触媒によるアリルアルコールの不斉アリル位アルキル化が開発されたキラルな…

うっかりドーピングの化学 -禁止薬物と該当医薬品-

「うっかりドーピング」という言葉をご存知でしょうか。禁止薬物に該当する成分を含む風邪…

第五回ケムステVプレミアレクチャー「キラルブレンステッド酸触媒の開発と新展開」

新型コロナ感染者数は大変なことになっていますが、無観客東京オリンピック盛り上がっ…

がん治療用の放射性物質、国内で10年ぶり製造へ…輸入頼みから脱却

政府は、がんの治療や臓器の検査をする医療用の放射性物質の国内製造を近く再開する。およそ10年ぶりとな…

三洋化成の新分野への挑戦

三洋化成と長瀬産業は、AI 技術を応用した人工嗅覚で匂いを識別する「匂いセンサー」について共同で事業…

ケムステSlack、開設二周年!

Chem-Stationが立ち上げた化学系オープンコミュニティ、ケムステSlackを開設して早くも二…

Chem-Station Twitter

実験器具・用品を試してみたシリーズ

スポットライトリサーチムービー

PAGE TOP