[スポンサーリンク]

一般的な話題

化学研究で役に立つデータ解析入門:エクセルでも立派な解析ができるぞ編

[スポンサーリンク]

化学分野でのAIを使った研究が多数報告されていてデータ解析は流行のトピックとなっていますが、専門外からすれば、データ解析は専門知識を駆使して何千行もの長いコードを書くとても難しい作業があると思われがちです。実は、多くのPCにインストールされているMicrosoft Excelでも立派な統計解析することはできます。今回は、そんなエクセルを使った実験データの解析を紹介します。

はじめに

もちろん複雑なデータ解析には、専門的な知識を必要としますが、簡単な解析は誰もが日常行っていることです。例えば有機合成の実験において反応時間と収率を調べたときに、下記のようなグラフになれば何となく傾向がつかめ、何かの式(この場合は一次反応式)で近似できることがわかります。この「傾向を掴んで、当てはまりが良い数式を選択して近似する」という実験データを考察するときにいつも行っている作業はまさしく解析の作業であり、特別なことをせずに傾向を掴む=自然にデータ解析を行っていることになります。この例の場合では、収率に対して反応時間という一つの変数でグラフを書いたたためXYのグラフから直感で傾向を掴むことができましたが、反応時間に加えて触媒量と反応温度も同時に振った結果では、3つの変数となり、もはや直感で傾向を掴むことはできません。そこで、多変量解析が必要になります。以後、エクセルを使った分析を紹介していきますが、実用的な方法の内容になっているため、使った手法の理論については専門書を参考にしてください。

反応時間と収率をプロットしたグラフと、見た目でかける近似式

環境の準備

必要なソフトはMicrosoft Excelです。バージョンが2007以降であれば、紹介する機能を有しています。「データ」の分析にあるデータ分析という機能を使いますが、この機能が表示されていない場合にはアドインで分析ツールをアクティブにする必要があります。その方法は、こちらなどを参照してください。表計算ソフトはExcelだけでなくいろいろなソフトがありますが、下記で説明するような機能を有しているのはExcelだけのようでまた、クラウド版のExcelではこの機能は使えないようです。

解析を行うために必要なデータ分析ボタンの場所

データセットの準備

手持ちの実験データがなかったので、データアーカイブから適当なデータセットをダウンロードして使いました。これはねじの数を数える機械について、スピードやセンサーの感度を変えて機械が数えるスピードを調べた結果で、下記のような意味を持つ8つのパラメーターが調べられています。

RUN:試験した順番
SPEED1:板の回転速度
TOTAL:加えたねじの数
SPEED2:変化後の回転速度
NUMBER2:回転速度が変化した後に数えられたねじの数
SENS:センサーの感度
TIME:ねじを数えるのにかかった時間
T20BOLT:20個のねじを数えるのにかかる時間

T20BOLTは、TIMEをTOTALで割ることで算出されます。ここでは、それぞれのパラメーターの意味を深く考える必要はなく、T20BOLTに影響を与えているパラメーターを探して、なるべく早くねじを数えられる条件を探すことが目的になります。合成の実験で考えるなら、T20BOLTが収率で、他のパラメーターが、温度や反応時間、触媒量、反応スケールに相当します。

とりあえず、T20BOLTをY軸、各パラメータをX軸にプロットしてみました。

X軸に各パラメーター、Y軸にT20BOLTにプロットした図

パッと見て右肩や左肩上がりの直線が書けそうなグラフはないので、一つのパラメーターとT20BOLTが強い相関を持っていることはなさそうです。そこで、データ分析の「回帰分析」をいう機能を使って複数のパラメーターを使った近似を行います。回帰分析とは 簡単に言うとY = f(X) というモデルを当てはめる事で、XYのグラフを見て近似曲線あてはめるのも回帰分析を行っていることになります。詳しい解説は、「回帰分析」とググると山ほど解説記事が出てくるので参照してください。

回帰分析ボタン

いろいろな回帰分析がありますがこのExcelの機能では、y=ax+bz+cといった一次多項式にあてはめることを行います。手順は簡単で、Yに相当する行とパラメーターの範囲を選択するだけです。オプションで解析結果のグラフの作成ができるので、必要に応じて作成します。データの配列にはルールがあり、行ごとのパラメーター(列に一つの条件・結果)が並んでいないと分析できずエラーになります。

回帰分析を行うための設定画面

取り込んだ表

とりあえず、T20BOLTをY範囲、TIME以外をX範囲として解析を行いました。TIMEはT20BOLTと同様に結果を示すので除外しました。RUNは関係すべきでないですが、試験する順番が関係しているかもしれないのでX範囲に加えました。

回帰分析の結果1:すべてのパラメーターを入れた結果

このようなシートが出力されました。いろいろな値が出力されますが特定の値にのみ着目します。パラメーター一つ一つの詳細についてはこちらの17ページ以降がたいへん参考になります。

まず係数ですが、これが近似式の定数に相当します。つまりT20BOLT=0.41×RUN+10.65×SPEED1+0.70×TOTAL-0.17×SPEED2-2.59×NUMBER2+0.14×SENS-29.45というモデルが作られたことになります。そしてモデルの当てはまりの良さは補正R2で示され、1に近づくほど良いモデルとなります。この場合ですと0.50なので実データの半分程度を説明できると考えます。残差出力では、実測値(表示されない)と予測値の差(残差)が表の上から順に出力されていますが、残差が大きい観測値もあり、当てはまりが良いモデルとは言いにくいです。

結果1の残差出力:観測値1が表のセルH2のデータとの差に相当する。

次に、回帰分析の肝であるP値を確認します。P値とは帰無仮説の下で実際にデータから計算された統計量よりも極端な(仮説に反する)統計量が観測される確率のことで、値が低いほど有意差が高いとなり、一般的にP値が5%または1%以下の場合に帰無仮説を偽として棄却し対立仮説を採択するつまり、そのパラメーターは影響があると判断します。このモデルではSPEEDは有意差が高く、TOTALもそこそこですが、他はあまり有意差がないと言えます。

総じてそこそこのモデルが出来上がりましたが、P値が高いパラメーターが複数含まれているので、最適化が必要だと考えるのが自然です。そこで、SPEEDとTOTALのみをパラメーターとして回帰分析を行いました。

解析結果2:1で高いP値を示したSPEED1とTOTALに絞った場合

すると、補正R2が少しだけ改善しましたが、TOTALのP値が悪くなってしまいました。6個のパラメーターは必要ないが2個のパラメーターでは足りないようです。そこで、いくつかのパラメーターを加えて回帰分析を行ったところ、RUN、TOTAL、SPEED1の結果で補正R2が改善され、比較的低いP値がそれぞれのパラメーターで観測されました。よってこの検討ではT20BOLT=0.43×RUN+10.65×SPEED1+0.71×TOTAL-31.69というモデルが良くあてはまり、早くねじをカウントするには、板の回転速度を遅くして、加えるねじも少なくしてたほうが早くねじを機械が数えることができ、試験回数が増えてくると遅くなる傾向を示すと言えます。

解析結果3:結果2にNUMER2を加えた結果

解析結果4:結果2にRUNを加えた結果(この検討での最適解だと思われる組み合わせ)

上記の例のように単純にP値が高いパラメーターを抜いただけでは、良いモデルにはなるとは限らず、P値が補正R2のバランスがとれたモデルを作るにはパラメーターの抜き差しを繰り返してみる必要があります。またデータ分析の相関を使うと、それぞれのパラメーターの相関を調べることができ、反応を見たい項目と相関が高いパラメーターは、回帰分析でも考慮すべきパラメーターになる可能性があります。

データ分析の相関:調べたい範囲を指定するだけである。

相関の結果:行と列でぶつかった値が相関を示す。1に近いほど正の相関、-1に近いほど負の相関があるとなる。T20BOLTは、TIMEをTOTALで割った結果なので当然相関がみられる。

 

そもそもこの解析の目的はなく、ただ単純に当てはまりが良いモデルを作ることでしたが、実際の実験では、条件を最適化するなどの目的があると思います。この例でいうならば、SPEED1はよく調べたいがTOTALは、他の装置の都合上変えられないという前提があるなら、SPEED1は必ず入れ、TOTALは入れないモデルで検討すべきとなります。モデルの構築の答えは一つではなく、またP値が0.05以下で有意差があるというのも一般的な傾向の話なので、個々の実験の誤差に応じて柔軟に考える必要があります。ただし最初から項目を絞ると影響が強いパラメーターを見つけることができない可能性もありますので、この例でいうならRUN、合成実験では気温や湿度など、なるべく多くの項目を取り込んだほうが解析しやすいと思います。この回帰分析という機能は、いくつかの関数を走らせて値を算出しているだけなので、直接関数を入れて値を調べることもできますが、配列数式を取り扱うことになります。またエクセルでは一次多項式のモデルとなるので、それ以外の式に当てはまる場合には、値自身を変換(2次式なら二乗のパラメーターを作る、logならY範囲をlogに変換するなど)してからこの回帰分析を必要があります。

このように簡単な回帰分析はエクセルで可能ですが、できないことや手間がかかることも多くあり、より複雑な解析には別の方法が必要です。また、良いモデルを作るために最適化された条件で実験を行うことも解析においては有用です。さらには回帰分析も手法の一つであり、これ以外にもたくさんの手法が開発されています。

エクセルだけでだいぶ長い記事になったので、次回の記事にてエクセル以外を使った解析について取り上げていきます。

参考文献

使用したデータセット:Submitted by W. Robert Stephenson (wrstephe@iastate.edu), Iowa State University

関連書籍

[amazonjs asin=”B086KQN4ZV” locale=”JP” title=”これならわかる化学のための統計手法: 正しいデータの扱い方”] [amazonjs asin=”4274224414″ locale=”JP” title=”化学のための Pythonによるデータ解析・機械学習入門”]

AIに関するケムステ過去記事

Avatar photo

Zeolinite

投稿者の記事一覧

ただの会社員です。某企業で化学製品の商品開発に携わっています。社内でのデータサイエンスの普及とDX促進が個人的な野望です。

関連記事

  1. プロ格闘ゲーマーが有機化学Youtuberをスポンサー!?
  2. ケトンをエステルに変えてぶった斬る!脱アシル型カップリング反応の…
  3. 日本プロセス化学会2023ウィンターシンポジウム
  4. SciFinderマイスター決定!
  5. 第二回ケムステVシンポ「光化学へようこそ!」開催報告
  6. 2010年ノーベル化学賞ーお祭り編
  7. 【24卒 化学業界就活スタート講座 5月15日(日)Zoomウェ…
  8. 安全なジアゾ供与試薬

注目情報

ピックアップ記事

  1. 電気ウナギに学ぶ:柔らかい電池の開発
  2. ノーマン・アリンジャー Norman A. Allinger
  3. 「自分の意見を言える人」がしている3つのこと
  4. C-H結合活性化を経るラクトンの不斉合成
  5. 第46回―「分子レベルの情報操作を目指す」Howard Colquhoun教授
  6. 官能評価領域におけるマテリアルズ・インフォマティクスの活用とは?
  7. 三井化学、DXによる企業変革の成果を動画で公開
  8. インフルエンザ治療薬と記事まとめ
  9. 第155回―「化学結合と反応性を理論化学で理解する」Sason Shaik教授
  10. アジサイから薬ができる

関連商品

ケムステYoutube

ケムステSlack

月別アーカイブ

2020年8月
 12
3456789
10111213141516
17181920212223
24252627282930
31  

注目情報

最新記事

Carl Boschの人生 その13

Tshozoです。 少し唐突ですが最初に大事なお知らせを。世界トップの化学会社BASFがCarl…

ラングミュアの吸着等温式 Langmuir equation

ラングミュアの吸着等温式 (Langmuir equation) は、等価な吸着サイトが独立に振舞い…

【化学・食品業界向け】 蒸留による分離・濃縮をシンプルで省エネに ~無機分離膜が起こすイノベーション~

■概要ものづくりにおいて重要な分離操作。有機溶剤の混合物の分離リサイクル。水の分離(脱水…

濃硫酸の1000倍強い超酸の中でも蛍光を保ち続ける”超酸耐性BODIPY”

第705回のスポットライトリサーチは、北海道大学大学院総合化学院(反応有機化学研究室)博士後期課程2…

安田修祥・裕美子 若手化学者留学支援事業

大学院生時代の経験として、海外留学は本当に素晴らしいものです。かくいう私も、1か…

有機合成化学協会誌2026年5月号:特集号 有機合成化学の力で切り拓く次世代モダリティの地平

有機合成化学協会が発行する有機合成化学協会誌、2026年5月号がオンラインで公開されています。…

チームディレクター募集(理化学研究所研究室主宰者、無期雇用職)

募集研究室理化学研究所 環境資源科学研究センター募集の概要国立研究開発法人理化学研究所で…

<製品サンプル進呈>細胞増殖/毒性測定 はじめてを応援キャンペーン【同仁化学研究所】

Cell Counting Kit-8(CCK-8)は同仁化学研究所で開発され、世界中で細胞増殖や細…

ポンコツ博士の国内奮闘録 ~博士、教員として過ごしてはや2年~

本稿は,少子化の影響が著しい地方私立大で学位を取得したとあるしがない博士(薬学)が、厳しい世の中を生…

2026年、過去最大規模の「有機溶媒危機」が始まった?

2026 年 2 月 28 日、アメリカとイスラエルがイランに対し軍事攻撃作戦を…

実験器具・用品を試してみたシリーズ

スポットライトリサーチムービー

PAGE TOP