[スポンサーリンク]

ケムステしごと

【化学×AI・機械学習クラウド】実験科学者・エンジニア自身が実践するデータサイエンス/データケミカル株式会社

[スポンサーリンク]

 

化学のAI・機械学習プラットフォーム「Datachemical LAB」

高機能性材料を研究・開発・製造する際、化学・化学工学データを活用してデータ解析・機械学習を行い、分子・材料・プロセスの設計やプロセス管理を効率化することが一般的となっています。しかし、自身の手で実際にデータ解析・機械学習ができなければ、実験科学者にとっては絵に描いた餅に過ぎません。これまで、データ解析・機械学習をするためには、Python をはじめとするプログラミング言語を用いてプログラムを書く必要があり、実験科学者・エンジニアの大きな壁になっていました。
このような状況で、プログラミングなしでデータ解析・機械学習ができるクラウドサービス Datachemical LAB が登場し、ウェブブラウザ (Chrome, Safari, Edge, Firefox など) 上の直感的な操作のみで、化学・化学工学のデータ解析・機械学習が可能になりました。Datachemical LAB を使うことで、実験科学者・エンジニア自身の手で、データ解析・機械学習に基づいた分子・材料・プロセスの設計ができるようになりました。
Datachemical LAB では主に以下の内容を実施できます。

  • 現状のデータセットを解析する最適な回帰モデル・クラス分類モデルの構築
  •  複数の目的変数 y を同時に考慮したモデルの構築
  •  ダブルクロスバリデーションによる少ないサンプルのデータセットの解析
  •  構築されたモデルに基づいた、モデルの適用範囲を考慮した分子設計・材料設計・プロセス設計
  •  ベイズ最適化による外挿探索および設計
  •  仮想的なサンプル (実験条件・合成条件・製造条件・評価条件・プロセス条件など) の自動生成
  •  化学構造の自動生成
  •  化学構造の数値化 (分子記述子・フィンガープリントの計算)
  •  効果的な機械学習が可能になるような最初の実験条件を決める実験計画法
  •  ベイズ最適化に基づく適応的実験計画法
  • 数理モデルの直接的逆解析に基づく適応的実験計画法
  • データセットにおける欠損値の自動的補完
  •  データセットの低次元化・見える化・可視化
  •  特徴量設計・特徴量変換・特徴量選択
  •  高分子や合金等の材料に対する特徴量の計算
  •  ソフトセンサーによるリアルタイム予測
  •  モデルの予測精度を維持する適応的ソフトセンサー
  •  プロセスのモニタリングおよび異常検出

例えば下図では、一般的なモデル(a)と比較して、Datachemical LAB で提案されたモデル(b)により、的確に目的変数 y を予測できています。このような分子・材料・プロセスの設計に用いるモデルを、Datachemical LAB では自動的に最適化できます。

Datachemical LAB による数理モデルの自動的な最適化

数理モデルの直接的逆解析

分子・材料・プロセスの設計に必要なことは 物性・活性・特性などの目的変数 y の目標値から、それを実現するための実験条件・製造条件・プロセス条件などの説明変数 x を導くことです。x と y との間で構築された数理モデル y=f(x) において、理想の y からそれを達成する x の予測は、x を入力して y を予測する順解析とは逆に、y を入力して x を予測することです。しかし、これまでの逆解析は、x の仮想サンプルを大量に生成し、それらをモデルに入力して y を予測し、予測値が良好なサンプルを選択する、すなわち順解析を膨大に繰り返す擬似的な逆解析にすぎませんでした。これでは、人が設定した x の探索範囲における y の予測にすぎず、当初想定しない条件でこそ発現する新機能の探索にはまったく対応できません。また、x の数に対して指数関数的に解空間が増大するため、x が高次元になると網羅的な逆解析は不可能です。
そこで、y の値から x の値を直接的に予測する、すなわち数理モデルを真の意味で逆解析する手法が開発され、Datachemical LAB に実装されました。この手法を直接的逆解析法と呼びます。直接的逆解析法では、x と y との間の関係を同時確率密度関数として複数の正規分布の重ね合わせで表現することで、確率の乗法定理とベイズの定理から、y が与えられた際の x の事後確率密度関数を計算できます。この関数により、y の目標値から確率の高いx の値を直接予測できます。直接的逆解析法は、モデルを真の意味で逆解析できるため、大量の仮想サンプルを生成する必要がなく、膨大な解空間でも即時的に y から x を計算できます。また、変数間の確率分布に基づいた予測をするため、合理的な x の提案となります。
直接的逆解析法により様々な材料設計を達成し、例えば熱電変換材料の実験データを用いた直接的逆解析により、熱伝導率・電気伝導率・ゼーベック係数のすべてが既存の材料を超越する熱電変換材料の実験条件 (各元素の配合割合や合成温度など) の提案に成功しました。さらに、生体材料の実験データとして実験条件や材料特性、そして動物実験後の骨形成率を用いて、骨形成率が既存のデータを超えるための材料特性の条件、およびその材料特性を達成するための実験条件を、それぞれ直接的逆解析で予測することを達成しました。なお、熱電変換材料および生体材料それぞれ、材料の実験条件と材料特性との間の本質的な関係 (特性発現のメカニズム) は複雑でしたが、数理モデルの直接的逆解析を可能にしました。これより、他の材料においても直接的逆解析法が効果的に機能すると考えられます。さらに下図より、数理モデルの直接的逆解析を適応的実験計画法に応用することで、ベイズ最適化と比較して実験回数を約3分の1に抑え、既存の y を大きく上回る実験条件を設計できることを確認しました。

直接的逆解析法による実験回数の削減および既存データを超越するyの実現

 

Datachemical LAB により実験科学者やエンジニアが実験・製造に集中できるようになりました

実験データ・製造データを扱ったり、数理モデルを構築したり、モデルに基づいて予測したり、新たな分子・材料・プロセスを設計したりするには、データ解析・機械学習の知識・知見・技術が必要です。データは嘘をつきませんが、誤ったデータ解析・機械学習によって人が嘘をついてしまうこともあります。さらに、実際にデータ解析・機械学習をするためには、Python をはじめとするプログラミングを学ぶ必要があります。データ解析・機械学習の他に、自身で実験・製造をする人にとっては、勉強・仕事・業務の時間が増えることになり、データ解析・機械学習を実践的に行うのは、かなりハードルが高いものでした。
しかし、Datachemical LAB がデータ解析・機械学習のハードルを大きく下げました。プログラミングのハードルは 0 になり (プログラミング不要)、データ解析・機械学習で人が嘘をつけないような仕組みがあるため、安心して結果を解釈できます。もちろんデータを準備することは必要ですが、データさえあればモデル構築や構築したモデルによる予測、そして分子・材料・プロセスの設計を自動的に行なってくれます。
Datachemical LAB ができるまでは、新たにデータ解析・機械学習を始める人にとって、その勉強やプログラミングなどが律速 (ボトルネック) になっていました。データ解析・機械学習は実験・製造をサポートする位置づけのため、データ解析・機械学習がボトルネックになるのはおかしな話です。
Datachemical LAB がデータ解析・機械学習のハードルを大幅に下げ、データ解析・機械学習を気軽に、プログラミングの勉強をすることなく行えるようになったことで、データ解析・機械学習ではないこと、すなわち本職の実験や製造に集中できるようになりました。ボトルネックが変わったといえます。
もちろん、Datachemical LAB の導入にはコストがかかります。ただ、そのコストによって実験科学者やエンジニアの方々の時間 (プログラミングを身につけたりデータ解析・機械学習を勉強したりする時間) を何時間も何日も、節約することができます。さらに、Datachemical LAB によるデータ解析・機械学習の活用により、例えばベイズ最適化や直接的逆解析などで、材料開発にかかる日数を何日も効率化することができることを考えると、Datachemical LAB の導入は非常に効果的といえます。
実験科学者やエンジニアがデータ解析・機械学習をしつつも、実験や製造に集中するため、Datachemical LAB は不可欠です。

Datachemical LAB による、次の効果的な実験条件・製造条件の提案

 

関連記事

Avatar photo

webmaster

投稿者の記事一覧

Chem-Station代表。早稲田大学理工学術院教授。専門は有機化学。主に有機合成化学。分子レベルでモノを自由自在につくる、最小の構造物設計の匠となるため分子設計化学を確立したいと考えている。趣味は旅行(日本は全県制覇、海外はまだ20カ国ほど)、ドライブ、そしてすべての化学情報をインターネットで発信できるポータルサイトを作ること。

関連記事

  1. 化学者のためのエレクトロニクス入門③ ~半導体業界で活躍する化学…
  2. ノーベル化学賞2011候補者一覧まとめ
  3. 薬学部ってどんなところ?
  4. 英国王立化学会(RSC)が人材募集中
  5. 今年も出ます!!サイエンスアゴラ2015
  6. IASO R7の試薬データベースを構造式検索できるようにしてみた…
  7. 今年も出ます!サイエンスアゴラ2014
  8. 二丁拳銃をたずさえ帰ってきた魔弾の射手

注目情報

ピックアップ記事

  1. イグノーベル賞2020が発表 ただし化学賞は無し!
  2. 万有製薬、つくば研究所を閉鎖
  3. 観客が分泌する化学物質を測定することで映画のレーティングが可能になるかもしれない
  4. アメリカで Ph. D. を取る –希望研究室にメールを送るの巻– (準備編)
  5. “へぇー、こんなシンプルにできるんだっ!?”四級アンモニウム塩を触媒とするアルキンのヒドロシリル化反応
  6. Xantphos
  7. オペレーションはイノベーションの夢を見るか? その3+まとめ
  8. 日本初の化学専用オープンコミュニティ、ケムステSlack始動!
  9. 有機合成化学協会誌2022年9月号:π-アリルパラジウム・ポリエンマクロラクタム・Sirtuin蛍光プローブ・安定ラジカルカチオン・金属-硫黄クラスター
  10. 2020年ケムステ人気記事ランキング

関連商品

ケムステYoutube

ケムステSlack

月別アーカイブ

2023年9月
 123
45678910
11121314151617
18192021222324
252627282930  

注目情報

最新記事

核酸・ペプチド医薬品CDMO市場について調査結果を発表

この程、TPCマーケティングリサーチ株式会社(本社=大阪市西区、代表取締役社長=松本竜馬)は、核酸・…

ケモインフォマティクス

概要化合物の化学構造データやオミクスデータを情報解析するケモインフォマティクスを解説。(…

第61回Vシンポ「中分子バイオ医薬品分析の基礎と動向 ~LCからLC/MSまで、研究現場あるあるとその対処~」を開催します!

こんにちは、Macyです。第61回Vシンポのご案内をさせていただきます。今回は、Agilen…

水分はどこにあるのか【プロセス化学者のつぶやき】

前回まで1. 設定温度と系内の実温度のお話2. 温度値をどう判断するか3. 反応操作をし…

「MI×データ科学」コース 〜LLM・自動実験・計算・画像とベイズ最適化ハンズオン〜

1 開講期間2026年5月26日(火)、29日(金) 計2日間2 コースのねらい、特色近…

材料の数理モデリング – マルチスケール材料シミュレーション –

材料の数理モデリング概要材料科学分野におけるシミュレーションを「マルチスケール」で理解するた…

第59回天然物化学談話会@宮崎(7/8~10)

ごあいさつ天然物化学談話会は、全国の天然物化学および有機合成化学を研究する大学生…

トッド・ハイスター Todd K. Hyster

トッド・カート・ハイスター(Todd Kurt Hyster、1985年10月10日–)はアメリカ出…

“最難関アリル化”を劇的に加速する固定化触媒の開発

第 703回のスポットライトリサーチは、横浜国立大学大学院 理工学府 博士課程前期で…

「ニューモダリティと有機合成化学」 第5回公開講演会

従来の低分子、抗体だけでなく、核酸、ペプチド、あるいはその複合体(例えばADC(抗体薬物複合体))、…

実験器具・用品を試してみたシリーズ

スポットライトリサーチムービー

PAGE TOP