第657 回のスポットライトリサーチは、北海道大学 化学反応創成研究拠点 (ICReDD) の Said Byadi 博士にお願いしました!
Byadi さんの所属される Sidorov 研究室では、化学データの管理・解析手法や、分子・反応の特性を予測する QSPR モデルの開発に取り組んでいます。大量の計算・実験データに対応するため、特に自動化を視野に入れたツールの利用が重要であり、マシンラーニングを活用した触媒の反応性・選択性の予測やデータ解析のオートメーションに注力されています。
今回 Byadi さんらは、アゾベンゼン類に代表される光スイッチング分子に関し、その設計に重要な異性化の波長 (λmax) と異性体の安定性 (熱半減期 t1/2) のデータを機械学習モデルを用いて予測することに成功しました。本手法により、従来の量子化学計算を用いた予測から飛躍的に計算コストが減少し多くのデータを取り扱うことが可能になりました。
本研究成果は、ケモインフォマティクス系の有名誌 Journal of Cheminformatics にオープンアクセスで掲載されました。
Predictive modeling of visible-light azo-photoswitches’ properties using structural features Said Byadi, P. K. Hashim & Pavel Sidorov Journal of Cheminformatics, 2025, 17, Article number: 42, DOI: 10.1186/s13321-025-00993-7. |
それでは、インタビューをお楽しみください!
今回は英語と日本語の双方でお届けします!
【Q1. 今回プレスリリースとなったのはどんな研究ですか?簡単にご説明ください。】
Photoswitches are a class of compounds that reversibly change their conformation when irradiated by light. A widely known class of photoswitches are azo-dyes that can switch between cis and trans isomers when exposed to the visible light of a certain wavelength. Their practical application, for example, in materials or as light-activated drugs, requires the design of compounds where the isomerization can be controlled. To do so, we need to know the wavelength λmax of the light that induces the change and the stability of the isomerized form, usually quantified and thermal half-life t1/2. In most studies, this is achieved by quantum chemical calculations; however, as the number of available data and the size of the screening sets grow, these approaches become too costly.
In our research, we decided instead to build machine learning models using simple 2D representations of molecules – molecular graphs – to predict both properties. Machine learning approaches allow to learn how properties are related to the chemical structures of compounds, and graph representation provides a fast way to calculate molecular features that machine learning models would learn from.
光スイッチ分子は、光に照射されると可逆的に異性化する化合物の一種です。アゾ染料は可視光に照射されるとシス型とトランス型の異性体を切り替えることができる光スイッチとして広く知られています。この化合物を材料や光活性薬剤として利用するためには、異性化を制御できる分子の設計が必要です。そのためには、異性化を引き起こす光の波長 (λmax) と、異性体の安定性(熱半減期 t1/2)を予測する必要があります。従来研究では、量子化学計算がよく利用されていました。しかし、スクリーニングセットのサイズが大きくなっていき、利用可能なデータ数が増加していくので、量子化学計算はコストが上昇しています。
本研究では、分子グラフという 2 次元表現を用いて機械学習モデルを構築し、両方の特性を予測することにしました。機械学習は化合物の構造と特性がどのように関連しているかを学習することができます。グラフ表現は、機械学習に必要な分子の記述子を高速に計算することができるので、非常に便利です。
【Q2. 本研究テーマについて、自分なりに工夫したところ、思い入れがあるところを教えてください。】
There are two main novelties in this research: the data and the approach. First, we have collected the largest data set – over 800 azo-compounds – related to both λmax and t1/2 from the literature. Second, while most previous studies focus on quantum calculations, we employ simple 2D representation to extract structural features from the data and train the machine learning models. While it may be counter-intuitive to use 2D structures to model cis-trans isomerization, we demonstrate that 2D features are sufficient to reliably predict λmax. On the other hand, prediction of thermal half-life has proven to be a challenge. However, application of consensus modeling – using several different models at the same time – allows to improve the predictions in that case.
Another highlight of structural features we use here is the possibility for the model interpretation. Here, we use the ColorAtom methodology that assigns importance to every atom in a molecule, essentially “coloring” it to demonstrate whether it enhances or diminishes the predicted property. This can assist in the design of photoswitchable molecules by chemists. Such interpretation tools are especially exciting because they make the model’s “thinking” transparent and may even reveal some unexpected structure-property relationships.
![]() |
本研究にはイノベーションが二つあります。第一に、我々はλmaxと t1/2 の実験測定値が有するアゾ光スイッチの最大のデータセット (800 点以上) を収集しました。第二に、従来研究が量子計算を利用することに対し、本研究には2次元表現から抽出した記述子を用いた機械学習モデルを構築しました。シス-トランス異性化を予測するのに2次元構造を用いるのは直感に反するかもしれませんが、λmaxの予測が高精度を達成したことを実証しました。一方、熱半減期の予測は困難でした。しかし、コンセンサス・モデリング (複数のモデルを同時に使用すること) を適用することで、この予測も改善することができました。
今回利用した構造記述子のもう一つのハイライトは、モデル解釈の可能性です。我々が用いる ColorAtom 手法では、分子内のすべての原子に重要性を割り当てて、予測された物性が向上するか低下するかによって色付けを行います。これは新たな光スイッチ分子の設計に役立ちます。このような解釈ツールは、モデルの「考え方」を明らかにし、さらには構造と物性の予想外な関係の発見につながり得るという点でも、特に面白いと思います。
【Q3. 研究テーマの難しかったところはどこですか?またそれをどのように乗り越えましたか?】
The prediction of the thermal half-life t1/2 of photoswitches has proven to be one of the toughest challenges in this study. The difficulties are mainly due to the lack of experimental data as we only have slightly over 100 annotated molecules compared to almost 800 for λmax. Moreover, the isomerization process is multifaceted and relies more on the 3D structures, which may be difficult to capture using solely 2D geometrical features. To tackle these issues, we implemented consensus modeling where we leverage the power of several models simultaneously to reduce prediction errors. We have managed to minimize the error in most outliers, but some unique structures were still challenging. This is why we are calling on the community to help create a systematic dataset that includes diverse molecular structures and key parameters such as solvents, which we believe will greatly benefit future modeling studies.
本研究の最も困難なところは光スイッチの熱半減期 t1/2 の予測でした。原因は主に実験データの不足だと言えます。λmaxのデータ数は 800 点に近いことに対し、t1/2 のデータ数は 150 に満たなかったのです。さらに、異性化は 3 次元構造に依存しているため、2 次元グラフの記述子しか利用していないモデルが十分ではない可能性があります。この問題を解決するために、複数のモデルを組み合わせているコンセンサス・モデルを実施しました。大部分の予測誤差を減らすことができましたが、いくつかのユニークな分子に関してはまだ困難でした。そのため、多様な分子構造や溶媒などの重要なパラメータを含む系統的なデータセットの作成に関して、協力を呼びかけたいです。
【Q4. 将来は化学とどう関わっていきたいですか?】
I am very interested in the research related to the design of new molecules through machine learning and AI. I would like to contribute to projects that connect computational tools and experimental chemistry, especially for drug discovery, smart materials, or photoresponsive systems like photoswitches. I also hope to help in making machine learning accessible and understandable for everyone.
機械学習や AI を利用した新たな分子の設計に関する研究に非常に興味があります。特に、創薬や、スマート材料や、光スイッチのような光応答性システムなど、計算と実験化学を結びつける研究に貢献したいと思っています。また、機械学習を誰にとっても身近で理解しやすいものにしたいと思っています。
【Q5. 最後に、読者の皆さんにメッセージをお願いします!】
We want to demonstrate to readers that machine learning models have the potential to be an extremely useful tool to predict important properties of molecules, such as absorption wavelength and half-life of photoswitches here, without costly quantum chemical calculations. We hope that this will encourage other researchers to explore these methods and to apply them in their own research.
However, we also want to emphasize the importance of data quality for machine learning. As we’ve shown in this work, lack of systematic and diverse data sets can lead to low prediction accuracy, and we encourage the collaboration between data scientists and chemistry communities in creation of such data. We also invite others to build upon this work by using the open data and the methodologies that we provide here.
我々は、コストのかかる量子化学計算しなくても、機械学習モデルを用いて光スイッチの吸収波長や半減期といった物性を予測することができることを示したいと考えています。研究者のみなさんがこの手法を探求し、自身の研究に応用することを期待しています。
しかし、機械学習におけるデータの質の重要性も強調したいです。本研究で示したように、体系的で多様なデータセットの欠如は予測の低精度を引き起こす可能性があり、質が良いデータの作成において情報科学者と実験化学者の協力を奨励しています。また、本研究におけるデータと手法を利用して、みなさんが自身の研究を発展できれば良いと思っています。
【研究者の略歴/Short CV】
Said BYADI
Hokkaido University, Institute for Chemical Reaction Design and Discovery (ICReDD), Sidorov group
Scientific interests: Machine learning and AI in drug design and discovery and reactivity modeling.
Byadi さん、インタビューにご協力いただき誠にありがとうございました!
それでは、次回のスポットライトリサーチもお楽しみに!
関連記事
・機械学習による不⻫有機触媒の予測⼿法の開発 (スポットライトリサーチ)
関連書籍
化学のための Pythonによるデータ解析・機械学習入門 (改訂2版)