ご存じの通り、近年では化学の世界でもデータ駆動アプローチが重要視されています。高精度質量分析(HRMS)データは、構造確認や化合物同定に欠かせないものです。しかし、ベルリン自由大学・Mathias Christmann教授の報告によれば、3000以上のSupporting Information(SI)ファイルを分析した結果、多くの意図しないミスが発見されたとのことです。重要な指摘が多く含まれている、非常に教育的な話題だと感じられましたので、本記事では精密質量計算におけるよくある間違いと、それを防ぐ方法について下記論文をもとに紹介します。
”What I Learned from Analyzing Accurate Mass Data of 3000 Supporting Information Files”
Mathias Christmann* Org. Lett. 2024, ASAP. doi:10.1021/acs.orglett.4c03458
高精度質量データの課題
Christmann教授は、化学研究における高精度質量データ(Accurate Mass Data, AMM)の大規模な解析を行うPythonスクリプトを開発し、3000以上のSIファイルを分析をしました。そのうち、約40%のみがデータの一貫性を保ち、学術ガイドラインに準拠しているという結果が示されました。その多くは、計算ミスやデータ表記の不備に起因しています。ミスの主たる原因を以下に列挙します。
- 中性分子の質量を計算し、荷電種の質量と比較している:電子の質量分が含まれている。イオン種([M+H]⁺)を正確に反映していない。
- 分子式に加えられるべき原子が欠如している:例えば、NaやHの付加が記載されていない。
- 手作業のデータ入力によるタイポや数字の入れ替え:例えば、258.1101 → 258.1010 など。
- ノミナル質量・精密質量・分子量の混同:たとえば、Naの精密質量(22.9898)を用いるべきところ、ノミナル質量(23.0000)を使用するなど。
計算ミスを防ぐためのポイント
計算ツールの積極的利用
Pythonスクリプトなどの自動化ツールを活用して、データの一貫性を確認するなどは一つの対策例になります。データの人為的処理を減らすことが、品質向上にもつながります。論文中にも示されていますが、ChemDrawでの「正確な」HRMS理論値を出すには、下記設定での出力が必要です。下記のニトロベンゼンでの例が示すとおり、中性分子のExact Mass(146.0218)として出してしまいがちですが、イオン状態が反映されておらず、正確な値(146.0212)では無いことが見て取れます。
ジャーナルのガイドラインを熟読
各誌のデータ表記規定を確認し、標準的なフォーマットでデータを記載することを徹底することが望まれます。特に質量誤差の許容範囲は、ジャーナル毎に異なっているケースが多々あります。
教育体制の強化
学生や研究者が精密質量、ノミナル質量、分子量の違いを正しく理解し、質量計算の基礎を徹底する教育の重要性が述べられています。たとえば下記記事は、用語の定義を学び直すことも含めて、よい教材になると思えます。
終わりに
本研究で用いられているPythonスクリプトは、GitHubで公開されており、誰でも利用可能です。
精密質量計算は、非常に強力な分析手段ですが、ミスを放置すればその価値が損なわれます。化学コミュニティ全体でデータの正確性に対する意識を高めていくことが大切です。
余談
著者のMathias Christmann氏は、論文末尾でこう述べています(DeepL翻訳)。
「筆者はPythonでのコーディング経験がなかったが、4時間のPythonチュートリアルに従い、ChatGPT、Gemini、Claudeなどの大規模言語モデル(LLM)を活用してコードを生成し、Molmassのような既存のPythonライブラリを利用することで、このスクリプトを比較的短期間で開発しました。このスクリプトをオープンソースソフトウェアとして公開することで、科学データの質と信頼性の向上に貢献し、他のデータ駆動型アプローチを刺激することを願っています。」
問題設定が的確であれば、AIの力を借りることで、これまでスキル不足で調べられなかったことが広く調査可能になりつつあることがうかがえます。
ちなみに本記事も、ChatGPT-4oに論文PDF(Open access)を読ませて下書きをしてもらい(僅か数秒!)、多少の追加調査と、文体装飾、校正を加えて仕上げています(執筆時間20分ほど)。冒頭アイキャッチ画像もChatGPTに出力してもらいました。
文章やプログラムを書くことは、現代では随分楽になったものだと実感しています。読者の皆さんも、スマートなAI活用ライフをお過ごしください!
追記(2025/1/21)
読者の方から指摘をいただきましたが、
「質量分析装置の機種とソフトによっては、中性分子(M+でなくM)を基準に調整されており、キャリブレーション用の標準サンプルの値も中性分子(M)としての値でビルトインされてしまっている」
ケースがあるようで、必ずしもChemDrawのイオンの精密質量の値と比べることが妥当ではないケースも存在しているようです。これを機会に混乱を回避するべく、大本の質量分析装置・解析ソフトのキャリブレーションのビルトイン設定も見直されてみることが良いかと思います。