MAST-ML

MAST-ML(Materials Simulation Toolkit for Machine Learning)は、材料研究向けの教師あり学習ワークフローに焦点を当てたオープンソースPythonツールキットである。データ前処理、特徴量生成/選択、モデル学習、評価までを設定可能なパイプラインとして整理し、チュートリアルや例によりエンドツーエンドの検討を加速することを狙う。

MatDaCs ツールレビュー: MAST-ML

概要

MAST-ML(Materials Simulation Toolkit for Machine Learning)は、材料研究向けの教師あり学習ツールキットであり、Jupyterノートブックとチュートリアル主導の例を中心にワークフローが構成されている。現行3.x系列では、従来の入力ファイル方式よりもノートブックによるモジュール式の利用を重視し、不確かさ推定や適用範囲(domain-of-applicability)解析の支援が拡充されている。

MAST-MLとは

MAST-MLはデータ駆動材料研究を加速するオープンソースPythonパッケージである。コアパッケージ、例、ドキュメントが提供され、Getting Started、特徴量エンジニアリング、モデル比較、不確かさ推定、適用範囲評価などのチュートリアルノートブックが整備されている。ノートブックはローカル実行やGoogle Colabでの実行が想定されている。

主な機能

  • ノートブック中心のワークフロー(v3.x): 例はmastml/examples配下にまとまっている。
  • 不確かさ推定と適用範囲: 3.x系列ではUQおよび適用範囲解析が拡張され、専用チュートリアルと手法の参照が用意されている。
  • Matminerとの統合とデータ取り込み: 外部ツールやデータソースとの統合性が改善されている。
  • チュートリアル網羅性: データ取り込み、特徴量、モデル比較、CV戦略、誤差解析、UQまで幅広い。

インストール

READMEではpipによる導入が基本として示されている。

pip install mastml

GitHubからのクローンも可能である。

例: 公式チュートリアルのワークフロー

Getting Startedでは、mastml/examples内のMASTMLTutorial1_GettingStarted.ipynbが案内されている。サンプルデータの読み込み、正規化、モデル学習、交差検証による評価が短いノートブックで段階的に示される。

MatDaCsの観点では、このチュートリアルは「最初の一回」を提示するのに適しており、再現可能なML実験記述のベースラインとなる。

ローカル実行(チュートリアル1と7)

公式のTutorial 1とTutorial 7をローカル(オフライン)で実行した。主要なコードパスは維持しつつ、以下の調整を行った。

  • Tutorial 1のデータセット: fetchcaliforniahousing()がインターネットを必要とするため、代替としてsklearn内蔵のdiabetesデータセットを用いた。
  • Tutorial 7のMADML: MADMLはオプション依存で本環境に無いため、elementalおよびGPRのdomain checkのみを実行した。

Tutorial 1 · Getting Started

パイプライン: StandardScaler + 5-fold RepeatedKFold、モデルはLinearRegressionKernelRidgeRandomForestRegressorを使用し、sklearn diabetesデータセットで評価した。MAST-MLサマリのテストRMSE(平均±標準偏差)は以下であった。

  • LinearRegression: 54.73 ± 4.44
  • KernelRidge (rbf): 60.47 ± 5.96
  • RandomForestRegressor: 58.40 ± 2.20

パリティプロット例(RandomForestRegressorのテストfold):

Tutorial 7 · Model Predictions With Guide Rails

パイプライン: diffusionデータ(diffusiondataallfeatures.xlsx)+ StandardScaler + RandomForestRegressorにdomain checksを組み合わせた。elementalおよびGPRのdomain checkを実行し、GPR側の平均指標は以下であった。

  • R²: 0.877 ± 0.024
  • MAE: 0.118 ± 0.010
  • RMSE: 0.165 ± 0.015

パリティプロット例(GPR domain runのテストfold):

Matminer/DScribeとの比較

  • MatminerとMAST-ML: Matminerはデータセットと特徴量化に強く、MAST-MLは評価・誤差解析・UQまで含む教師あり学習ワークフローに焦点がある。Matminerで生成した特徴量をMAST-MLのパイプラインへ流し込む形が自然である。
  • DScribeとMAST-ML: DScribeは局所構造記述子(SOAP、MBTR、ACSF)を提供する。MAST-MLはモデリング枠組みであり、DScribe特徴量を入力として利用できるが、DScribe自体を置き換えるものではない。

まとめ

MAST-MLは、材料科学向けの「ガイド付き」ノートブック中心の教師あり学習ツールキットと位置付けられる。チュートリアル群、3.x系列のワークフロー、UQ/適用範囲ツールにより、Matminer(特徴量)やDScribe(局所記述子)を補完し、再現性と評価の体系性を重視することができる。

参考