概要
MAST-ML(Materials Simulation Toolkit for Machine Learning)は、材料研究向けの教師あり学習ツールキットであり、Jupyterノートブックとチュートリアル主導の例を中心にワークフローが構成されている。現行3.x系列では、従来の入力ファイル方式よりもノートブックによるモジュール式の利用を重視し、不確かさ推定や適用範囲(domain-of-applicability)解析の支援が拡充されている。
MAST-MLとは
MAST-MLはデータ駆動材料研究を加速するオープンソースPythonパッケージである。コアパッケージ、例、ドキュメントが提供され、Getting Started、特徴量エンジニアリング、モデル比較、不確かさ推定、適用範囲評価などのチュートリアルノートブックが整備されている。ノートブックはローカル実行やGoogle Colabでの実行が想定されている。
主な機能
- ノートブック中心のワークフロー(v3.x): 例は
mastml/examples配下にまとまっている。 - 不確かさ推定と適用範囲: 3.x系列ではUQおよび適用範囲解析が拡張され、専用チュートリアルと手法の参照が用意されている。
- Matminerとの統合とデータ取り込み: 外部ツールやデータソースとの統合性が改善されている。
- チュートリアル網羅性: データ取り込み、特徴量、モデル比較、CV戦略、誤差解析、UQまで幅広い。
インストール
READMEではpipによる導入が基本として示されている。
pip install mastml
GitHubからのクローンも可能である。
例: 公式チュートリアルのワークフロー
Getting Startedでは、mastml/examples内のMASTMLTutorial1_GettingStarted.ipynbが案内されている。サンプルデータの読み込み、正規化、モデル学習、交差検証による評価が短いノートブックで段階的に示される。
MatDaCsの観点では、このチュートリアルは「最初の一回」を提示するのに適しており、再現可能なML実験記述のベースラインとなる。
ローカル実行(チュートリアル1と7)
公式のTutorial 1とTutorial 7をローカル(オフライン)で実行した。主要なコードパスは維持しつつ、以下の調整を行った。
- Tutorial 1のデータセット:
fetchcaliforniahousing()がインターネットを必要とするため、代替としてsklearn内蔵のdiabetesデータセットを用いた。 - Tutorial 7のMADML: MADMLはオプション依存で本環境に無いため、elementalおよびGPRのdomain checkのみを実行した。
Tutorial 1 · Getting Started
パイプライン: StandardScaler + 5-fold RepeatedKFold、モデルはLinearRegression、KernelRidge、RandomForestRegressorを使用し、sklearn diabetesデータセットで評価した。MAST-MLサマリのテストRMSE(平均±標準偏差)は以下であった。
- LinearRegression: 54.73 ± 4.44
- KernelRidge (rbf): 60.47 ± 5.96
- RandomForestRegressor: 58.40 ± 2.20
パリティプロット例(RandomForestRegressorのテストfold):

Tutorial 7 · Model Predictions With Guide Rails
パイプライン: diffusionデータ(diffusiondataallfeatures.xlsx)+ StandardScaler + RandomForestRegressorにdomain checksを組み合わせた。elementalおよびGPRのdomain checkを実行し、GPR側の平均指標は以下であった。
- R²: 0.877 ± 0.024
- MAE: 0.118 ± 0.010
- RMSE: 0.165 ± 0.015
パリティプロット例(GPR domain runのテストfold):

Matminer/DScribeとの比較
- MatminerとMAST-ML: Matminerはデータセットと特徴量化に強く、MAST-MLは評価・誤差解析・UQまで含む教師あり学習ワークフローに焦点がある。Matminerで生成した特徴量をMAST-MLのパイプラインへ流し込む形が自然である。
- DScribeとMAST-ML: DScribeは局所構造記述子(SOAP、MBTR、ACSF)を提供する。MAST-MLはモデリング枠組みであり、DScribe特徴量を入力として利用できるが、DScribe自体を置き換えるものではない。
まとめ
MAST-MLは、材料科学向けの「ガイド付き」ノートブック中心の教師あり学習ツールキットと位置付けられる。チュートリアル群、3.x系列のワークフロー、UQ/適用範囲ツールにより、Matminer(特徴量)やDScribe(局所記述子)を補完し、再現性と評価の体系性を重視することができる。
参考
- MAST-ML GitHub: https://github.com/uw-cmg/MAST-ML
- MAST-ML documentation: https://mastmldocs.readthedocs.io/en/latest/
- Jacobs et al., Comput. Mater. Sci. 175 (2020), 109544.
- Palmer et al., npj Comput. Mater. 8, 115 (2022).
- Schultz et al., npj Comput. Mater. 11, 95 (2025).