学習記録

日々の学習メモを残すためのブログ。雑多メモ多め。時々日常のこと。

論文メモ - Matrix- and tensor-based recommender systems for the discovery of currently unknown inorganic compounds

https://arxiv.org/pdf/1710.00659.pdf
(2017年9月)

(以下自分の解釈メモ)

概要

機械学習を用いて、未発見のChemically relevant components (CRCs)の候補を、非負値行列因子分解(NMF)・特異値分解(SVD)・CP分解・Thucker分解をベースとしたレコメンドシステムで探索する論文。

候補CRCに対して、密度汎関数理論(DFT)を用いて安定性の評価を行っている。

背景

膨大な元素の組み合わせの物質を網羅的にDFTで計算するのは計算コストがかかる。
⇒ 既存データから機械学習で候補を見つけられればコスト削減

データセット

  • ICSD
  • Powder Difraction File (PDF)
  • SpringerMaterials(SpMat)

上記3つのデータベースから無機結晶構造のデータを使用。

$A_aB_bX_x$の三元化合物を対象。 (A、Bは陽イオン(66個)。Xは陰イオン(10個))

$max(a,b,x)≤8$

全組み合わせとしては$662×10×170=7,405,200$個の化合物

3元化合物に加え、4元・5元も作成。

Matrix-basedレコメンドシステム

  1. {$A$} and {$B, X, (a,b,x)$}
  2. {$A, X$} and {$B, (a, b, x)$}
  3. {$A, B$} and {$X, (a, b, x)$}

上記各データセットを評価マトリックスの行・列に対応させる。

現在発見されている化合物の箇所だけ1、未発見/存在しない化合物の箇所は0で埋める。

(FIG.3参照)

NMF、SVDで評価。

(FIG.4参照)

Tensor-basedレコメンドシステム

{$A$}、{$B$}、{$a,b,x$}を評価テンソルの三軸に対応させる。

(FIG.5参照)

CP分解・Thucker分解で評価。

(FIG.6参照)

評価

高評価順ならべたトップ27に対しDFTで安定性評価。
⇒ ほとんど(85%)が安定

トップ27と元素の組み合わせ{$A,B,X$}は同じだが、{$a,b,x$}が異なる低評価化合物に対してもDFTで安定性評価。
⇒ ほとんど(86%)が不安定

(TABLE Ⅲ参照)

Conclusion

Thucker分解が一番良い発見率。

機械学習によるレコメンドとDFT安定性評価はほぼ一致する結果。
 ⇒ 新CRC発見において機械学習は有用な手法