【scikit-learn】Pythonで機械学習!その1 ~CheatSheetとは?~

【scikit-learn】Pythonで機械学習!その1 ~CheatSheetとは?~

 pythonで機械学習を行うとき、必ずと言ってよいほど使用されるのが、scikit-learnというライブラリです。 scikit-learn を使いこなすために、目的にあったアルゴリズムを選ぶための基準となるCheatSheetというものが用意されています。今回はこの CheatSheet を紹介してゆきます。

まえがき

scikit-learnは数多くの機械学習のアルゴリズムを簡単に実装できるAPIを持っており、 使いこなすことができれば大抵の機械学習やAI構築は実現できます。しかし、数多くの機械学習アルゴリズムから目的にあったものを選ぶのは簡単ではありません。そこで、目的にあったアルゴリズムを選ぶための基準となるCheatSheetというものが用意されています。

scikit-learnCheatSheetとは ?

 CheatSheetとは機械学習で分析したいデータの数や特徴から、最適な機械学習手法を選ぶことができるものです。心理テストのようなYes-Noの選択肢をいくつか通って、最終的に適した方法へと導いてくれます。

https://scikit-learn.org/stable/tutorial/machine_learning_map/

CheatSheetの使い方

 例として、以前の投稿で取り扱った、FXの時刻歴データから、将来の相場を知ろうとする場合、どの機械学習手法を使えばよいかを考えてみます。

以前の投稿↓
https://tedukapm.tech/?p=39

 さて、まずは CheatSheet右上のSTARTから見て行きます。そして、矢印に沿って以下のように進みます。

番号質問回答
sample > 50 サンプル数は約23万(230K)なので、これはYes
predicting a category predicting(=予測)したいのはカテゴリではなく価格(量)なので、これはNo
(上がるか、下がるかだけを判定したい場合はカテゴリ分けになるのでYes。)
predicting a qusntity qusntity (=量)を予測したいので、これは Yes
sample < 100K サンプル数は約23万(230K)なので、これはNo
SGD Regressor この機械学習手法が適しているということになります。

まとめ

 pythonのライブラリ、scikit-learnで最適な機械学習手法を選ぶための基準となるCheatSheetの使い方をご紹介しました。
 また、FXの相場予測を行うには、 「 SGD Regressor 」という方法が適しているらしいという結論も得られました。いずれは、 SGD Regressorの調査を行った結果も投稿したいと思いますので、また来ていただけると嬉しいです。