Python

1/2ページ

【Python】iloc , iat の速度比較。DataFrameの選択に使うべきは?

 iloc , iat はいずれもPandasのDataFrameを選択するための関数です。ilocについては、以前別の投稿で触れましたが、いずれもDataFrameの行番号、列番号を指定して選択する関数です。iloc , iatの使い方の違いと実行速度の比較をして、どちらを使うべきかを調べてみたいと思います。

【Python】 機械学習の前処理その4 テストデータを分割しロバスト性を上げる ホールドアウト法の使い方

機械学習アルゴリズムを評価する基準の一つにロバスト性(頑健性)という指標があります。ロバスト性とは、外れ値、飛び値や、運用時にテストデータと異なる傾向が出た場合にも、間違った予測をしにくい性質のことです。本記事では、データの傾向変化に対するロバスト性を向上する方法として、ホールドアウト法をご紹介したいと思います。

【Python】機械学習の前処理その3 NaNを除外 、線形・多項式補間する方法!

機械学習を行う際、データの中に「NaN」が混ざっていたり、数値データの中に「―」や「80%」の様に数値化できない値が混ざっていると学習を行うことができません。 そこで、今回はデータの中から「 NaN 」を除外する方法と、特定の条件を満たす値を除外する方法をご紹介したいと思います。

【Python】 機械学習の前処理その2 統計とNaNの確認 describe と sum

まえがき  機械学習で正しい学習結果を得るためにはデータの前処理が大切ということは過去の記事でも書いてきました。過去の記事は以下をご覧ください。 tedukapm.tech/?p=137 そして、適切な前処理を行うためには、データの状態を確認することが不可欠です。そこで今回は、データの基本統計量(合計、平均)を一度に確認できる「describe」の使い方と、合計を確認できる「sum」の使い方をご紹 […]

【Python】機械学習の前処理正規化 (Normalization) 標準化 (Standardization) 2つの違いは?

まえがき  機械学習ははただデータをAPIに投げ込めばできるというものではありません。良い結果を得るためには、データをそのまま使うのではなく、効率的に学習できるように加工する必要があります。必要な加工はデータの特性や機械学習で知りたい情報によっても異なります。ですので、適切なデータ加工を行うことはエンジニアの腕の見せ所ともいえるわけです。本日はそんなデータ加工の方法の中で、最もよく使われる規格化と […]

【scikit-learn】Pythonで機械学習!その1 ~CheatSheetとは?~

 pythonで機械学習を行うとき、必ずと言ってよいほど使用されるのが、scikit-learnというライブラリです。 scikit-learn を使いこなすために、目的にあったアルゴリズムを選ぶための基準となるCheatSheetというものが用意されています。今回はこの CheatSheet を紹介してゆきます。 まえがき scikit-learnは数多くの機械学習のアルゴリズムを簡単に実装でき […]

JupyterNoteBookで、Pandas.DataFrameのindexを1つずらす。

JupyterNoteBookでPythonのライブラリ、PandasのDataFrameの列を、indexをずらして複製する方法を紹介します。 まえがき  時間データを扱うとき、PandasのDataFrameにindexをずらした列を追加したい場合が結構あります。なぜなら、indexをずらした列はある時刻における、未来、もしくは過去の値として使用することができるため、機械学習で未来予測を行うと […]

PandasのDataFrameをJupyterNoteBookに表示する方法4選!列数編

Pythonのライブラリ、PandasのDataFrameをJupyterNoteBook上で表示する方法と、表示する列数を変更する方法を紹介します。 まえがき  前回の記事で、PandasのDataFrameをJupyterNoteBook上で表示する基本的な方法と、任意の行数表示する方法を紹介しました。前回の記事は以下を参照してください。https://tedukapm.tech/?p=72 […]

PandasのDataFrameをJupyterNoteBook上に表示する方法6選!

Pythonのライブラリ、PandasのDataFrameをJupyterNoteBook上で表示する方法と、表示する行数を変更する方法を紹介します。 まえがき  PandasのDataFrameをJupyterNoteBook上で表示する方法はいくつかあります。しかし、JupyterNoteBookの機能で一定の行数以上になると勝手に省略されてしまい、思うように表示するのは意外と難しいです。そこ […]