【Python】iloc , iat の速度比較。DataFrameの選択に使うべきは?
iloc , iat はいずれもPandasのDataFrameを選択するための関数です。ilocについては、以前別の投稿で触れましたが、いずれもDataFrameの行番号、列番号を指定して選択する関数です。iloc , iatの使い方の違いと実行速度の比較をして、どちらを使うべきかを調べてみたいと思います。
ITエンジニアが趣味で勉強したことを書き綴ります。PythonとMT5用言語のMQL5についての記事多めです。
iloc , iat はいずれもPandasのDataFrameを選択するための関数です。ilocについては、以前別の投稿で触れましたが、いずれもDataFrameの行番号、列番号を指定して選択する関数です。iloc , iatの使い方の違いと実行速度の比較をして、どちらを使うべきかを調べてみたいと思います。
前回の記事で、結構な枚数のDataFrameの実行結果の画像を使用しました。その際、Windows標準のキャプチャツールでいちいち画面キャプチャするのが面倒で、JupyterNoteBookに表示される表を画像出力できないかを調べて、表を出力する関数を作ったのでご紹介します。
機械学習を行う際、データの中に「NaN」が混ざっていたり、数値データの中に「―」や「80%」の様に数値化できない値が混ざっていると学習を行うことができません。 そこで、今回はデータの中から「 NaN 」を除外する方法と、特定の条件を満たす値を除外する方法をご紹介したいと思います。
まえがき 機械学習で正しい学習結果を得るためにはデータの前処理が大切ということは過去の記事でも書いてきました。過去の記事は以下をご覧ください。 tedukapm.tech/?p=137 そして、適切な前処理を行うためには、データの状態を確認することが不可欠です。そこで今回は、データの基本統計量(合計、平均)を一度に確認できる「describe」の使い方と、合計を確認できる「sum」の使い方をご紹 […]
JupyterNoteBookでPythonのライブラリ、PandasのDataFrameの列を、indexをずらして複製する方法を紹介します。 まえがき 時間データを扱うとき、PandasのDataFrameにindexをずらした列を追加したい場合が結構あります。なぜなら、indexをずらした列はある時刻における、未来、もしくは過去の値として使用することができるため、機械学習で未来予測を行うと […]
Pythonのライブラリ、PandasのDataFrameをJupyterNoteBook上で表示する方法と、表示する列数を変更する方法を紹介します。 まえがき 前回の記事で、PandasのDataFrameをJupyterNoteBook上で表示する基本的な方法と、任意の行数表示する方法を紹介しました。前回の記事は以下を参照してください。https://tedukapm.tech/?p=72 […]
Pythonのライブラリ、PandasのDataFrameをJupyterNoteBook上で表示する方法と、表示する行数を変更する方法を紹介します。 まえがき PandasのDataFrameをJupyterNoteBook上で表示する方法はいくつかあります。しかし、JupyterNoteBookの機能で一定の行数以上になると勝手に省略されてしまい、思うように表示するのは意外と難しいです。そこ […]
Pythonのライブラリ、Pandasのread_csvを使って、FXの過去データ(ヒストリカルデータ)をDataFrameとして取り込む方法を4ステップで紹介します。 まえがき FXの過去データのcsvファイルをPandasのread_csvを使って、日付型indexを持つDataFrame(df)として読み込みます。read_csvの基本的な使い方は以下のページで解説しています。 https […]
Pandasのread_csvでcsvファイルを読み込む方法まとめ。indexのDateTimeが変換できなくて苦戦したのでメモ。 まえがき 以下のようなcsvファイルを日付型indexを持つDataFrame(df)として読み込もうとしました。しかし、indexの日付変換が出来ませんでした。その際、以下の点が課題となったので、通常のcsvファイルの読み込み方法と合わせてメモしておきたいと思いま […]