Pythonによるデータ分析・機械学習ブログ

Pythonによるデータの前処理・グラフ化、機械学習、統計解析、画像処理、Webスクレイピング、自然言語処理の基礎について紹介していきます。

MENU

2022-08-01から1ヶ月間の記事一覧

【第20回】numpy、pandas、scipyを用いたデータの平滑化:移動平均法とSavitzkey-Golayフィルタ

はじめに センサーなどのデータを分析しようとした際に、データにノイズがのっているケースがあると思います。その時に実施するのがデータの平滑化(スムージング)です。例えば、スパイクノイズなどがデータに満たれた場合、データを平滑化することでデータ…

【第19回】scipyを用いたデータの補間

はじめに SciPyは、プログラミング数学、科学、工学のための数値解析ソフトウェアです。 例えば以下のようなサブモジュールが用意されています。 補間( scipy.interpolate) 数値積分:(scipy.integrate) 信号解析(scipy.signal) 画像処理(scipy.ndimag…

【第5回】statsmodelsを用いたBland-Altmanプロットの作成:一致度の評価

はじめに 計測したデータの分析などをしていると2つの計測機器間のデータの一致性を評価する場面があります。その際に用いる分析手法の一つにブランド・アルトマン分析があります。 ブランド・アルトマン分析についてはStats Guild:ブランド・アルトマン分…

【第4回】Scipy、Numpy、Pandasを用いた相関係数の算出

はじめに 相関分析とは 2つのデータの関係の強さを表す指標(相関係数)を計算し、数値化するデータ分析手法です。相関係数は-1以上1 以下の範囲で算出され、数値が正の場合は正の相関を示し、負の場合は負の相関を示します。そして1に近いほど強い正の相関…

【第3回】scipyを用いた1標本のt検定

はじめに 1標本のt検定は、未知の母平均が特定の値と異なるかどうかを判断するために用いられる検定手法です。 本記事ではscipyを用いた1標本のt検定の例を示します。 1. 1標本のt検定のコード 1標本検定では、scipy.stats.ttest_1sampを用います。 2. scipy…

【第2回】scipyを用いた対応のない3群以上の平均値の差の検定

はじめに データ分析や統計解析をしていると3群間以上で差があるのかないのかを明確にしたいケースが多いと思います。その際に使用するのが3群間以上の平均値の差の検定です。検定では有意水準0.05を下回るかを確認して、3群間以上の平均値に有意な差がある…

【第1回】scipyを用いた対応のない2群の平均値の差の検定

はじめに データ分析や統計解析をしていると2群間に差があるのかないのかを明確にしたいケースが多いと思います。その際に使用するのが2群間の平均値の差の検定です。検定では有意水準0.05を下回るかを確認して、2群間の平均値に有意な差があるのかを明らか…

【第7回】クラスタリング:k-means、階層的クラスタリング

はじめに scikit-learnはPythonのオープンソース機械学習ライブラリです。サポートベクターマシン、ランダムフォレスト、k近傍法、などを含む様々な分類、回帰、クラスタリングアルゴリズムを備えており、Pythonの数値計算ライブラリのNumPyとSciPyとやり取…

【第6回】ホールドアウト検証と交差検証による汎化能力の評価

はじめに ここまで、回帰や分類を行ってきました。これまでの記事では触れてきませんでしたが、回帰や分類のモデルを構築する際には、データセットを学習用データとテストデータに分割して学習データからモデルを構築して、構築したモデルを用いてテストデー…

【第5回】Optunaを用いたハイパーパラメータのチューニング

はじめに scikit-learnはPythonのオープンソース機械学習ライブラリです。サポートベクターマシン、ランダムフォレスト、k近傍法、などを含む様々な分類、回帰、クラスタリングアルゴリズムを備えており、Pythonの数値計算ライブラリのNumPyとSciPyとやり取…

【第4回】ハイパーパラメータのチューニング:グリッドサーチ、ランダムサーチ、ベイズ最適化

はじめに scikit-learnはPythonのオープンソース機械学習ライブラリです。サポートベクターマシン、ランダムフォレスト、k近傍法、などを含む様々な分類、回帰、クラスタリングアルゴリズムを備えており、Pythonの数値計算ライブラリのNumPyとSciPyとやり取…

【第3回】scikit-learnを用いた決定木、ランダムフォレスト、サポートベクタマシン、k近傍法による分類

はじめに scikit-learnはPythonのオープンソース機械学習ライブラリです。サポートベクターマシン、ランダムフォレスト、k近傍法、などを含む様々な分類、回帰、クラスタリングアルゴリズムを備えており、Pythonの数値計算ライブラリのNumPyとSciPyとやり取…

【第2回】scikit-learnを用いた線形回帰、ランダムフォレスト、サポートベクタマシンによる回帰

はじめに scikit-learnはPythonのオープンソース機械学習ライブラリです。サポートベクターマシン、ランダムフォレスト、k近傍法、などを含む様々な分類、回帰、クラスタリングアルゴリズムを備えており、Pythonの数値計算ライブラリのNumPyとSciPyとやり取…

【第1回】scikit-learnで用意されているデータセット

はじめに scikit-learnはPythonのオープンソース機械学習ライブラリです。サポートベクターマシン、ランダムフォレスト、k近傍法、などを含む様々な分類、回帰、クラスタリングアルゴリズムを備えており、Pythonの数値計算ライブラリのNumPyとSciPyとやり取…

【第18回】Seabornのカラーマップで指定できるカラーパレット

はじめに seabornは、matplotlibに基づくPythonデータ視覚化ライブラリです。 魅力的で有益な統計グラフィックスを描画するための高レベルのインターフェイスを提供します。 matplotlibと比較して、より手軽に美しく可視化ができるライブラリとなっています…

【第17回】Seabornで用意されているデータセット

はじめに seabornは、matplotlibに基づくPythonデータ視覚化ライブラリです。 魅力的で有益な統計グラフィックスを描画するための高レベルのインターフェイスを提供します。 matplotlibと比較して、より手軽に美しく可視化ができるライブラリとなっています…

【第16回】Seabornを用いたグラフの作成

はじめに seabornは、matplotlibに基づくPythonデータ視覚化ライブラリです。 魅力的で有益な統計グラフィックスを描画するための高レベルのインターフェイスを提供します。 matplotlibと比較して、より手軽に美しく可視化ができるライブラリとなっています…

【第15回】matplotlibを用いたヒストグラムの作成

はじめに matplotlibは様々な種類のグラフを描画するライブラリで、描画できるのは主に2次元のプロットですが、3次元プロットの機能も追加されてきています。 例えば以下の様なグラフを作成することができます。 ヒストグラム 散布図 折れ線グラフ 円グラフ …

【第14回】matplotlibを用いた円グラフの作成

はじめに matplotlibは様々な種類のグラフを描画するライブラリで、描画できるのは主に2次元のプロットですが、3次元プロットの機能も追加されてきています。 例えば以下の様なグラフを作成することができます。 ヒストグラム 散布図 折れ線グラフ 円グラフ …

【第13回】matplotlibを用いた棒グラフの作成

はじめに matplotlibは様々な種類のグラフを描画するライブラリで、描画できるのは主に2次元のプロットですが、3次元プロットの機能も追加されてきています。 例えば以下の様なグラフを作成することができます。 ヒストグラム 散布図 折れ線グラフ 円グラフ …

【第12回】matplotlibで用いる線のマーカーの形・色、線の種類について

はじめに matplotlibは様々な種類のグラフを描画するライブラリで、描画できるのは主に2次元のプロットですが、3次元プロットの機能も追加されてきています。 例えば以下の様なグラフを作成することができます。 ヒストグラム 散布図 折れ線グラフ 円グラフ …

【第11回】 matplotlibを用いた散布図の作成

はじめに matplotlibは様々な種類のグラフを描画するライブラリで、描画できるのは主に2次元のプロットですが、3次元プロットの機能も追加されてきています。 例えば以下の様なグラフを作成することができます。 ヒストグラム 散布図 折れ線グラフ 円グラフ …

【第10回】matplotlibを用いた折れ線グラフの作成

はじめに matplotlibは様々な種類のグラフを描画するライブラリで、描画できるのは主に2次元のプロットですが、3次元プロットの機能も追加されてきています。 例えば以下の様なグラフを作成することができます。 ヒストグラム 散布図 折れ線グラフ 円グラフ …

【第9回】globを用いたファイル名のリストの取得

はじめに フォルダ内にcsv形式やテキスト形式のデータが保存されていて、そのファイルを一つ一つ選択してデータ処理するのは、非常にめんどくさいですよね。ましてや10個や100個などなると非常に大変です。 そんな時に役立つのがglobと呼ばれるPythonのライ…

【第8回】Pandasによる欠損値処理、データの連結、統計値の算出、データ型の変換

はじめに プログラミング言語Pythonにおいて、データ解析を支援する機能を提供するライブラリです。特に、数表および時系列データを操作するためのデータ構造と演算を提供しています。DataFrameなどの独自の構造が用いられています。機械学習において前処理…

【第7回】Pandasにおけるデータ抽出、並び替え、挿入、時系列データの生成

はじめに プログラミング言語Pythonにおいて、データ解析を支援する機能を提供するライブラリです。特に、数表および時系列データを操作するためのデータ構造と演算を提供しています。DataFrameなどの独自の構造が用いられています。機械学習において前処理…

【第6回】Pandasにおけるデータの生成・格納、抽出、読み込み

はじめに プログラミング言語Pythonにおいて、データ解析を支援する機能を提供するライブラリです。特に、数表および時系列データを操作するためのデータ構造と演算を提供しています。DataFrameなどの独自の構造が用いられています。機械学習において前処理…

【第5回】Numpyにおける配列の統計値、小数点の処理、欠損値の確認

はじめに Numpyはプログラミング言語Pythonにおいて数値計算を効率的に行うためのモジュールで、科学数値計算にはNumpyを用いることが非常に多くなっています。このモジュールは、効率的な数値計算を行うための型付きの多次元配列のサポートをPythonに加える…

【第4回】Numpyにおける配列の演算、加減乗除、条件による判定

はじめに Numpyはプログラミング言語Pythonにおいて数値計算を効率的に行うためのモジュールで、科学数値計算にはNumpyを用いることが非常に多くなっています。このモジュールは、効率的な数値計算を行うための型付きの多次元配列のサポートをPythonに加える…

【第3回】 Numpyにおける数列の作成と加工

はじめに Numpyはプログラミング言語Pythonにおいて数値計算を効率的に行うためのモジュールで、科学数値計算にはNumpyを用いることが非常に多くなっています。このモジュールは、効率的な数値計算を行うための型付きの多次元配列のサポートをPythonに加える…