Pythonによるデータ分析・機械学習ブログ

Pythonによるデータの前処理・グラフ化、機械学習、統計解析、画像処理、Webスクレイピング、自然言語処理の基礎について紹介していきます。

MENU

統計解析

【第6回】scipyを用いたQ-Qプロット描画、シャピロ・ウィルク検定、コルモゴロフ・スミルノフ検定による正規性の確認

はじめに データ分析の内、統計解析をする際に重要な項目の一つとして挙げられるのはデータの正規性です。正規分布に従っているか否かで検定方法がパラメトリックかノンパラメトリックかが決まってきます。そのため、基本的に検定を行う際にはまずデータの正…

【第5回】statsmodelsを用いたBland-Altmanプロットの作成:一致度の評価

はじめに 計測したデータの分析などをしていると2つの計測機器間のデータの一致性を評価する場面があります。その際に用いる分析手法の一つにブランド・アルトマン分析があります。 ブランド・アルトマン分析についてはStats Guild:ブランド・アルトマン分…

【第4回】Scipy、Numpy、Pandasを用いた相関係数の算出

はじめに 相関分析とは 2つのデータの関係の強さを表す指標(相関係数)を計算し、数値化するデータ分析手法です。相関係数は-1以上1 以下の範囲で算出され、数値が正の場合は正の相関を示し、負の場合は負の相関を示します。そして1に近いほど強い正の相関…

【第3回】scipyを用いた1標本のt検定

はじめに 1標本のt検定は、未知の母平均が特定の値と異なるかどうかを判断するために用いられる検定手法です。 本記事ではscipyを用いた1標本のt検定の例を示します。 1. 1標本のt検定のコード 1標本検定では、scipy.stats.ttest_1sampを用います。 2. scipy…

【第2回】scipyを用いた対応のない3群以上の平均値の差の検定

はじめに データ分析や統計解析をしていると3群間以上で差があるのかないのかを明確にしたいケースが多いと思います。その際に使用するのが3群間以上の平均値の差の検定です。検定では有意水準0.05を下回るかを確認して、3群間以上の平均値に有意な差がある…

【第1回】scipyを用いた対応のない2群の平均値の差の検定

はじめに データ分析や統計解析をしていると2群間に差があるのかないのかを明確にしたいケースが多いと思います。その際に使用するのが2群間の平均値の差の検定です。検定では有意水準0.05を下回るかを確認して、2群間の平均値に有意な差があるのかを明らか…

【第1回】科学数値計算、自然言語処理、機械学習で使用するモジュールについて

はじめに この記事を読んでいる方は、データサイエンスの世界でデータサイエンティストやデータアナリストを目指す方が多いかと思います。私自身ももともとは実験家でPythonなど触れたことのない人物でした。そこから、約1年半、Pythonを各ライブラリを用い…