Pythonによるデータ分析・機械学習ブログ

Pythonによるデータの前処理・グラフ化、機械学習、統計解析、画像処理、Webスクレイピング、自然言語処理の基礎について紹介していきます。

MENU

【第26回】機械学習EDA:AutoVizによるデータセットの自動視覚化

はじめに

 データ・セットの分析や要約に用いられる手法に探索的データ分析(EDA:Explanatory Data Analysis) があり、それはデータの主な性質や構造的な特徴、データの相関を可視化して機械学習などのデータ解析の指針や方向性の検討を行います。そういったEDAを簡易的に行えるPythonライブラリがAutoVizです。2行程度の少ないコードでDataFrameのデータから相関図、分布図、バイオリンプロット、ヒートマップなどを表示・出力することができます。

 本記事では、AutoVizによるデータセットの自動視覚化の方法を紹介します。

SAMURAI TERAKOYA

 

1. AutoVizのGithub

AutoVizについては以下のGithubで説明がなされています。

github.com

 

2. AutoVizのインストール

pip installでAutoVizをインストールします。

 

3. AutoVizによるデータの可視化の関数

以下のような関数でデータの可視化を行うことができます。

 

AutoViz_Class().AutoVIz()の引数は下表のようになります。具体的には次の章をご覧ください。

引数 内容
filename csvのファイルパスを指定し、dfteに空文字""を指定する。もしくはDataFrameデータが既にある場合はfilenameに空文字""を、dfteにdfを指定する。
sep ファイル内の区切り文字を指定します。カンマ、セミコロン、タブなどの各列を区切る文字を指定する。dfteを指定している場合は不要。
depVar データセット内の目的変数。目的変数がない場合は空文字を指定する。
dfte pandasのDataFrameデータを指定。filenameが空文字ではない時、dfteは空文字""を指定する。
header ファイルのヘッダーの行番号を指定する。
verbose ①0: 最小限の情報・グラフを表示、②1: すべてのチャートと詳細情報を表示、③2: グラフは表示されず、ローカルマシンの現在の作業フォルダAutoViz_Plotsの下のディレクトリに保存
lowess 目的変数と説明変数のグラフに回帰線の表示する場合はTrue、表示しない場合はFalseを指定する。
chart_format "svg", "png", "jpg", "bokeh", "server", "html"を指定する。その形式に応じたデータを出力する。
max_rows_analyzed グラフの表示に使用される行の最大数を指定します。膨大なデータがある場合には情報量を制限することができます。
max_cols_analyzed グラフの表示に使用される列の最大数を指定します。
save_plot_dir プロットしたグラフを保存するディレクトリを指定。デフォルトはNoneでその際には現在のディレクトリのサブディレクトリAutoViz_Plotsに保存される。

4. Google Colaboratoryでデータの可視化

以下にGoogle Colaboratoryでのデータ可視化の方法を示します。データセットはscilit-learnのボストンの住宅価格を使用しました。データセットの用意は「scikit-learnで用意されているデータセット」をご覧ください。

 

オススメ書籍

Pythonによるあたらしいデータ分析の教科書

Python3エンジニア認定データ分析試験の教科書にもなっている書籍で、データ分析に必要なPythonの基礎手法を身に付けることができます。具体的には、numpyとpandasを用いたデータの前処理、matplotlibを用いたデータのグラフ化、scikit-learnを用いた機械学習の基礎記述方法を身に付けることができます。これ一つで基礎はバッチリで、実務でも十分活用できると思います。個人的には見やすい書籍でした。

データサイエンス教本 Pythonで学ぶ統計分析・パターン認識・深層学習・信号処理・時系列データ分析

こちらの書籍は初心者から少し記述できるようになった人、かつ数学的な理論と一緒にPythonの記述方法を理解したい方にオススメです。統計分析、パターン認識、深層学習、信号処理、時系列データといった幅広く実務で使用する手法を学びたい方にもオススメです。

東京大学のデータサイエンティスト育成講座 ~Pythonで手を動かして学ぶデ―タ分析~

こちらの基礎を抑えながら実務で必要なPython記述法を学べる書籍です。基礎を一つ一つ抑えるというよりも実務で活用できるように必要な知識を身に付けられると感じました。これ一冊あれば十分かなと思いました。

 

スキル修得&転職

 近年、DXの進展に伴うデジタル人材の需要の高まりに追いついていない状況が続いていると経済産業省がホームページで記載している通り、DX人材、IT人材が不足しているのが現状です。さらにコンピュータの性能向上やAI技術の発展により、よりDX人材、IT人材の需要が高まってきます。さらには、今後の長期間安定して職がある業種とも考えられます。

以下の求人では、IT業界の転職や、IT未経験だけどIT人材を志望する就活を支援してくれます。無料で会員登録もできるので、まずは登録だけでもして様子を見てみてはいかがでしょうか?

▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼

▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲

 

おわりに

本記事では、AutoVizによるデータセットの自動視覚化の方法を紹介しました。最初にデータの全体像を理解するのに非常に便利なツールだと思います。この方法で得られたグラフの結果から機械学習やデータ分析の方向性を示せるような流れになると良いと思います。