pandas

  • 業務上データ分析を行う上で、大量のcsvを簡単に読み込める。
  • Excelと異なり、メモリに展開するためメモリが許す限り処理が可能。

Series同士を結合して、Dataframeにする。

# 行方向に結合
df = pd.concat([SeriesA,SeriesB],axis=0)
# 列方向に結合
df = pd.concat([SeriesA,SeriesB],axis=1)

DataFrame内の各データの相関係数を出力

# Dataframeの全カラムに対して相関係数を算出する
# dropna()で空行を除去する
df_corr = df.dropna().corr()

# Seabornを使用したHeatmapで可視化するとわかりやすい
import seaborn as sns
sns.heatmap(df_corr.dropna(), #Heatmapにするデータフレーム
            cmap='RdBu_r',    # colorbarの色 RdBu_rで赤から青
            center=0,         # colorbarの中心の数値
            vmin=-1,vmax=1,   # colorbarの最小最大値
            annot=True,       # Heatmapのセルに数値を表示するか
            linewidths=.5,    # セル間の線の太さ
            fmt='1.2f')       # セルに表示する数値のフォーマットを指定