Chapter 10 可視化

  • 議論の出発点として、データ内におけるY/X間の関係性を整理・記述することが重要

    • 最有力な手法は可視化
  • tidyverseに含まれるggplot2パッケージ(Wickham et al. 2021)を利用し、可視化

  • Chapter 10.2 : Yが連続変数、Xがカテゴリー変数のケースについて有効なヒストグラム、密度関数、boxplotを描写

  • Chapter 10.3 :Xも連続変数のケースについて有効な散布図、ヒートマップを描写

10.1 パッケージ & データ

library(tidyverse) # 可視化

library(AER) # 例データ

data("NMES1988") # データの取り込み

raw <- NMES1988 # 名前変更
  • 変数のタイプに応じて、変数間の関係性を記述するために有効な図は異なる。 ここでは、Y/Xが共に連続(連続-連続)のケース、Xがカテゴリカル(連続-カテゴリ)なケースについて、代表的な図を紹介する

10.2 連続-カテゴリのケース

10.2.1 ヒストグラム

  • 医療機関の利用回数
raw |> 
  ggplot(aes(x = visits)) +
  geom_histogram()

  • 保険の有無別
raw |> 
  ggplot(aes(x = visits,
             fill = insurance)
         ) +
  geom_histogram(position = "identity",
                 alpha = 0.5)

10.2.2 密度

  • 保険の有無別分布
raw |> 
  ggplot(aes(x = visits,
             fill = insurance)
         ) +
  geom_density(position = "identity",
               alpha = 0.5)

10.2.3 Boxplot

raw |> 
  ggplot(aes(y = visits,
             x = insurance)
         ) +
  geom_boxplot()

10.3 連続-連続のケース

10.3.1 散布図

  • 散布図:連続変数間の関係性を可視化する図
raw |> 
  ggplot(aes(x = age,
             y = visits)
         ) +
  geom_point()

  • サンプルサイズが大きくなると機能しない

10.3.2 ヒートマップ

  • 代替案はヒートマップ
raw |> 
  ggplot(aes(x = age,
             y = visits)
         ) +
  geom_bin2d()

References

Wickham, Hadley, Winston Chang, Lionel Henry, Thomas Lin Pedersen, Kohske Takahashi, Claus Wilke, Kara Woo, Hiroaki Yutani, and Dewey Dunnington. 2021. Ggplot2: Create Elegant Data Visualisations Using the Grammar of Graphics. https://CRAN.R-project.org/package=ggplot2.