母平均の「補助線」の推定 (ver 0.2)
Preface
ある属性 \(X\) を持つ事例内での、変数 \(Y\) の平均値 (“条件つき”平均)を推定する方法を紹介する、入門的なノートです1。 Rを用いた実習例では、 東京23区の中古マンション取引データを用いて、物件の属性 \(X=[\) 部屋の広さ、駅からの距離 \(]\) ごとに、平均取引価格 \(Y\) を推定します。
平均の推定値は、さまざまな実務で活用されています。 中でも「\(Y\)の値を予測する」という課題において、中心的な役割を果たします (James et al. 2021) 。
平均を推定する手法として、線型モデルとOLSで推定する手法が用いられてきました。 OLSは長い歴史を持つ手法であり、さまざまな解釈が議論されてきました。 近年では、母平均の線型モデル(“補助線”)を推定する手法として、解釈できることが強調されています (Angrist and Pischke 2009; Aronow and Miller 2019) 。
また近年では、機械学習の手法も積極的に活用されています。 本ノートでは、機械学習の手法を導入する動機として、OLSが”研究者が設定した平均値のシンプルなモデル”を推定する手法であることを強調します。 シンプルなモデルを推定する限りにおいて、OLSは優れた方法ですが、より複雑なモデルを推定したい場合はその有効性を失います。 このような”複雑なモデル”を推定する方法として、LASSO、回帰木を紹介します2。
他の予測モデルの推定方法については、James et al. (2021) 参照↩︎