母平均の「補助線」の推定 (ver 0.1.1)
Preface
ある属性 \(X\) を持つ事例内での、変数 \(Y\) の平均値 (“条件つき”平均)を推定する方法を紹介します。 Rの実例では、 中古マンションの取引データを用いて、物件の属性 \(X\) (部屋の広さ、駅からの距離など)ごとに、平均取引価格 \(Y\) を推定します。
平均の推定値は、さまざまな実務で活用されています。 中でも「\(Y\)の値を予測」という課題においては、代表的な予測値となっています。
伝統的には、OLSが母平均の推定方法として用いられてきました。 近年では、OLSは母平均の仮想的な線型モデル(“補助線”)を推定する手法として、解釈できることが強調されています (Angrist and Pischke 2009; Aronow and Miller 2019) 。 モデルの定式に誤りがあったとしても、推定結果は常に”解釈”できることがその理由です。
また近年では、機械学習の手法も積極的に活用されています。 本ノートでは、OLSが”研究者が設定した平均値のシンプルなモデル”を推定する方法として優れていることを強調します。 もしより複雑なモデルを推定したい場合は、OLSはその有効性を失います。 このような”複雑なモデル”を推定する優れた方法として、LASSOを紹介します1。
最後に平均値の特徴を捉えることに成功した予測モデルは、予測においても有効であることを論じます。
他の予測モデルの推定方法については、James et al. (2021) 参照↩︎