母平均の「補助線」の推定 (ver 0.1.3)

Author

川田恵介

Published

March 13, 2025

Preface

ある属性 \(X\) を持つ事例内での、変数 \(Y\) の平均値 (“条件つき”平均)を推定する方法を紹介する、入門的なノートです¹。 Rの実例では、中古マンションの取引データを用いて、物件の属性 \(X\) (部屋の広さ、駅からの距離など)ごとに、平均取引価格 \(Y\) を推定します。

平均の推定値は、さまざまな実務で活用されています。中でも「\(Y\)の値を予測する」という課題において、中心的な役割を果たします。

伝統的には、OLSが母平均の推定方法として用いられてきました。近年では、OLSは母平均の仮想的な線型モデル(“補助線”)を推定する手法として、解釈できることが強調されています (Angrist and Pischke 2009; Aronow and Miller 2019) 。モデルの定式に誤りがあったとしても、推定結果は常に”解釈”できることがその理由です。

また近年では、機械学習の手法も積極的に活用されています。本ノートでは、機械学習の手法を導入する動機として、OLSが”研究者が設定した平均値のシンプルなモデル”を推定する方法であることを強調します。シンプルなモデルを推定する限りは優れた方法ですが、より複雑なモデルを推定したい場合はその有効性を失います。このような”複雑なモデル”を推定する方法として、LASSOを紹介します²。

より専門的な入門としては、Ding (2024) などを参照してください。↩︎
他の予測モデルの推定方法については、James et al. (2021) 参照↩︎