3 OLS for BLP
- 本章では以降の議論のベンチマークとなる「線形モデルをOLSアルゴリズムで推定した」場合の推定結果の解釈を紹介する。
3.1 設定
データは、関心となる母集団からランダムサンプリングによって選ばれた事例によって構成されている。
結果変数 \(Y\) と 変数群 \(X=[X_1,..,X_L]\) との関係性に関心があるとする。
3.2 OLS Algorithm
- OLS algorithmは、以下のように定義できる。
分析者が、線形モデルを設定する: \[f_Y(X)=\beta_0 + \beta_1X_1 + ... + \beta_L X_L\]
- \(\beta = [\beta_0,..,\beta_L]\) : パラメタ
以下を最小化するように モデル \((\beta)\) を設定する: \[\hat{f}_Y(X)\in\arg\min\sum_x [\hat{E}[Y|x] - f_Y(x)]^2n(x)\]
\(n(x)\) : \(X=x\) を満たす事例数
\(\hat{E}[Y|x]\) : \(X=x\) を満たす事例から計算した、データ上での平均値
推定されたモデル \[\hat{f}_Y(X)=\hat\beta_0 + \hat\beta_1X_1 + .. + \hat\beta_LX_L\]
\(X\) について、多重共線性がないとする。
データ上で、” \(Y\) の平均値 に極力適合するように推定されたモデル” として解釈できる
多くの入門書で、OLSは以下のように紹介されることが多い。 これらのAlgorithmは全く同じEstimatorを算出する。
分析者が、線形モデルを設定する: \[f_Y(X)=\beta_0 + \beta_1X_1 + ... + \beta_L X_L\]
以下を最小化するように モデル \((\beta)\) を設定する: \[\hat{f}_Y(X)\in\arg\min\sum_i [Y_i - f_Y(X_i)]^2\]
- \(X\) について、多重共線性がないとする。
- 以上の方法で算出されたEstimatorは、” \(Y\) に極力適合するように推定されたモデル” として解釈できる。 しかしながら多くの応用において、 \(X\) が全く同一な事例内でも \(Y\) の値に大きなばらつきが存在する。 このため \(Y\) のモデルと解釈するのではなく、 \(Y\) の平均値のモデルであると解釈する方が有益な場合が多い。
3.3 Estimand
- データが母集団からランダムサンプリングによって発生しているのであれば、 OLSのEstimatorは、Estimand: Population OLSの優れた推定量である。
Population OLS
- 母集団に対して仮想的に OLS を適用した結果、算出されるモデル \[f^*_Y(X)=\beta_0^* + \beta_1^*X_1+..\beta_L^*X_L\]
3.4 Estimatorの性質
データが母集団からランダムサンプリングによって発生しているのであれば、OLS Estimator \(\hat f_Y(X)\) と Estimand \(f^*_Y(X)\) の間に以下の確率的関係性が成り立つ
データの事例数が無限大になれば、 \(\hat f_Y(X)\rightarrow f^*_Y(X)\) (一致性)
- \(\hat\beta\rightarrow \beta^*\) とも書き換えられる
ある \(x\) について、 \(\hat f_Y(x)\) の分布は \(f^*_Y(X)\) を平均とする正規分布で近似できる (漸近正規性)