3 データ上でのOLS
少数事例の要約を避けるためには、より”大雑把な”要約が必要となります。 大雑把な要約の代表例として、線型モデルを紹介します。
線型モデルは、手元のデータから
線型モデルを推定する方法としては、本章で最小二乗法(OLS)および@sec-LASSO でLASSOを紹介します。
OLSによる推定は、研究者によるモデルの単純化が求められます。 適切な単純化がなされるのであれば、限られた事例数のもとでも、母平均の特徴を類推する有効な方法となり得ます (Chapter 4)。
3.1 線型モデル
はパラメタと呼ぶ
以下では
線型モデルをどのように解釈すれば良いでしょうか? 最も実践的な解釈は、平均値の”補助線”として捉えることです。
以下の図では、Priceの平均値とSizeの関係性を捉えるための3つの”補助線”を書き込みます。
データ上の平均値は紫の点で示しています。 赤線は
水色線は
赤線と緑線は、平均取引価格が持つ「Sizeとともに上昇する傾向がある」特徴をある程度捉えています。 対して水色線は、このような特徴を捉えられておらず、不適切であると考えれます。 モデルの大枠が同じでも、パラメタ
3.2 OLS
パラメタの値は、データに基づいて決定されることが通常です。 代表的な決定方法としては、最小二乗法 (OLS) が挙げられます。
研究者が予測モデルの大枠を以下のように設定する
以下を最小化するように
を決定する
OLSは、研究者が事前に大枠を設定したモデルを、データに最も適合するように推定する手法であると解釈できます。
3.3 実例
3.3.1 単回帰
2種類の
左側のパネルは中心6区、右側は他の区について、各Sizeごとに平均取引価格を計算しています。
平均値の最もシンプルな線型モデルとして、以下を推定してみます。
推定結果を図示すると、以下となります。
広い物件は取引価格が高くなる傾向を捉えることができています。 しかしながら立地に関わらず同じモデルを当てはめており、中心6区の方が取引価格が高い傾向を捉えられていません。
3.3.2 重回帰
立地と平均取引価格の関係性を捉えるために、以下のモデルの推定を試みます。
推定結果を図示すると、以下となります。
中心6区の方が平均取引価格が高いという性質を上手く捉えています。 しかしながら、中心6区において広い物件の取引価格が一段と上昇するという性質は捉えきれていません。
3.3.3 交差項と高次項の導入
母平均が持つ複雑な性質を捉えるために、交差効果と高次項を導入し、さらに複雑なモデルを推定してみます。
3.3.4 複雑なモデルの弊害
より複雑なモデルを最小二乗法で推定すると、データへの適合度が改善し、モデルをデータ上の平均値により近づけることができます。 例えば、以下の図ではSizeの10乗まで加えた推定を行なっています。
このモデルでは、特に中心6区外に立地する物件について、ほぼほぼデータ上の平均値を近似するモデルが推定されています。 さらにモデルを複雑化すると、データ上の平均値を”なぞる”モデルが推定されます。
しかしながら、母集団の特徴を捉えることを目標とするのであれば、このことは必ずしも望ましいとはいえません。 いうまでもなく、平均値をなぞるモデルは、単なる平均値とよく似た性質を持ちます。 このため、Chapter 1 で議論した少数事例の集計の問題を引き起こしてしまいます。
以上の問題は、過剰適合/過学習の問題と呼ばれています。
複雑なモデルを、少ない事例数で推定した結果、データへの当てはまりは高くなるが、母平均からは乖離する現象
3.4 Rによる実践例
以下のパッケージを使用
- readr (tidyverseに同梱): データの読み込み
データを取得します。
= readr::read_csv("Public.csv") # データ読み込み Data
lm関数を用いてOLSを推定します。
= lm(Price ~ Size + Tenure + StationDistance, # Y ~ X
OLS # 使用するデータの指定
Data # OLS
)
OLS
Call:
lm(formula = Price ~ Size + Tenure + StationDistance, data = Data)
Coefficients:
(Intercept) Size Tenure StationDistance
19.7206 1.0199 -0.6392 -1.3851
Coefficientsが