4 研究目標への接続
ここまで、あるモデルをどのように推定するかを紹介してきました。 しかし、どのようなモデルを推定すべきかは、研究の目的によって異なります。 本章では、望ましいモデルの定式化について、目的別に整理していきます。 またそれぞれの研究目的について、OLSを用いる際の注意点とOLS以外の手法も紹介します。
4.1 論点整理
OLSを有効活用するためには、具体的な研究目標や活用できるデータの性質に合わせて、推定するモデルを適切に定式化する必要があります。 また場合によっては、代替的な推定方法 (機械学習、最尤/ベイズ法、マッチング法等) を検討する必要もあります。
データ分析をめぐるこのような判断を行うために、本ページでは二つの枠組みで、論点を整理します。
4.1.1 3層構造
Chapter 3 では、母集団という概念を導入し、推定目標とデータ、推定結果を紐づけました。 推定すべきモデルを考えるためには、ここにさらに研究目標と、その対象となる”社会”を導入する必要があります。
経済学において研究目標は、「社会についてのなんらかの疑問 (Research question) に対する”回答”」です。 ここでいう社会とは、分析の対象となる集団そのもの1を指します。 例えば「今日の日本社会における平均教育年数は?」が疑問であれば、その時点での本当の平均教育年数が回答であり、データから推定すべき研究目標となります。
もしこの社会や研究目標が、データから直接回答可能な程度に明確であれば、母集団を導入する理由は特にありません (社会 \(\simeq\) 母集団と見なして、大きな実用上の問題は生じません)。
しかしながら実際の社会は、多様な要因が複雑に結びつき、流動的であると考えられます。 このような「捉えどころのない社会」についての疑問や研究目標 も、必然的に曖昧なものになってしまいます。
実際に「今日の日本社会における平均教育年数は?」という比較的シンプルな研究目標であったとしても、データから正確に回答することは不可能です。 なぜならば、社会は日々変化するのに対して、データの母集団は「データを収集した時点で固定」されてしまいます。 例えば`` すなわちデータやそれに対応する母集団は、社会の一部の表面的な切り取り (スナップショット) に過ぎません。
また複雑な社会を分析するために、経済学や他の社会科学は、大量の概念 (選好、技術、物的/人的/社会的/文化資本、階層、イデオロギー等)を用いてきました。 これはあくまでも理論的な概念であり、データから直接観察することは不可能です。 このため研究目標に、このような概念が含まれる場合、データから何を推定すべき対象が不明確になってしまいます。
このような曖昧さへの対処として、経済学のデータ分析では、「データから研究目標に答える」という過程を、二つに分割します。
推定/推論: Chapter 3 で議論した「推定目標をデータから推定する」、という過程です。推定目標や母集団は「データからの推定」というタスクに適した形で、明確に定義されており、統計学や機械学習の理論を応用することで、このタスクを実行できます。
- Figure 4.1 における推定目標と推定結果を接続する議論です。
識別 (Identification): ここまでで議論していない「研究目標と推定目標の対応関係を明らかにする」というタスクです。Section 4.5 で紹介する因果推論や推定結果の外的妥当性を議論する際に非常に重要であり、本章で詳細に議論します。
- Figure 4.1 における研究目標と推定目標を接続する議論です。
この分割における、推定目標や母集団が果たしている機能に注目してください。 わざわざ、母集団というわかりにくいフィクションを導入する意義は、データと研究目標を論理的に接続する”仮の梯子”の導入であり、複雑な議論をより扱いやすい二つの議論に分割することにあります。
4.2 変数の関連性把握
Chapter 3 のような「シンプルなモデルによるPopulation OLS」を推定/推論する方法は、「社会における変数間の関係性を簡潔に把握する」という研究目標に直接活用できます。
例えば2004年 (CPSSW04の調査年) の米国における所得と性別、年齢の関係性を、シンプルな線形モデルで捉え、CPSSW04 から推定することができます: \[
earnings \simeq \beta_0 + \beta_1\times gender + \beta_2\times age
\]
library(tidyverse)
data("CPSSW04", package = "AER")
estimatr::lm_robust(
earnings ~ gender + age,
CPSSW04
) Estimate Std. Error t value Pr(>|t|) CI Lower
(Intercept) 4.6068633 0.96193135 4.789181 1.704803e-06 2.7212266
genderfemale -2.3467550 0.18911541 -12.409116 4.901133e-35 -2.7174706
age 0.4415421 0.03270506 13.500726 4.363752e-41 0.3774316
CI Upper DF
(Intercept) 6.4924999 7983
genderfemale -1.9760394 7983
age 0.5056526 7983
Table 4.1 は単純な線形モデルの推定結果であり、ある程度データ分析に慣れていれば、変数間の関係性について容易に示唆を得ることができます。 例えば、女性ダミーのパラメタの推定値 (genderfemale)は負なので、平均賃金が低い傾向、年齢 (age)は正なので、年齢と賃金は正の平均的関係性を持つことが読み取れます。
4.2.1 OLSの注意点
しかし、OLSを用いる際には注意すべき点もあります。 特に重要なのは、得られた関係性の要約が、どのようなモデルを推定したのか、すなわちモデルの定式化に大きく依存するという点です。 たとえば、どの変数を説明変数として選ぶか、二乗項を加えるかなどの選択によって、分析結果が大きく変わる可能性があります。
また本ページの範囲内では、OLSの推定対象は、あくまで条件付き母平均のモデルであり、母分布そのもののモデルではないことに注意が必要です。 もし母分布のモデルを推定する場合は、最尤推定やベイズ推定法が活用されます。
4.3 予測
予測研究とは、推定されたモデルを用いて、目的変数 \(Y\) の値や未知を予測することを主な目的とする研究です。 たとえば、Table 4.1 で推定されたモデルを用いて、ある個人の属性情報(年齢や性別)をもとに、その人の賃金を予測する場合などが該当します。
関係性把握を目指す研究と比較した場合、予測研究の大きな特徴はモデルの中身、すなわち各パラメータの意味や解釈が重視しない点にあります。 予測研究では、特定の事例についての具体的な予測値や最終的な予測の精度こそが、意思決定に活用したい重要な情報となります。 。
以上の違いを図示すると以下のようになります:
推定結果から、集団の特徴を把握し、意思決定に活用したい場合、モデルそのものを理解する必要があります。 対して予測値を活用したい場合は、モデルそのものを理解する必要は必ずしもありません。 モデルから (PCによって) 計算される予測値、そしてその予測値の精度に関する評価値、さえ理解できれば十分です。 例えば、筆者を含めた多くの人は、「日々の天気予報は活用するが、その根拠となる気象モデルは理解していない」のではないでしょうか。
このため、予測研究では、人間が予測モデルの構造を完全に理解できなくても、大きな問題とはされません。 むしろ、より高い予測精度を実現するために、複雑なモデルが積極的に用いられる傾向があります。 たとえば、以下のような二乗項と交差項 (変数同士の掛け算)を含むモデルが考えられます。
\[ \beta_0+\beta_1\times genderfemale + \beta_2\times age \] \[ + \beta_3\times age^2 + \beta_4\times genderfemale\times age \]
このような複雑なモデルであっても、OLSによって推定することが可能です。
library(tidyverse)
data("CPSSW04", package = "AER")
model <- lm(
earnings ~ gender + age +
I(age^2) + gender:age,
CPSSW04)
summary(model)
Call:
lm(formula = earnings ~ gender + age + I(age^2) + gender:age,
data = CPSSW04)
Residuals:
Min 1Q Median 3Q Max
-17.454 -5.848 -1.663 3.776 43.201
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -28.19054 11.51761 -2.448 0.01440 *
genderfemale 7.71998 2.00610 3.848 0.00012 ***
age 2.52954 0.78055 3.241 0.00120 **
I(age^2) -0.03283 0.01314 -2.498 0.01251 *
genderfemale:age -0.33826 0.06715 -5.037 4.83e-07 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 8.569 on 7981 degrees of freedom
Multiple R-squared: 0.04336, Adjusted R-squared: 0.04288
F-statistic: 90.43 on 4 and 7981 DF, p-value: < 2.2e-16
モデルの予測性能の評価値についても、シンプルな線形モデルを推定する限りは、決定係数 Multiple R-squaredなどを近似的な指標として使うことができます。
注意が必要なのは、モデルを「関係性の把握」の用途で用いる際に重視される (論文で必ず報告される) 標準誤差 (Std. Error) やp値 (Pr(>|t|)) は、予測において重要な指標ではないという点です。
4.3.1 OLSの注意点
予測分析においても、モデルを複雑化することの弊害は存在します。 それは、パラメタの推定精度の悪化に伴う、予測精度の低下です。
限られた事例数を用いて、あまりにも複雑なモデルを推定すると、推定の精度が極端に悪化し、劣悪な予測精度となってしまいます。 このような現象は、過剰適合 (あるいは過学習) と呼ばれ、予測分析における大きな課題となります。
過剰適合を減らし、予測性能を確保するためには、モデルを複雑にしすぎないことが必要です。 ただし、特に説明変数が多い場合、研究者がモデルの複雑性を適切にコントロールすることは、事実上不可能です。
またモデルを複雑にすると、通常の決定係数などでは、モデルの予測性能を正しく測定できなくなり、事前のサンプル分割などの対応が必要となります。
近年では、より柔軟にデータを活用する手法が注目されています。 代表的なものとして、機械学習分野における教師付き学習2があり、経済学の分野でもその応用が急速に進んでいます。 これらの手法は、複雑なモデルであっても予測精度を確保するためのさまざまな工夫が導入されている点が特徴です。
4.4 比較
OLSがよく応用されてきた研究目標の一つに、特定の変数間の関係性を明らかにする比較研究があります。 たとえば、賃金(earnings)と学歴(degree)の関係を調べる研究がその例です。
このような課題に対しては、以下のようなシンプルな線形モデルを推定することで、基本的な関係性を把握することができます。
estimatr::lm_robust(
earnings ~ degree,
CPSSW04) Estimate Std. Error t value Pr(>|t|) CI Lower CI Upper
(Intercept) 13.809614 0.1020732 135.29131 0.000000e+00 13.609524 14.009705
degreebachelor 6.497478 0.1884088 34.48606 4.554001e-243 6.128148 6.866809
DF
(Intercept) 7984
degreebachelor 7984
この推定結果から、大学卒とそれ以外を比較する、大学卒の方が概ね 6.14 \(\sim\) 6.86ほど平均賃金が高いと考えられます。
4.4.1 調整後の比較
以上のような単純比較では、全体の特徴把握の単なる応用であり、比較分析固有の論点は存在しません。 OLSを用いる利点は、賃金と学歴の関係について、より詳細な特徴を捉える調整後の比較が可能な点にあります。
たとえば、「もし大学卒と非大学卒の間で、性別や年齢の分布に違いがなかった (同じ分布になるように調整した) としたら、賃金格差はどうなるか?」といった疑問に答えることができます。
実際のデータでは、大学卒と非大学卒の間で性別や年齢の分布に差があります。 こうした差を統計的に調整したうえで賃金を比較するには、直接の関心ではない説明変数(この場合は age や gender)について、より柔軟に定式化したモデルを用いることが有効です。
例えば、以下のようなモデルを推定することが考えられます:
\[ \underbrace{\beta_D}_{関心}\times degreebachelor + \beta_0+\beta_1\times genderfemale + \beta_2\times age \] \[ + \beta_3\times age^2 + \beta_4\times genderfemale\times age \]
重要な点は、上記の”長い式”のなかで、研究目標に回答するために用いる情報は \(\beta_D\) だけであるという点です。 他の係数は、age や gender のずれを調整するために導入されており、その係数についての推定結果は関心ではなりません3。
以下はコードで推定できます。
model <- estimatr::lm_robust(
earnings ~ degree +
age + gender +
I(age^2) + age:gender, # genderとageについて交差項と二乗項を導入
CPSSW04)
confint(model)[2,] # degreebachelorについての信頼区間 2.5 % 97.5 %
6.468862 7.193564
この推定結果から、大学卒の人の平均賃金は、概ね 6.48 \(\sim\) 7.20ほど高いという結果が得られ、単純なモデルよりも格差がやや広がっていることがわかります。
調整後の比較は、意思決定者がモデルの特徴を理解することで、社会の特徴を把握を目指している、という点で予測よりも、全体の特徴把握に類似しています。
最後に改めて、モデル全体 (すべての \(\beta\)) ではなく、比較の対象となる変数 (上記ではdegree)の\(\beta\) のみが、社会の把握に活用したい情報であり、信頼区間を表示していることに注意してください。 degree以外の変数について複雑な定式化が許容されるのは、それらは「意思決定者が理解しなくて良い情報である」と割り切っているからです。
4.4.2 OLSの注意点
以上のように、関心外の変数について「人間が理解できないほど複雑なモデル」を設定することは許容されますが、「データから推定できないほど複雑なモデル」は当然避ける必要があります。 すなわち予測モデルと同様に、モデルを適切に定式化し、過剰適合を減らす必要があります。
調整後の比較における過剰適合の問題については、予測研究と同様に、機械学習の活用に注目が集まっています。 特にDouble/Debiased Machine Learningは、機械学習による予測モデルとOLS (より一般にはモーメント法)を組み合わせることで、定式化の柔軟性と統計的推論 (信頼区間の計算など)を両立する手法として、実証研究でも活用されています。
またOLSを用いた比較には、他のいくつかの問題点も指摘され、それを解消できる手法も開発されてます。 例えば、傾向スコアやエントロピーウェイトなどを活用する方法 (Hainmueller 2012) が有名です4。
4.5 因果効果
経済学におけるOLSの重要な活用事例は、「因果効果の推定」です。 ただしこの研究目標は、ここまでの議論と質的に異なることに注意が必要です。
最大の違いは、データや母集団において「因果効果」は変数として観察できない点です。 現代的なデータ分析において因果効果は、変数として観察できるものではなく、何らかの理論的な枠組み (思考実験) によって定義される概念であると考えられています。
例えば、degreebachelorの信頼区間は 6.49 \(\sim\) 7.18であったとしても、「大学進学が賃金を平均的に増加させる因果的効果を持つ」と結論づけることはできません。 その理由は、degree 間の賃金格差が、age や gender 以外の要因によって生じている可能性があるからです。
因果効果の推定についてのデータ分析は、以下のように整理できます。
研究目標は因果効果ですが、それをそのままデータから推定できません。 このためまずは、概念である因果効果と理論的に対応する母集団の特徴を特定 (識別) し、それをデータから推定する、という2段階のステップが必須となります。
このように、データから得られた推定結果をもとに因果効果をどのように推論するかという問題は、「統計的因果推論」と呼ばれる分野で活発に研究されています5。
4.5.1 OLSの注意点
因果効果の推定と研究目標において、OLSは予測や比較とは決定的に異なる限界があります。 それはOLSのみでは、「理想的な方法で抽出されており、無限大の事例数がであっても」、因果効果が推定できないという問題です。
例えば「大学卒と非大学卒の間での平均賃金の差」という比較研究については、ランダムサンプリングかつ無限大の事例数があれば、その問いに正確に回答できます (母平均の差を正確に推定できる)。 ところが教育の因果効果を推定する場合は、そのような差が本当に因果効果と一致するのか、識別する必要があります。
言い換えれば、「ランダムサンプリング \(+\) 無限大の事例数」という理想的な状況であったとしても推定できるのは、あくまで母集団における観察できる変数分布であり、観察できない概念ではありません。
このため因果推論の推定には、狭義での統計学/機械学習とは別の枠組み6を用いて、概念としての因果効果を母集団上での観察できる変数の分布に結びつける必要があります。 そして、この結びつけを識別と呼びます。
対して識別ができれば、OLSは強力な推定手法となります。 例えば「介入の条件つきランダム化 \(+\) SUTVA」という (識別のための) 仮定が成り立つのであれば、調整後の比較で紹介したOLSの活用方法をそのまま用いて、平均因果効果を推定できます。
4.6 まとめ
以上ではOLSを利用できる具体的な研究目標として、変数の関係性把握、予測、調整後の比較、因果効果、を紹介しました。 これら多様な目標を整理する枠組みとしては、以下の2軸を用いた表形式が有効です。
| 分析の対象範囲 \(\backslash\) 研究目標の性質 | 観察できる変数 | 観察できない概念や仕組み |
|---|---|---|
| 事例群 | 関係性の簡潔な要約 (Section 4.2) | 平均因果効果 (Section 4.5) |
| (調整後の)比較 (Section 4.4) | ||
| 個別事例 | 予測 (Section 4.3) |
縦軸は、対象範囲が個別の事例なのか、それとも事例群なのか、という観点であり、Figure 4.2 で紹介した意思決定者の”視点”による区分です。
横軸は、対象となるのがデータから観察可能な変数なのか、それとも観察不可能な概念なのか、という視点であり、因果効果の推定と他を区別する決定的な点です。
因果効果は、変数としてデータに含まれておらず、理論的な枠組みを使って定義し、観察できる変数と結びつける必要がある概念です。 これと同じ特徴を持つ研究目標としては、「経済学概念とそれを用いた反実仮想実験」があり、構造推定と呼ばれる分野で盛んに研究されています7。
なお右下 (個別事例 \(\times\) 観察できない概念や仕組み)に対する研究目標は、本ページには含まれていません。 このような目標の例としては、「個人因果効果の予測」8などが挙げられます。
予測研究におけるTarget Population (予測したい対象の集団)、伝統的な経済学の実証研究におけるデータ生成過程 (Data Generating Process)などを含む、母集団の”上位概念”として用いています。↩︎
Nuisance (迷惑/局外/撹乱/補助) parameterと呼ばれます。↩︎
OLSが持つ問題点や他の方法を紹介した資料としては、(Chattopadhyay and Zubizarreta 2024)^(https://hdsr.mitpress.mit.edu/pub/1ybwbmlw/release/2) を推奨します。↩︎
Chernozhukov et al. (2025), Wager (2024) , Ding (2024) (ドラフト版: Ding (2023))↩︎
Cinelli et al. (2025); Wang, Richardson, and Robins (2025)↩︎