4  OLSの応用と課題

ここまで、あるモデルをどのように推定するかを紹介してきました。 しかし、どのようなモデルを推定すべきかは、研究の目的によって異なります。 本章では、望ましいモデルの定式化について、目的別に整理していきます。 またそれぞれの研究目的について、OLSを用いる際の注意点とOLS以外の手法も紹介します。

4.1 ナイーブな見方: 完璧なモデルの推定

データ分析を学び始めたばかりの頃、「この手法を使えば社会の真理を明らかにできるのではないか」と期待してしまうことがあります。 言い換えれば、結果変数に対して「完璧でシンプルなモデル」を推定できると考えてしまうかもしれません。

たとえば、以下のような回帰モデルを用いて、賃金を正確に予測できると期待することがあります。

Table 4.1
data("CPSSW04", package = "AER") # データの読み込み

fixest::feols(earnings ~ degree + age + gender, CPSSW04)
OLS estimation, Dep. Var.: earnings
Observations: 7,986
Standard-errors: IID 
                Estimate Std. Error   t value  Pr(>|t|)    
(Intercept)     1.883797   0.920292   2.04696  0.040695 *  
degreebachelor  6.865150   0.178369  38.48856 < 2.2e-16 ***
age             0.439204   0.030529  14.38664 < 2.2e-16 ***
genderfemale   -3.157864   0.180365 -17.50821 < 2.2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
RMSE: 7.88234   Adj. R2: 0.189694

しかしながら、このような期待は、少なくとも社会や市場のデータ分析においては、現実的ではありません。 以下の点に注意が必要です。

  • OLSによって推定されるのは、あくまで「条件付き母平均」のモデルです。つまり、特定の条件(たとえば学歴・性別・年齢)を満たす人々の平均的な賃金を推定しているにすぎません。現実の社会や市場では、同じ条件を持つ人々の間でも賃金には大きなばらつきがあります。たとえば、同じ学歴・性別・年齢であっても、職種や勤務地、経験年数などによって賃金は大きく異なるのが普通です。したがって、モデルが「真の賃金」を正確に予測することは不可能です。

  • 上記のような単純なモデルでは、現実の平均賃金の構造を十分に表現することはできません。現実の平均賃金と学歴、性別、年齢の関係性は、より複雑であると予想されます。

以上の理由から、OLSによって「完璧でシンプルなモデル」を推定しようとする試みは、通常うまくいきません。 そのため、分析の目的に応じて、適切なモデルを構築することが現実的なアプローチとなります。

4.2 全体の記述

記述研究とは、データに含まれる情報をもとに、複数の変数の間にどのような関係が存在するのかを明らかにすることを目的とする研究です。

このような目的に対して、OLSは非常に有効な分析手法とされています。 OLSは、単純な線形モデルの推定を得意としています。 Table 4.1 のような単純な線形モデルは構造が単純であるため、ある程度データ分析に慣れていれば、どの変数がどのように影響しているのかを人間が理解しやすい形で示すことができます。 例えば、大学卒のパラメタは正なので、平均賃金が高い傾向、女性は平均賃金が低い傾向、年齢と平均賃金は正の関係性が読み取れます。

4.2.1 OLSの注意点

しかし、OLSを用いる際には注意すべき点もあります。 特に重要なのは、得られた関係性の要約が、どのようなモデルを推定したのか、すなわちモデルの定式化に大きく依存するという点です。 たとえば、どの変数を説明変数として選ぶか、自条項などを加えるかなどの選択によって、分析結果が大きく変わる可能性があります。 そのため、モデルを定式化する段階で、定式化が最終的な解釈や結論に強く影響を与えることを理解しておく必要があります。

4.2.2 他の手法

本ページでは、OLSは条件付き母平均の線型モデルを推定する手法として紹介しました。 言い換えると、条件付き母平均の記述の手法です。

記述分析の目標は、条件付き母平均のみではありません。 たとえば、母分布そのものの記述を目指す場合には、クラスタリングモデル1などが有効です。 このような分布のモデルを推定する手法としては、最尤推定やベイズ推定法が活用されます。

4.3 予測

予測研究とは、推定されたモデルを用いて、目的変数 \(Y\) の値や未知を予測することを主な目的とする研究です。 たとえば、Table 4.1 で推定されたモデルを用いて、ある個人の属性情報(年齢、学歴)をもとに、その人の賃金を予測する場合などが該当します。

予測研究と比較研究との大きな違いは、モデルの中身、すなわち各パラメータの意味や解釈が重視されない点にあります。 比較研究では、変数間の関係性を人間が把握することが目的となるため、モデルの理解やパラメータの解釈が重要です。 一方、予測研究では、最終的な予測の精度こそが最も重要な評価基準となります。

このため、予測研究では、人間が予測モデルの構造を完全に理解できなくても、大きな問題とはされません。 むしろ、より高い予測精度を実現するために、複雑なモデルが積極的に用いられる傾向があります。 たとえば、以下のような二乗項と交差項 (変数同士の掛け算)を含むモデルが考えられます。

\[ earningsの予測モデル = \beta_0 \] \[ +\beta_1\times degreebachelor + \beta_2\times age + \beta_3\times genderfemale \]

\[ +\beta_5\times age^2 \]

\[ +\beta_6\times degreebachelor\times age + \beta_7\times degreebachelor\times genderfemale \]

\[ +\beta_7\times age\times genderfemale \]

このような複雑なモデルであっても、OLSによって推定することが可能です。

model <- fixest::feols(
  earnings ~ degree + age + gender +
    age^2 + 
    degree:age + degree:gender + age:gender, 
  CPSSW04)

coef(model)
                (Intercept)              degreebachelor 
               -21.60207344                 -5.33505137 
                        age                genderfemale 
                 2.11156693                  5.10734867 
                   I(age^2)          degreebachelor:age 
                -0.02946533                  0.41195443 
degreebachelor:genderfemale            age:genderfemale 
                -0.24754070                 -0.27156417 

4.3.1 OLSの注意点

予測分析においても、モデルを複雑化することの弊害は存在します。 それは、パラメタの推定精度の悪化に伴う、予測精度の低下です。 予測性能を確保するためには、モデルを複雑にしすぎないことが必要です。

ただし、特に説明変数が多い場合、研究者がモデルの複雑性を適切にコントロールすることは、事実上不可能です。

4.3.2 他の手法

近年では、より柔軟にデータを活用する手法が注目されています。 代表的なものとして、機械学習分野における教師付き学習2があり、経済学の分野でもその応用が急速に進んでいます。 これらの手法は、複雑なモデルであっても予測精度を確保するためのさまざまな工夫が導入されている点が特徴です。

4.4 特定の特徴の記述

OLSがよく応用されてきた研究課題の一つに、特定の変数間の関係性を明らかにする分析があります。 たとえば、賃金(earnings)と学歴(degree)の関係を調べる研究がその例です。

このような課題に対しては、以下のようなシンプルな線形モデルを推定することで、基本的な関係性を把握することができます。

model <- fixest::feols(earnings ~ degree, CPSSW04)

confint(model)[2,] # degreebachelorについての信頼区間を抽出 
                  2.5 %   97.5 %
degreebachelor 6.138989 6.855967

この推定結果から、大学卒の方が、概ね 6.14 \(\sim\) 6.86ほど平均賃金が高いと考えられます。

さらに、OLSを用いることで、賃金と学歴の関係について、より詳細な特徴を捉えることも可能です。 たとえば、「もし大学卒と非大学卒の間で、性別や年齢の分布に違いがなかったとしたら、賃金格差はどうなるか?」という問いに答えることができます。

実際のデータでは、大学卒と非大学卒の間で性別や年齢の分布に差があります。 こうした差を統計的に調整したうえで賃金を比較するには、直接の関心ではない説明変数(この場合は age や gender)について、より柔軟に定式化したモデルを用いることが有効です。

以下は、その一例です。

Table 4.2
model <- fixest::feols(
  earnings ~ degree +
    age + gender +
    age^2 + age:gender, # genderとageについて交差項と二乗項を導入
  CPSSW04)

confint(model)[2,] # degreebachelorについての信頼区間
                2.5 %   97.5 %
degreebachelor 6.4815 7.180926

この推定結果から、大学卒の人の平均賃金は、概ね 6.49 \(\sim\) 7.18ほど高いという結果が得られ、単純なモデルよりも格差がやや広がっていることがわかります。

4.4.1 OLSの注意点

結果の解釈

このように推定された差が、社会のどのような特徴を捉えているのかは、以前として不明確です。 例えば、degreebachelorの信頼区間は 6.49 \(\sim\) 7.18であったとしても、「大学進学が賃金を平均的に増加させる因果的効果を持つ」と結論づけることはできません。

その理由は、degree 間の賃金格差が、agegender 以外の要因によって生じている可能性があるからです。

このように、データから得られた推定結果をもとに因果効果をどのように推論するかという問題は、「統計的因果推論」と呼ばれる分野で活発に研究されています3

推定の信頼性

Table 4.2 では、関心のある変数 degree と、その他の変数 agegender の交差項は導入していません。このような場合、degreebachelor の推定結果の解釈が不明瞭になることがあります。

そのため、degree と他の変数との交差項を導入し、それらの結果を「集計」するというアプローチが推奨されます4。 このような推定は、marginaleffects パッケージを用いることで簡単に実装できます5

たとえば、以下のように実行します。

model <- fixest::feols(
  earnings ~ degree +
    degree:(age + gender +
              age^2 + age:gender) + # degreeとの交差項  
    age + gender +
    age^2 + age:gender, # genderとageについて交差項と二乗項を導入
  CPSSW04)

marginaleffects::avg_slopes(
  model,
  variables = "degree"
)

 Estimate Std. Error    z Pr(>|z|)      S 2.5 % 97.5 %
     6.82      0.178 38.3   <0.001 1064.6  6.47   7.17

Term: degree
Type: response
Comparison: bachelor - highschool

この結果から、gender と age の分布の違いを統計的に解消した場合、大学卒の人の平均賃金は概ね 6.47 \(\sim\) 7.17 高いと推定されました。

4.4.2 他の手法

OLSを用いた比較には、いくつかの問題点が指摘され、それを解消できる手法も開発されてます。 例えば、傾向スコアやエントロピーウェイトなどを活用する方法 (Hainmueller 2012) が有名です。

さらに機械学習を活用した信頼性の改善方法も、近年確立されつつあります。 この方法は機械学習の持つ問題点 (信頼区間の計算が難しいなど) を補う仕組みを導入することで、モデルの定式化への推定結果の依存度を下げつつ、推定誤差を考慮した分析が可能になっています6

Chattopadhyay, Ambarish, and José R Zubizarreta. 2023. “On the Implied Weights of Linear Regression for Causal Inference.” Biometrika 110 (3): 615–29.
Chernozhukov, Victor, Christian Hansen, Nathan Kallus, Martin Spindler, and Vasilis Syrgkanis. 2025. Applied Causal Inference Powered by ML and AI. https://causalml-book.org/.
Ding, Peng. 2023. “A First Course in Causal Inference.” https://arxiv.org/abs/2305.18793.
———. 2024. A First Course in Causal Inference. Chapman; Hall/CRC.
Gormley, Isobel Claire, Thomas Brendan Murphy, and Adrian E Raftery. 2023. “Model-Based Clustering.” Annual Review of Statistics and Its Application 10 (1): 573–95.
Hainmueller, Jens. 2012. “Entropy Balancing for Causal Effects: A Multivariate Reweighting Method to Produce Balanced Samples in Observational Studies.” Political Analysis 20 (1): 25–46.
James, Gareth, Daniela Witten, Trevor Hastie, and Robert Tibshirani. 2021. An Introduction to Statistical Learning: With Applications in r. 2nd ed. Springer Texts in Statistics. Springer. https://www.statlearning.com/.
Wager, Stefan. 2024. Causal Inference: A Statistical Learning Approach. Technical report, Stanford University. https://web.stanford.edu/~swager/causal_inf_book.pdf.

  1. Gormley, Murphy, and Raftery (2023)↩︎

  2. James et al. (2021)↩︎

  3. Chernozhukov et al. (2025), Wager (2024) , Ding (2024) (ドラフト版: Ding (2023))↩︎

  4. Chattopadhyay and Zubizarreta (2023)↩︎

  5. 詳細は、パッケージのホームページ (https://marginaleffects.com/) を参照ください。↩︎

  6. Chernozhukov et al. (2025)↩︎