格差/因果/比較分析のためのデータ分析 (ver 0.2.1)
Balancing weightsを軸とした手法整理と機械学習の活用
Preface
定量的な比較分析の方法を、Rでの実装とともに紹介します。
比較分析は、社会における「グループ間の違い」を明らかにすることを目標とします。 本ノートでは、データ上のある変数 \(D\) 間での、別の変数 \(Y\) の平均値の差を推定する方法を紹介します。 例えば性別 \((D)\) 間での賃金 \((Y)\) の平均格差を推定します。
比較分析は、社会/市場を理解するための方法として、中核的な位置を占めています。 通常、これらの研究関心となる\(D\)については、\(Y\)以外の違いがあることが一般的です。 研究課題に応じて、これらの違いの一部を、データ分析上の処理として「解消(バランス)」することが必要です。
例えば、性別\((D)\)間で見られる職業経験の違い\(X\)をバランスさせることで、職業経験以外の要因によって生じる男女間の賃金\((Y)\)格差が推定できます (Vafa, Athey, and Blei 2024)。 あるいは、ある職業訓練プログラム \((D)\) が就業確率や就業後の賃金 \((Y)\)に与える因果的効果を推定を試みます。 このような研究課題では、異なる職業訓練プログラムへの参加者間で、背景属性をバランスさせた上での、就業状態や賃金の比較が求められます (Behaghel, Crépon, and Gurgand 2014; Kallus 2023)。
比較分析を行う上での、本ノートの中心的なコンセプトは、Balancing Weightです。 Balancing Weightは、以下のアプローチを統合的に整理できる極めて有益な概念です。
重回帰(OLS)やPenalized Regressionによる調整(Chattopadhyay and Zubizarreta 2023; Bruns-Smith et al. 2023)
傾向スコア(Propensity Score)の活用 (Imai and Ratkovic 2014)
機械学習などを用いたDebiased Machine Learning (Chernozhukov et al. 2018; Chernozhukov, Escanciano, et al. 2022)
Entropy Weight (Hainmueller 2012) やStable Weight (Zubizarreta 2015)、 Energy Weight (Huling and Mak 2024) による調整
機械学習などを用いたAuto Debiased Machine Learning/Augmented Balancing Weights (Chernozhukov, Newey, and Singh 2022a, 2022b; Chernozhukov, Newey, et al. 2022; Bruns-Smith et al. 2023)
簡易な入門としては Chattopadhyay and Zubizarreta (2024) 、詳細な入門としては Chattopadhyay, Hase, and Zubizarreta (2020) , Ben-Michael et al. (2021) などを参考にしてください。
本ノートの構成は以下のとおりです。
1 バランス後の比較 : 本ノートのEstimandである「バランス後の比較」を定義します。
2 Weight : 本ノートの中核概念であるBalancing Weightを紹介する準備として、荷重(Weight)を定義します。
3 Balancing Weight : Balancing Weightを定義します。またBalancing Weightの直感的な算出方法が、利用できない状況が多いことを指摘します。
4 OLSによる特徴のバランス : より幅広い状況で算出できる近似的なBalancing Weightを紹介します。また標準的なOLS推定が、暗黙のうちに近似的なBalancing Weightを算出した、バランス後の比較と解釈できることを示します。
5 直接的なBalancing Weightの算出 : 近似的なBalancing Weightを、明示的な最適化問題として算出する方法を紹介します。 代表的な方法の一つであるEntropy weight (Hainmueller 2012) は、その計算効率や分析の透明性の高さから、幅広く用いられています。
6 機械学習の活用: 残差回帰 : 機械学習を用いた、よりデータ主導のアプローチを紹介します。残差回帰に機械学習を補助的に用いることで、近似的なBalancing Weightを算出した、バランス後の比較を行うことができます。OLSとは異なり、事例数が十分大きければ、「母集団上で、完全なBalanceを達成した後の比較分析」、の優れた推定値と見做せることを紹介します。
7 機械学習の活用: AIPW : 機械学習を用いたBalanced comparisonの代替的な方法である、Augmented inverse probability weighting への活用を紹介します。残差回帰よりもEstimandの解釈が容易な一方で、\(X\)の分断が激しいケースでは推定結果が不安定になりやすいという問題点があります。