格差/因果/比較分析のためのデータ分析 (ver 0.2.1)

Balancing weightsを軸とした手法整理と機械学習の活用

Author

川田恵介

Published

March 3, 2025

Preface

定量的な比較分析の方法を、Rでの実装とともに紹介します。

比較分析は、社会における「グループ間の違い」を明らかにすることを目標とします。 本ノートでは、データ上のある変数 \(D\) 間での、別の変数 \(Y\) の平均値の差を推定する方法を紹介します。 例えば性別 \((D)\) 間での賃金 \((Y)\) の平均格差を推定します。

比較分析は、社会/市場を理解するための方法として、中核的な位置を占めています。 通常、これらの研究関心となる\(D\)については、\(Y\)以外の違いがあることが一般的です。 研究課題に応じて、これらの違いの一部を、データ分析上の処理として「解消(バランス)」することが必要です。

例えば、性別\((D)\)間で見られる職業経験の違い\(X\)をバランスさせることで、職業経験以外の要因によって生じる男女間の賃金\((Y)\)格差が推定できます (Vafa, Athey, and Blei 2024)。 あるいは、ある職業訓練プログラム \((D)\) が就業確率や就業後の賃金 \((Y)\)に与える因果的効果を推定を試みます。 このような研究課題では、異なる職業訓練プログラムへの参加者間で、背景属性をバランスさせた上での、就業状態や賃金の比較が求められます (Behaghel, Crépon, and Gurgand 2014; Kallus 2023)

比較分析を行う上での、本ノートの中心的なコンセプトは、Balancing Weightです。 Balancing Weightは、以下のアプローチを統合的に整理できる極めて有益な概念です。

簡易な入門としては Chattopadhyay and Zubizarreta (2024) 、詳細な入門としては Chattopadhyay, Hase, and Zubizarreta (2020) , Ben-Michael et al. (2021) などを参考にしてください。

本ノートの構成は以下のとおりです。

  • 1  バランス後の比較 : 本ノートのEstimandである「バランス後の比較」を定義します。

  • 2  Weight : 本ノートの中核概念であるBalancing Weightを紹介する準備として、荷重(Weight)を定義します。

  • 3  Balancing Weight : Balancing Weightを定義します。またBalancing Weightの直感的な算出方法が、利用できない状況が多いことを指摘します。

  • 4  OLSによる特徴のバランス : より幅広い状況で算出できる近似的なBalancing Weightを紹介します。また標準的なOLS推定が、暗黙のうちに近似的なBalancing Weightを算出した、バランス後の比較と解釈できることを示します。

  • 5  直接的なBalancing Weightの算出 : 近似的なBalancing Weightを、明示的な最適化問題として算出する方法を紹介します。 代表的な方法の一つであるEntropy weight (Hainmueller 2012) は、その計算効率や分析の透明性の高さから、幅広く用いられています。

  • 6  機械学習の活用: 残差回帰 : 機械学習を用いた、よりデータ主導のアプローチを紹介します。残差回帰に機械学習を補助的に用いることで、近似的なBalancing Weightを算出した、バランス後の比較を行うことができます。OLSとは異なり、事例数が十分大きければ、「母集団上で、完全なBalanceを達成した後の比較分析」、の優れた推定値と見做せることを紹介します。

  • 7  機械学習の活用: AIPW : 機械学習を用いたBalanced comparisonの代替的な方法である、Augmented inverse probability weighting への活用を紹介します。残差回帰よりもEstimandの解釈が容易な一方で、\(X\)の分断が激しいケースでは推定結果が不安定になりやすいという問題点があります。