データ分析入門ノート

欠損情報の個別予測と社会把握への活用

Author

川田恵介

Published

August 2, 2024

Preface

  • 現在、本ノートの内容を小分けにした資料を、以下のレポジトリで優先して作成しています

本ノートの狙い

初学者に対して、データ分析法、具体的な分析工程に埋め込みながら紹介します。 分析法の急速な多様化に対応するため、分析のゴールに応じた整理し、実践への活用における混乱を減らすことに重点を置きます。 具体的には、以下の点に注意して、本ノートは作成されています。

  • 2種類の分析のゴール、「新しい事例について欠損情報の予測を行う予測」と 「事例全体についてその特徴を把握するための分析法」、を紹介します。 把握のための分析の具体例としては、比較分析を主に扱います。例えば男女間賃金格差や前年と比較した場合の不動産価格変化など、集団間で見られる違いを把握する方法を紹介します。さらに格差の分解分析や因果推論などを目的とする研究で重要なバランス後の比較分析(Balanced Comparison)も紹介します。

  • 平均値の推定やOLSといった計量経済学の入門書で紹介される伝統的な手法だけでなく、LASSOなどといった教師付き学習(機械学習の一分野)の手法も議論します。 分析のゴールが予測であるならば機械学習に比較優位があり、集団の特徴を把握であるならば、伝統的な手法に比較優位があることを、その理由とともに強調します。 さらに発展的な比較をゴールとする場合、教師付き学習と伝統的な手法のハイブリット的な手法が有効であることも論じます。

  • 予測と把握という分析のゴールの使い分け方を、具体的な意思決定を想定しながら整理します。 データ分析の目的を、意思決定に役立つ情報提供にあると位置付け、意思決定の種類に応じた分析のゴールを論じます。特に限られた事例にのみ影響を与える意思決定 (ミクロな意思決定)と大量の事例に影響を与える意思決定 (マクロな意思決定)を区別します。 教師付き学習がもたらす事例ごとの予測は、ミクロな意思決定においては非常に有効であったとしても、マクロな意思決定においてはそのままでは活用が難しいことを強調します。これは大量の事例について提供される大量の予測値を、意思決定者が活用することが難しいためです。 マクロな意思決定においては、大量の事例群の特徴を把握が必要になり、このためには伝統的な手法が比較優位を持ちます。 ただし複雑な特徴を把握する上では、伝統的な手法と教師付き学習のハイブリット的な手法が有効になることを強調します。

ノートの背景

本ノート作成の背景には、データ分析法の多様化とそれに伴う混乱があります。 データを用いた社会分析は、長い伝統を持ちます。 例えば経済学においては、古くからデータ分析が活用され、計量経済学と呼ばれる方法論開発を行う研究分野には多くの研究者が参入し、活発な議論が行われてきました。 また実際のデータを用いた実証研究も数多く行われ、伝統的にはOLSなどのモーメント法や最尤法などが用いられてきました。 さらに機械学習と親和性の高いNonparametric推定やハイブリット的な手法の基礎となる議論 (Semi-parametric推定)も発展してきました。 しかしながらこのような発展的な議論は、入門書ではあまり紹介されてきませんでした。

近年、コンピュータの計算能力増大などを背景に、伝統的な分析手法のみならず、機械学習と総称される分析手法の活用が急速に進んでいます。 特に教師付き学習と呼ばれる分野は、経済学における伝統的な推定手法と近い手法や問題意識を有しつつ、データの柔軟な活用方法を提供しています。 実際に、教師付き学習の教科書では、ほぼ例外なくLogitやOLSは紹介され、母分布を用いた論点整理がなされていますが、同時に、計量経済学の入門書ではあまり紹介されてこなかった、Data adaptive modellingの手法が数多く提案されています。 伝統的な推定手法の多くが、「人間によってシンプルな 推定モデルの設定を行い、その限られたパラメタをデータにより推定する」という手続きを踏むのに対して、決定木やLASSOは、「大量のパラメタを、データによる適切に推定する」ことを可能にします。

このような分析方法の多様化は、同時に応用研究における混乱ももたらしえます。例えば Breiman (2001) は、「機械学習は、伝統的な統計学の \(95 \%\) と異なる”文化”を持っている」と主張し、多くの議論 (Shmueli 2010; Efron 2020; Hofman et al. 2021) を想起しました。 このような議論の中で、手法を有効活用するために、分析のゴールをしっかり意識することの重要性が指摘され、ゴールによっては伝統的な手法と機械学習のハイブリット的な方法の有効性が指摘されています(Van der Laan and Rose 2011; Chernozhukov et al. 2018, 2022)

これらの研究の成果は、上級レベルの計量経済学のテキストでは紹介され、またChernozhukov et al. (2024)Wager (2024), 末石直也 (2024) などで集中的にまとめられています。 しかしながら、現状入門的な日本語の教材は見当たりません。 本ノートは、この空白を埋めることを目的としています。

章立て

Reference

Breiman, Leo. 2001. “Statistical Modeling: The Two Cultures.” Statistical Science 16 (3): 199–231.
Chernozhukov, Victor, Denis Chetverikov, Mert Demirer, Esther Duflo, Christian Hansen, Whitney Newey, and James Robins. 2018. Double/debiased machine learning for treatment and structural parameters.” The Econometrics Journal 21 (1): C1–68. https://doi.org/10.1111/ectj.12097.
Chernozhukov, Victor, Juan Carlos Escanciano, Hidehiko Ichimura, Whitney K Newey, and James M Robins. 2022. “Locally Robust Semiparametric Estimation.” Econometrica 90 (4): 1501–35.
Chernozhukov, Victor, Christian Hansen, Nathan Kallus, Martin Spindler, and Vasilis Syrgkanis. 2024. “Applied Causal Inference Powered by ML and AI.” arXiv Preprint arXiv:2403.02467.
Efron, Bradley. 2020. “Prediction, Estimation, and Attribution.” International Statistical Review 88: S28–59.
Hofman, Jake M, Duncan J Watts, Susan Athey, Filiz Garip, Thomas L Griffiths, Jon Kleinberg, Helen Margetts, et al. 2021. “Integrating Explanation and Prediction in Computational Social Science.” Nature 595 (7866): 181–88.
Shmueli, Galit. 2010. “To Explain or to Predict?” Statistical Science 25 (3): 289–310.
Van der Laan, Mark J, and Sherri Rose. 2011. Targeted Learning. Vol. 1. 3. Springer.
Wager, Stefan. 2024. “Causal Inference: A Statistical Learning Approach.” preparation.
末石直也. 2024. データ駆動型回帰分析: 計量経済学と機械学習の融合. 日本評論社.