1 概念整理

本ページでは、現代的データ分析における基本概念を紹介する。特に推定対象 (Estimand) とデータから推定された関数 (Estimator) を分離して定義することの重要性を強調する。 EstimandとEstimatorを接続するために、“仮想的な事例の集団” (母集団) を導入する。

1.1 Estimator

データから分析者が指定した計算手順によって算出された値や関数を、Estimatorと呼ぶ。またこの計算手順をアルゴリズムと呼ぶ。
例: 平均アルゴリズム

Data = tibble::tibble(
  Y = c(9,10,21,18)
  ) # Data

Data # Show data

# A tibble: 4 × 1
      Y
  <dbl>
1     9
2    10
3    21
4    18

mean(Data$Y) # Apply Mean Algorithm

[1] 14.5

1.2 Estimand

同じAlgorithmを用いたとしても、Estimatorの値は、一般に算出に用いたデータの特徴によって決定される。データの特徴は確率的に決定されるため、Estimatorの値もまた確率的に決定されると表現できる。
データの事例は、分析者が母集団から確率的に選ばれると想定する。またEstimandは、母集団の特徴として定義する。分析者は、母集団およびEstimandを直接観察できないと想定する。

1.3 例: 平均賃金の推定

母集団における賃金 \(Y\) の分布 \(=f(Y)\)
Estimand \(=\) 母集団における平均賃金 \(E[Y]=\int Y f(Y)dY\)
データ \(=\) 確率関数 \(f(Y)\) に従って発生した\(N\)個の事例の集合 \([Y_1,..,Y_N]\)
Estimator \(=\) 例えばデータにおける平均賃金 \(\sum_i Y_i/N\)