Example | ||
---|---|---|
事例の割合 | 平均価格 | District |
0.333 | 66.5 | 千代田区 |
0.333 | 47.3 | 文京区 |
0.333 | 29.5 | 板橋区 |
2 Weight
Balancing Weightsを導入する準備として、より一般的な概念であるWeightsを紹介します。 Weightsは、データ上の事例の分布を、統計的な処理によって、変化させるために用いられます。
以下、サンプリングの偏りへの対応を例とします。 前章のバランス後の比較分析と議論の多くが類似している点に注意してください。
2.1 データ上の平均値
今、ある「不動産研究所」が調査員を千代田区、文京区、板橋区に派遣し、中古マンションの取引事例を収集したとします。 各調査員は、全く同じ数の事例を収集します。
以下では、立地(District)ごとに、平均取引価格とデータ全体に対する事例の割合をまとめています。 全ての区について、同数の事例が収集されていることに注意してください。
繰り返し期待値の法則を用いると、この情報のみからデータ全体の平均取引価格は計算できます。
- \(平均取引価格\)は
\[=\underbrace{66.5}_{千代田区の事例の平均取引価格}\times \underbrace{0.333}_{千代田区の事例の割合}\]
\[+\underbrace{47.3}_{文京区の事例の平均取引価格}\times \underbrace{0.333}_{文京区の事例の割合}\]
\[+\underbrace{29.5}_{板橋区の事例の平均取引価格}\times \underbrace{0.333}_{板橋区の事例の割合}\]
\[=47.8\]
繰り返し期待値の法則から、データ上の平均値は、\(X\)についてのサブグループ内での平均値とサブグループの割合の掛け算の総和となります。 このため、もしサブグループの割合が研究関心から乖離している場合、サブグループ内での平均値が妥当な値であったとしても、ミスリードな平均値が計算されてしまいます。
2.2 ターゲット上の平均値
今研究関心は、「もし実際の取引履歴をすべて収集したデータを用いて計算された平均取引価格」、であるとします。 このような平均値を計算したい仮想的な割合を、バランス後の比較分析と同様に、ターゲット割合と呼びます。
今、ターゲット割合は、千代田区が0.161、文京区が0.33、板橋区が0.509であることが判明しているとします。 もしデータ上の各区の取引割合を、ターゲットの取引割合と一致させた場合、平均値はどのように変化するでしょうか?
Exampleにおける調整された平均取引価格は、以下のように算出されます。
\[=\underbrace{66.5}_{千代田区の事例の平均取引価格}\times \underbrace{0.161}_{千代田区の事例の割合}\]
\[+\underbrace{47.3}_{文京区の事例の平均取引価格}\times \underbrace{0.33}_{文京区の事例の割合}\]
\[+\underbrace{29.5}_{板橋区の事例の平均取引価格}\times \underbrace{0.509}_{板橋区の事例の割合}\]
\[=41.3\]
データ上の平均値は47.8であったので、過大であったことがわかります。 これは、平均取引価格が高い傾向にある千代田区の物件割合が、現実の取引割合(0.161)よりも、データ上の割合(0.333)が過大であることに起因します。
2.2.1 バランス後の平均との類似性
以上の議論は、バランス後の平均値と本質的には同じものです。 ターゲットとデータ上の分布が乖離しているため、平均値と調整された平均値は乖離しています。 唯一の違いは、バランス後の平均値を定義する際には、ターゲットを\(D\)の値に依存しないように設定する必要があり、Overlapの仮定 Important 1.1 に注意する必要がある点のみです。
このため以下の加重平均を用いた調整された平均値の計算方法は、バランス後の平均値を求める際にも利用できます。
2.3 加重平均値
ターゲット割合へのバランスを行うための有力な方法は、加重平均(Weighted mean)を計算することです。 一般に加重平均は以下のように定義されます。
- 調整された平均値
\[=(\underbrace{\omega}_{Weight}\times Y)の平均値\]
- Weightに対して、\(\omega の平均値 = 1\) を制約とする。
Weightは各事例の\(Y\)の値が、最終的な平均値に反映される度合いをコントロールします。 例えば、もし\(\omega=0\)であれば、その事例は平均値の計算に一切反映されません。
Weightは、データとターゲットにおける\(X\)の分布を揃えるように設定されます。 すなわち
\[\omega\times データ上のXの割合=ターゲットとなるXの割合\]
を達成するように\(\omega\)を算出します。 両辺を事例割合で割ると、
\[\omega=\frac{ターゲットとなる割合}{データ上の割合}\] となります。 すなわちターゲットよりも過大に収集されているグループは小さめに、ターゲットよりも過小なグループは大きめに反映させます。
Exampleに適用すると、以下となります。
平均価格 | District | ターゲットとなる割合 | 事例の割合 | Weight |
---|---|---|---|---|
66.5 | 千代田区 | 0.161 | 0.333 | 0.483 |
47.3 | 文京区 | 0.330 | 0.333 | 0.991 |
29.5 | 板橋区 | 0.509 | 0.333 | 1.529 |
加重平均値は以下のように算出できます。
\[\Biggr[\underbrace{\underbrace{44}_{取引価格}\times \underbrace{0.483}_{荷重} + 70.0\times 0.483+..}_{千代田区の事例}\underbrace{+75.0\times 0.991+..}_{文京区の事例}\]
\[\underbrace{+59.0\times 1.529+..}_{板橋区の事例}\Biggr]の平均=\underbrace{41.3}_{調整された平均値}\]