統計的に「相関がある」とは、
AとBという2つの変数が、ペアとしてどれだけ一緒に動いているか
を表しているにすぎません。
ここで見ているのは、
- Aが大きいときにBも大きくなりやすいか
- Aが小さいときにBも小さくなりやすいか
といった、「ペア(Aᵢ, Bᵢ)の動きの揃い方」です。
したがって、
- AとBのヒストグラム(分布の形)がよく似ていても、
ペアの対応がバラバラなら相関はほぼ0になります。 - 逆に、AとBの分布の形が違っていても、
各ペアがほぼ一直線上に並んでいれば、高い相関が得られます。
この意味で、
「統計的に相関がある」=「AとBの分布が一致している」
ではなく、
「統計的に相関がある」=「AとBのペアの動きが揃っている」
と理解するのが正確です。
*ミュートしています
DSAで扱う「分布構造の重なり」と因果
一方、DSA(Distribution Structure Analysis:分布構造分析)が扱うのは、
平均や分散といった単純な指標だけではなく、
- 分布の形(歪み・尖り・多峰性など)
- クラスターや階層構造
- 条件付き分布の違い
といった、分布そのものの構造です。
ここでいう「分布構造の重なり」や「一致率」は、
- ある条件(例:介入あり)のもとでのアウトカムの分布
- その条件がなかった場合(例:介入なし、あるいは反事実)の分布
が、どれくらい似ているか/どれくらい違うかを表す指標として用います。
因果推論の文脈では、DSAはDAG(因果グラフ)と組み合わせて用いられます。
- DAGで「どの変数がどの変数にどう影響するか」という因果の向きとパスを仮定する
- そのパスに沿って、DSAで分布構造がどのように変形するかを評価する
- 原因側を変えたときに、結果側の分布構造が一貫してズレるなら、
そのズレを因果効果の大きさとして解釈する
この中で、
分布構造の重なり(=一致率)
は、因果効果の大きさを表す重要な指標のひとつではありますが、
それ自体が「因果そのもの」というわけではありません。
因果の方向づけはあくまでDAGが担い、
DSAはその上で「分布構造のズレ」を定量化する役割を果たします。
まとめ
- 統計的な相関は、AとBの分布の一致度ではなく、
ペアデータの動きの揃い方を表す指標です。 - DSAが扱う「分布構造の重なり(一致率)」は、
条件の違いによる分布構造の差=因果効果の大きさを測るための部品です。 - DSA+DAGによる因果推論では、
DAGが因果の向きを定め、DSAが分布構造のズレを捉えることで、
「何がどれだけアウトカムの分布を変えているか」を説明可能な形で示していきます。
