「有意差が出た」「主要評価項目を満たした」。それだけで、私たちは安心してしまいます。けれど現場の意思決定は、意外なほどズレます。論文は“正しい”のに、現実は思った方向に動かない——この違和感は、統計の精度ではなく“問いの設計”に起因していることが少なくありません。
論文が扱うのは、平均や要約された単一の指標になりがちです。一方、現実の患者・現場・市場は、分布として存在します。つまり、同じ結果(平均改善)が成立していても、その内側には「効く人」「効かない人」「害が出る人」が同居します。平均の勝利は、個別の敗北を覆い隠します。
さらに厄介なのは、統計的に正しいほど、その“見えない部分”が見落とされる点です。再現性が高いのに外れる、被引用が多いのに使えない。評価軸が整備されるほど、現実判断の材料としての限界が目立ってきます。
ここで問いたいのは、論文が正しいかどうかではありません。「その論文は、どこまで監査可能(説明可能)に、現実を扱っているか」です。
“正しさ”よりも、“どこまで歪みなく見ているか”。いま必要なのは、その観点のアップデートなのだと思います。
