豪州・10年間の反復測定データを解析がNutrients(2025; 17: 3660)に発表されました。紅茶摂取は全股関節骨密度と有意な正の関連を示した一方、コーヒーでは全体的な関連は認められなかったとされています。

解析は線形混合効果モデル(random intercept)で、年齢・BMI・喫煙・CCIなどの時間依存共変量と、閉経年齢や生涯アルコール、カルシウム・蛋白摂取などの時間不変共変量を調整しています。さらに交互作用項によるサブグループ解析も行い、連続変数は中央値で二分しています。

読み進めるほどに「結果そのもの」より「手法が生む見かけの結論」が気になりました。第一に、脱落と死亡の扱いです。論文では、死亡またはBMD欠測の参加者は次のwaveから除外され、欠測はMAR(Missing at Random)を仮定して補完せず、LMMで扱う方針です。

しかし、このテーマでMARが自然に成立するでしょうか。低BMD→骨折→入院や死亡、あるいは健康状態→受診継続といった経路があるなら、解析対象は「生き残って測定できた人」に偏り得ます(いわゆるhealthy survivor bias)。この構造はDAGで描くと直感的で、IPCWやjoint modelingなどの感度分析が欲しくなります。

第二に、時間依存性交絡です。BMIのような変数は、単なる交絡因子ではなく「過去の曝露(飲料習慣)から影響を受けうる」中間的性質を持ちえます。その場合、標準的な回帰調整は因果効果推定を歪めることがあり、MSM(IPW)などg-methodの検討が論点になります。

第三に、“見える閾値”の誘惑です。スプライン解析ではノットを2杯・4杯に固定し、非線形は有意ではない(p>0.05)一方で、「5杯超は視覚的に低BMDの可能性」と述べています。

しかしノット位置は結果の形を左右します。ノットの根拠が薄いまま“>5杯”が独り歩きすると、科学というよりメッセージ先行になりかねません(GAM等で滑らかさを自動選択する方がまだ説明責任を果たしやすい)。

第四に、交互作用(p=0.0147、0.0175)の解釈です。サブグループ・交互作用を多数試す設計で、多重検定調整が明示されないなら、統計的に“当たった”結果が混じる確率は上がります。

しかも連続変数を中央値で二分するのは、情報を捨て、境界付近の人を別人格のように扱う粗さも残ります。

最後に、DSAの視点で言えば、ここで本当に知りたいのは「平均BMDが0.00X動いたか」より、低BMD側の分布(尾部)がどう変わったかです。例えば“骨折リスク帯”に入る人の割合が動いたのか、それとも平均だけがわずかに動いたのか。論文自身、差が小さく臨床的意義が限定的であり得ることを示唆しますが、だからこそ分布の変化で語るべきでしょう。

この論文が示したのは「コーヒー/お茶と骨密度の答え」ではなく、むしろ――観察研究でよくある落とし穴(選択、時間依存性交絡、多重検定、恣意的スムージング)が、いかに“もっともらしい健康メッセージ”を作ってしまうか、という教材性でした。