――モデルを大きくしても、失われた情報は戻らない

AI開発競争は、いま大きな転換点に差しかかっています。
多くの企業が、より大きなモデル、より多くのデータ、より高性能なGPU、より高度な計算資源に投資しています。背景にあるのは、「モデルを大きくすれば、いつかあらゆる課題を解けるはずだ」という期待です。

しかし、本当にそうでしょうか。

私は、AI開発競争が陥っている最大の盲点は、問題の本質を“モデル性能”に置きすぎていること考えています。もちろん、モデルの性能向上は重要です。汎用AIや大規模言語モデルは、文章生成、要約、翻訳、プログラミング、検索補助など、多くの領域で驚くべき能力を示しています。

一方で、どれだけモデルを大きくしても解けない問題があります。
それは、AIに入力される前の段階で、すでに重要な情報が失われている問題です。

たとえば、現実のデータは本来、多様で、偏在しており、個別性を持っています。分布には裾の広がりがあり、二峰性があり、少数例にこそ意味が潜んでいることもあります。しかし、それらを平均値、要約統計、集計データ、ラベル化されたデータに変換した瞬間、背後にあった構造の多くは失われます。

一度失われた情報は、下流でどれだけ高度なAIを使っても、事実として復元することはできません。AIができるのは、残された情報から「もっともらしい推測」をすることです。しかし、それは復元ではありません。あくまで補完です。

ここに、AI開発競争の本質的な限界があります。

第一に、入力情報の限界です。
平均値や集計データだけを入力している限り、AIはその背後にあった個別性、分布の偏り、例外的な反応、少数例の意味を正確には取り戻せません。いくら高性能なモデルでも、存在しない情報を事実として再現することはできないのです。

第二に、汎用化の限界です。
汎用AIは、「多くの場合にそれらしい答え」を出すことに優れています。しかし、現実の価値はしばしば、平均から外れた部分、例外、偏在、個別構造の中にあります。そこを平均化してしまえば、価値の源泉をAIに渡す前に消してしまうことになります。

第三に、投資方向の限界です。
計算資源、モデルサイズ、パラメータ数、学習データ量に投資しても、上流で消えた情報は戻りません。つまり、必要なのは「さらに大きなAI」だけではありません。むしろ重要なのは、AIに渡す前に、何を失わせずに扱うかという情報設計です。

これからのAI活用に必要なのは、下流のモデル競争だけではなく、上流の構造設計です。
AIが処理する前に、現実の分布構造、個別性、因果仮説をどのように保持するか。ここを設計できなければ、AIは要約された世界の中で、要約された答えを返すだけになります。

一方で、DSA+DAGは、要約される前の世界を構造として保持する技術です。

平均の世界では見えなかったものを、分布構造として見える化する。
集計によって消えていた個別性を、因果仮説とともに扱える形にする。
そこに、次のAI活用の出口があります。

AIに渡す前の情報を、どこまで失わせずに設計できるか
その視点こそが、これからのAI時代における本当の競争優位になると考えています。

DSA(分布構造分析)は、

「データが持つ歪み・裾・峰・谷・密度変化を、構造情報として、AIや分析モデルが読み取れる形に整える」

という発想です。

つまり、

単に分布構造に分類するのではなく、「平均によって圧縮・消失する個の情報を、構造化することで構造を保持したまま利用可能」にすることができます。

DSAは「分布構造を他の解析・意思決定エンジンへ渡す前処理レイヤー」

受け渡し先DSAから渡すもの用途
機械学習モデル歪度・尖度・多峰性・裾・外れ値影響特徴量エンジニアリング
クラスタリング峰・谷・密度境界サブグループ発見
予測モデル構造重要度・外れ値感度予測精度・解釈性向上
異常検知裾構造・低密度領域外れ値・希少例検出
Bayesian model事前分布・階層構造の候補個別差を反映した推定
HTE解析サブグループ構造治療効果異質性の探索
デジタルツイン個別構造パターン個人別シミュレーション
意思決定支援構造重要度・リスク層別臨床判断・投資判断
LLM/AIエージェント構造要約・注意点解析結果の説明生成
量子アニーリング/QUBO制約条件・探索優先度探索空間の縮約

より上位概念の、DSAは、「RWDの分布構造を圧縮せずに保持し、各種AI・統計・意思決定モデルが利用可能な構造情報へ変換するインターフェース」です。

最近、本当に多くのAIサービスが登場しており、どれを選んで良いか迷いますよね?

「どのAIが一番優秀か?」に答えることはなかなか難しい。

理由は単純で、AIにも得意不得意や癖があるからです。

例えば、あるAIは論理的な整理が得意で、別のAIは発想力に優れている。また、あるAIは慎重な回答を好み、別のAIは大胆な仮説を提示します。

人間の会議で複数の専門家の意見を聞くように、AIも複数利用した方が精度が上がると考えています。

そこで一つの選択基準になるのが、

「そのAIは独自AIなのか?」

という視点です。

世の中には大きく二種類のAIがあります。

一つは、ChatGPT、Claude、Geminiのように、自社で基盤モデルを開発している独自AIです。

もう一つは、それらのAIを利用しながら、独自のUIや業務機能を追加したサービスです。

もちろん後者にも優れたものはたくさんあります。

しかし、複数のAIを使って相互検証したいのであれば、同じエンジンを使ったサービスを比較しても意味が薄い場合があります。

見た目は違っても、中身が同じAIであれば、似た結論になることが多いからです。

私は複数のAIを利用していますが、もし全員が同じ結論に到達するなら、その結論の信頼性は高まります。

逆に意見が割れる場合は、そこに重要な論点や前提条件が隠れていることがあります。

AIは万能ではありません。

しかし、一人の専門家として使うのではなく、複数の専門家によるディベート環境として使うと価値が大きく変わります。

AI選びのポイントは「どれが最強か」ではありません。

「どのAIとどのAIを組み合わせると、自分の意思決定の精度が上がるか」

私はそこが本質だと考えています。

量子コンピューターカテゴリーの某ピッチにDSA+DAGを基盤とした提案を行いました。DSA+DAGのアルゴリズムを、量子アニーリングにも接続可能な解析基盤として扱う提案です。実社会の複雑なデータを、AIや計算機が扱える形に変換するためのオペレーティングシステムとしての提案です。

Finalまで進みましたが、予想通り、結果は不採択でした。質疑応答で、自社プロダクトについては答えられても、量子コンピューターに関する質問に答えられずボコボコだったからです。しかし評価内容は否定的なものではなく、因果探索を量子アニーリングで扱う方向性、DAG学習をQUBO化する発想、産業応用を見据えた姿勢については、一定の評価をいただきました。

指摘されたのは、なぜDSA+DAGを量子コンピューターに接続する必要があるのか、量子優位性や新規性の根拠が十分に整理されていない、という点でした。

この指摘は妥当です。しかし同時に、私はここに重要な認識のズレを感じました。私は量子コンピューターにこそ「DSA+DAGが必要」だと考えており、DSA+DAGに「量子コンピューターが必要」と考えているわけではないという点です。

AIも古典コンピューターも急速に進歩しています。その結果、量子コンピューターだけが圧倒的に優位であると示すことは、以前より難しくなっています。むしろ重要なのは、どの計算基盤を使うかではなく、現実世界の複雑なデータを、どのように計算可能な問題へ変換するかです。

純粋持株型の量子銘柄の多くは年初来で28〜33%下落し、2024年末から2025年初頭の高揚した高値から後退しています。2025年は記録的な株高だったが、2026年前半に投資家心理が悪化。利益確定や、量子が未来の計算であってもその未来は数年先だという冷静さ、加えてAIバブル懸念や経済不安といった外部要因が引き下げています。専門家の見立ても辛口で、大半の実世界アプリケーションにおいて、量子コンピューターは依然としてよく設計された古典コンピューターを実証的に上回る実用的タスクを一つも実行できておらず、広範な商用利用までは大半の専門家の推定で5〜10年とされています。

ここで思い出すのが、富士フイルムとコダックの対比です。写真フィルム市場がデジタル化によって縮小していく中で、富士フイルムは自社を単なる「フィルム会社」としてではなく、化学、材料、画像処理技術を活かす会社へと再定義しました。その結果、医療、化粧品、液晶材料、医薬品などへ事業領域を広げることができました。

一方、コダックはデジタルカメラの技術を知らなかったわけではありません。むしろ早い段階からデジタル技術を持っていました。しかし、既存の高収益なフィルム事業を守る意識が強く、時代の変化に合わせた事業定義の転換が遅れました。その結果、デジタル化の波に対応しきれず、経営破綻へと追い込まれました。

この違いは、技術を持っているかどうかだけでは決まりません。自社の技術を、次の時代に合わせてどのように再定義できるかで決まります。

同じことが、計算技術の世界にも起きています。重要なのは、量子か古典か、AIか統計か、という技術単体の優劣ではありません。次の時代に必要なのは、あらゆる計算基盤に接続できる「問題を定義する技術」です。

リアルワールドには、医療データ、産業データ、行動データには、外れ値、偏り、多峰性、欠測、交絡、サブグループの混在が含まれます。これらを平均や相関に単純圧縮してしまえば、現実の構造は失われます。DSA+DAGは、その分布構造を保ったまま、因果仮説や探索空間を整理するための方法論です。

DSA+DAGは、量子コンピューターありきの技術ではありません。むしろAI、古典計算、量子計算のいずれにも必要となる、実世界データの構造化エンジンです。今回の不採択は、失敗ではなく、技術の見せ方を変えるべきだという重要な示唆だったと受け止めています。

医学研究において、「この研究は underpowered(検出力不足)である」という指摘は珍しくありません。症例数が少ないため統計学的有意差が得られず、論文化が難しいと判断されるケースも少なくありません。

では、そもそも、underpoweredとは何に対して「力不足」なのでしょうか。

一般に統計学でいう検出力(power)とは、群間の平均値の差や平均効果を統計学的に検出する能力を指します。症例数が少ないと平均値の推定誤差が大きくなり、信頼区間が広がり、有意差が検出されにくくなります。

つまり、

少数例
→ 平均値が不安定
→ 信頼区間が広い
→ 有意差が出ない
= underpowered

という論理です。

しかし、この一連の考え方には暗黙の前提があります。

それは、「平均値で集団を代表させる」という前提です。

実際の医療現場で扱うReal World Data(RWD)は、必ずしも正規分布には従いません。患者背景は多様であり、歪度の大きい分布、外れ値、多峰性、ゼロ過剰、サブグループの混在などが日常的に存在します。

にもかかわらず、私たちはしばしばその複雑な分布を平均値という単一の数字に圧縮して解釈しています。

ここで重要な問いが生まれます。

「平均値は本当に現実を代表しているのだろうか。」

例えば7例の患者が存在するとします。

平均値は1つしかありません。しかし患者の経過は7通り存在します。もし7人の推移が大きく異なるのであれば、その事実自体は症例数に関係なく実在しています。

このとき underpowered という評価は、「平均差を検出するには症例数が足りない」という意味では正しいかもしれません。しかし、「個々の患者が異なる推移を示している」という事実を否定するものではありません。

むしろ少数例では、一人ひとりの変化が見えやすくなります。

症例数を増やすことは平均値を安定させる一方で、個々の特徴を平均の中へ埋没させる側面もあります。統計学的には望ましい操作であっても、臨床的現実を見えにくくする場合があるのです。

近年、AIやビッグデータの発展によって膨大なRWDを扱えるようになりました。しかし、どれだけ計算能力が向上しても、分析の出発点で分布構造を平均値へ圧縮してしまえば、失われた情報は取り戻せません。

これからの課題は、平均値を捨てることではありません。

平均値を解釈する前に、

  • 分布は歪んでいないか
  • サブグループは存在しないか
  • 外れ値が平均を支配していないか
  • 個々の推移は平均と一致しているか

を確認することです。

Real World Dataから真に説明可能なReal World Evidence(RWE)を構築するためには、「平均効果はあるか」という問いだけでなく、「平均に押し込められた現実は何か」という問いも必要になります。

underpoweredという言葉は、平均効果を検出するための指標です。しかし医療の現実は平均だけでは語れません。

患者は平均ではない。

そして、少数例は単なる弱点ではなく、平均パラダイムによって消されてきた個々の現実を最も鮮明に映し出す場所なのかもしれません。

MOVEhttps://youtu.be/MKhbkssFoeQ

統計学には「中心極限定理」という重要な考え方があります。これは、元のデータがどのような分布であっても、十分な数の標本を取り、その平均を繰り返し計算すると、その平均値の分布が正規分布に近づく、というものです。ここで重要なのは、正規分布に近づくのは「個々の患者データ」ではなく、「平均された値」だという点です。

たとえば、ある治療によって平均血圧が低下したとしても、すべての患者に同じ効果があったわけではありません。大きく改善した患者もいれば、変化の乏しい患者、副作用で継続できなかった患者もいるかもしれません。平均値は全体の傾向を示しますが、患者ごとの違いをそのまま表しているわけではありません。

中心極限定理は、平均値を用いた推定や検定を支える強力な理論です。しかし、それは「患者データそのものが正規分布する」という意味ではありません。入院日数、医療費、生存期間、副作用の発生などは、しばしば歪んだ分布を示します。症例数が多くなっても、個々の患者の多様性が消えるわけではありません。

一方で、大規模データでは平均値が安定するため、かえって安心感が生まれます。しかし、その背後で、高リスク群、治療抵抗例、まれな副作用、社会的背景による差が隠れてしまうことがあります。医療で本当に重要なのは、平均的な患者だけではありません。平均から外れた患者にこそ、臨床上の大切な示唆が含まれていることもあります。

だからこそ、医療データを見る際には、平均値だけで判断してはいけません。中央値、四分位範囲、分布の形、外れ値、層別解析、個別症例の検討を組み合わせる必要があります。

中心極限定理が教えてくれるのは、平均の有用性と限界です。医療に必要なのは、平均を否定することではなく、平均が何を隠しているのかを問い続ける姿勢です。データを要約する力と、患者を一人ひとり見る視点。その両方を持つことが、これからの医療に求められています。

For decades, most stock market forecasting models have relied on a simple premise: the future can be inferred from patterns embedded in the past.

The typical workflow is straightforward:

Historical Prices → Trend Extraction → Future Price Prediction

While effective in identifying recurring patterns, this approach has a fundamental limitation. It largely interprets external influences only after they have already been reflected in market prices.

Interest rate changes, currency fluctuations, policy decisions, earnings announcements, geopolitical developments, and major news events often become absorbed into the price series before traditional models can meaningfully distinguish their individual impacts. As a result, these drivers frequently remain hidden inside a statistical “black box.”

From Price Prediction to Driver Analysis

To move beyond this limitation, forecasting systems must incorporate three complementary layers:

  1. Price-Based Models
  2. External Factor Models
  3. Causal Structures Represented by Directed Acyclic Graphs (DAGs)

Consider the following example:

Interest Rates

Exchange Rates

Export Earnings Expectations

Stock Prices

At the same time:

Interest Rates

Lower Market Valuations (PER Compression)

Stock Prices

Similarly:

Oil Prices

Production Costs

Profit Margins

Stock Prices

Or:

News Events

Investor Sentiment

Trading Volume

Stock Prices

The key insight is that simply feeding more external data into an AI model is not enough. External variables themselves are interconnected. Understanding whether a factor exerts a direct influence or an indirect influence requires an explicit causal framework.

This is where DAGs become valuable. They allow analysts to map relationships among variables and distinguish causal pathways from mere statistical correlations.

Most Forecasting Models Still Drive by Looking Backward

A useful analogy is driving a car.

Many forecasting systems operate as if they are navigating primarily through the rearview mirror:

  • Historical prices
  • Trading volume
  • Technical patterns
  • Previous market reactions

These elements certainly contain useful information. They reveal investor behavior, market momentum, and recurring demand-supply dynamics.

However, what they often fail to capture adequately is the road ahead:

  • Interest-rate decisions
  • Currency movements
  • Earnings surprises
  • Regulatory changes
  • Geopolitical conflicts
  • Policy interventions
  • Capital flows
  • Liquidity shocks

A more complete navigation system would consist of:

  • Rearview Mirror: Historical price models
  • Windshield: External factor analysis
  • GPS Navigation: Causal DAG structures

The objective is no longer merely predicting prices. It is understanding the mechanisms that move prices.

The Most Forward-Looking Practical Framework

If the goal is to look ahead rather than merely extrapolate backward, the most practical architecture is not a single model but an integrated system:

A Causal DAG-Enabled Multimodal Nowcasting Model

Such a framework combines:

  • Historical prices and trading volume
  • Interest rates and exchange rates
  • Market indices and commodity prices
  • Earnings and analyst expectations
  • Capital flow and supply-demand indicators
  • News, social media, and policy events
  • Causal structures represented through DAGs

The process becomes:

Multiple Data Sources
+
Causal DAG

Estimate Current Market State

Generate Near-Term Market Scenarios

The critical concept here is Nowcasting.

Unlike traditional forecasting, which projects historical trends into the future, nowcasting attempts to estimate the current state of the economy and financial markets using high-frequency and real-time information.

In practice, the most powerful configuration combines:

DAG + Nowcasting + Event-Driven Models + Machine Learning

For example:

Rising U.S. Interest Rates

Stronger U.S. Dollar

Weaker Japanese Yen

Higher Export Earnings Expectations

Automotive Stocks Rise

Simultaneously:

Higher Interest Rates

Valuation Compression

Growth Stocks Decline

The same external event can therefore produce different outcomes across sectors and industries.

This is precisely why causal structures matter. Market behavior is not driven by isolated variables but by interconnected chains of influence.

The Future of Market Prediction

Recent research increasingly integrates causal discovery techniques into financial forecasting. Emerging models such as CausalStock attempt to identify temporal causal relationships between news events and stock performance rather than relying solely on statistical pattern recognition.

The implication is significant.

The future of market forecasting may not belong to models that simply analyze price movements. Instead, it is likely to belong to systems capable of:

  • Interpreting external market drivers in real time
  • Organizing them through causal structures
  • Simulating multiple future scenarios
  • Continuously updating predictions as new information arrives

In short, the most forward-looking forecasting framework is not a price prediction model.

It is a Causal Nowcasting Model—a system designed to understand not only where the market has been, but why it is moving and where those causal forces are likely to lead next.

Galton Boardは、「自然現象は正規分布に従う」という直感を与えますが、それは装置の設計に正規分布が埋め込まれているからです。

  • 中心から落とす → 初期条件を固定
  • 釘が均一・対称 → 過程を均質化
  • 独立な二値分岐 → CLTの前提を人工的に満たす

つまりGalton Boardは「正規分布が自然に生まれる」のではなく、正規分布が出るように設計された装置を見せているに過ぎません。


実際の自然・社会現象との乖離

現象実際の分布
所得・富冪乗則(パレート)
都市人口冪乗則
株価変動ファットテール
生物の体重対数正規分布
地震規模冪乗則

正規分布に従う現象は、測定誤差や中心極限定理が厳密に成立する条件下に限られます。


結論

Galton Boardは「正規分布の美しい可視化装置」ではありますが、「多くの事象が正規分布に従う証拠」としては使えないといえます。

これはまさに弊社が取り組んでいるDSA+DAGの問題意識——「平均への圧縮」が構造的情報を失う——と根底でつながっています。

生成AIの導入が進む中で、多くの企業が「AIを使えば業務が自動化される」「開発スピードが一気に上がる」と期待しています。しかし実際の現場では、AIを導入したにもかかわらず、思ったほど成果が出ないケースも少なくありません。その原因の一つは、AIそのものの性能不足ではなく、AIに渡す前提が“未定義”のままになっていることにあります。

AIは、明確な仕様、制約条件、判断基準、参照すべき情報が与えられたときに力を発揮します。一方で、「いい感じに作ってください」「過去の資料を見て判断してください」「現場の暗黙知を踏まえてください」といった曖昧な依頼には弱い傾向があります。なぜなら、未定義の状態では選択肢が無数に広がり、AIはどの前提を採用すべきか判断しにくくなるからです。その結果、アウトプットの品質がぶれ、人間によるレビューや修正が増え、かえって現場の負荷が高まってしまいます。

ここで重要になるのが、DSA+DAGという考え方です。DSAは、業務や意思決定の構造を整理し、AIが扱える形に変換するための土台です。業務目的、入力情報、判断条件、制約、例外処理、成果物の定義を明らかにすることで、AIに「何を基準に考えればよいか」を与えることができます。一方、DAGは、タスクや情報の依存関係を可視化するものです。どの情報を先に参照し、どの処理を経て、どの成果物に到達するのかを有向非巡回グラフとして整理することで、AIは業務の流れを迷わずたどれるようになります。

つまり、DSAが「何をどう判断するか」を定義し、DAGが「どの順番で実行するか」を定義します。この二つがそろうことで、AIは単なる文章生成ツールではなく、再現性を持って業務を進める実行パートナーへと進化していきます。

AI活用の本質は、プロンプトを巧みに書くことだけではありません。AIが正しく動ける環境を、人間側がどれだけ設計できるかにあります。未定義のままAIに任せれば、成果は偶然に左右されます。しかし、DSA+DAGによって業務を構造化すれば、AIの出力は安定し、検証可能になり、組織として再利用できる資産になります。

これからのAI活用で差がつくのは、AIを使っているかどうかではありません。AIに渡す「定義」と「構造」を持っているかどうかです。AIは未定義に弱い存在です。だからこそ、DSA+DAGはAI時代の業務設計における不可欠な接続層になるのです。

「AIが新たな創薬標的を発見した」。近年、創薬やロンジェビティ領域では、こうした表現を目にする機会が増えています。しかし、ビジネスの視点で冷静に見ると、AIが人間の研究者のように“ひらめき”で標的を見つけているわけではありません。実際に起きているのは、膨大なデータをアルゴリズムが解析し、その中から有望な候補を抽出し、人間が実験と臨床で検証するというプロセスです。

例えば老化研究は、従来の「1標的・1疾患」モデルでは捉えきれない複雑な領域です。ゲノミクス、エピゲノミクス、トランスクリプトミクス、プロテオミクス、メタボロミクスといった複数のオミクス層を統合しなければ、老化の全体像は見えてきません。こうしたマルチオミクス解析によって、臓器ごとの老化シグネチャーや個人差が初めて可視化されます。

AIの価値は、「答えを出すこと」ではなく、「探索空間を圧縮すること」にあります。創薬では、候補分子、標的タンパク質、疾患メカニズム、患者層の組み合わせが膨大に存在します。人間だけで探索すれば、時間もコストもかかりすぎます。AIアルゴリズムは、その中から統計的に意味のありそうなパターンを抽出し、優先順位をつけます。つまりAIは発見者というより、探索効率を劇的に高める経営資源です。

Insilico MedicineのTNIK阻害薬の事例は象徴的です。AI基盤を用いて創出された候補薬が、老化細胞の有害分泌を抑えるセノモルフィック作用を持つ可能性を示しました。これは「AIが老化標的を見つけた」と表現できますが、一方で、実際にはデータ、アルゴリズム、実験検証、臨床開発が連鎖した成果です。AI単体では、標的の妥当性を証明できません。最終的にビジネス価値へ転換するには、再現性、規制対応、臨床エンドポイント、資金調達が不可欠です。

したがって、「どのデータを、どのアルゴリズムで解析し、誰がどのように検証し、事業化するのか」が重要です。ロンジェビティ創薬における勝者は、AIモデルそのものを持つ企業ではなく、データ基盤、検証能力、規制戦略を一体化できる企業になります。AIは発見の主役というより、発見を産業化するための加速装置なのです。