相関関係か因果関係か

2つの変数の間に相関関係が見られるとき、
それが単なる相関関係なのか因果関係なのかを見分けることが重要と言われます。

投資部門別売買状況(1)で紹介した事例を挙げると、
「相場の下落」と「個人投資家の買い」に相関関係が見られたとき、
「相場が下落したから買った」のか「個人投資家が買ったから下落した」では意味が大きく異なります。
後者が少し分かりづらいかもしれませんが、
「保有期間が比較的短い個人投資家の買いは近い将来の売り圧力となる」といった意味で解釈が可能です。
今回は因果関係の特定(推定)がモデル構築においてどのような意味を持つのか考察していきます。


まず2つの変数AとZに相関関係が見られるとき、その関係は次のいずれかとなります。
 (1)AとZは相関関係にあるが、因果関係は存在しない。
 (2)AとZは相関関係にあり、因果関係A→Zが存在する。
 (3)AとZは相関関係にあり、逆の因果関係Z→Aが存在する。
 (4)実はAとZに相関関係は存在せず、観察上の問題である。

ここで投資モデルを構築する場合、説明変数Aと目的変数Zにはラグが存在するため、
(3)の逆の因果関係Z→Aは起こりえません。
また(4)が発生する原因として見せ掛けの相関や選択バイアスなどが考えられますが、
今回は正しく統計分析がなされたものとしてこれも除外します。
よって両者の関係は(1)か(2)となり、これをモデルで書くと下図のようになります。

161105-1.png


ここで(1)の場合はAとZの上流にある共通要因Bによって相関関係が発生しており、
このような関係を「交絡」と呼びます。
では(1)と(2)のモデルを用いて変数をランダムに生成したときの
A⇔Zの相関係数と収益性(累積リターン)の関係をシミュレートしてみます。

161105-2.png


結果として、
「相関係数が同じであれば単なる相関関係と因果関係で収益性は変わらない」ということが読み取れます。
これはアクティブ運用理論の通り、投資のスキルは単純に相関係数で判断できるということです。
では収益性が変わらないのであれば、因果関係の特定(推定)は必要ないのでしょうか?

そうではありません。
両者の関係が因果関係でなく単なる相関関係であった場合、交絡要因Bが存在します。
もしもこの交絡要因Bを特定して説明変数として取り入れることができた場合、
B⇔Zの相関係数はA⇔Zの相関係数よりも遥かに高く、収益性を大幅に高めることが可能となります。

よってモデルの構築プロセスとして、
 ①まずは帰納的な手法を用いて相関係数の高い変数を特定する。
 ②続いて演繹的な手法で因果関係を推定してモデルの改善(=収益性の向上)を図る。
といったプロセスが有効です。

演繹的な手法だけでは主観によって有効な変数を見逃してしまう可能性があり、
帰納的な手法だけではモデルを改善するチャンスを逃がす可能性がある、ということになります。
なお、帰納的手法はカーブフィッティングに陥る可能性が高いという理由で嫌われることが多いのですが、
それは単にモデルの構築手法が悪いだけであることを付け加えておきます。