全数検索の未来

暫く更新を怠ってしまいました。
今回は統計のお話です。

トレードモデル構築のアプローチには2通りあります。
演繹的手法と帰納的手法です。
説明するまでもないと思いますが、前者はセオリードリブン、後者はデータドリブンな手法です。
過去記事の「相関関係か因果関係か」でも触れましたが、
この両者にはそれぞれメリットとデメリットがあり、両者を組み合わせて使うことが重要です。

帰納的なアプローチとして、「全数検索」という言葉を耳にすることがあります。
全数検索とは、手持ちの目的変数と説明変数の全ての組み合わせの説明力を愚直に調査するものです。
この言葉は(おそらく土屋氏の) 造語であり、実際の計算機科学では力まかせ探索と呼ばれます。
この手法は確かに有効な手法ではあるのですが、
以下の2つの問題により現実問題への適用が難しくなっています。
「組み合わせ爆発」と「データ・スヌーピング・バイアス」です。

まず1つ目の問題ですが、こちらは近年では計算機の能力向上により、
並列で計算をぶん回せば解決できる場合が多くなっています。
研究機関でなく個人レベルの場合には、多少問題になる場合があります。

2つ目の問題であるデータ・スヌーピング・バイアスとは、
多数の指標を検証した際に誤って有意でないものを偶然に発見してしまう事象のことを指します。
もう少し統計学に体系立って説明すると、このような統計検証上の間違いには2通りが存在します。
タイプⅠエラーとタイプⅡエラーです。


タイプⅠエラーとは、
有意でないデータを有意と見なしてしまう間違い(false discovery)であり、
データ・スヌーピング・バイアスとはこれに該当します。
これに対してタイプⅡエラーとは、
有意なデータを有意でないと見逃してしまう間違い(missed discovery)です。
一般的に、タイプⅠエラーのほうが重篤な間違いであるとされています。
なぜならタイプⅠエラーは将来の損失に直結する可能性がありますが、
タイプⅡエラーはあくまでも利益の喪失となり直接的な損失が発生する可能性が低いからです。
今回は単純な回帰モデルで全数検索したときのエラーの発生度合いを
ランダムシミュレーションで観察していきます。

◆検証1.検出率カーブの観察
<要領>
 ・目的変数Yと説明変数Xとして、正規分布に従う乱数をN個発生させます。
  ただし、この両者にはある一定の相関(情報係数IC)を設定しておきます。
 ・YとXの回帰分析のP値により、その指標の有意性を判定します。
 ・サンプル数Nと情報系数ICをパラメータとして数個の水準を振り、
  それぞれについて1万回繰り返し試行し、有意と判定された回数(=検出率)をプロットします。

<結果>
170519-1.png


この結果から、検出カーブの形状によってそれぞれのエラーの発生のしやすさが見て取れます。
図の左下の領域で検出率が高い場合、タイプⅠエラーの発生確率が大きくなり、
逆に図の右上の領域で検出率が低い場合、タイプⅡエラーの発生確率が大きくなります。

では、実際にはどのような検出カーブの形状が理想なのでしょうか。
理想的な検出カーブの要件は4つあり、
(1)高い情報係数の領域で検出率が100%(タイプⅡエラーが発生しない)
(2)低い情報係数の領域で検出率が0%(タイプⅠエラーが発生しない)
(3)中間領域の勾配がタイト
(4)調査の目的・目標により、中間領域を任意に左右にシフトできる。

この中で重要なものは、(3)の要件となります。
(3)の要件が満足できると、たいていの場合に(1)と(2)は満足されるからです。
また(4)の要件は、検出の有意水準を調整することで簡単に実現することができます。

ここで(3)の検出カーブの勾配は、検証するデータセットの「素性」により決定されます。
例えば、図に示しているように(独立した)サンプル数が多いというのも、重要な素性となります。
(独立した)サンプル数が多い場合には、勾配がタイトになることが見て取れます。
また、データの分散値(レジデュアル分散)によっても勾配が大きく変化します。
具体的には「過分散」の場合は勾配がフラットになってそれぞれのエラーが発生しやすくなります。
当然ですが、株式市場のデータは「過分散」であることは言うまでもありません。


◆検証2.全数検索時のエラー発生の度合い
<要領>
 ・サンプル数N=2000のデータについて、10000個のファクターを全数検索する場合を考えます。
 ・検出率カーブは、検出の有意水準を3通りに振って考えます(左下図)。
 ・10000個の指標の持つ情報係数の分布を、ポワソン分布に従い設定します(右下図)。
  10000個のうち、9000個は全く相関のない無益な指標(IC=0)です。
  一般に投資指標として有効な指標はIC>=0.1と言われており、
  10000個の指標のうちこれに該当する指標はわずか25個(0.25%)とします。
 ・今回は、この25個の指標を検出対象として、各エラーの発生度合いを観察します。

170519-2.png


<結果>
170519-3.png


有意水準を厳しくすると、
タイプⅠエラーは減少し、タイプⅡエラーは増加することが見て取れます。

上記は理想的なシミュレーションであり、実際の株式市場ではこの結果よりも悪化します。
実際に全数検索を行う場合はタイプⅠエラーを避けるため、
有意水準を驚くほど厳しく設定する必要があります。
しかしその代償として有意なものの取りこぼしが多数発生し、
ようやく検出した指標もその殆どが有意でないものとなってしまいます。
さらにわずかに得た有意な指標も、株式市場の構造変化により将来的に有効である保証はありません。



ここで最も重要なことは、「タイプⅠエラーとタイプⅡエラーの発生はトレードオフ」であり、
両者を同時に実現することは難しいと言うことです。
現時点ではこれらのエラーを排除するために、最終的には「演繹的考察」に頼るしかありません。
しかしその判断を人知に依らず、与えられたデータのみを使ってインテリジェントな手法で実現する。
この統計的命題を解決することが、投資における人工知能(機械学習)の本来の役割のはずです。
ディープラーニングや自然言語処理によって、ビッグデータを分析し指標化することも重要ですが、
この根本的な課題解決がないがしろにされているような気がします。


バランスカーブの騰落状況

今回はどうでもいいようなお話です。

システムの評価指標の1つとしてドローダウンがあります。
当然ながら最大値と最長期間とも小さいほうが良いのですが、
実運用におけるストレスからはもう少し違った視点が良いのではないか、とも思います。

①上り調子のときの一時的な損失について
 例えば直近で300万稼ぎ、その反発として100万円を失ったとします。
 このとき単純に考えると100万円のドローダウンが発生していることになりますが、
 運用上のストレスはそれほど大きくないと考えられます。

②全く資産が伸びない期間について
 ドローダウン上は0円となりますが、
 資産が伸びずに張り付いたままの期間は長引けば長引くほどツライものです。
 運用上のストレスは蓄積されていると考えられます。

③大きな損失が発生した直後の回復期間について
 一撃で大きな損失が発生した場合、当然ながらその翌日から地道に挽回していくことになります。
 このときシステムがすぐに復調すれば、損失発生直後のストレスは徐々に回復してくるはずです。
 しかしドローダウン期間だけに注目していると、この効用は観測できません。


以上のことからドローダウンだけでなくバランスカーブの騰落状況も合わせて確認するようにしています。
バランスカーブの騰落状況とは、「一ヶ月前の資産に対して現在の資産がどうなっているか」です。
この考え方で、上記の①~③がどのように評価されるか考えて見ます。

①上り調子のときの一時的な損失について
 バランスカーブの騰落状況は+200万円となり、特に問題のない状況のようです。

②全く資産が伸びない期間について
 バランスカーブの騰落状況は±0円となります。
 ただしこの場合、1ヶ月の期待値に対する触れ幅で判断します。
 1ヶ月の期待値が+100万円であれば当然ながらアンダーパフォーム期間であり、
 運用上ストレスがたまっている期間になります。

③大きなドローダウンを食らった直後の回復期間について
 ドローダウン期間が数か月にわたる場合を考えます。
 ドローダウン期間の最中にあっても、1ヶ月前に対して期待値どおりの利益が積み上がっていれば、
 ストレスはほぼ通常通りに回復していると考えられます。


計算期間が一ヶ月では騰落率のばらつきが少々大きいため、
計算期間を長くすれば平滑化されてアウトパフォーム期間、アンダーパフォーム期間が明確になります。
「この考え方が正しい」というわけではなく、「あくまでも多角的な視点が必要だ」ということです。

従業員に関するスタイルファクター

昨日、はっぱ@ロングショート様の株雑談(Livetube)に参加してきました。
参加人数も多く、いろいろと貴重な意見を頂くことができました。
その中でも特に「従業員に関するスタイルファクター」が話題に挙がりました。
これはと思い、夜中ではあったのですが早速検証を回しました(1時間ほどの作業でした)。

◆検証要領
<対象銘柄>
 TOPIX500
<観察期間>
 2010年1月~2015年12月
<観察方法>
 従業員に関する以下の6つのスタイルファクターについて、ファクターリターンを観察します。
 (3)と(4)の指標は一応伏せておきますが、容易に想像できると思います。
<検証ファクター>
 (1)従業員1人当たり純資産
 (2)従業員1人当たり純利益
 (3)従業員1人当たり***
 (4)従業員1人当たり**
 (5)従業員数
 (6)従業員平均年齢

◆結果
 以下に(1)従業員1人当たり純資産と(2)従業員1人当たり純利益のファクターリターンを示します。
 両者とも負の特性が確認できます(指標の大きいものが下落し、指標の小さいものが上昇する)。
 どちらかと言うと、(1)従業員1人当たり純資産のほうが効きが良いかもしれません。

170110-1.png


◆考察
 1.なぜこのような特性が出るのか
  推論の域を出ませんが、概ね株雑談の中で挙がった理由かと思います。
  結果が全てであり、演繹的な考察はあまり意味がないのかもしれません。
  どの時期にファクターリターンの推移が加速するのか、という視点もおもしろいかと思います。

 2.どの指標が最も顕著に特性が表れるのか、それはなぜか
  結論から言うと、(1)、(2)よりも顕著に特性が表れる指標が(3)~(6)の中に存在します。
  ここから先は自分でお確かめ下さい。
  (これに関しては私の中では理由付けが完了しています)。

 3.一般的な指標と比較してこの特性は優れているのか、実際に使えるレベルなのか
  追加検証次第だと思います。
  単純なPBRよりは使い勝手が良いかもしれません。
  株雑談の中でも挙がりましたが、業種別というのも追加の検証テーマです。
  また、他のグロース指標との組み合わせでの検証もおもしろいかもしれません。
  (ただし私はやる予定はありません)


最後になりますが、はっぱ@ロングショート様、どうもありがとうございました。
安易に検証結果を記載するのもどうかとも思いましたが、
あのような場を設けて頂いたことに対する私からのレスポンスとなります。

戦略なのか戦術か

よく見掛けるような題名ですが、
自分の今考えていることが「戦略」なのか「戦術」なのかをしっかり理解しておく必要があります。
戦略と戦術はそれぞれ多種多様な解釈が存在しますが、大まかに説明すると以下の通りです。

 戦略:全体の目的を達成するために、どこにどれだけ人的・物的資本を投下するか決定すること
 戦術:与えられた資本を使って局所的な目標を達成するための具体的手段

戦略はマクロ的、戦術はミクロ的と解釈していただいて構いません。
また戦略はマネージャーの管轄、戦術はプレイヤーの管轄であり、戦略は戦術の上位に存在する概念です。
普段システムトレーダーの行っている「ストラテジー検討」とは、当然ながら「戦術検討」となります。
ここで重要な点は「戦術検討」よりもまずは「戦略検討」に時間を割くべきということです。
戦略なき戦術には意味がありません。


戦略検討とは、実のところその中身は非常に曖昧であり、決まったフレームワークが存在しません。
MBA(Master of Business Administration:経営学修士)では戦略策定プロセスの講座がありますが、
それをそのまま現実に当てはめることができるかと言うと、そんな簡単なものではありません。
しかし最低でも以下のことは実施すべきでしょう。

 (1)ビジョンの明確化
  何のために投資をしているのか(お金が目的ではない、という方もいる筈です)
  投資を通じて将来どのような姿になりたいのか
  具体的な目標となる指標は何か、その程度はどのくらいなのか

 (2)自己分析とベンチマーク
  自分の強みは何なのか(どの分野の知識が豊富か、どのくらい時間的余裕があるか、など)
  競合相手にはどのような主体がどのくらいの割合でいるのか
  それらの主体はどのような戦術を使い、どのくらいのリターンを上げているのか
 
 (3)シナリオの検討
  (1)と(2)を踏まえた上で目標を達成するためにどのようなシナリオが考えられるのか
  そのシナリオを達成するための課題やキーとなる要素技術は何か、それは自分の強みと合致するか
  複数のシナリオが立案でき、その中から客観的に最適なものを選択できるか


もしも戦術の一つとしてシステムトレードを選択したのであれば、相応のシナリオがないとおかしい筈です。
単純に「年利100%という謳い文句を見つけた」というだけであれば、少々残念な気がします。
ただでさえリソースの少ない個人投資家は、戦略を間違えた時点で取り返しのつかないことになるのです。
こんな面倒な検討をしなくともこの世界は結果が全てという人もいるかもしれません。
しかし上級者ほど結果よりもプロセスを大事にするものです。
なぜなら結果はランダム効果により上下に触れるものだからです。

とは言っても上記はあくまでも理想論のため、参考として留意しておくくらいが丁度良いかと思います。

2016年をシストレ的目線で振り返る

2016年もそろそろ終わりです。
2016年はチャイナショックに始まり、2月の世界同時株安を切り抜け、6月の英EU離脱を乗り切って
最後の最後でトランプ相場で盛り返す、というジェットコースターのような相場でした。
本年最後のコラムとして、2016年がシストレ的な目線でどのような年であったか振り返ってみます。


まずは今年が例年と比較してどうであったかを振り返ります。
以下は日経平均株価の年足です。
2016年は大きな下ヒゲが発生し終値≒高値で胴体部が殆ど無いような形です。
サブプライムローン問題が顕在化した2007年の前年である2006年にそっくりの形と水準であり、
「来年は大丈夫なんだろうか・・・」と一抹の不安がよぎってしまいます。
なお2016年の日経平均の日次リターンの標準偏差は1.72%であり、
ボラティリティで見ると2000年から2016年の17年間で4番目の大きさでした。

161227-1.png



次に年内の値動きに目を移し、TOPIXのリターンを観察していきます。
ここではギャップのリターン(オーバーナイトリターン)と日中のリターン(イントラデイリターン)に
分けて観察します。
まずギャップですが、とりたてて顕著な特徴は見られません。
今年は「ロングオーバーナイトが突出して機能した」などということは無いようです。
次に日中ですが、後半期から緩やかな上昇トレンドが確認できます。
このため、ロングメインの投資家は多少なりとも恩恵を受けることができたのかもしれません。

続いてTOPIXの受けたマクロ的な影響を検証します。
ここでは最も基本的な米株式市場から受けた影響を累積リターンで観察します。
S&P500の前日比を元に翌日のTOPIXを寄り引けで売買したときの累積リターンを示します。
(S&P500前日比がプラス→TOPIXを寄り引けで買い、マイナス→売り)
年初から3月までのわずか三ヶ月で累積リターンはなんと30%に達します。
この期間は日中も前日の米国市場の投資家マインドを引き継いでいたことになります。
チャイナショックからの一連の急落において、日本時間でのマインド反転は難しかったのでしょう。
突っ込み買いにはかなり危険な相場であったと思います。

161227-2.png



最後に個別銘柄の値動きをスタイルファクターの観点から追っていきます。
今回取り上げるスタイルファクターは、サイズ、PBR、モメンタムの3つです。
これらのファクターリターンを以下に示します。

まずサイズファクターですが、若干のうねりはあるものの全体として負のトレンドが確認できます。
これは小型株効果そのものです。長年に渡ってロバストな特性が確認できるファクターの1つです。
次にPBRとモメンタムファクターですが、この両者はバラツキはあるものの同じような形で推移します。
前半期はファクターリターンが正方向へ推移しており、逆に後半期は負方向へ推移しています。
すなわち2016年は「前半期は割高が買われ割安が売られる」、「後半期は割高が売られ割安が買われる」、
といったトレンド相場からリバーサル相場への転換があったことが分かります。
リバーサルメインの投資家は前半期は苦しく、後半期は易しい相場であったと言えます。

161227-3.png



ではこの転換の要因は何だったのでしょうか?

これは7月8日の米雇用統計による投資家マインドの好転に依るものです。
6月の雇用統計(発表日は7月8日)は予想+18万人に対して実績+28.7万人という強烈な上昇であり、
度重なるショックの最中でも米経済が堅調であることが再確認され、利上げ観測が強まりました。
(なおこの前月の雇用統計は予想+16万人に対して実績+3.8万人と悲惨なものでした。)

この日を境に株式だけでなくその他のアセットも転換期を迎えます。
米10年債は同日に今年の最低利回り1.3579%をつけた後に上昇に転じます。
日10年債も同日にマイナス0.282%をつけた後、上昇に転じます。
(日10年債は7月27日に一度だけこのマイナス0.282%を割っています)
ドル円は同日に99.98円の安値を付け、8月と9月にそれぞれこの安値を試した後、
急激な円安トレンドへ転換しています。

161227-4.png



よってシストレ目線(およびマクロ市況目線)での今年最大のイベントは、
チャイナショックでも英EU離脱でもトランプ当選でもなく「米雇用統計」なのでした。
米大統領選時には既に市場の潜在心理は好転しており結果に依らずリスクオンは進んだと考えられます。
このようなトレンドやレジームというものは、後になってから振り返って初めて分かるものであり、
その切り替わりを予測しようとすると痛い目を見ます。

本コラムはこれで終わりです。
2017年は、どうか世界的な金融危機が訪れませんように。