究極のアンサンブル学習-ヌメライとは

『ビットコインで雇われた匿名の7500人が頭脳となるヘッジファンド「Numerai」』-WIRED、2/26

これまた面白いファンドのニュースが入ってきました。

ヌメライとは、クラウドソーシングによるアンサンブル学習を行うヘッジファンドです。
日本語でヌメライと発音すると少々格好悪いですが、
本来は「Numer.AI」であり「Numeric AI」の略であると思われます。

◆WIREDの要約
 ・クラウドソーシングで予測モデルを集め、個々のモデルからアンサンブル学習を行う。
  16年秋時点で4500人のソースが25万のモデルを作成。
  16年12月時点で7500人のソースが50万のモデルを作成。
  本日時点では85万のモデルが作成されています。
 ・毎週、TOP100がビットコインで報酬を受け取る。
 ・暗号化メソッドを使い、依頼主と請負者の双方の情報が保護される。
 ・ルネッサンステクノロジー等、様々な企業から出資を受けている。


これだけではイマイチどこが画期的か分かりませんので、もう少し詳細に説明します。

そもそものアンサンブル学習とは、個々に学習した複数の学習器(以下モデル)を融合させて、
汎化能力を向上させた一つの統合モデルを作成することです。
この場合、個々のモデルの精度が問われることはなく、
あくまでも全体として良い結果が得られれればよい、という考え方です。
ここで重要な点は各モデル間の相関を低くすることであり、
そのため各モデルの構築過程にランダム化手法を取り入れることが一般的です。
アンサンブル学習は一般的にトータルでの予測精度が高いと言われていますが、
モデルの数が数百程度の場合は偶然に説明力の低い変数が採用されてしまうことも起こりえます。

アンサンブル学習の各モデルは、
本来であればSFのAIのようなものが自律的に創造するのが一番良いのです。
これは人間が多数のストラテジーを考え、複数を並行運用する分散投資と同じことです。
しかしそのようなAIは存在しないため、
仕方なしに決定木などの分析テンプレートに当てはめてモデル作成しているのが実状です。

ヌメライは、この各モデルの構築をクラウドソーシングの力で人間に実行させるという、
AIの一部をマンパワーで置き換えた、逆発想の画期的な試みです。
単純なテンプレモデルと比較した場合、
当然ながら予測力が高く個々の相関が低いモデルが多数出来上がるのは間違いありません。
(しっかりしたデータサイエンティストが作れば、の話ですが)


また、そのソーシング体系にも目を見張るものがあります。
ヌメライは暗号化したデータセットを誰でもダウンロードできるようにしています。
暗号化されているため、ヌメライが採用している変数の詳細は表に出ることは決してありません。

請負者はそれをダウンロードし、学習用のデータセットでモデルを構築します。
請負者はモデルをヌメライに提出する義務はなく、予測結果のみアップロードすれば良いのです。
これはFXや株のシステムトレード販売ではありえないことです。
モデルを提出する必要がないため、請負者の知的財産は全て保護されます。
また、それらが保護されているがゆえにヌメライは大量のデータを集めることが可能となっており、
まさしく両者でwin-winの関係が成立しています。


さて、もう少し詳細に見ていきます。

ヌメライのホームページのトップには、ランキング形式でTOP400程度が張り出されています。
具体的なランク付けは、ヌメライの最終アンサンブルモデルに対するウェイトと相関で決定されます。

また、同時にLOGLOSSという評価値が記載されています。
(LOGLOSSは参考値でありランクに考慮されません)
LOGLOSSとは対数損失関数であり、勝率50%の0.69314を境に低いほうが優秀な成績となります。
TOPのXIRAX氏のLOGLOSSは0.690となっており、これを単純に勝率換算すると約54%となります。
このあたりが現実的に達成可能な勝率の上限だと思います。
(様々なアセットが入り混じった数十万のデータセットにおける予測性能の上限、という意味です)
時折、勝率60%や70%という記事を見掛けますが、ヌメライの結果からすると、
それらは明らかにオーバーフィッティングの産物であると言えます。

最後にヌメライの学習用データセットですが、
説明変数は50個の特徴量×21万7千サンプルであり、
これに対応する目的変数は同数のサンプルのバイナリ値となっています。
しかし、この学習用データセットを見て、「あれ?」っと思ってしまいました。
このデータセットをどのように捉えるかで、
AI投資に対する経験値(機械学習の経験値ではありません)が問われるような気がします。

他にもいろいろと分かったことがあるのですが、本記事はここまでとします。
興味があったら是非確かめてみてください。