實時股票分析系統(tǒng)的架構與算法

wbn15 2016-01-04

展開全文

如果能在一臺服務器上應用人工智能和機器學習算法處理每天的股票交易，而自己則在夏威夷的海灘上享受生活，那將是多么愜意呀。雖然股票價格的變化受多種因素的影響，世上也沒有免費的午餐，但是有些公司依然能夠借助于開源的機器學習算法和數(shù)據(jù)分析平臺得到“更好、更健康、更便宜的午餐”。本文搜集并整理了一些如何實現(xiàn)實時股票分析系統(tǒng)的資料，從架構和算法兩個層面給出了一種可行的方案。

雖然股票交易市場一直在持續(xù)地變化，經(jīng)濟力量、新產(chǎn)品、競爭、全球性的事件、法規(guī)、甚至是Tweet都有可能引起市場的變動，但是在這個市場上，使用不同的模型通過股票的歷史價格來預測未來的價格依然是一種常見的實踐。一個實時的股票分析系統(tǒng)不僅需要將影響股票價格的各種數(shù)據(jù)集合起來進行分析，還需要具有響應低延遲的特性，因而架構必須是高可伸縮、高擴展的，一方面隨著時間的流逝，系統(tǒng)將存儲越來越多的數(shù)據(jù)；另一方面數(shù)據(jù)處理應用程序必須能夠通過添加更多的節(jié)點進行水平擴展以保持實時地響應速度。

來自于Pivotal公司的企業(yè)應用解決方案架構師William Markito最近在公司的博客上發(fā)表了題為《實時股票預測系統(tǒng)開源參考架構》的文章，介紹了一個通過開源技術實現(xiàn)實時股票分析系統(tǒng)的參考架構。雖然該架構關注于金融交易，但是也適用于其他行業(yè)的實時用例場景。William Markito首先從最頂層的視角，給出了一個高層架構圖：

從最頂層的視角看，由預測模型驅動的最優(yōu)化實時股票預測架構包含數(shù)據(jù)存儲、模型訓練、實時評估和采取行動四部分：首先，進入系統(tǒng)的實時交易數(shù)據(jù)必須被捕獲并存儲，作為歷史數(shù)據(jù)。第二，系統(tǒng)必須能從數(shù)據(jù)的歷史趨勢中學習，識別出影響決定的模式和概率。第三，系統(tǒng)需要能夠實時地將新傳入的交易數(shù)據(jù)與從歷史數(shù)據(jù)中學到的模式和概率進行比較。最后，系統(tǒng)還需要預測出輸出并決定所要采取的行動。

之后，William Markito又使用Spring XD （現(xiàn)在稱為Spring Cloud Data Flow，是一個統(tǒng)一并且可擴展的分布式系統(tǒng)，可用于數(shù)據(jù)抽取、實時分析、批量處理和數(shù)據(jù)導出場景）、Apache Geode （一個針對高可擴展應用程序的開源分布式內存數(shù)據(jù)庫，目前正在孵化中）、Spark MLlib 、Apache HAWQ （一個Hadoop原生的大規(guī)模并行SQL分析引擎）以及Apache Hadoop?等開源組件對架構中的每一部分進行了細化：

如圖所示，整個數(shù)據(jù)流包含6步，每一部分都是松耦合并且可以水平擴展的：

使用Spring XD讀取并處理通過Yahoo! 金融Web服務API獲取到的實時數(shù)據(jù)，然后通過Apache Geode 將數(shù)據(jù)存儲在內存中。
使用 Apache Geode中的實時熱數(shù)據(jù)，通過Spark MLib應用創(chuàng)建并訓練模型，將新數(shù)據(jù)與歷史模式進行比較。當然，也可以使用其他工具集創(chuàng)建模型，例如 Apache MADlib或者R。
將訓練出的機器學習模型推送到部署好的應用程序上，同時更新 Apache Geode以便于進行實時預測和決策。
隨著時間的推移，有一部分數(shù)據(jù)將變成冷數(shù)據(jù)，將這一部分數(shù)據(jù)從 Apache Geode移動到Apache HAWQ上并最終存儲到Apache Hadoop?中。
周期性地基于整個歷史數(shù)據(jù)集重新訓練并更新機器學習模型。這一步讓系統(tǒng)形成了一個閉環(huán)，當歷史模式發(fā)生變化或者新的模式出現(xiàn)的時候，它會持續(xù)地更新和提升模型。

為了讓讀者能夠在自己的筆記本上運行這一架構，William Markito還給出了一個更為簡化的實現(xiàn)，該版本移除了長期的數(shù)據(jù)存儲組件Apache HAWQ和Apache Hadoop?。

該解決方案中的每一個組件都責任明確，支持擴展并且能夠在云環(huán)境中運行。那么除了架構之外，針對影響股票價格的不同因素，應該選擇哪些算法來訓練模型并預測股票價格趨勢呢？

在SlideShare上LargitData的CEO David Chiu介紹了如何通過隱馬爾科夫模型（HMM）來預測股票價格，David Chiu認為股票的歷史行為與當前行為具有一定的相似性，明天的股票價格可能會遵循過去的某種模式：

另外，在Vatsal H. Shah 的網(wǎng)站上還有一個文檔介紹了Decision Stump 算法、線性回歸、支持向量機、Boosting 算法和基于文本分析的方法在股票預測領域的應用，并對這些算法的預測結果進行了比較。

除此之外，與上市公司相關的新聞動態(tài)也會對股票價格造成影響，例如并購定增事項、公司領導人的離開等等，對于這一問題，新加坡的數(shù)據(jù)科學家Lim Zhi Yuan在SlideShare上分享了一些自己的經(jīng)驗。Lim Zhi Yuan在該分享中研究了外部事件對于股票價格的影響，在分析時他分別通過線性模型和非線性模型兩種方法進行了實驗，線性模型采用了支持向量機（SVM）算法，非線性模型采用了深度神經(jīng)網(wǎng)絡模型。