小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

[譯] 實時股票預(yù)測的開源參考結(jié)構(gòu)

 richard_168 2016-01-09

大數(shù)據(jù)文摘作品,歡迎個人轉(zhuǎn)發(fā)朋友圈,自媒體、媒體、機構(gòu)轉(zhuǎn)載務(wù)必申請授權(quán),后臺留言“機構(gòu)名稱+文章標(biāo)題+轉(zhuǎn)載”,申請過授權(quán)的不必再次申請,只要按約定轉(zhuǎn)載即可,但文末需放置大數(shù)據(jù)文摘二維碼。

作者:WilliamMarkito

翻譯:姜詠耀, Helen

審校:Rebecca,Shawn

素材來源:https://blog./big-data-pivotal/case-studies/an-open-source-reference-architecture-for-real-time-stock-prediction


有這樣一個傳說,將人工智能和機器學(xué)習(xí)算法用于服務(wù)器農(nóng)場后,你就可以搬家到夏威夷,在讓機器交易的同時你終日躺在沙灘上享受生活。但是,問題在于交易市場是不斷變化的:經(jīng)濟力量,新產(chǎn)品,競爭,世界事件,法規(guī),甚至推特都是因素。雖然沒有免費的午餐,在開放源碼機器學(xué)習(xí)算法和數(shù)據(jù)分析平臺的幫助下,公司仍然可以得到一個“更好,更健康,更便宜的午餐”。在股票市場中,查看歷史股票價格并嘗試用不同的模型來預(yù)測未來是一種常見的做法。

雖然這篇文章不能提供股票分析的細節(jié),但它提出了一種用于解決大規(guī)模實時數(shù)據(jù)分析問題的方法,在一個可高度擴展和延伸性的參考架構(gòu)下使用開放源代碼工具。下面的架構(gòu)專注于金融交易,但也適用于幾乎任何一個行業(yè)的實時使用需求。關(guān)于這篇文章所討論的構(gòu)架的更多信息也可在網(wǎng)上通過Linux基金會,SlideShare,YouTube,和Pivotal Open Source Hub閱讀,同時這個架構(gòu)的組件也可以通過這些網(wǎng)站下載。

架構(gòu):股票預(yù)測與機器學(xué)習(xí)

概括而言,股票預(yù)測和機器學(xué)習(xí)的架構(gòu)(如下圖所示)支持一個由預(yù)測模型推動的優(yōu)化過程,并有三個基本組成部分。首先是輸入,實時交易數(shù)據(jù)必須被捕獲和存儲,變?yōu)闅v史數(shù)據(jù)。其次,系統(tǒng)必須能夠從數(shù)據(jù)的歷史趨勢中學(xué)習(xí),并通過識別規(guī)律和概率來做出決定。第三,系統(tǒng)需要把新的交易數(shù)據(jù)與歷史數(shù)據(jù)的規(guī)律和概率進行實時對比。然后預(yù)測出結(jié)果并決定采取何種行動。


上圖是簡化版,該類型的結(jié)構(gòu)在系統(tǒng)范圍增加的情況下還有幾個基本因素要考慮。其中重要的是,數(shù)據(jù)量和系統(tǒng)集成。許多不同來源和類型的數(shù)據(jù)被用來預(yù)測結(jié)果,以及各種各樣的匯數(shù)據(jù)處理。在一個20個數(shù)據(jù)源和20個處理匯的環(huán)境里,實時功能仍需要非常低延遲的操作。這體現(xiàn)了擴展問題的兩個面。首先,數(shù)據(jù)處理應(yīng)用程序要解決橫向擴展就需要增加更多的節(jié)點,并保持非常快速的實時響應(yīng)。其次,久而久之系統(tǒng)會存儲更多的數(shù)據(jù)。除了歷史數(shù)據(jù)集的增加,不同的分析工作也要同時運行來提高模型的預(yù)測性。

在系統(tǒng)架構(gòu)中使用開源組件

如果把每一個高層次組件擴展到更具體的細節(jié),開源產(chǎn)品可以運用到整個架構(gòu)的各個功能部分。這些包括SpringXD (現(xiàn)在叫Spring Cloud Data Flow),Geode (孵化中),Spark MLlib, ApacheHAWQ,和Apache Hadoop?。


數(shù)據(jù)流和數(shù)據(jù)通道大致可以分為六個步驟,如上圖所示,具體的講解會在下面展示。更重要的是,每個組件都具備松散耦合和橫向擴展性的特征。

SpingXD讀取和處理來自雅虎金融網(wǎng)絡(luò)服務(wù)器集群的API提供的實時數(shù)據(jù)。SpringXD極大簡化了數(shù)據(jù)流的業(yè)務(wù)流程,并為系統(tǒng)集成提供內(nèi)置連接器,SpringXD是基于Java語言的產(chǎn)品,可以處理各種轉(zhuǎn)換。數(shù)據(jù)通過SpringXD后,被儲存到一個具有快速,穩(wěn)定,靈活,和線性擴展的系統(tǒng)內(nèi)存里面,這個系統(tǒng)叫Apache Geode(孵化中),系統(tǒng)還可以提供事件的數(shù)據(jù)分發(fā)處理。

通過使用Apache Geode提供的新鮮數(shù)據(jù),Spark MLib的應(yīng)用程序建立和訓(xùn)練一個用于對比新數(shù)據(jù)與歷史數(shù)據(jù)之間規(guī)律的模型。其它工具也同樣支持這些模型,例如ApacheMADlib 或者 R。

機器學(xué)習(xí)模型得到的結(jié)果會被推送到其它應(yīng)用進行處理,同時結(jié)果會在Apache Geode上更新,并進行實時預(yù)測和決策。

隨著數(shù)據(jù)越來越多,舊的數(shù)據(jù)從最初的Apache Geode 被轉(zhuǎn)移到Apache HAWQ, 最后被儲存在Apache Hadoop中。ApacheHAWQ 支持基于拍字節(jié)的SQL查詢,同時也允許數(shù)據(jù)科學(xué)家迭代并優(yōu)化他們的模型。

另外一個處理程序被觸發(fā)了,使用已收集的歷史數(shù)據(jù)去有規(guī)律地重復(fù)訓(xùn)練和更新機器學(xué)習(xí)模型。在這程序里面,當(dāng)歷史數(shù)據(jù)發(fā)生改變或是有新的模型出現(xiàn)時,它會關(guān)閉數(shù)據(jù)循環(huán),創(chuàng)建持續(xù)更新,并進行優(yōu)化。

一個可在筆記本電腦上運行的簡化架構(gòu)

為了能讓系統(tǒng)在一個普通筆記本電腦上運行,其架構(gòu)需要被簡化。Linux Foundation 在匈牙利的布達佩斯舉行的Apache Big Data 2015 展會上展示了這一方法。簡單來講,這個方法是把長期數(shù)據(jù)存儲組件從Apache HAWQ 和 Apache Hadoop 上移除。


在這個解決方案中,每個組件的功能都有一個具體定義并且會根據(jù)需求在本地擴展或者在云端拓展。為了達到方便調(diào)度,維護和支持的目的,開源組件可以與Pivotal Clould Foundry 進行連接用于處理程序運行,PivotalGemFire 取代了Apache Geode 或者PivotalBig Data Suite 里的其它組件,用于處理大型的歷史數(shù)據(jù)集。

GitHub支持這一架構(gòu),另外一個例子是JavaFX。雅虎金融的新數(shù)據(jù)被SpringXD采集后推送到Apache Geode的服務(wù)器上,然后Apache Geode把這些數(shù)據(jù)推送到JavaFX,JavaFX把這些實時數(shù)據(jù)更新并將這些數(shù)據(jù)以可視化形式呈現(xiàn)給用戶。另外還有一個叫股票信息模擬器的應(yīng)用,它能夠在由于沒有網(wǎng)絡(luò)連接而無法收集信息的情況下使用,或者是為了二次開發(fā)而使用。


根據(jù)上圖所示,數(shù)據(jù)正在被實時收集然后生成相應(yīng)的指數(shù),比如最后收盤價,平均指數(shù)和預(yù)測平均指數(shù)。

更多相關(guān)學(xué)習(xí)

這個系統(tǒng)的源碼和安裝教程可以在Pivotal Open Source Hub上找到。下載的文件中也包括一個Vagrant box的虛擬環(huán)境,當(dāng)中包含了所有需要的組件。

從Linux Foundation, Slideshare, or YouTube獲得更多的信息

訪問與Apache Geode website, Pivotal GemFire website相關(guān)話題的文章

查看Apache Geode website, Pivotal GemFire website網(wǎng)站

閱讀Apache MADlib詳情

Editor’s Note: ?2015 Pivotal Software, Inc. All rights reserved.Pivotal, Pivotal Greenplum, Pivotal GemFire and Pivotal Cloud Foundry aretrademarks and/or registered trademarks of Pivotal Software, Inc. in the UnitedStates and/or other countries. Apache, Apache Hadoop, Hadoop, Apache Geode,Apache MADlib, Apache HAWQ, and ApacheSpark are either registered trademarks or trademarks of the Apache SoftwareFoundation in the United States and/or other countries.

編者注記:相關(guān)版權(quán)?2015 Pivotal Software, Inc. All rights reserved.Pivotal, Pivotal Greenplum, Pivotal GemFire and Pivotal Cloud Foundry aretrademarks and/or registered trademarks of Pivotal Software, Inc. in the UnitedStates and/or other countries. Apache, Apache Hadoop, Hadoop, Apache Geode,Apache MADlib, Apache HAWQ, and ApacheSpark are either registered trademarks or trademarks of the Apache SoftwareFoundation in the United States and/or other countries.

編譯者簡介

回復(fù)“志愿者”,了解我們及如何加入我們

往期精彩文章推薦,點擊圖片可閱讀

  • 人性不變,泡沫永存!27前年經(jīng)典諾獎得主論文再解讀

  • 斥資千萬美元,只為提速1毫秒

  • 【干貨】基于微信大數(shù)據(jù)的股票預(yù)測研究


【限時干貨下載】

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多