|
數(shù)據(jù)是量化交易的基礎(chǔ),通過網(wǎng)絡(luò)上采集必要的數(shù)據(jù),是一件很有意思的事情,通過“爬蟲”技術(shù)創(chuàng)建數(shù)據(jù)自動采集接口,從而獲取更多決策因子 。我們要做的并不是通過“算法”去預(yù)測未來股票的價格,而是通過計算機技術(shù)更快、更高效地發(fā)現(xiàn)投資價值(時機)。 警告 1.爬蟲程序規(guī)避網(wǎng)站經(jīng)營者設(shè)置的反爬蟲措施或者破解服務(wù)器防抓取措施,非法獲取相關(guān)信息,情節(jié)嚴重的,有可能構(gòu)成“非法獲取計算機信息系統(tǒng)數(shù)據(jù)罪”。 2.爬蟲程序干擾被訪問的網(wǎng)站或系統(tǒng)正常運營,后果嚴重的,觸犯刑法,構(gòu)成“破壞計算機信息系統(tǒng)罪” 3.爬蟲采集的信息屬于公民個人信息的,有可能構(gòu)成非法獲取公民個人信息的違法行為,情節(jié)嚴重的,有可能構(gòu)成“侵犯公民個人信息罪”。 應(yīng)遵守的基本規(guī)則是 1、 遵守 Robots 協(xié)議 Robots 協(xié)議也叫 robots.txt(統(tǒng)一小寫)是一種存放于網(wǎng)站根目錄下的 ASCII 編碼的文本文件,它通常告訴網(wǎng)絡(luò)搜索引擎的漫游器(又稱網(wǎng)絡(luò)蜘蛛),此網(wǎng)站中的哪些內(nèi)容是不應(yīng)被搜索引擎的漫游器獲取的,哪些是可以被漫游器獲取的。 2、不能造成對方服務(wù)器癱瘓 2019年05月28日國家網(wǎng)信辦發(fā)布的《數(shù)據(jù)安全管理辦法(征求意見稿)》中,擬通過行政法規(guī)的形式,對爬蟲的使用進行限制。 3、不能非法獲利 我們絕大多數(shù)公司和個人使用的爬蟲都是沒有問題的,不必人人自危,只要把握住不要爬取個人信息,不要利用爬蟲非法獲利,不要爬取網(wǎng)站的付費內(nèi)容。 ![]() 準備爬蟲工具 1.Chrome(瀏覽器) Chrome屬于爬蟲的基礎(chǔ)工具,一般我們用它做初始的爬取分析,頁面邏輯跳轉(zhuǎn)、簡單的js調(diào)試、網(wǎng)絡(luò)請求的步驟等。 2.XPath Helper 在提取網(wǎng)頁數(shù)據(jù)時,我們一般需要使用xpath語法進行頁面數(shù)據(jù)信息提取,一般地,但我們只能寫完語法,發(fā)送請求給對方網(wǎng)頁,然后打印出來,才知道我們提取的數(shù)據(jù)是否正確,這樣一方面會發(fā)起很多不必要的請求,另外一方面,也浪費了我們的時間。這個就可以用到XPath Helper了,通過Chrome安裝插件后,我們只需要點擊它在對應(yīng)的xpath中寫入語法,然后便可以很直觀地在右邊看到我們的結(jié)果。 3.JSONView 有時候提取的數(shù)據(jù)是Json格式的,因為它簡單易用,越來越多的網(wǎng)站傾向于用Json格式進行數(shù)據(jù)傳輸。這個時候安裝這個插件后,可以很方便的來查看Json數(shù)據(jù)。 4.JSON Editor Online JSONView是直接在網(wǎng)頁端返回的數(shù)據(jù)結(jié)果是Json,但多數(shù)時候我們請求的結(jié)果,都是前端渲染后的HTML網(wǎng)頁數(shù)據(jù),我們發(fā)起請求后得到的json數(shù)據(jù),在終端(即terminal)中無法很好的展現(xiàn)怎么辦?借助JSON Editor Online就可以幫你很好的格式化數(shù)據(jù)啦,一秒格式化,并且實現(xiàn)了貼心得折疊Json數(shù)據(jù)功能。 ![]() |
|
|