爬蟲采集東方財富股票人氣榜數(shù)據(jù)（上）

禁忌石 2022-03-20

展開全文

數(shù)據(jù)是量化交易的基礎(chǔ)，通過網(wǎng)絡(luò)上采集必要的數(shù)據(jù)，是一件很有意思的事情，通過“爬蟲”技術(shù)創(chuàng)建數(shù)據(jù)自動采集接口，從而獲取更多決策因子。我們要做的并不是通過“算法”去預(yù)測未來股票的價格，而是通過計算機技術(shù)更快、更高效地發(fā)現(xiàn)投資價值（時機）。

警告

1.爬蟲程序規(guī)避網(wǎng)站經(jīng)營者設(shè)置的反爬蟲措施或者破解服務(wù)器防抓取措施，非法獲取相關(guān)信息，情節(jié)嚴重的，有可能構(gòu)成“非法獲取計算機信息系統(tǒng)數(shù)據(jù)罪”。

2.爬蟲程序干擾被訪問的網(wǎng)站或系統(tǒng)正常運營，后果嚴重的，觸犯刑法，構(gòu)成“破壞計算機信息系統(tǒng)罪”

3.爬蟲采集的信息屬于公民個人信息的，有可能構(gòu)成非法獲取公民個人信息的違法行為，情節(jié)嚴重的，有可能構(gòu)成“侵犯公民個人信息罪”。

應(yīng)遵守的基本規(guī)則是

1、遵守 Robots 協(xié)議

Robots 協(xié)議也叫 robots.txt（統(tǒng)一小寫）是一種存放于網(wǎng)站根目錄下的 ASCII 編碼的文本文件，它通常告訴網(wǎng)絡(luò)搜索引擎的漫游器（又稱網(wǎng)絡(luò)蜘蛛），此網(wǎng)站中的哪些內(nèi)容是不應(yīng)被搜索引擎的漫游器獲取的，哪些是可以被漫游器獲取的。

2、不能造成對方服務(wù)器癱瘓

2019年05月28日國家網(wǎng)信辦發(fā)布的《數(shù)據(jù)安全管理辦法（征求意見稿）》中，擬通過行政法規(guī)的形式，對爬蟲的使用進行限制。

3、不能非法獲利

我們絕大多數(shù)公司和個人使用的爬蟲都是沒有問題的，不必人人自危，只要把握住不要爬取個人信息，不要利用爬蟲非法獲利，不要爬取網(wǎng)站的付費內(nèi)容。

準備爬蟲工具

1.Chrome（瀏覽器）

Chrome屬于爬蟲的基礎(chǔ)工具，一般我們用它做初始的爬取分析，頁面邏輯跳轉(zhuǎn)、簡單的js調(diào)試、網(wǎng)絡(luò)請求的步驟等。

2.XPath Helper

在提取網(wǎng)頁數(shù)據(jù)時，我們一般需要使用xpath語法進行頁面數(shù)據(jù)信息提取，一般地，但我們只能寫完語法，發(fā)送請求給對方網(wǎng)頁，然后打印出來，才知道我們提取的數(shù)據(jù)是否正確，這樣一方面會發(fā)起很多不必要的請求，另外一方面，也浪費了我們的時間。這個就可以用到XPath Helper了，通過Chrome安裝插件后，我們只需要點擊它在對應(yīng)的xpath中寫入語法，然后便可以很直觀地在右邊看到我們的結(jié)果。

3.JSONView

有時候提取的數(shù)據(jù)是Json格式的，因為它簡單易用，越來越多的網(wǎng)站傾向于用Json格式進行數(shù)據(jù)傳輸。這個時候安裝這個插件后，可以很方便的來查看Json數(shù)據(jù)。

4.JSON Editor Online

JSONView是直接在網(wǎng)頁端返回的數(shù)據(jù)結(jié)果是Json，但多數(shù)時候我們請求的結(jié)果，都是前端渲染后的HTML網(wǎng)頁數(shù)據(jù)，我們發(fā)起請求后得到的json數(shù)據(jù)，在終端(即terminal)中無法很好的展現(xiàn)怎么辦？借助JSON Editor Online就可以幫你很好的格式化數(shù)據(jù)啦，一秒格式化，并且實現(xiàn)了貼心得折疊Json數(shù)據(jù)功能。