如何開始寫你的第一個(gè)python腳本——簡單爬蟲入門！文末附教程

老三的休閑書屋 2019-01-17

展開全文

好多朋友在入門python的時(shí)候都是以爬蟲入手，而網(wǎng)絡(luò)爬蟲是近幾年比較流行的概念，特別是在大數(shù)據(jù)分析熱門起來以后，學(xué)習(xí)網(wǎng)絡(luò)爬蟲的人越來越多，哦對(duì)，現(xiàn)在叫數(shù)據(jù)挖掘了！

其實(shí)，一般的爬蟲具有2個(gè)功能：取數(shù)據(jù)和存數(shù)據(jù)！好像說了句廢話。。。

而從這2個(gè)功能拓展，需要的知識(shí)就很多了：請(qǐng)求數(shù)據(jù)、反爬處理、頁面解析、內(nèi)容匹配、繞過驗(yàn)證碼、保持登錄以及數(shù)據(jù)庫等等相關(guān)知識(shí)，今天我們就來說說做一個(gè)簡單的爬蟲，一般需要的步驟！

存數(shù)據(jù)

先說存數(shù)據(jù)，是因?yàn)樵诔跗趯W(xué)習(xí)的時(shí)候，接觸的少，也不需要太過于關(guān)注，隨著學(xué)習(xí)的慢慢深入，我們需要保存大批量的數(shù)據(jù)的時(shí)候，就需要去學(xué)習(xí)數(shù)據(jù)庫的相關(guān)知識(shí)了！這個(gè)我們隨后開篇單獨(dú)說明。

初期，我們抓到需要的內(nèi)容后，只需要保存到本地，無非保存到文檔、表格（excel）等等幾個(gè)方法，這里大家只需要掌握with語句就基本可以保證需求了。大概是這樣的：

1 with open（路徑以及文件名，保存模式） as f：
2 f.write（數(shù)據(jù)） #如果是文本可直接寫入，如果是其他文件，數(shù)據(jù)為二進(jìn)制模式更好

當(dāng)然保存到excel表格或者word文檔需要用到 xlwt庫（excel）、python-docx庫（word），這個(gè)在網(wǎng)上很多，大家可以自行去學(xué)習(xí)。

取數(shù)據(jù)

啰嗦那么多，終于到正題，怎么來抓取我們想要的數(shù)據(jù)呢？我們一步步的來！

一般所謂的取網(wǎng)頁內(nèi)容，指的是通過Python腳本實(shí)現(xiàn)訪問某個(gè)URL地址(請(qǐng)求數(shù)據(jù))，然后獲得其所返回的內(nèi)容（HTML源碼，Json格式的字符串等）。然后通過解析規(guī)則（頁面解析），分析出我們需要的數(shù)據(jù)并?。▋?nèi)容匹配）出來。

在python中實(shí)現(xiàn)爬蟲非常方便，有大量的庫可以滿足我們的需求，比如先用requests庫取一個(gè)url（網(wǎng)頁）的源碼

如何開始寫你的第一個(gè)python腳本——簡單爬蟲入門！文末附教程

這幾行代碼就可以獲得網(wǎng)頁的源代碼，但是有時(shí)候這里面會(huì)有亂碼，為什么呢？

因?yàn)橹形木W(wǎng)站中包含中文，而終端不支持gbk編碼，所以我們?cè)诖蛴r(shí)需要把中文從gbk格式轉(zhuǎn)為終端支持的編碼，一般為utf-8編碼。

所以我們?cè)诖蛴esponse之前，需要對(duì)它進(jìn)行編碼的指定（我們可以直接指定代碼顯示的編碼格式為網(wǎng)頁本身的編碼格式，比如utf-8，網(wǎng)頁編碼格式一般都在源代碼中的標(biāo)簽下的charset屬性中指定）。加上一行即可

1 response.encode = 'utf-8' #指定編碼格式

至此，我們已經(jīng)獲取了網(wǎng)頁的源代碼，接下來就是在亂七八糟的源代碼中找到我們需要的內(nèi)容，這里就需要用到各種匹配方式了，常用的幾種方式有：正則表達(dá)式（re庫），bs4（Beautifulsoup4庫）,xpath(lxml庫)！

建議大家從正則開始學(xué)習(xí)，最后一定要看看xpath，這個(gè)在爬蟲框架scrapy中用的很多！

通過各種匹配方式找到我們的內(nèi)容后（注意：一般匹配出來的是列表），就到了上面所說的存數(shù)據(jù)的階段了，這就完成了一個(gè)簡單的爬蟲！

當(dāng)然了，在我們具體寫代碼的時(shí)候，會(huì)發(fā)現(xiàn)很多上面沒有說到的內(nèi)容，比如

獲取源代碼的時(shí)候遇到反爬，根本獲取不到數(shù)據(jù)

有的網(wǎng)站需要登錄后才可以拿到內(nèi)容

遇到驗(yàn)證碼

獲取到內(nèi)容后寫入文件出錯(cuò)

怎樣來設(shè)計(jì)循環(huán)，獲取大批量的內(nèi)容甚至整站爬蟲

總之，學(xué)習(xí)本身是一個(gè)漫長的過程，我們需要不斷的練習(xí)來增強(qiáng)我們的學(xué)習(xí)興趣，以及學(xué)到更扎實(shí)的知識(shí)！大家加油！

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：老三的休閑書屋 > 《待分類》

舉報(bào)/認(rèn)領(lǐng)