小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

Python爬蟲是怎么回事?一張圖告訴你爬蟲的原理

 靜幻堂 2018-08-17
優(yōu)就業(yè)UI學(xué)習(xí)自留地 2018-08-15 14:03:18

Python 爬蟲架構(gòu)主要由五個(gè)部分組成,分別是調(diào)度器、URL管理器、網(wǎng)頁下載器、網(wǎng)頁解析器、應(yīng)用程序(爬取的有價(jià)值數(shù)據(jù))。


調(diào)度器:相當(dāng)于一臺(tái)電腦的CPU,主要負(fù)責(zé)調(diào)度URL管理器、下載器、解析器之間的協(xié)調(diào)工作。

URL管理器:包括待爬取的URL地址和已爬取的URL地址,防止重復(fù)抓取URL和循環(huán)抓取URL,實(shí)現(xiàn)URL管理器主要用三種方式,通過內(nèi)存、數(shù)據(jù)庫(kù)、緩存數(shù)據(jù)庫(kù)來實(shí)現(xiàn)。

網(wǎng)頁下載器:通過傳入一個(gè)URL地址來下載網(wǎng)頁,將網(wǎng)頁轉(zhuǎn)換成一個(gè)字符串,網(wǎng)頁下載器有urllib2(Python官方基礎(chǔ)模塊)包括需要登錄、代理、和cookie,requests(第三方包)

網(wǎng)頁解析器:將一個(gè)網(wǎng)頁字符串進(jìn)行解析,可以按照我們的要求來提取出我們有用的信息,也可以根據(jù)DOM樹的解析方式來解析。網(wǎng)頁解析器有正則表達(dá)式(直觀,將網(wǎng)頁轉(zhuǎn)成字符串通過模糊匹配的方式來提取有價(jià)值的信息,當(dāng)文檔比較復(fù)雜的時(shí)候,該方法提取數(shù)據(jù)的時(shí)候就會(huì)非常的困難)、html.parser(Python自帶的)、beautifulsoup(第三方插件,可以使用Python自帶的html.parser進(jìn)行解析,也可以使用lxml進(jìn)行解析,相對(duì)于其他幾種來說要強(qiáng)大一些)、lxml(第三方插件,可以解析 xml 和 HTML),html.parser 和 beautifulsoup 以及 lxml 都是以 DOM 樹的方式進(jìn)行解析的。

應(yīng)用程序:就是從網(wǎng)頁中提取的有用數(shù)據(jù)組成的一個(gè)應(yīng)用。


用一個(gè)圖來解釋一下調(diào)度器是如何協(xié)調(diào)工作的:

Python爬蟲是怎么回事?一張圖告訴你爬蟲的原理

圖片整理自網(wǎng)絡(luò),侵刪。

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多