小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

一文入門Python Selenium動(dòng)態(tài)爬蟲——從了解房價(jià)開始

 鷹兔牛熊眼 2019-01-24


作者介紹:timber ,在一家電子商務(wù)(外貿(mào))公司任職運(yùn)維,平常工作時(shí)我覺得敲命令的樣子也很帥    ---Python,Changed me!

個(gè)人博客地址: 

https://blog.csdn.net/weixin_42946604


本文首發(fā)于:

https://blog.csdn.net/weixin_42946604


前言

我這里用到了的python+selenium來抓取鏈家房數(shù)據(jù),因爲(wèi)很多時(shí)候分析參數(shù),頭疼啊,能分析的還好。有些網(wǎng)頁就很變態(tài)哦,參數(shù)都是經(jīng)過加密的。


selenium自動(dòng)化優(yōu)點(diǎn)(我去找了一下度娘…哈哈),完全可以模擬人工操作網(wǎng)頁,而且相對其他爬蟲不用寫請求頭(偷懶),例如直接request的,聽說更容易被封(403),我只是聽說!


最后希望更大家互勉互力,一同進(jìn)步!現(xiàn)在跟大家分享一下python selenium的小知識(shí)…


整體流程


1、安裝selenium

命令行:pip install selenium 敲回車



2、下載chromedriver插件,對應(yīng)自己的版本,鏈接在此:

http://chromedriver.storage./index.html



直接放在Python的Scripts目錄下就可以不能配置變量了,而且也不用聲明路徑

(后面會(huì)說到)


3、安裝pyquery 一樣的用到pip安裝 敲回車



命令行:pip install pyquery


4、安裝pymysql

命令行:pip install pymysql 同上



5、以上安裝完成后,開始我們的騷操作了。


網(wǎng)頁分析


我們不用聲明請求頭還有分析一些參數(shù)了,只要我們拿到URL,指哪爬哪!
此次抓取的數(shù)據(jù)如下:



那這些數(shù)據(jù)的提取正題就來了!
打開開發(fā)者工具,google瀏覽器直接挫F12



發(fā)現(xiàn)每個(gè)小區(qū)的售房信息都在ul下的li標(biāo)簽里面。直接上代碼



第一步拿到html結(jié)構(gòu),然后用pyquery解析遍歷li標(biāo)簽,我使用了items()方法

提取小區(qū)名稱,找到a標(biāo)簽的class



提取房類的文本,span標(biāo)簽下面



其他的TEXT文本都是這樣的方法提取
提醒的一點(diǎn)就是



我們這里判斷一下ul的class,防止有時(shí)候網(wǎng)絡(luò)加載的問題,導(dǎo)致發(fā)生錯(cuò)誤。


模擬滾動(dòng),點(diǎn)擊下一步操作

我們沒跳轉(zhuǎn)一頁就滾動(dòng)一下滾動(dòng)條,這個(gè)有好處的哦有時(shí)候很多異步加載的,例如一下ajax加載的就是很好的例子了,查看評論的時(shí)候很多是這樣的!我們來看一下



這也是個(gè)方法,根據(jù)個(gè)人不同來定義,我這里以800來滾動(dòng)。
然后就是點(diǎn)擊下一頁的動(dòng)作,網(wǎng)頁有下一頁的



代碼實(shí)現(xiàn) 直接上圖



一些其他的小動(dòng)作,可以自己添加哦!


數(shù)據(jù)存儲(chǔ)


我這里用mysql存放數(shù)據(jù),上圖



我提前把數(shù)據(jù)表建好了的,表名為lianjie_data,數(shù)據(jù)庫名是lianjie,這里根據(jù)個(gè)人情況。
你可以寫一個(gè)data_save的方法,我這里簡單粗暴點(diǎn)從上到下直接寫完了。
好了運(yùn)行程序


數(shù)據(jù)展示


是不是完完全全模擬人工操作呢,其實(shí)我沒加太多動(dòng)作 嘻嘻
源碼后續(xù)放出來,也會(huì)寫一些更多的小知識(shí)更大家分享



千山萬水總是情,點(diǎn)個(gè)「好看」行不行。


◆ ◆ ◆  ◆ 


    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多