|
一般我們說到爬蟲程序,我們總是會(huì)想到python的爬蟲,然而python爬蟲擁有一些天生的劣勢,python的具體實(shí)現(xiàn)基本是固定好的,我們無法了解底層的實(shí)現(xiàn),這也就導(dǎo)致很多網(wǎng)站都可以反爬蟲,今天由我給大家介紹一下使用java來寫作一個(gè)爬蟲,java的爬蟲功能相當(dāng)強(qiáng)大,目前我就沒發(fā)現(xiàn)任何網(wǎng)站可以對java爬蟲有抵制作用。 工具/原料eclipse jdk 1.7版本及以上 首先我們先來介紹一下我們需要import的jar包吧: 1.org.jsoup,這個(gè)是一個(gè)java解析html的包,它的作用是解析網(wǎng)頁的代碼,這個(gè)功能特別強(qiáng)大以至于沒有任何網(wǎng)站可以做到反解析。 2.java.io,這一部分其實(shí)是不需要的,我用到這個(gè)只是因?yàn)槲蚁劝丫W(wǎng)頁保存在本地,再進(jìn)行網(wǎng)頁代碼的解析。至于為什么要這么做,會(huì)在之后的說明中提到。 3.java.net 這個(gè)包是java的網(wǎng)絡(luò)包,我們必須依賴于這個(gè)包來使用java連接網(wǎng)絡(luò)。 |
|
|