推薦一些優(yōu)秀的開源Java爬蟲項目

然并卵書屋 2017-01-15

展開全文

作者：路人甲

鏈接：https://zhuanlan.zhihu.com/p/24844250

1、Gecco

github地址：xtuhcy/gecco

Gecco是一款用java語言開發(fā)的輕量化的易用的網(wǎng)絡爬蟲。整合了jsoup、httpclient、fastjson、spring、htmlunit、redission等框架，只需要配置一些jquery風格的選擇器就能很快的寫出一個爬蟲。Gecco框架有優(yōu)秀的可擴展性，框架基于開閉原則進行設(shè)計，對修改關(guān)閉、對擴展開放。

2、WebCollector

github地址：CrawlScript/WebCollector

WebCollector是一個無須配置、便于二次開發(fā)的JAVA爬蟲框架（內(nèi)核），它提供精簡的的API，只需少量代碼即可實現(xiàn)一個功能強大的爬蟲。WebCollector-Hadoop是WebCollector的Hadoop版本，支持分布式爬取。

推薦一些優(yōu)秀的開源Java爬蟲項目

3、Spiderman

碼云地址：l-weiwei/Spiderman2 - 碼云 - 開源中國

使用案例：展現(xiàn)垂直爬蟲的能力 - 像風一樣自由

Spiderman 是一個基于微內(nèi)核+插件式架構(gòu)的網(wǎng)絡蜘蛛，它的目標是通過簡單的方法就能將復雜的目標網(wǎng)頁信息抓取并解析為自己所需要的業(yè)務數(shù)據(jù)。

4、WebMagic

碼云地址：flashsword20/webmagic - 碼云 - 開源中國

webmagic的是一個無須配置、便于二次開發(fā)的爬蟲框架，它提供簡單靈活的API，只需少量代碼即可實現(xiàn)一個爬蟲。webmagic采用完全模塊化的設(shè)計，功能覆蓋整個爬蟲的生命周期(鏈接提取、頁面下載、內(nèi)容抽取、持久化)，支持多線程抓取，分布式抓取，并支持自動重試、自定義UA/cookie等功能。

推薦一些優(yōu)秀的開源Java爬蟲項目

5、Heritrix

github地址：internetarchive/heritrix3

Heritrix是一個開源，可擴展的web爬蟲項目。用戶可以使用它來從網(wǎng)上抓取想要的資源。Heritrix設(shè)計成嚴格按照robots.txt文件的排除指示和META robots標簽。其最出色之處在于它良好的可擴展性,方便用戶實現(xiàn)自己的抓取邏輯。

推薦一些優(yōu)秀的開源Java爬蟲項目

6、crawler4j

github地址：yasserg/crawler4j · GitHub

crawler4j是Java實現(xiàn)的開源網(wǎng)絡爬蟲。提供了簡單易用的接口，可以在幾分鐘內(nèi)創(chuàng)建一個多線程網(wǎng)絡爬蟲。

7、Nutch

github地址：apache/nutch

Nutch 是一個開源Java 實現(xiàn)的搜索引擎。它提供了我們運行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬蟲。
在Nutch的進化過程中，產(chǎn)生了Hadoop、Tika、Gora和Crawler Commons四個Java開源項目。如今這四個項目都發(fā)展迅速，極其火爆，尤其是Hadoop，其已成為大規(guī)模數(shù)據(jù)處理的事實上的標準。Tika使用多種現(xiàn)有的開源內(nèi)容解析項目來實現(xiàn)從多種格式的文件中提取元數(shù)據(jù)和結(jié)構(gòu)化文本，Gora支持把大數(shù)據(jù)持久化到多種存儲實現(xiàn)，Crawler Commons是一個通用的網(wǎng)絡爬蟲組件。

8、SeimiCrawler

github地址：zhegexiaohuozi/SeimiCrawler

SeimiCrawler是一個敏捷的，獨立部署的，支持分布式的Java爬蟲框架，希望能在最大程度上降低新手開發(fā)一個可用性高且性能不差的爬蟲系統(tǒng)的門檻，以及提升開發(fā)爬蟲系統(tǒng)的開發(fā)效率。在SeimiCrawler的世界里，絕大多數(shù)人只需關(guān)心去寫抓取的業(yè)務邏輯就夠了，其余的Seimi幫你搞定。設(shè)計思想上SeimiCrawler受Python的爬蟲框架Scrapy啟發(fā)，同時融合了Java語言本身特點與Spring的特性，并希望在國內(nèi)更方便且普遍的使用更有效率的XPath解析HTML，所以SeimiCrawler默認的HTML解析器是JsoupXpath(獨立擴展項目，非jsoup自帶),默認解析提取HTML數(shù)據(jù)工作均使用XPath來完成（當然，數(shù)據(jù)處理亦可以自行選擇其他解析器）。并結(jié)合SeimiAgent徹底完美解決復雜動態(tài)頁面渲染抓取問題。

推薦一些優(yōu)秀的開源Java爬蟲項目