|
根據(jù)IDC預(yù)計,全球大數(shù)據(jù)市場規(guī)模在2019年將達到1870億美金; 而我國的人口紅利、流量紅利逐步消失,也將迎來大數(shù)據(jù)領(lǐng)域的高速增長。爬蟲技術(shù)作為爬取大數(shù)據(jù)的主要方式之一也備受重視,但問題是,對于不同網(wǎng)站抓取目標的描述或定義、對網(wǎng)頁或數(shù)據(jù)的分析與過濾都是不一樣的,再加上目前頭部網(wǎng)站反爬嚴格,因此一款靈活的爬蟲框架程序越來越被開發(fā)者所需要?;诜植际脚老x框架,神箭手云平臺想為企業(yè)提供一套數(shù)據(jù)采集業(yè)務(wù) 36氪今日接觸的神箭手云平臺就提供分布式云端通用爬蟲框架,爬蟲程序更接近自然語言和普通用戶,只需要在平臺注冊,輸入需求就可以爬取相應(yīng)的數(shù)據(jù)。 基于爬蟲程序,神箭手有一塊爬蟲市場的業(yè)務(wù),市場上有社交數(shù)據(jù)、O2O數(shù)據(jù)、企業(yè)信息數(shù)據(jù)等爬蟲采集,用戶根據(jù)需要可以購買個人版和企業(yè)版,區(qū)別在于節(jié)點個數(shù),節(jié)點越多爬取的速度越快。 關(guān)于應(yīng)對反爬的措施,CEO 吳桐告知36氪,神箭手買了180臺代理服務(wù)器,一天能產(chǎn)生15萬個IP。用戶購買爬蟲程序后,只需自己開發(fā)調(diào)用函數(shù),代理這部分,網(wǎng)站會詢問用戶是否需要代理IP。但使用神箭手的IP必須在平臺上寫程序、用平臺的軟件才可以。 此外,神箭手也識別驗證碼。通常用戶都是借助第三方打碼平臺識別驗證碼,要和第三方接入、自己寫代碼、充錢、找程序員對接。神箭手平臺上的驗證碼識別方案需要用戶充錢即可,平臺已自動接入第三方。 神箭手業(yè)務(wù)主要針對中型企業(yè),主要因為中型企業(yè)規(guī)模較小,沒有完全解決代理IP問題,神箭手是一套通用的SaaS體系,支持WEBHOOK/RESTFUL等,控制和數(shù)據(jù)可接入企業(yè),成為企業(yè)的一個模塊。而大企業(yè)更多要求私有化部署,這對于初創(chuàng)企業(yè)來說投入較大,需要派遣很多人力進行現(xiàn)場實施和售后維護。目前神箭手想要集中精力做線上,希望首先解決通用需求積累經(jīng)驗,做好線上再做線下。 神箭手客戶有摸象大數(shù)據(jù)、信義立方、良品鋪子、超級星飯團、小紅唇等。 神箭手的盈利模式是根據(jù)其業(yè)務(wù)展開的。首先是賣服務(wù)器,也就是賣買計算資源,稱之為節(jié)點。一個節(jié)點79/月。其次是代理IP,個人代理39/月,企業(yè)代理199/月,海外代理299/月。第三是驗證碼識別,每驗證一次扣除0.01元。第四是綜合以上的套餐服務(wù),根據(jù)爬蟲節(jié)點個數(shù)、代理IP種類不同等有499/月和1399/月兩種,定制版需要具體詢價。 和神箭手做同樣事情的有火車頭?;疖囶^可以抓取網(wǎng)頁上散亂的數(shù)據(jù)信息,并通過一系列的分析處理挖掘出所需數(shù)據(jù),采集不限網(wǎng)頁。神箭手和火車頭的區(qū)別在于,神箭手面向什么都懂或者什么都不懂的用戶,而火車頭面向的用戶正好處于兩者之間。國外Web Scraping和神箭手做得事情比較相像。 神箭手目前團隊15人,未來的目標是完善線上SaaS業(yè)務(wù),以及展開私有化部署。 |
|
|