小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

聚焦爬蟲原理及其金融風(fēng)控運(yùn)用

 紅豆居士 2016-02-14

導(dǎo)讀

馬云說,大數(shù)據(jù)時(shí)代來了。現(xiàn)在太多互聯(lián)網(wǎng)公司都在做大數(shù)據(jù),每個(gè)公司的數(shù)據(jù)來源都不止一個(gè),其中占比重較大的一個(gè)數(shù)據(jù)源非網(wǎng)絡(luò)爬蟲莫屬。然而不同的公司格局業(yè)務(wù)背景不同,所需要的數(shù)據(jù)類型也就不同。不同于搜索網(wǎng)站所用的通用爬蟲,聚焦爬蟲開始越來越多的被人們提起。


目錄

1. 聚焦爬蟲的原理

2. 聚焦爬蟲的發(fā)展

3. 爬蟲在互聯(lián)網(wǎng)金融領(lǐng)域應(yīng)用

4. 結(jié)語


1.聚焦爬蟲的原理

1.1概念

聚焦爬蟲,又稱主題爬蟲(或?qū)I(yè)爬蟲),是“面向特定主題”的一種網(wǎng)絡(luò)爬蟲程序。它與我們通常所說的爬蟲(通用爬蟲)的區(qū)別之處就在于,聚焦爬蟲在實(shí)施網(wǎng)頁抓取時(shí)要進(jìn)行主題篩選。它盡量保證只抓取與主題相關(guān)的網(wǎng)頁信息


 1.2 聚焦爬蟲的分類

聚焦爬蟲主要分為兩大類。一類是淺聚焦爬蟲,所謂淺聚焦爬蟲是指,爬蟲程序抓取特定網(wǎng)站的的所有信息。其工作方式和通用爬蟲幾乎一樣,唯一的區(qū)別是種子URL的選定確定了抓取內(nèi)容的一致,其核心是種子URL的選擇。另一類是深聚焦爬蟲,深聚焦爬蟲是指在海量的不同內(nèi)容網(wǎng)頁中,通過主題相關(guān)度算法選擇主題相近的URL和內(nèi)容進(jìn)行爬取。其核心是如何判斷所爬取的URL和頁面內(nèi)容是與主題相關(guān)的。

關(guān)系如下:


由圖可見,淺聚焦爬蟲可以看成是將通用爬蟲局限在了一個(gè)單一主題的網(wǎng)站上,因此我們通常所說的聚焦爬蟲大多是指深聚焦爬蟲。


1.2.1 淺聚焦爬蟲

淺聚焦爬蟲從一個(gè)或若干初始網(wǎng)頁的URL開始,(例如分類信息網(wǎng))獲得初始網(wǎng)頁上的URL,在抓取網(wǎng)頁的過程中,不斷從當(dāng)前頁面上抽取新的URL放入隊(duì)列,直到滿足系統(tǒng)的一定停止條件。

其工作流程如圖:


可見淺聚焦爬蟲的基本原理跟通用爬蟲的基本原理是一樣的,其特點(diǎn)是選定種子URL,例如,要抓取招聘信息,可以將招聘網(wǎng)站的URL作為種子URL。用主題網(wǎng)站保證了抓取內(nèi)容的主題一致。


1.2.2 深聚焦爬蟲

深聚焦爬蟲最主要的特點(diǎn)是主題一致性。然而在浩如煙海的互聯(lián)網(wǎng)大數(shù)據(jù)中要保證所抓取的數(shù)據(jù)主題一致并不是一件簡單的事情。針對不同的數(shù)據(jù)需求,這其中需要的策略和方式并沒有統(tǒng)一的解答。在這里不說具體的解決方法,只討論一下常見的解決思路。


一、針對頁面內(nèi)容

這種解決方法是不管頁面的主題是什么,先將頁面爬取下來。對頁面進(jìn)行簡單的去噪后,利用主題提取策略對處理后的頁面內(nèi)容進(jìn)行主題提取,最后對比設(shè)定好的主題,如果主題一致,或在一定的閥值內(nèi),則保存頁面進(jìn)一步進(jìn)行數(shù)據(jù)清洗。若主題偏差超過一點(diǎn)閥值,則直接丟棄頁面。


這種方式的優(yōu)點(diǎn)是鏈接頁面全覆蓋,不會(huì)出現(xiàn)數(shù)據(jù)遺漏。但是缺點(diǎn)也十分致命,那就是全覆蓋的頁面,很大一部分是與主題無關(guān)的廢棄頁面,這極大的拖慢了爬蟲爬取數(shù)據(jù)的速度。到后期,爬取數(shù)據(jù)的速度將是無法接受的。


二、針對URL

上面介紹了淺聚焦爬蟲的核心是選定合適的種子URL,這些種子URL主要是主題網(wǎng)站的入口URL。


互聯(lián)網(wǎng)上的網(wǎng)站一般都是有固定主題的,并且同一網(wǎng)站中同一主題的頁面URL,都有一定的規(guī)律可循。由此,通過URL預(yù)測頁面主題的思路也就自然而生了。此外,頁面中絕大部分超鏈接都是帶有錨文本的,而錨文本基本可以看做是對目標(biāo)頁面的概括描述。結(jié)合對URL的分析和對錨文本的分析,對目標(biāo)頁面進(jìn)行主題預(yù)測的正確率也就相當(dāng)可觀了。 


然而,這種預(yù)測結(jié)果并不能完全保證丟棄的URL都是與主題無關(guān)的,因此會(huì)有一些遺漏。同時(shí),這種方式也無法確保通過預(yù)測的頁面都是與主題相關(guān)的,因此需要對通過的預(yù)測的URL頁面進(jìn)行頁面內(nèi)容主題提取,再對比與設(shè)定的主題做出取舍。


通過上面的分析,得出一般的解決方法。就是先通過URL分析,丟棄部分URL。下載頁面后,對頁面內(nèi)容進(jìn)行主題提取,對比預(yù)設(shè)定的主題做取舍。最后進(jìn)行數(shù)據(jù)清洗。


1.3架構(gòu)

深聚焦爬蟲的一般結(jié)構(gòu)如下圖:


六個(gè)主要的組成部分【控制中心】【下載模塊】【抽取模塊】【清洗模塊】【消重模塊】【資源模塊】


控制模塊:控制模塊由程序出入口、下載調(diào)度策略、抽取調(diào)度策略、清洗調(diào)度策略和URL消重調(diào)度策略組成。


下載模塊:根據(jù)控制中心傳過來的URL,IP,COOKIE等下載資源下載頁面,并將下載結(jié)果返回給控制中心。


抽取模塊:接受控制中心下發(fā)的頁面源代碼和抽取指標(biāo),根據(jù)抽取指標(biāo)對源代碼進(jìn)行抽取,并將抽取結(jié)果返回控制中心。


清洗模塊分為文本清洗和URL清洗,文本清洗根據(jù)預(yù)設(shè)的主題以及相對應(yīng)的主題相關(guān)度算法,決定是舍棄文本,還是將文本保存入庫。URL清洗是根據(jù)URL分析結(jié)果,預(yù)測當(dāng)前URL所鏈接的頁面是否與主題相關(guān),若相關(guān)則將URL返回控制中心,反之丟棄此URL。


URL消重模塊:針對有些主題突出的頁面被許多頁面鏈接,從而導(dǎo)致大量重復(fù)下載此頁面造成資源浪費(fèi)和數(shù)據(jù)質(zhì)量低下的情況,調(diào)用消重模塊將重復(fù)的URL丟棄,將不重復(fù)的URL返回到下載資源模塊的URL隊(duì)列中。


資源模塊:保存有下載所需要的所有資源,包括代理IP,COOKIE,URL等信息。


2. 聚焦爬蟲的發(fā)展

大數(shù)據(jù)時(shí)代,對數(shù)據(jù)的多樣性和針對性要求越來越高。隨之爬蟲的架構(gòu)方式也更加靈活多變。比較常見的開源爬蟲框架有Crawler4j、WebMagic、WebCollector、scrapy等。另一方面,針對爬蟲的抓取,被抓取網(wǎng)站也制定了相應(yīng)的防爬蟲措施。常見的防爬蟲方式有如下幾種:


一、針對頻繁訪問網(wǎng)站的IP設(shè)定訪問限制。這是最常見的一種放爬蟲方式,具體體現(xiàn)是,在一個(gè)單位時(shí)間內(nèi),同一個(gè)IP的請求數(shù)量達(dá)到了網(wǎng)站設(shè)計(jì)的閥值,這個(gè)IP就被限制訪問。面對這種情況,可以制定適當(dāng)?shù)腎P訪問策略。

二、使用js和ajax技術(shù)的動(dòng)態(tài)頁面。這樣的網(wǎng)頁源代碼中并沒有包含所需的數(shù)據(jù),數(shù)據(jù)包裹存在于二次請求的返回文檔中。針對這樣的頁面,可以分析請求過程,提取二次請求的URL,進(jìn)而得到想要的數(shù)據(jù)。

三、其他情況:隨著互聯(lián)網(wǎng)的不斷發(fā)展,出現(xiàn)了各種各樣的防爬蟲方式。這就需要人們根據(jù)實(shí)際情況,針對性的解決問題。比如使用模擬瀏覽器(htmlunit,selenium)技術(shù)等。


總之,沒有一成不變的互聯(lián)網(wǎng),就沒有一成不變的爬蟲,擁抱變化,才能讓爬蟲爬的更遠(yuǎn)。     

3.爬蟲在互聯(lián)網(wǎng)金融領(lǐng)域的應(yīng)用

聚焦爬蟲作為數(shù)據(jù)的主要來源之一,下面就說說聚焦爬蟲的應(yīng)用場景,以我所就職的普惠金融信息服務(wù)(上海)有限公司(后面簡稱普惠)為例。


3.1、網(wǎng)貸行業(yè)的數(shù)據(jù)驅(qū)動(dòng)策略

數(shù)據(jù)驅(qū)動(dòng),就是得到前來貸款的客戶的指定數(shù)據(jù),根據(jù)這些數(shù)據(jù)以及相應(yīng)的一套算法策略,給客戶定義一個(gè)標(biāo)簽。借貸部門根據(jù)客戶的標(biāo)簽決定是否貸款給該客戶以及貸多少給該客戶。通過這種定義標(biāo)簽的方式,有效阻止大部分騙貸的發(fā)生,從而規(guī)避風(fēng)險(xiǎn)。


那么,網(wǎng)貸平臺如何運(yùn)用大數(shù)據(jù)判斷客戶的信用的呢?粗略的分為兩個(gè)方面:


1、查看這個(gè)人的購物習(xí)慣,客戶提供的賬單流水信息等。這種方法相信一個(gè)人若是經(jīng)常在網(wǎng)上購物、有詳細(xì)的銀行賬單并且有正常的通話記錄,那么這個(gè)人是一個(gè)正常的且有一定的經(jīng)濟(jì)能力的人。也就是說,這樣的人是有能力還貸款的。相對于發(fā)達(dá)國家健全的征信系統(tǒng),在中國這種評價(jià)方式在一定時(shí)間內(nèi),是可行有效的。


2、另一方面,我們相信絕大多數(shù)的騙子并不是貸完款后才變成騙子的。騙子來 貸款之前就已經(jīng)是騙子。那么在騙子的行騙生涯中,或多或少地會(huì)在互聯(lián)網(wǎng)上留下痕跡。比如,有許多專門曝光騙子老賴的網(wǎng)站,也有許多騙子在一些社交網(wǎng)站上有人針對曝光。針對這些曝光的數(shù)據(jù),平臺大數(shù)據(jù)中心使用聚焦爬蟲進(jìn)行爬取,然后將爬取到的數(shù)據(jù)保存到黑名單中。


有上面兩點(diǎn)可以看出來,不管是爬取交易賬單等信息,還是抓取曝光的騙子等數(shù)據(jù),都離不開聚焦爬蟲的應(yīng)用。


然而,隨著互聯(lián)網(wǎng)的不斷發(fā)展變化,數(shù)據(jù)風(fēng)控官們發(fā)現(xiàn),通過傳統(tǒng)方式做風(fēng)險(xiǎn)控制越來越困難。通過傳統(tǒng)方式爬取的數(shù)據(jù),基本都是屬于一個(gè)人的點(diǎn)狀數(shù)據(jù),并且是片面的點(diǎn)狀數(shù)據(jù)。何為點(diǎn)狀數(shù)據(jù)?若是把所有人看成一個(gè)整體數(shù)據(jù),那么最形象的結(jié)構(gòu)就是一張人物關(guān)系數(shù)據(jù)網(wǎng)。每個(gè)人都是網(wǎng)中的一個(gè)節(jié)點(diǎn),即每個(gè)人的數(shù)據(jù)就是一個(gè)點(diǎn)狀的數(shù)據(jù)。由于個(gè)人隱私的原因,我們無法也不可能得到一個(gè)人的全方位數(shù)據(jù),只能截取其中的一個(gè)或幾個(gè)片面 。


通過這些數(shù)據(jù)來判斷一個(gè)人的信用等級有兩個(gè)弊端,一是數(shù)據(jù)的不全面會(huì)導(dǎo)致判斷的失準(zhǔn),這個(gè)弊端無法避免,只能盡可能多的得到數(shù)據(jù),并制定更優(yōu)化的算法模型;二是點(diǎn)狀的數(shù)據(jù)隨著互聯(lián)網(wǎng)的發(fā)展有了更多造假的可能性。比如說電商的交易記錄,若是有心造假,很容易就可以制造一批完全符合高信用等級的交易記錄。因此,點(diǎn)狀數(shù)據(jù)在未來的風(fēng)控系統(tǒng)中所占的比重會(huì)逐漸減少。


相對應(yīng)于點(diǎn)狀數(shù)據(jù)的不足,爬蟲界有人提出了建立網(wǎng)狀數(shù)據(jù)的可能性?;鞠敕ㄊ?,通過聚焦爬蟲爬取各大社交網(wǎng)站,根據(jù)這些數(shù)據(jù)建立人物關(guān)系網(wǎng)絡(luò),在關(guān)系網(wǎng)絡(luò)的結(jié)構(gòu)中,給每個(gè)人添加補(bǔ)充各個(gè)維度的數(shù)據(jù)。其理想的數(shù)據(jù)集合是每個(gè)來平臺貸款的人都存在于平臺大數(shù)據(jù)中心的人物關(guān)系網(wǎng)絡(luò)中。并且我們知道其關(guān)系密切的人的標(biāo)簽(畫像)。


例如張三來貸款,大數(shù)據(jù)中心不但要知道張三的信用評價(jià),還要知道與張三關(guān)系緊密的若干人的信用評價(jià)。這有什么用呢?假設(shè)張三貸款的場景如下:張三通過大數(shù)據(jù)中心的傳統(tǒng)信用評價(jià)方式,得到了信用良好的評價(jià)。但是,我們通過關(guān)系網(wǎng)絡(luò)發(fā)現(xiàn)與張三關(guān)系密切的人中,有多個(gè)人在信用評價(jià)中得到了信用低下的評價(jià),甚至在黑名單中。這個(gè)時(shí)候我們就要懷疑張三的數(shù)據(jù)是否是精心假造的。根據(jù)物以類聚,人以群分的道理,我們相信這種懷疑是很有必要的。

張三的人物關(guān)系網(wǎng)絡(luò)圖:


由上張圖可以發(fā)現(xiàn),張三信用良好的評價(jià)并不可靠,貸款給張三會(huì)帶來很大的風(fēng)險(xiǎn)。傳統(tǒng)的風(fēng)控方式顯然并不能規(guī)避這種風(fēng)險(xiǎn),且這種風(fēng)險(xiǎn)會(huì)隨著騙貸人越來越了解貸款公司的信用評價(jià)方式而增多。試想,在未來的時(shí)間里,由于騙貸人對公司的風(fēng)控有了大致方向的了解,從而在某一方面?zhèn)卧炝肆己玫挠涗?。大?shù)據(jù)中心爬取了這些數(shù)據(jù)從而錯(cuò)誤地判斷了信用等級,那貸款公司所承受的風(fēng)險(xiǎn)將會(huì)急劇擴(kuò)大。


針對未來這種風(fēng)險(xiǎn),人物關(guān)系數(shù)據(jù)網(wǎng)絡(luò)給出了解決的可能性。若是沒有完善且可靠的官方征信系統(tǒng)的出現(xiàn),人物關(guān)系數(shù)據(jù)網(wǎng)絡(luò)將是未來無抵押貸款公司風(fēng)險(xiǎn)控制的主流方式。然而建立人物關(guān)系數(shù)據(jù)網(wǎng)絡(luò)并不是一朝一夕的事情。


4.結(jié)語

每一個(gè)社交網(wǎng)站都有海量的數(shù)據(jù),和海量數(shù)據(jù)成正比的是社交網(wǎng)站的防爬蟲策略。這就對爬蟲提出了更高更嚴(yán)格的要求,也更細(xì)化了不同爬蟲之間的差異。然而一成不變不是互聯(lián)網(wǎng)的主調(diào),依存互聯(lián)網(wǎng)生存的公司,更要學(xué)會(huì)擁抱變化,甚至預(yù)測變化,方能在未來乘風(fēng)破浪,越行越遠(yuǎn)。



來源:36大數(shù)據(jù) 有刪減

    本站是提供個(gè)人知識管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多