小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

(轉(zhuǎn)載)博客園 - elqy - 知識(shí)管理系統(tǒng)分析之一:網(wǎng)絡(luò)蜘蛛的分析

 心之所指 2006-01-08

作為知識(shí)管理中最核心的部分,知識(shí)采集器無疑具有著非常重要的作用,是我們所有工作和服務(wù)的基礎(chǔ),在這一部分我們就我們的系統(tǒng)根據(jù)我們的需求進(jìn)行分析。
   先來看一下我們的采集器都作了哪些工作?

和普通的爬蟲一樣,需要實(shí)現(xiàn)給一個(gè)入口的網(wǎng)頁(yè)地址,那么它能夠自動(dòng)的進(jìn)行地址的分析和解析,并逐一的對(duì)地址進(jìn)行請(qǐng)求并獲取內(nèi)容。獲取后可以保存起來。

首先,就拿獲取來說,我們的爬蟲是針對(duì)特定站點(diǎn)服務(wù)的,所以我們?cè)谶@里第一步實(shí)現(xiàn)頁(yè)面的抓取,這是核心類。在此基礎(chǔ)上我們需要對(duì)該類進(jìn)行進(jìn)一步的包裝。包裝之后­就可以根據(jù)我們提供的站點(diǎn)列表中進(jìn)行抓取,并且抓取的時(shí)候按照我們定義的規(guī)則進(jìn)行抓取。舉個(gè)例子,我們定義只一些正則表達(dá)式,根據(jù)匹配的進(jìn)行進(jìn)行獲取。并且這種­匹配我們期望是可以進(jìn)行嵌套的。

其次,是我們的存儲(chǔ)工作,抓取為我們的提供了內(nèi)容,那么如何進(jìn)行這些內(nèi)容的存儲(chǔ)呢?因?yàn)樵谖覀兊拇鎯?chǔ)直接關(guān)系到我們未來的檢索。在這里需要考慮到系統(tǒng)的運(yùn)行會(huì)導(dǎo)­致知識(shí)庫(kù)內(nèi)容的大量增加,如果僅使用單一的數(shù)據(jù)庫(kù)肯定無法滿足需要,所以,在存儲(chǔ)的時(shí)候,我們需要考慮到采用分區(qū)表,甚至是分布式數(shù)據(jù)庫(kù)的應(yīng)用,只有這樣才能夠­緩解我們的數(shù)據(jù)存儲(chǔ)和查詢的壓力。因?yàn)槲覀兊漠a(chǎn)品畢竟不像是BI那樣需要對(duì)數(shù)據(jù)進(jìn)行分析,對(duì)我們來說前期的數(shù)據(jù)組織是非常重要的。在這里我們有Oracle和S­QL
SERVER 2005兩種選擇,這里我們選擇SQL SERVER 2005。
   好了,采集器做了三種工作。

第一,獲取網(wǎng)頁(yè),第二,分析網(wǎng)頁(yè),第三,存儲(chǔ)網(wǎng)頁(yè)。

我們?cè)讷@取的時(shí)候需要編寫核心類或者組件,便于我們以后應(yīng)用在其他的方面,所以我們把獲取的規(guī)則這部分?jǐn)U展出來,可以外部的進(jìn)行規(guī)則定義。

在分析網(wǎng)頁(yè)這部分,可以進(jìn)行分析的定義,這樣我們可以保證在抓取的時(shí)候去掉我們不需要的部分。而且我們必須保證我們的分析可以進(jìn)行多次的調(diào)用分析。

在存儲(chǔ)頁(yè)面時(shí)需要考慮的是進(jìn)行分布式的存儲(chǔ),這就要求我們存儲(chǔ)時(shí)進(jìn)行自動(dòng)化的存儲(chǔ),根據(jù)一定的規(guī)則邏輯存儲(chǔ)到不同的服務(wù)器上面。

上面就是我們對(duì)網(wǎng)絡(luò)蜘蛛的分析,基于上面這些分析,我們就對(duì)系統(tǒng)中的知識(shí)采集器有了明確的認(rèn)識(shí)。更為具體的設(shè)計(jì)我將會(huì)在以后的過程中陸續(xù)跟進(jìn)。

posted on 2006-01-03 10:59 像豬一樣生活 閱讀(732) 評(píng)論(7)  編輯 收藏 收藏至365Key 所屬分類: 知識(shí)管理

評(píng)論

# re: 知識(shí)管理系統(tǒng)分析之一:網(wǎng)絡(luò)蜘蛛的分析 2006-01-03 12:47 蠟人張
關(guān)注,一直想做一個(gè)spider,可是沒時(shí)間。
  

# re: 知識(shí)管理系統(tǒng)分析之一:網(wǎng)絡(luò)蜘蛛的分析 2006-01-04 09:08 知識(shí)管理
繼續(xù)關(guān)注
  

# re: 知識(shí)管理系統(tǒng)分析之一:網(wǎng)絡(luò)蜘蛛的分析 2006-01-04 12:20 蜘蛛俠
一直就對(duì)搜索引擎很興趣,最好能有一些搜索算法和搜索程序架構(gòu)的介紹就好了,關(guān)注中……
  

# re: 知識(shí)管理系統(tǒng)分析之一:網(wǎng)絡(luò)蜘蛛的分析 2006-01-05 11:54 marrabech
類似的產(chǎn)品,兩年前我做過,系統(tǒng)的架構(gòu)和你這個(gè)差不多。lan內(nèi)部使用的還是自己寫的web server,在權(quán)限和數(shù)據(jù)加密上面作了很多工作。投入市場(chǎng)的時(shí)候卻失敗了。不知道你這個(gè)產(chǎn)品是個(gè)人玩玩還是公司項(xiàng)目。
  

# re: 知識(shí)管理系統(tǒng)分析之一:網(wǎng)絡(luò)蜘蛛的分析 2006-01-05 13:02 像豬一樣生活
謝謝大家的關(guān)注,這些東西早就有了構(gòu)思了,現(xiàn)在只是我已經(jīng)有了demo之后才寫出來的,大家注意到了,我這里是知識(shí)管理系統(tǒng),整個(gè)的架構(gòu)參見我的另外一篇文章。
另外,權(quán)限和數(shù)據(jù)加密的確是知識(shí)系統(tǒng)中的一個(gè)關(guān)鍵環(huán)節(jié)。
最初的初衷是想方便自己。但現(xiàn)在所有的demo都已經(jīng)有了,剩下的只是重構(gòu)了。
這個(gè)項(xiàng)目我是以一個(gè)項(xiàng)目或者產(chǎn)品的性質(zhì)開發(fā)的。因?yàn)榇蛩阋院笞约夯蛘吆团笥验_個(gè)公司。
  

# re: 知識(shí)管理系統(tǒng)分析之一:網(wǎng)絡(luò)蜘蛛的分析 2006-01-06 14:32 leves
rss 變相或者部分地實(shí)現(xiàn)了這些功能.并且是一個(gè)大家都遵守的標(biāo)準(zhǔn),它具有將信息推出來的能力,并且有簡(jiǎn)單的信息分類.接下來就是對(duì)rss 信息的分析和保存
http://leves.cnblogs.com/archive/2005/12/13/296107.html
  

# re: 知識(shí)管理系統(tǒng)分析之一:網(wǎng)絡(luò)蜘蛛的分析 2006-01-06 15:49 陳敘遠(yuǎn)
搞個(gè)google或者baidu的桌面搜索算了,頂多在上面二次開發(fā)一下。知識(shí)管理的核心在實(shí)施上。

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多