|
王繼成 潘金貴 張福炎 關(guān)鍵詞 Web挖掘,文本挖掘,文本分類,文本聚類,多維文本分析 RESEARCH ON WEB TEXT MINING WANG Ji-Cheng, PAN Jin-Gui, and ZHANG Fu-Yan Abstract With the flood of information on the Web, Web mining is a new research issue which draws great interest from many communities. Currently, there is no agreement about Web mining yet. It needs more discussion among scientists in order to define what it is exactly. Meanwhile, the development of Web mining system will promote its research in turn. In this paper, a systemic discussion about the principle of Web mining is presented, including the definition, the relationship between information mining and retrieval on the Web, the taxonomy and function. Then the methods of text mining on the Web are discussed in detail and a prototype of Web text mining system WebMiner is introduced. WebMiner is a multi-agent system which combines text mining and multi-dimension text analysis in order to help user in mining HTML documents on the Web efficiently and effectively. 1 引言 在Web迅猛發(fā)展的同時(shí),我們不能忽視“信息爆炸”的問題,即信息極大豐富而知識(shí)相對(duì)匱乏.據(jù)估計(jì),Web已經(jīng)發(fā)展成為擁有3億頁面的分布式信息空間,而且這個(gè)數(shù)字仍以每4至6個(gè)月翻一倍的速度增加[1].在這些大量、異質(zhì)的Web信息資源中,蘊(yùn)含著具有巨大潛在價(jià)值的知識(shí).人們迫切需要能夠從Web上快速、有效地發(fā)現(xiàn)資源和知識(shí)的工具.Web上的搜索引擎部分地解決了資源發(fā)現(xiàn)問題,但由于精確度不高等原因,其效果遠(yuǎn)不能使人滿意.此外,搜索引擎的目的在于發(fā)現(xiàn)Web上的資源,就Web上的知識(shí)發(fā)現(xiàn)而言,即使檢索精度再高,搜索引擎也不能夠勝任.為此,我們需要開發(fā)比信息檢索層次更高的新技術(shù).為了從大量數(shù)據(jù)的集合中發(fā)現(xiàn)有效、新穎、有用、可理解的模式,數(shù)據(jù)庫領(lǐng)域采用了數(shù)據(jù)挖掘技術(shù)[2].但是,數(shù)據(jù)挖掘的絕大部分工作所涉及的是結(jié)構(gòu)化數(shù)據(jù)庫,很少有處理Web上的異質(zhì)、非結(jié)構(gòu)化信息的工作.Web挖掘作為數(shù)據(jù)挖掘的一個(gè)新主題,引起了人們的極大興趣.同時(shí),它也是一個(gè)富于爭(zhēng)議的研究方向.目前,對(duì)于Web挖掘的含義、功能等尚無統(tǒng)一的結(jié)論,需要國(guó)內(nèi)外學(xué)者在理論上開展更多的討論以進(jìn)行精確地定義.此外,Web挖掘系統(tǒng)的開發(fā)對(duì)其研究也將起到很大推進(jìn)作用. 2 Web挖掘與Web信息檢索 2.1 Web挖掘的定義 Web挖掘是一項(xiàng)綜合技術(shù),涉及Web、數(shù)據(jù)挖掘、計(jì)算機(jī)語言學(xué)、信息學(xué)等多個(gè)領(lǐng)域.不同研究者從自身的領(lǐng)域出發(fā),對(duì)Web挖掘的含義有著不同的理解,項(xiàng)目開發(fā)也各有其側(cè)重點(diǎn).例如,有些計(jì)算機(jī)語言學(xué)家認(rèn)為,Web文檔為自然語言理解提供了豐富的語料,可以從中自動(dòng)地學(xué)習(xí)詞語的意義,以進(jìn)行詞義辨析或確定詞語所屬的概念[3].我們從更為一般的角度出發(fā),對(duì)Web挖掘作如下定義. 2.2 Web信息檢索的定義 定義2. Web信息檢索,是指從大量Web文檔的集合C中找到與給定的查詢請(qǐng)求q相關(guān)的、恰當(dāng)數(shù)目的文檔子集S.Web信息檢索的過程也對(duì)應(yīng)于一個(gè)映射ζ:(C, q)→S. 2.3 Web上的挖掘與信息檢索 Web上的挖掘和信息檢索是兩種不同的技術(shù),其區(qū)別主要表現(xiàn)在以下幾個(gè)方面. 3 Web挖掘的任務(wù) 3.1 Web挖掘任務(wù)的分類 在邏輯上,我們可以把Web看作是位于物理網(wǎng)絡(luò)之上的一個(gè)有向圖G=(N, E),其中節(jié)點(diǎn)集N對(duì)應(yīng)于Web上的所有文檔,而有向邊集E則對(duì)應(yīng)于節(jié)點(diǎn)之間的超鏈.對(duì)節(jié)點(diǎn)集作進(jìn)一步的劃分,N={Nl, Nnl}.所有的非葉節(jié)點(diǎn)Nnl是HTML文檔,其中除了包含文本以外,還包含了標(biāo)記以指定文檔的屬性和內(nèi)部結(jié)構(gòu),或者嵌入了超鏈以表示文檔間的結(jié)構(gòu)關(guān)系.葉節(jié)點(diǎn)Nl可以是HTML文檔,也可以是其它格式的文檔,例如PostScript等文本文件,以及圖形、音頻等媒體文件.如圖1所示.N中每個(gè)節(jié)點(diǎn)都有一個(gè)URL,其中包含了關(guān)于該節(jié)點(diǎn)所位于的Web站點(diǎn)和目錄路徑的結(jié)構(gòu)信息. ![]() 圖1 Web的邏輯結(jié)構(gòu) ![]() 圖2 Web挖掘的分類 3.2 Web文本挖掘 Web文本挖掘可以對(duì)Web上大量文檔集合的內(nèi)容進(jìn)行總結(jié)、分類、聚類、關(guān)聯(lián)分析,以及利用Web文檔進(jìn)行趨勢(shì)預(yù)測(cè)等. 3.3 Web結(jié)構(gòu)挖掘 由于Web中包含的結(jié)構(gòu)信息處理起來比較困難,因此通常的Web搜索引擎等工具僅將Web看作是一個(gè)平面文檔的集合,而忽略了其中的結(jié)構(gòu)信息.Web結(jié)構(gòu)挖掘的目的在于揭示蘊(yùn)含在這些文檔結(jié)構(gòu)信息中的有用模式. 4 Web文本挖掘方法 在Web文本挖掘中,文本的特征表示是挖掘工作的基礎(chǔ),而文本分類和聚類是兩種最重要、最基本的挖掘功能. 4.1 文本的特征表示 與數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù)相比,Web文檔具有有限的結(jié)構(gòu),或者根本就沒有結(jié)構(gòu).即使具有一些結(jié)構(gòu),也是著重于格式,而非文檔內(nèi)容.不同類型文檔的結(jié)構(gòu)也不一致.此外,文檔的內(nèi)容是人類所使用的自然語言,計(jì)算機(jī)很難處理其語義.文本信息源的這些特殊性使得現(xiàn)有的數(shù)據(jù)挖掘技術(shù)無法直接應(yīng)用于其上.我們需要對(duì)文本進(jìn)行預(yù)處理,抽取代表其特征的元數(shù)據(jù).這些特征可以用結(jié)構(gòu)化的形式保存,作為文檔的中間表示形式. 4.2 文本分類 文本分類是一種典型的有教師的機(jī)器學(xué)習(xí)問題,一般分為訓(xùn)練和分類兩個(gè)階段,具體過程如下. 4.3 文本聚類 文本聚類是一種典型的無教師的機(jī)器學(xué)習(xí)問題.目前的文本聚類方法大致可以分為層次凝聚法和平面劃分法兩種類型. 5 Web文本挖掘系統(tǒng)原型WebMiner 我們?cè)趯?duì)Web挖掘技術(shù)進(jìn)行系統(tǒng)研究的理論基礎(chǔ)之上,設(shè)計(jì)了一個(gè)Web文本挖掘系統(tǒng)原型WebMiner(如圖3所示). WebMiner采用了多agent的體系結(jié)構(gòu),將多維文本分析與文本挖掘這兩種技術(shù)有機(jī)地結(jié)合起來,以幫助用戶快速、有效地挖掘Web上的HTML文檔.以下給出系統(tǒng)組件和系統(tǒng)行為的簡(jiǎn)要描述. ![]() 圖3 Web文本挖掘系統(tǒng)原型WebMiner
5.1 系統(tǒng)組件
(1) 文本搜集agent:利用信息訪問技術(shù)將分布在多個(gè)Web服務(wù)器上的待挖掘文檔集成在WebMiner的本地文本庫中.
(2) 文本預(yù)處理agent:利用啟發(fā)式規(guī)則和自然語言處理技術(shù)從文本中抽取出代表其特征的元數(shù)據(jù),并存放在文本特征庫中,作為文本挖掘的基礎(chǔ). (3) 文本分類agent:利用其內(nèi)部知識(shí)庫,按照預(yù)定義的類別層次,對(duì)文檔集合(或者其中的部分子集)的內(nèi)容進(jìn)行分類. (4) 文本聚類agent:利用其內(nèi)部知識(shí)庫,對(duì)文檔集合(或者其中的部分子集)的內(nèi)容進(jìn)行聚類. (5) 多維文本分析引擎:WebMiner引入了文本超立方體模型和多維文本分析技術(shù),為用戶提供關(guān)于文檔的多維視圖.多維文本分析引擎還具有統(tǒng)計(jì)分析功能,從而能夠揭示文檔集合的特征分布和趨勢(shì).此外,多維文本分析引擎還可以對(duì)大量文檔的集合進(jìn)行特征修剪,包括橫向文檔選擇和縱向特征投影兩種方式. (6) 用戶接口agent:在用戶與多維文本分析引擎之間起著橋梁作用.它為用戶提供可視化接口,將用戶的請(qǐng)求轉(zhuǎn)化為專用語言傳遞給多維文本分析引擎,并將多維文本分析引擎返回的多維文本視圖和文檔展示給用戶. 每個(gè)agent作為系統(tǒng)的一個(gè)組件,能夠完成相對(duì)獨(dú)立的工作.這些部件可以位于同一臺(tái)計(jì)算機(jī)上,也可以分布在網(wǎng)絡(luò)中的多臺(tái)計(jì)算機(jī)上.此外,由于系統(tǒng)高度模塊化,因此易于加入新的部件.同時(shí),各個(gè)agent之間通過相互協(xié)作來完成挖掘的全過程.其中,多維文本分析引擎以文本預(yù)處理為基礎(chǔ),以文本挖掘?yàn)橹?文本超立方體中的維來自于文本預(yù)處理所得到的文本特征屬性,例如時(shí)間、作者等.而文檔主題類別的生成以及文檔之間關(guān)系的聚類分析又依賴于文檔挖掘技術(shù).反過來,多維文本分析引擎又為文本挖掘提供了有效的可視化手段和特征修剪工具.文檔集合的特征修剪結(jié)果可以展現(xiàn)給用戶,也可以作為挖掘?qū)ο筝斎氲轿谋痉诸恆gent和文本聚類agent.如圖3所示. 5.2 系統(tǒng)行為
用戶通過與系統(tǒng)中各個(gè)組件進(jìn)行交互來實(shí)現(xiàn)Web文本挖掘的全過程.首先,用戶給出搜集策略(例如,起始URL列表、指定主題或者網(wǎng)絡(luò)域等)以指導(dǎo)文本搜集agent進(jìn)行Web文檔的搜集.然后,文本預(yù)處理agent從搜集到的Web文檔中抽取描述性特征和語義性特征.此后,用戶有多種方案供選擇,包括:使用多維分析引擎對(duì)文檔特征進(jìn)行多維分析,得到多維文檔視圖(每個(gè)視圖對(duì)應(yīng)于文檔集合的一個(gè)子集);按照預(yù)定義的類別層次,對(duì)文檔集合(或者其中的部分子集)的內(nèi)容進(jìn)行分類;當(dāng)預(yù)定義的類別層次與文檔集合的內(nèi)在層次不符合時(shí),用戶可以修改或重新創(chuàng)建文本分類agent的預(yù)定義類別層次和訓(xùn)練文檔,或者利用文本聚類agent對(duì)文檔集合進(jìn)行聚類得到文檔簇;由于簇也是文檔的集合,因此,當(dāng)用戶對(duì)某個(gè)簇感興趣,而這個(gè)簇中又包含很多文檔時(shí),可以再次使用文本聚類agent將簇進(jìn)一步劃分為子簇,直到每個(gè)簇中包含的文檔數(shù)目適中為止.用戶與系統(tǒng)的交互存在多次反復(fù),直到獲得滿意的結(jié)果為止.
6 結(jié)束語
在Web信息充斥的情況下,Web挖掘是一個(gè)具有極大潛力的研究方向.一些國(guó)際會(huì)議,例如KDD‘97、IJCAI‘99等,已經(jīng)或即將舉行有關(guān)Web挖掘的專題討論,對(duì)其理論、體系結(jié)構(gòu)、算法等展開研究.本文對(duì)Web挖掘的定義、任務(wù)、功能作了系統(tǒng)性的研究,著重分析了Web文本挖掘的方法,并設(shè)計(jì)了一個(gè)Web文本挖掘系統(tǒng)原型WebMiner.在該領(lǐng)域仍有許多問題值得探討,包括:適用于大規(guī)模文檔集合的有效算法,利用XML規(guī)范對(duì)Web文檔元數(shù)據(jù)進(jìn)行描述和抽取,設(shè)計(jì)更多的Web挖掘部件以豐富WebMiner的功能等,這些將是我們下一步研究要解決的問題.
王繼成,男,1973年生,博士研究生,研究方向?yàn)樾畔z索與挖掘.
潘金貴,男,1952年生,教授,研究方向?yàn)橹虚g件、agent技術(shù). 張福炎,男,1939年生,教授,博士生導(dǎo)師,研究方向?yàn)閿?shù)字化圖書館、多媒體技術(shù). 王繼成(南京大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系 南京 210093) (南京大學(xué)軟件新技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室 南京 210093) 潘金貴(南京大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系 南京 210093) (南京大學(xué)軟件新技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室 南京 210093) 張福炎(南京大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系 南京 210093) (南京大學(xué)軟件新技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室 南京 210093) 參考文獻(xiàn)
1,Lawrence S et al. Searching the World Wide Web. Science, 1998, 280(5360): 98~100
2,F(xiàn)ayyad U et al. The KDD process for extracting useful knowledge from volumes of data. Communications of the ACM, 1996, 39(11): 27~34 3,Hahn U, Schnattinger K. Deep knowledge discovery from natural language texts. In: Proc of the 3rd Int‘l Conf on Knowledge Discovery and Data Mining. Newport Beach, 1997. 175~178 4,Gudivada V N et al. Information retrieval on the World Wide Web. IEEE Internet Computing, 1997, 1(5): 58~68 5,Zaïane O R, Han J et al. MultiMedia-miner: A system prototype for multimedia data mining. In: Proc of 1998 ACM-SIGMOD Conf on Management of Data. Seattle, 1998. 581~583 6,Pirolli P, Schank P et al. Scatter/gather browsing communicates the topic structure of a very large text collection. In: Proc of the ACM SIGCHI Conf on Human Factors in Computing Systems. 1996. http://www./sigs/sigchi/chi96/proceedings/papers/pirolli/pp-txt.htm 7,鄒 濤, 王繼成等. 基于WWW的資料搜集系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn). 情報(bào)學(xué)報(bào), 1999, 18(3): 195~201 , (Zou Tao, Wang Jicheng et al. The design and implementation of an information gathering system on the Web. Journal of the China Society for Scientific and Technical Information(in Chinese), 1999, 18(3): 195~201) 8,Choon Yang Quek. Classification of world wide web documents [Senior Honors dissertation]. School of Computer Science, Camegie Mellon University, 1997 9,Hearst M A, Pedersen J. Reexamining the cluster hypothesis: Scatter/gather on retrieval results. In: Proc of the 19th Annual Int‘l ACM/SIGIR Conf. Zurich, 1996. 76~84 10,Willet P. Recent trends in hierarchical document clustering: A critical review. Information Processing and Management, 1988, 24: 577~597 11,Rocchio J J. Document retrieval systems——Optimization and evaluation [Ph D dissertation]. Harvard University, Cambridge, MA, 1966 12,Cutting D et al. Scatter/gather: A cluster-based approach to browsing large document collections. In: Proc of the 15th Annual Int‘l ACM/SIGIR Conf. Copenhagen, 1992. 318~329 13,Brin S. Extracting patterns and relations from the World Wide Web. In: Proc of WebDB Workshop at EDBT‘98. Valencia, 1998 14,Wang Ke, Liu Huiqing. Schema discovery from semi-structured data. In: Proc of the 3rd Int‘l Conf on Knowledge Discovery and Data Mining. Newport Beach, 1997 15,F(xiàn)eldman R, Dagan I. Knowledge discovery in textual databases(KDT). In: Proc of the 1st Int‘l Conf on Knowledge Discovery. Montreal, 1995. 112~117 16,Wüthrich B, Permunetilleke D, Leung S et al. Daily prediction of major stock indices from textual WWW data. In: Proc of the 4th Int‘l Conf on Knowledge Discovery. New York, 1998 17,Craven M, Slattery S, Nigam K. First-order learning for Web mining. In: Proc of the 10th European Conf on Machine Learning. Chemnitz, 1998 18,Brin S et al. The anatomy of large-scale hypertextual web search engine. In: Proc of the Seventh Int‘l World Wide Web Conf. 1998. http://decweb./www7/1921/com1921.htm 19,Spertus E. ParaSite: Mining structural information on the web. In: Proc of the Sixth Int‘l World Wide Web Conf. 1997. http://decweb./www6/Technical/paper206/paper206.html 20,DiPasquo D. Using HTML formatting to aid in natural language processing on the World Wide Web [Senior Honors dissertation]. School of Computer Science, Canegie Mellon University, 1998 21,Bray T, Paoli J, Sperberg-McQueen C M. Extensible Markup Language (XML) 1.0 specification. World Wide Web Consortium Recommendation. 1998. http://www./TR/REC-xml/ 22,Lassila O, Swick R R. Resource Description Framework(RDF) Model and Syntax Specification. World Wide Web Consortium Recommendation. 1999. http://www./TR/REC-rdf-syntax/ 23,Salton G, Wong A, Yang C S. A vector space model for automatic indexing. Communications of the ACM, 1975, 18(5): 613~620 原稿收到日期:1999-05-11;修改稿收到日期:2000-01-26.
|
|
|