文本挖掘與信息融合技術(shù)在檢索系統(tǒng)中的應(yīng)用

鈴兒響叮當(dāng) 2006-06-02

展開(kāi)全文

高　琦(沈陽(yáng)市第四人民醫(yī)院圖書(shū)館)
[分類(lèi)號(hào)]G250.76

數(shù)字化圖書(shū)館是信息技術(shù)的高科技項(xiàng)目，它不僅有力地帶動(dòng)和促進(jìn)相關(guān)產(chǎn)業(yè)的發(fā)展，而且因其具有豐富的信息資源，可以為實(shí)現(xiàn)科教興國(guó)戰(zhàn)略提供源泉和動(dòng)力。數(shù)字化圖書(shū)館對(duì)信息資源的廣泛收集、管理和強(qiáng)大的傳播功能，又使信息資源得到充分而有效的利用，從而促進(jìn)知識(shí)創(chuàng)新工程建設(shè)和科學(xué)技術(shù)的發(fā)展。未來(lái)的數(shù)字化圖書(shū)館與傳統(tǒng)圖書(shū)館相比，具有館藏文獻(xiàn)信息數(shù)字化、文獻(xiàn)信息傳遞網(wǎng)絡(luò)化、文獻(xiàn)信息服務(wù)方式電子化等特點(diǎn)。圖書(shū)館數(shù)字化包括傳統(tǒng)信息的數(shù)字化和數(shù)字化信息的查詢檢索系統(tǒng)。數(shù)字化圖書(shū)館的查詢檢索系統(tǒng)是數(shù)字化圖書(shū)館和讀者之間的接口，只有通過(guò)利用網(wǎng)絡(luò)簡(jiǎn)便、快捷地查詢檢索系統(tǒng)，把讀者帶到他想要去的地方，并能幫他獲取有用信息，才能充分發(fā)揮數(shù)字化信息資源的優(yōu)勢(shì)，才能更好地為讀者服務(wù)。

1　數(shù)字化圖書(shū)館信息檢索系統(tǒng)分析

　　傳統(tǒng)文獻(xiàn)信息進(jìn)行數(shù)字化之后，得到的數(shù)字化信息大多是非結(jié)構(gòu)化數(shù)據(jù)，不能直接轉(zhuǎn)化成字段信息，很難用傳統(tǒng)的關(guān)系型數(shù)據(jù)軟件來(lái)管理這些數(shù)據(jù)信息。即使對(duì)于那些能被傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng)有效處理的結(jié)構(gòu)化信息而言，也存在著數(shù)據(jù)信息標(biāo)引加工速度慢、標(biāo)引不一致和不完全等諸多缺陷，不能滿足信息快速增長(zhǎng)的需要。

　　以文本數(shù)據(jù)為主要處理對(duì)象的全文檢索系統(tǒng)在一定程度上較好地解決了上述問(wèn)題，彌補(bǔ)了關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng)的不足。全文檢索系統(tǒng)提供了全新的、強(qiáng)大的檢索功能，可以直接根據(jù)文獻(xiàn)的內(nèi)容進(jìn)行檢索。同時(shí)，對(duì)于信息資源的綜合利用，給予多角度、多層面的支持。全文檢索技術(shù)是未來(lái)數(shù)字化圖書(shū)館檢索系統(tǒng)的主要技術(shù)基礎(chǔ)?，F(xiàn)在的全文查詢檢索系統(tǒng)按查詢方式可分為以下兩類(lèi)：

1.1　主題目錄查詢。這種檢索方式和傳統(tǒng)的人工檢索系統(tǒng)類(lèi)似。首先將信息按不同的學(xué)科、專(zhuān)業(yè)進(jìn)行分類(lèi)，一般在大類(lèi)目下再細(xì)分成若干小類(lèi)目，類(lèi)目之間按照等級(jí)大小排列。用戶通過(guò)主題目錄的指引，逐級(jí)、逐層瀏覽，找到自己所需要的有用信息。按照主題目錄進(jìn)行查詢的主要優(yōu)點(diǎn)是信息通過(guò)篩選和系統(tǒng)組織，檢索質(zhì)量較高，層次性、條理性強(qiáng)，檢索結(jié)果接近用戶需求。其缺點(diǎn)是對(duì)于原始信息進(jìn)行加工處理的速度遠(yuǎn)遠(yuǎn)跟不上信息的增長(zhǎng)速度，檢索到的有用信息的數(shù)量有限。

1.2　關(guān)鍵詞、主題詞查詢。使用這種檢索方式時(shí)，首先由用戶提出檢索要求，再由查詢軟件負(fù)責(zé)代替用戶在信息庫(kù)中進(jìn)行檢索，并將檢索到的結(jié)果及時(shí)反饋給用戶。在檢索過(guò)程中，系統(tǒng)軟件還可以利用特殊的算法，計(jì)算、評(píng)估檢索到的信息與用戶所需信息的相關(guān)性，并且根據(jù)相關(guān)性的大小將信息排序，將相關(guān)性最大、與用戶需求最貼切的信息排在輸出信息的前列。

　　很多全文檢索軟件是將人工編制的主題目錄和計(jì)算機(jī)軟件的關(guān)鍵詞檢索結(jié)合起來(lái)，充分發(fā)揮兩者優(yōu)勢(shì)來(lái)處理數(shù)據(jù)。這些全文檢索系統(tǒng)雖然在很大程度上解決了大量非結(jié)構(gòu)化數(shù)據(jù)的查詢檢索問(wèn)題，但也存在一些問(wèn)題，需要進(jìn)一步提高，以滿足使用者的需要。良好的檢索系統(tǒng)應(yīng)具備以下優(yōu)點(diǎn)：檢索結(jié)果準(zhǔn)確、全面；能夠利用自然語(yǔ)言進(jìn)行檢索；檢索界面要簡(jiǎn)潔明了，易學(xué)易用；檢索結(jié)果經(jīng)過(guò)適當(dāng)加工，做到格式清晰，內(nèi)容有條理性；支持多媒體；檢索速度快。同上述優(yōu)點(diǎn)相比，現(xiàn)在的全文檢索系統(tǒng)主要存在以下幾個(gè)問(wèn)題：①檢索結(jié)果往往是大量的未經(jīng)過(guò)精細(xì)加工的信息，其中冗余太多；②不能對(duì)檢索到的信息進(jìn)行合適的組織與分類(lèi)；③要求用戶將查找的信息以關(guān)鍵字的形式較準(zhǔn)確地描述出來(lái)，作為查詢條件提交給系統(tǒng)，查詢的結(jié)果往往導(dǎo)致相關(guān)信息丟失。

　　由于目前的檢索系統(tǒng)由于還存在上述欠缺，即使使用全文檢索系統(tǒng)，當(dāng)讀者查詢數(shù)字化圖書(shū)館館藏信息時(shí)，也常常碰碰到花費(fèi)了大量的時(shí)間，卻不能找到所需要的信息的情況。因此，如何去粗取精、由表及里，迅速準(zhǔn)確地提供用戶所需信息，成為下一代查詢檢索系統(tǒng)著重考慮的問(wèn)題。

　　近年來(lái)，悄然興起的文本挖掘技術(shù)和信息融合技術(shù)被應(yīng)用到全文檢索系統(tǒng)中。由于中文信息處理的特殊性，有關(guān)這一方面的研究、開(kāi)發(fā)進(jìn)展不大，但這些新技術(shù)將使下一代查詢檢索系統(tǒng)更具智能化，更符合我們的需要。

2　文本挖掘技術(shù)

　　文本挖掘是一種智能化的工具。它能夠使人們免于陷入信息的汪洋之中，從大量冗余的信息中迅速發(fā)現(xiàn)對(duì)自己有用的信息，同時(shí)，還在一定程度上揭示信息與信息之間的關(guān)聯(lián)，產(chǎn)生出用戶以前未曾意識(shí)到的有用信息。而傳統(tǒng)的信息檢索軟件所查詢的信息可能僅僅從字面上符合查詢要求，并不是人們真正需要的信息。文本挖掘技術(shù)能夠根據(jù)用戶的真正需要，把與之相關(guān)聯(lián)、有價(jià)值以及用戶以前未曾注意的有用信息，都檢索出來(lái)。文本挖掘技術(shù)是建立在對(duì)原始信息的分類(lèi)和聚類(lèi)基礎(chǔ)上的新技術(shù)。

2.1　信息分類(lèi)與信息聚類(lèi)。所謂信息分類(lèi)就是采用某種方法把一些特征上類(lèi)似的信息歸納、合并在一起，把一個(gè)信息集合分為若干個(gè)子集，每個(gè)子集的信息有類(lèi)似特征。分類(lèi)是人們主觀創(chuàng)造的產(chǎn)物，是對(duì)信息屬性有序聚類(lèi)的一種認(rèn)識(shí)。對(duì)于信息屬性認(rèn)識(shí)的越全面，就越有可能揭示信息較為本質(zhì)的東西。所謂信息聚類(lèi)，從應(yīng)用角度講，源于客觀世界中的原始信息不容易分類(lèi)，聚類(lèi)可以將不同分類(lèi)的數(shù)據(jù)集合，根據(jù)用戶的需要快速聚集起來(lái)，動(dòng)態(tài)地產(chǎn)生新的分類(lèi)。這一特性使之成為數(shù)據(jù)導(dǎo)航技術(shù)中的重要功能之一，常用于粗放型冗余信息過(guò)濾。

2.2　文本挖掘技術(shù)的應(yīng)用。①基于內(nèi)容檢索：由于僅用幾個(gè)關(guān)鍵詞難以充分描述具有豐富內(nèi)涵的信息，而且關(guān)鍵詞的選取也有很大的主觀性，故文本挖掘技術(shù)采用區(qū)別于傳統(tǒng)檢索手段的基于內(nèi)容的檢索技術(shù)。盡管目前基于內(nèi)容的檢索技術(shù)還很初級(jí)，只能利用一些相對(duì)簡(jiǎn)單的特征來(lái)進(jìn)行檢索，但隨著研究的深入，必將可以從文本信息抽取一些更為詳細(xì)的、經(jīng)過(guò)特殊加工的特征信息，大大提高檢索的全面性和準(zhǔn)確性。②信息智能代理：主要為在分布式信息網(wǎng)絡(luò)環(huán)境下的信息的查詢服務(wù)。信息智能代理使用戶可以不知道所要檢索信息的具體形式，存儲(chǔ)于何處、何種介質(zhì)中，只要用戶提出查找要求，文本挖掘技術(shù)會(huì)自動(dòng)地把各種信息源中各種形式的相關(guān)信息檢索出來(lái)，供用戶使用，使用戶可以立即獲得較為滿意的檢索結(jié)果。③信息過(guò)濾：根據(jù)用戶需要，通過(guò)對(duì)多個(gè)不同信息集之間的比較，進(jìn)行信息過(guò)濾，產(chǎn)生適量的、合乎用戶需求的信息。④文本信息文摘：用包括題目和具有代表性的關(guān)鍵詞(字)，進(jìn)行抽取、計(jì)算和表達(dá)，自動(dòng)選擇重要的句子，產(chǎn)生文本信息摘要。⑤信息表現(xiàn)：信息挖掘技術(shù)關(guān)心的是信息的方方面面，力求從多角度表現(xiàn)信息的本質(zhì)和特征。文本挖掘技術(shù)能動(dòng)態(tài)地、實(shí)時(shí)在線地表現(xiàn)信息的相關(guān)屬性，使用戶及時(shí)發(fā)現(xiàn)信息，及時(shí)更新信息和及時(shí)地發(fā)現(xiàn)信息的演變方向。

　　從以上可以看出，傳統(tǒng)的信息檢索系統(tǒng)，通常是用戶從信息庫(kù)中找他想要的信息，而信息挖掘技術(shù)則是由軟件查看信息庫(kù)中到底存在哪些符合用戶需求的信息。

3　信息融合技術(shù)

　　信息融合技術(shù)是一種綜合利用多種信息資源，以獲得對(duì)某一事物更客觀、更本質(zhì)認(rèn)識(shí)的信息處理技術(shù)。信息融合技術(shù)始于70年代初，80 年代以后得到迅速發(fā)展。信息融合技術(shù)是采集并集成各種信息源中的多格式信息，生成比原始信息更為簡(jiǎn)潔、更少冗余、更為有用的綜合信息。

　　信息融合技術(shù)是研究如何加工、綜合來(lái)自于眾多信息源的信息并能使不同形式的信息相互補(bǔ)充，使其信息量得到最大限度的發(fā)揮。

　　信息融合技術(shù)應(yīng)用于檢索系統(tǒng)，通過(guò)對(duì)信息的取舍和集合劃分，可以合理地組織查詢結(jié)果，減少不必要的信息冗余，又能使各種來(lái)源的信息連接為一個(gè)有機(jī)的整體，使用戶獲得完整、準(zhǔn)確、及時(shí)有效而且簡(jiǎn)潔、明了的信息；可以避免數(shù)據(jù)富有、信息貧乏情況的出現(xiàn)，從而大大加快數(shù)字化圖書(shū)館的建設(shè)進(jìn)程，縮短與世界先進(jìn)技術(shù)水平的差距，使數(shù)字化圖書(shū)館能更好地為讀者服務(wù)。

參考文獻(xiàn)：

1　丁有駿著編.走向二十一世紀(jì)的圖書(shū)館.北京：北京圖書(shū)館出版社，1998

2　汪冰著編.電子圖書(shū)館理論與實(shí)踐研究.北京：北京圖書(shū)館出版社，1999

3　鐘琳.知識(shí)管理的軟件.圖書(shū)與情報(bào)，2002(8)

　　高　琦　男，1965年生人。1998年畢業(yè)于北京大學(xué)(專(zhuān)升本)信息管理專(zhuān)業(yè)。館員，現(xiàn)工作于沈陽(yáng)市第四人民醫(yī)院圖書(shū)館。郵編：100031。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自：鈴兒響叮當(dāng) > 《數(shù)字圖書(shū)館》

舉報(bào)/認(rèn)領(lǐng)