|
高 琦(沈陽(yáng)市第四人民醫(yī)院圖書(shū)館)
[分類(lèi)號(hào)]G250.76 數(shù)字化圖書(shū)館是信息技術(shù)的高科技項(xiàng)目,它不僅有力地帶動(dòng)和促進(jìn)相關(guān)產(chǎn)業(yè)的發(fā)展,而且因其具有豐富的信息資源,可以為實(shí)現(xiàn)科教興國(guó)戰(zhàn)略提供源泉和動(dòng)力。數(shù)字化圖書(shū)館對(duì)信息資源的廣泛收集、管理和強(qiáng)大的傳播功能,又使信息資源得到充分而有效的利用,從而促進(jìn)知識(shí)創(chuàng)新工程建設(shè)和科學(xué)技術(shù)的發(fā)展。未來(lái)的數(shù)字化圖書(shū)館與傳統(tǒng)圖書(shū)館相比,具有館藏文獻(xiàn)信息數(shù)字化、文獻(xiàn)信息傳遞網(wǎng)絡(luò)化、文獻(xiàn)信息服務(wù)方式電子化等特點(diǎn)。圖書(shū)館數(shù)字化包括傳統(tǒng)信息的數(shù)字化和數(shù)字化信息的查詢檢索系統(tǒng)。數(shù)字化圖書(shū)館的查詢檢索系統(tǒng)是數(shù)字化圖書(shū)館和讀者之間的接口,只有通過(guò)利用網(wǎng)絡(luò)簡(jiǎn)便、快捷地查詢檢索系統(tǒng),把讀者帶到他想要去的地方,并能幫他獲取有用信息,才能充分發(fā)揮數(shù)字化信息資源的優(yōu)勢(shì),才能更好地為讀者服務(wù)。 1 數(shù)字化圖書(shū)館信息檢索系統(tǒng)分析 傳統(tǒng)文獻(xiàn)信息進(jìn)行數(shù)字化之后,得到的數(shù)字化信息大多是非結(jié)構(gòu)化數(shù)據(jù),不能直接轉(zhuǎn)化成字段信息,很難用傳統(tǒng)的關(guān)系型數(shù)據(jù)軟件來(lái)管理這些數(shù)據(jù)信息。即使對(duì)于那些能被傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng)有效處理的結(jié)構(gòu)化信息而言,也存在著數(shù)據(jù)信息標(biāo)引加工速度慢、標(biāo)引不一致和不完全等諸多缺陷,不能滿足信息快速增長(zhǎng)的需要。 以文本數(shù)據(jù)為主要處理對(duì)象的全文檢索系統(tǒng)在一定程度上較好地解決了上述問(wèn)題,彌補(bǔ)了關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng)的不足。全文檢索系統(tǒng)提供了全新的、強(qiáng)大的檢索功能,可以直接根據(jù)文獻(xiàn)的內(nèi)容進(jìn)行檢索。同時(shí),對(duì)于信息資源的綜合利用,給予多角度、多層面的支持。全文檢索技術(shù)是未來(lái)數(shù)字化圖書(shū)館檢索系統(tǒng)的主要技術(shù)基礎(chǔ)?,F(xiàn)在的全文查詢檢索系統(tǒng)按查詢方式可分為以下兩類(lèi): 1.1 主題目錄查詢。這種檢索方式和傳統(tǒng)的人工檢索系統(tǒng)類(lèi)似。首先將信息按不同的學(xué)科、專(zhuān)業(yè)進(jìn)行分類(lèi),一般在大類(lèi)目下再細(xì)分成若干小類(lèi)目,類(lèi)目之間按照等級(jí)大小排列。用戶通過(guò)主題目錄的指引,逐級(jí)、逐層瀏覽,找到自己所需要的有用信息。按照主題目錄進(jìn)行查詢的主要優(yōu)點(diǎn)是信息通過(guò)篩選和系統(tǒng)組織,檢索質(zhì)量較高,層次性、條理性強(qiáng),檢索結(jié)果接近用戶需求。其缺點(diǎn)是對(duì)于原始信息進(jìn)行加工處理的速度遠(yuǎn)遠(yuǎn)跟不上信息的增長(zhǎng)速度,檢索到的有用信息的數(shù)量有限。 1.2 關(guān)鍵詞、主題詞查詢。使用這種檢索方式時(shí),首先由用戶提出檢索要求,再由查詢軟件負(fù)責(zé)代替用戶在信息庫(kù)中進(jìn)行檢索,并將檢索到的結(jié)果及時(shí)反饋給用戶。在檢索過(guò)程中,系統(tǒng)軟件還可以利用特殊的算法,計(jì)算、評(píng)估檢索到的信息與用戶所需信息的相關(guān)性,并且根據(jù)相關(guān)性的大小將信息排序,將相關(guān)性最大、與用戶需求最貼切的信息排在輸出信息的前列。 很多全文檢索軟件是將人工編制的主題目錄和計(jì)算機(jī)軟件的關(guān)鍵詞檢索結(jié)合起來(lái),充分發(fā)揮兩者優(yōu)勢(shì)來(lái)處理數(shù)據(jù)。這些全文檢索系統(tǒng)雖然在很大程度上解決了大量非結(jié)構(gòu)化數(shù)據(jù)的查詢檢索問(wèn)題,但也存在一些問(wèn)題,需要進(jìn)一步提高,以滿足使用者的需要。良好的檢索系統(tǒng)應(yīng)具備以下優(yōu)點(diǎn):檢索結(jié)果準(zhǔn)確、全面;能夠利用自然語(yǔ)言進(jìn)行檢索;檢索界面要簡(jiǎn)潔明了,易學(xué)易用;檢索結(jié)果經(jīng)過(guò)適當(dāng)加工,做到格式清晰,內(nèi)容有條理性;支持多媒體;檢索速度快。同上述優(yōu)點(diǎn)相比,現(xiàn)在的全文檢索系統(tǒng)主要存在以下幾個(gè)問(wèn)題:①檢索結(jié)果往往是大量的未經(jīng)過(guò)精細(xì)加工的信息,其中冗余太多;②不能對(duì)檢索到的信息進(jìn)行合適的組織與分類(lèi);③要求用戶將查找的信息以關(guān)鍵字的形式較準(zhǔn)確地描述出來(lái),作為查詢條件提交給系統(tǒng),查詢的結(jié)果往往導(dǎo)致相關(guān)信息丟失。 由于目前的檢索系統(tǒng)由于還存在上述欠缺,即使使用全文檢索系統(tǒng),當(dāng)讀者查詢數(shù)字化圖書(shū)館館藏信息時(shí),也常常碰碰到花費(fèi)了大量的時(shí)間,卻不能找到所需要的信息的情況。因此,如何去粗取精、由表及里,迅速準(zhǔn)確地提供用戶所需信息,成為下一代查詢檢索系統(tǒng)著重考慮的問(wèn)題。 近年來(lái),悄然興起的文本挖掘技術(shù)和信息融合技術(shù)被應(yīng)用到全文檢索系統(tǒng)中。由于中文信息處理的特殊性,有關(guān)這一方面的研究、開(kāi)發(fā)進(jìn)展不大,但這些新技術(shù)將使下一代查詢檢索系統(tǒng)更具智能化,更符合我們的需要。 2 文本挖掘技術(shù) 文本挖掘是一種智能化的工具。它能夠使人們免于陷入信息的汪洋之中,從大量冗余的信息中迅速發(fā)現(xiàn)對(duì)自己有用的信息,同時(shí),還在一定程度上揭示信息與信息之間的關(guān)聯(lián),產(chǎn)生出用戶以前未曾意識(shí)到的有用信息。而傳統(tǒng)的信息檢索軟件所查詢的信息可能僅僅從字面上符合查詢要求,并不是人們真正需要的信息。文本挖掘技術(shù)能夠根據(jù)用戶的真正需要,把與之相關(guān)聯(lián)、有價(jià)值以及用戶以前未曾注意的有用信息,都檢索出來(lái)。文本挖掘技術(shù)是建立在對(duì)原始信息的分類(lèi)和聚類(lèi)基礎(chǔ)上的新技術(shù)。 2.1 信息分類(lèi)與信息聚類(lèi)。所謂信息分類(lèi)就是采用某種方法把一些特征上類(lèi)似的信息歸納、合并在一起,把一個(gè)信息集合分為若干個(gè)子集,每個(gè)子集的信息有類(lèi)似特征。分類(lèi)是人們主觀創(chuàng)造的產(chǎn)物,是對(duì)信息屬性有序聚類(lèi)的一種認(rèn)識(shí)。對(duì)于信息屬性認(rèn)識(shí)的越全面,就越有可能揭示信息較為本質(zhì)的東西。所謂信息聚類(lèi),從應(yīng)用角度講,源于客觀世界中的原始信息不容易分類(lèi),聚類(lèi)可以將不同分類(lèi)的數(shù)據(jù)集合,根據(jù)用戶的需要快速聚集起來(lái),動(dòng)態(tài)地產(chǎn)生新的分類(lèi)。這一特性使之成為數(shù)據(jù)導(dǎo)航技術(shù)中的重要功能之一,常用于粗放型冗余信息過(guò)濾。 2.2 文本挖掘技術(shù)的應(yīng)用。①基于內(nèi)容檢索:由于僅用幾個(gè)關(guān)鍵詞難以充分描述具有豐富內(nèi)涵的信息,而且關(guān)鍵詞的選取也有很大的主觀性,故文本挖掘技術(shù)采用區(qū)別于傳統(tǒng)檢索手段的基于內(nèi)容的檢索技術(shù)。盡管目前基于內(nèi)容的檢索技術(shù)還很初級(jí),只能利用一些相對(duì)簡(jiǎn)單的特征來(lái)進(jìn)行檢索,但隨著研究的深入,必將可以從文本信息抽取一些更為詳細(xì)的、經(jīng)過(guò)特殊加工的特征信息,大大提高檢索的全面性和準(zhǔn)確性。②信息智能代理:主要為在分布式信息網(wǎng)絡(luò)環(huán)境下的信息的查詢服務(wù)。信息智能代理使用戶可以不知道所要檢索信息的具體形式,存儲(chǔ)于何處、何種介質(zhì)中,只要用戶提出查找要求,文本挖掘技術(shù)會(huì)自動(dòng)地把各種信息源中各種形式的相關(guān)信息檢索出來(lái),供用戶使用,使用戶可以立即獲得較為滿意的檢索結(jié)果。③信息過(guò)濾:根據(jù)用戶需要,通過(guò)對(duì)多個(gè)不同信息集之間的比較,進(jìn)行信息過(guò)濾,產(chǎn)生適量的、合乎用戶需求的信息。④文本信息文摘:用包括題目和具有代表性的關(guān)鍵詞(字),進(jìn)行抽取、計(jì)算和表達(dá),自動(dòng)選擇重要的句子,產(chǎn)生文本信息摘要。⑤信息表現(xiàn):信息挖掘技術(shù)關(guān)心的是信息的方方面面,力求從多角度表現(xiàn)信息的本質(zhì)和特征。文本挖掘技術(shù)能動(dòng)態(tài)地、實(shí)時(shí)在線地表現(xiàn)信息的相關(guān)屬性,使用戶及時(shí)發(fā)現(xiàn)信息,及時(shí)更新信息和及時(shí)地發(fā)現(xiàn)信息的演變方向。 從以上可以看出,傳統(tǒng)的信息檢索系統(tǒng),通常是用戶從信息庫(kù)中找他想要的信息,而信息挖掘技術(shù)則是由軟件查看信息庫(kù)中到底存在哪些符合用戶需求的信息。 3 信息融合技術(shù) 信息融合技術(shù)是一種綜合利用多種信息資源,以獲得對(duì)某一事物更客觀、更本質(zhì)認(rèn)識(shí)的信息處理技術(shù)。信息融合技術(shù)始于70年代初,80 年代以后得到迅速發(fā)展。信息融合技術(shù)是采集并集成各種信息源中的多格式信息,生成比原始信息更為簡(jiǎn)潔、更少冗余、更為有用的綜合信息。 信息融合技術(shù)是研究如何加工、綜合來(lái)自于眾多信息源的信息并能使不同形式的信息相互補(bǔ)充,使其信息量得到最大限度的發(fā)揮。 信息融合技術(shù)應(yīng)用于檢索系統(tǒng),通過(guò)對(duì)信息的取舍和集合劃分,可以合理地組織查詢結(jié)果,減少不必要的信息冗余,又能使各種來(lái)源的信息連接為一個(gè)有機(jī)的整體,使用戶獲得完整、準(zhǔn)確、及時(shí)有效而且簡(jiǎn)潔、明了的信息;可以避免數(shù)據(jù)富有、信息貧乏情況的出現(xiàn),從而大大加快數(shù)字化圖書(shū)館的建設(shè)進(jìn)程,縮短與世界先進(jìn)技術(shù)水平的差距,使數(shù)字化圖書(shū)館能更好地為讀者服務(wù)。 參考文獻(xiàn): 1 丁有駿著編.走向二十一世紀(jì)的圖書(shū)館.北京:北京圖書(shū)館出版社,1998 2 汪冰著編.電子圖書(shū)館理論與實(shí)踐研究.北京:北京圖書(shū)館出版社,1999 3 鐘琳.知識(shí)管理的軟件.圖書(shū)與情報(bào),2002(8) 高 琦 男,1965年生人。1998年畢業(yè)于北京大學(xué)(專(zhuān)升本)信息管理專(zhuān)業(yè)。館員,現(xiàn)工作于沈陽(yáng)市第四人民醫(yī)院圖書(shū)館。郵編:100031。 |
|
|
來(lái)自: 鈴兒響叮當(dāng) > 《數(shù)字圖書(shū)館》