小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

使用 Microsoft SQL Server 2000 的全文搜索功能構(gòu)建 Web 搜索應用程序

 liuqg 2006-03-13

使用 Microsoft SQL Server 2000 的全文搜索功能構(gòu)建 Web 搜索應用程序


Andrew B. Cencini
Microsoft Corporation
2002年12月

 

適用于:
    Microsoft® SQL™ Server 2000

摘要:學習如何充分利用 SQL Server 2000 的全文搜索功能。本文包含有關(guān)實現(xiàn)最大吞吐率和最佳性能的幾點提示和技巧。

目錄

簡介

使用 Microsoft® SQL™ Server 2000 的全文搜索功能,可以對在非結(jié)構(gòu)化文本數(shù)據(jù)上生成的索引執(zhí)行快速、靈活的查詢。常用的全文搜索工具是網(wǎng)站的搜索引擎。為了幫助讀者理解全文搜索功能的最佳使用方法,本文介紹了大量抽象概念;并對優(yōu)化全文索引和查詢以實現(xiàn)最大吞吐率和最佳性能,提供了幾點提示和技巧。

全文搜索功能簡介

全文搜索功能在 SQL Server 7.0 中引入。全文搜索的核心引擎建立在 Microsoft Search (MSSearch) 技術(shù)上,Microsoft Exchange 和 Microsoft SharePoint™ Portal Server 等產(chǎn)品中也采用了此項技術(shù)。

SQL Server 7.0 全文搜索中公開的功能可提供基本的文本搜索功能,并使用早期版本的 MSSearch;而 SQL Server 2000 的全文搜索實現(xiàn)則包含一組可靠的索引和查詢功能,并在 SQL Server 7.0 的基礎(chǔ)之上添加了幾項增強功能。這些增強功能包括:通過 Microsoft 群集服務完全支持群集操作,能夠過濾和索引 IMAGE 列中存儲的文檔,提供改進的語言支持,以及在性能、可縮放性和可靠性方面進行了改進。

MSSearch 生成、維護和查詢文件系統(tǒng)中(而不是 SQL Server 中)存儲的全文索引。MSSearch 進行全文索引時使用的邏輯和物理存儲單元是目錄。全文目錄在每個數(shù)據(jù)庫中包含一個或多個全文索引 - 可以為 SQL Server 中的每個表創(chuàng)建一個全文索引,且索引中可以包含該表中的一列或多列。每個表只能屬于一個目錄,且每個表只能創(chuàng)建一個索引。我們將簡單介紹有關(guān)組織全文目錄和索引的最佳方案 - 但首先,讓我們來簡單了解一下全文搜索的工作原理。

配置全文搜索功能

要為 SQL Server 中存儲的文本數(shù)據(jù)創(chuàng)建全文索引,應該先完成以下幾步準備工作。第一步是以全文方式啟用包含要生成索引的文本數(shù)據(jù)的數(shù)據(jù)庫(如果您尚未執(zhí)行此操作)。

注意:執(zhí)行以下語句將丟棄并重新創(chuàng)建屬于要啟用全文搜索的數(shù)據(jù)庫的所有全文目錄。除非要重新創(chuàng)建全文目錄,否則請確保在要啟用的特定數(shù)據(jù)庫中未創(chuàng)建任何全文目錄。

如果您是 sysadmin 角色的成員或此數(shù)據(jù)庫的 db_owner,可以繼續(xù)進行并發(fā)出以下語句:

use Northwind
exec sp_fulltext_database ‘enable‘

接下來,您需要創(chuàng)建全文目錄,以存儲全文索引。正如前面所提到的,此目錄中的數(shù)據(jù)存儲在文件系統(tǒng)中(而不是 SQL Server 中),因此,在考慮全文目錄的存儲位置時應該仔細選擇。除非指定其他位置,否則全文目錄將存儲在 FTDATA 目錄(位于 Microsoft SQL Server\MSSQL 存儲位置中)的子目錄中。以下是在非默認位置創(chuàng)建全文目錄的方法:

exec sp_fulltext_catalog ‘Cat_Desc‘, ‘create‘, ‘f:\ft‘

在本例中,全文目錄將創(chuàng)建為“f:\ft”的子目錄,如果您查看文件系統(tǒng)的該部分,將看到它有了自己的目錄。MSSearch 使用的全文目錄的命名規(guī)則是:

SQL+dbid+catalogID

目錄 ID 從 00005 開始,并且每新建一個目錄就遞增 1。

如果可能的話,最好在其所在的物理驅(qū)動器上創(chuàng)建全文目錄。如果生成全文索引的進程需要進行大量的 I/O 操作(具體而言,就是從 SQL Server 中讀取數(shù)據(jù),然后向文件系統(tǒng)寫入索引),則應避免使 I/O 子系統(tǒng)成為瓶頸。

那么,全文目錄有多大呢?通常情況下,全文目錄的系統(tǒng)開銷比 SQL Server 中存儲的數(shù)據(jù)(對其進行全文索引)量高出大約 30%;但是,此規(guī)則取決于數(shù)據(jù)中唯一單詞(或主鍵)的分布,以及被您視為是干擾詞的單詞的分布。干擾詞(或終止詞)是指要排除在全文索引和查詢以外的詞語(因為它們不是您感興趣的搜索詞,而且出現(xiàn)頻率很高,所以只會使索引變得很大,而不會有實際效果)。稍后,我們將介紹有關(guān)干擾詞選擇方面的注意事項,以及如何優(yōu)化干擾詞以改善查詢性能。

如果您尚未執(zhí)行此操作,請在每個要生成全文索引的表上創(chuàng)建一個唯一的單列非空索引。這個唯一索引用于將表中的每一行映射到 MSSearch 內(nèi)部使用的一個唯一可壓縮主鍵。接下來,您需要讓 MSSearch 知道您要為表創(chuàng)建全文索引。對表發(fā)出以下語句可將該表添加到所選的全文目錄中(在本例中,它是我們在前面創(chuàng)建的“Cat_Desc”):

exec sp_fulltext_table ‘Categories‘, ‘create‘, ‘Cat_Desc‘,
‘PK_Categories‘

下一步是向此全文索引添加列。您可以為每一列選擇一種語言,如果該列的類型為 IMAGE,則必須再指定一列,以指示 IMAGE 列的每一行中存儲的文檔類型。

在列語言選擇方面,有一些重要但尚未成文的注意事項。這些注意事項與文本的標記方式以及 MSSearch 對文本的索引方式有關(guān)。被索引的文本是通過一個稱作單詞分隔符(用作單詞邊界標記)的組件提供的。在英文中,單詞分隔符通常是空格或某種形式的標點符號;而在其他語言中(例如德語),單詞或字符可以組合在一起;因此,所選的列語言應表示要存儲在該列的行中的語言。如果不確定,最好的方法通常是使用中性單詞分隔符(只使用空格和標點符號執(zhí)行標記功能)。選擇列語言的另一個好處是“尋根溯源”。全文查詢中的尋根溯源是指在特定語言中搜索某一單詞的所有變化形式的過程。

選擇語言的另一個考慮因素與數(shù)據(jù)的表示方法有關(guān)。對于非 IMAGE 列數(shù)據(jù)來說,不需要執(zhí)行特殊的過濾操作;而文本通常需要將單詞分隔組件按原樣傳遞。單詞分隔符主要用于處理書面文本。因此,如果文本中有任何類型的標記(例如 HTML),則在索引和搜索過程中,語言精確性將不會很高。這種情況下,您有兩種選擇 - 首選方法是只將文本數(shù)據(jù)存儲在 IMAGE 列中,并指明其文檔類型,以便對其進行過濾。如果不選擇此方法,則可以考慮使用中性單詞分隔符,并且可能的話,在干擾詞列表中添加標記數(shù)據(jù)(例如 HTML 中的“br”)。在指定了中性語言的列中不能進行任何基于語言的尋根溯源,但有些環(huán)境可能會要求您選擇此方法。

在知道列選項后,通過發(fā)出以下語句在全文索引中添加一列或兩列:

exec sp_fulltext_column ‘Categories‘, ‘Description‘, ‘a(chǎn)dd‘

您可能注意到,此處未指定任何語言 - 這種情況下,將使用默認的全文語言。可以通過系統(tǒng)存儲過程“sp_configure”為服務器設置默認全文語言。

將所有列添加到全文索引后,即可執(zhí)行填充操作。填充方法之多實在是不勝枚舉,此處不作詳細介紹。在本例中,只需對表啟動完全填充,并等待它執(zhí)行完畢:

exec sp_fulltext_table ‘Categories‘, ‘start_full‘

您可能希望使用 FULLTEXTCATALOGPROPERTY 或 OBJECTPROPERTY 函數(shù)來監(jiān)視填充狀態(tài)。要獲取目錄填充狀態(tài),可以執(zhí)行:

select FULLTEXTCATALOGPROPERTY(‘Cat_Desc‘, ‘Populatestatus‘)

通常情況下,如果完全填充正在進行,則返回的結(jié)果是“1”。有關(guān)如何使用 FULLTEXTCATALOGPROPERTY 和 OBJECTPROPERTY 的詳細信息,請參閱 SQL Server Books Online。

全文查詢

查詢?nèi)乃饕c執(zhí)行 SQL Server 中的標準關(guān)系型查詢略有不同。由于索引是在 SQL Server 外部進行存儲和管理的,因此全文查詢處理大部分由 MSSearch 完成(因此,那些一部分是關(guān)系型、一部分基于全文的查詢將被單獨處理),這樣做有時會損害性能。

從本質(zhì)上說,執(zhí)行全文查詢時,查詢詞傳遞給 MSSearch,后者遍歷其內(nèi)部數(shù)據(jù)結(jié)構(gòu)(索引),并向 SQL Server 返回主鍵和排位值。如果執(zhí)行 CONTAINS 或 FREETEXT 查詢,則通??床坏街麈I或排位值,但如果執(zhí)行 CONTAINSTABLE 或 FREETEXTTABLE 查詢,則將獲得這些值,然后這些值通常會與基表合并在一起。與基表合并主鍵的進程需要很高的系統(tǒng)開銷 - 稍后,我們將向您介紹一些巧妙的方法以盡量減少或完全避免這種合并。

如果您通過不斷思考,對全文查詢?nèi)绾畏祷財?shù)據(jù)有了一個初步了解,就可以推測出 CONTAINS/FREETEXT 查詢僅執(zhí)行 CONTAINSTABLE/FREETEXTTABLE 查詢并與基表進行合并。有了這樣的了解,您應該避免使用這些類型的查詢,除非不這樣做的開銷更高。在 Web 搜索應用程序中,使用 CONTAINSTABLE 與 FREETEXTTABLE 比使用不帶 TABLE 的同類函數(shù)好得多。

到現(xiàn)在為止,您已經(jīng)知道全文查詢是用來從 SQL Server 之外存儲的 MSSearch 索引中訪問數(shù)據(jù)的特殊方法,還知道如果盲目地與基表進行合并,就會遇到麻煩。應該了解的另外一個重要內(nèi)容是 CONTAINS 樣式查詢與 FREETEXT 樣式查詢之間的本質(zhì)差別。

CONTAINS 查詢用于對所查詢的所有詞語執(zhí)行完全匹配查詢。無論您只查找單個單詞,還是查找以“orange”開頭的所有單詞,系統(tǒng)只返回包含所有搜索詞的結(jié)果。因此,CONTAINS 查詢速度很快,因為它們通常返回很少的結(jié)果,并且不需要執(zhí)行過多的附加處理。CONTAINS 查詢的缺點包括令人生厭的干擾詞過濾問題。經(jīng)驗豐富的開發(fā)人員以及過去使用過全文搜索的數(shù)據(jù)庫管理員,在試圖匹配只包含單個干擾詞的單詞或詞組時,曾遇到過“您的查詢只包含干擾詞”這樣令人吃驚的錯誤。要避免收到此錯誤,方法之一是在執(zhí)行全文查詢之前過濾出干擾詞。向包含干擾詞的 CONTAINS 查詢返回結(jié)果是不可能的,因為此類查詢只返回與整個查詢字符串完全匹配的結(jié)果。由于干擾詞不是全文索引項,因此包含干擾詞的 CONTAINS 查詢不會返回任何行。

FREETEXT 查詢消除了 CONTAINS 查詢中偶爾出現(xiàn)的所有警告說明。當發(fā)出 FREETEXT 查詢時,實際上發(fā)出的是詞根查詢。因此,當您搜索“root beer”時,“root”和“beer”包含其所有形式(尋根溯源與語言相關(guān);所用的語言由生成索引時指定的全文列語言確定,并且在所有查詢的列中必須相同),并且系統(tǒng)將返回至少與這些詞語之一匹配的所有行。

FREETEXT 查詢的負面影響是它們通常比 CONTAINS 查詢耗用更多的 CPU - 因為要尋根溯源以及返回更多的結(jié)果,就需要包含更復雜的排位計算。不過,基于 FREETEXT 的查詢非常靈活,而且速度非???,是基于 Web 的搜索應用程序中通常使用的最佳選擇。

排位和優(yōu)化

我經(jīng)常遇到使用全文搜索的用戶,他們問我排位編號是什么意思,以及如何將排位編號轉(zhuǎn)換成某種用戶可以理解的值。對這個問題,回答可長可短,在這里我將進行簡要回答。簡單而言,這些排位編號不如結(jié)果返回的順序那樣重要。也就是說,當您按照排位對結(jié)果進行排序時,總是首先返回關(guān)聯(lián)程度最高的結(jié)果。排位值本身常常變化 - 全文搜索使用概率排位算法,即返回的每個文檔的關(guān)聯(lián)性受全文索引中的任何或所有其他文檔的直接影響。

有些人認為,一種有助于增加某些行排位的技巧是在這些行的全文索引列中重復常用的搜索關(guān)鍵字。盡管在某種程度上,這種方法可能會提高這些行因某些關(guān)鍵字而首先返回的幾率,但在其他情況下,可能會適得其反 - 而且還存在使詞語查詢性能降低的風險。較好的解決方案是為搜索應用程序?qū)崿F(xiàn)“最佳選擇”系統(tǒng)(請參閱以下示例),這樣就可以確保首先返回某些文檔。多次重復使用關(guān)鍵字會使這些特定關(guān)鍵字的全文索引擴大,并使得 MSSearch 在查找正確行和計算排位時浪費時間。如果全文索引數(shù)據(jù)量很大,并嘗試使用了此方法,您可能會發(fā)現(xiàn)某些全文查詢很耗時。如果能夠?qū)崿F(xiàn)更細致(也可能更精確)的“最佳選擇”系統(tǒng),您會發(fā)現(xiàn)它明顯改善了查詢性能。

多次重復數(shù)據(jù)的另一個問題與用于組合關(guān)系型查詢和全文查詢的常用技巧有關(guān)。許多使用全文搜索的用戶都深受此問題的困擾,每當他們試圖將某種過濾器應用于全文查詢返回的結(jié)果時,便會遇到這樣的問題。正如前面所說的,全文查詢?yōu)槊總€匹配行返回一個主鍵和一個排位 - 要收集有關(guān)這些行的任何詳細信息,必須與它的基表進行合并。由于從無限制的全文查詢中可能會返回任意數(shù)量的結(jié)果,因此合并可能需要大量系統(tǒng)開銷。人們發(fā)現(xiàn)避免合并的一個有效方法是只在全文索引中添加要過濾的數(shù)據(jù)(如果可能)。換句話說,如果用戶要從報紙上所有文章的正文中搜索關(guān)鍵字“Ichiro”,并且只希望返回該報上體育專欄中的文章,則查詢語句通常如下所示:

-- [方法 1:]
-- 開銷最高:先全部選擇,然后再合并和過濾
SELECT ARTICLES_TBL.Author, ARTICLES_TBL.Body, ARTICLES_TBL.Dateline,
FT_TBL.[rank]
FROM FREETEXTTABLE(Articles, Body, ‘Ichiro‘) AS FT_TBL
INNER JOIN Articles AS ARTICLES_TBL
ON FT_TBL.[key] = ARTICLES_TBL.ArticleID
WHERE ARTICLES_TBL.Category = ‘Sports‘
-- [方法 2:]
-- 可以使用,但會導致意外結(jié)果并變慢,或者會返回不準確的結(jié)果:
-- 執(zhí)行全文過濾,并且只提取主鍵和排位
-- (處理在 Web 服務器上完成)
SELECT [key], [rank]
FROM CONTAINSTABLE(Articles, *, ‘FORMSOF(INFLECTIONAL(‘Ichiro‘)
AND "sports"‘)

這兩個查詢要么不必要地占用大量系統(tǒng)開銷,要么存在返回錯誤結(jié)果的可能性(在第二個查詢中,“sports”很可能出現(xiàn)在所有類型的文章中)。這兩項技術(shù)還存在其他變體,但這是兩種非常簡單的模型。如果可行,我通常建議您對數(shù)據(jù)進行水平劃分。即,“類別”列的每個可能值都自成一列(或表),并且與該文章相關(guān)的可搜索關(guān)鍵字僅存儲在此列中。采用此方法,而不是使用一個“正文”列和一個“類別”列,可以去掉“類別”列,而使用存儲可搜索關(guān)鍵字的“Body_<category>”列。如以下示例所示:

-- 如果您可以調(diào)整架構(gòu),這非常有效 – 每個類別
-- 都成為自己的列(或表格),并且需要命中的
-- 全文索引也較少。這明顯需要作一些解釋……
SELECT [key], [rank]
FROM FREETEXTTABLE(Articles, Body_Sports, ‘Ichiro‘)

對于包含大量數(shù)據(jù),且這些數(shù)據(jù)可適應此架構(gòu)(或許是主架構(gòu))更改的系統(tǒng),其性能會得到顯著的提高。但在何時應用多個過濾器或不應用過濾器方面卻有著明顯的限制。當然,還有其他的方法可以解決這些問題。通過以上示例,您會了解一種將某些搜索條件抽象到架構(gòu)的方法 - 實際上是“欺騙”優(yōu)化程序(更確切的說是“成為”優(yōu)化程序),因為在 SQL Server 本身的全文查詢中當前不存在本地優(yōu)化。

其他性能技巧

人們在聊天時常常問我的另一個問題是如何才能分頁顯示全文查詢結(jié)果。換句話說,如果我要發(fā)出“root beer”查詢,一次在某一 Web 頁上顯示 40 個結(jié)果,并且只希望返回該頁面上的 40 個結(jié)果(例如,如果我在第三頁,我希望僅返回第 81 至第 120 條結(jié)果)。

對于分頁顯示結(jié)果,我曾見過多種方法,但沒有一種方法能夠做到百分之百有效。我所推薦的方法可以最大程度地減少全文查詢執(zhí)行的次數(shù)(實際上,對于要分頁顯示的每個結(jié)果集只需執(zhí)行一次),并將 Web 服務器用作一個簡單的緩存。從更高的層面來講,您只需在全文查詢中檢索一個完整的主鍵和排位值行集合(如果需要,可以在架構(gòu)中使用最佳選擇并提取常用過濾器),并將其存儲在 Web 服務器的內(nèi)存中(這取決于您的應用程序和負載,想象將 <32 字節(jié)的典型主鍵大小與 <4 字節(jié)的排位大小相加 [等于 <36 字節(jié)],然后乘以通常返回的結(jié)果集 <1000 行,最后等于 <35K。假定一個在任何給定時間返回 <1000 個活動查詢結(jié)果集中的一個活動緩存集,您將發(fā)現(xiàn)此活動緩存集在 Web 服務器上占用的內(nèi)存少于 35MB - 這還可以接受)。

為了分頁顯示結(jié)果,該進程只遍歷 Web 服務器的內(nèi)存中存儲的數(shù)組,并對 SQL Server 發(fā)出 SELECT 以便只顯示需要顯示的行和列。這又回到了全文查詢僅返回主鍵和排位的概念中 - SELECT(甚至許多這樣的查詢語句)比全文查詢的速度快許多倍。使用 SELECT 而不是與基表合并多個行,并結(jié)合多個其他策略,您可以保留 SQL Server 計算機上更多的 CPU 周期,并且更有效、更劃算地利用 Web 領(lǐng)域。

另一種可以替代 Web 服務器端緩存的方法是在 SQL Server 自身中緩存結(jié)果集,并定義多種用于瀏覽這些結(jié)果的方法。雖然本文著重說明 Web 服務器 (ASP) 級別的應用程序設計,但 SQL Server 的可編程功能還為生成高性能的 Web 搜索應用程序提供了強大的框架。

小結(jié)

Microsoft SQL Server 2000 的全文搜索功能為索引和查詢數(shù)據(jù)庫中存儲的非結(jié)構(gòu)化文本數(shù)據(jù)提供了可靠、快速而靈活的方法。如果要廣泛地將這種快速、準確的搜索功能應用于各種應用程序,那么很有必要充分利用其速度和精確性,來實現(xiàn)全文搜索解決方案。通過分布計算負載并通過某些巧妙的方式對數(shù)據(jù)進行組織,可以省下錢來購買其他硬件和軟件,以擺脫因不必要的緩慢查詢帶來的困擾。在開發(fā)優(yōu)秀的搜索應用程序時,通常要考慮到許多因素和注意事項,希望本文提供的信息和示例對您學習使用 SQL Server 2000 生成出色的 Web 搜索應用程序會有所幫助。

附錄 A:實現(xiàn)全文搜索功能的最佳選擇

改進全文查詢性能和有效性的一種可行方法是實現(xiàn)“最佳選擇”系統(tǒng)。此系統(tǒng)是一種很簡單的方法,可確保某些與特定查詢表達式匹配的行先于其他行返回。最佳選擇沒有復雜的預編程邏輯(例如,SharePoint Portal Server 就包含這樣的邏輯),因此,通常是首選辦法。

在本示例中挑選出最佳選擇,并將唯一的主鍵和一些關(guān)鍵字存儲在單獨的表中。FREETEXTTABLE 查詢對(非常小的)最佳選擇表執(zhí)行,并且從該查詢中返回的任何結(jié)果都與對基表的 FREETEXTTABLE 查詢結(jié)果一同返回。在給定這些搜索條件下,最先返回的將是所有“最佳選擇”行,隨后是被 MSSearch 視為關(guān)聯(lián)程度最高的行(以遞減順序返回)。

下面是一個非常簡單的用于創(chuàng)建最佳選擇系統(tǒng)的示例腳本。

use myDb
create table documentTable(ftkey int not null, document ntext)
create unique index DTftkey_idx on documentTable(ftKey)
/*
在此插入文檔
(要生成全文索引的所有文檔)
*/
-- 為所有文檔表創(chuàng)建全文目錄和索引
exec sp_fulltext_catalog ‘documents_cat‘, ‘create‘, ‘f:\ftCats‘
exec sp_fulltext_table ‘documentTable‘, ‘create‘, ‘documents_cat‘,
‘DTftkey_idx‘
exec sp_fulltext_column ‘documentTable‘, ‘document‘, ‘a(chǎn)dd‘
exec sp_fulltext_table ‘documentTable‘, ‘start_change_tracking‘
exec sp_fulltext_table ‘documentTable‘, ‘start_background_updateindex‘
/*
現(xiàn)在創(chuàng)建最佳選擇表和索引
(添加應該始終最先返回的文檔)
*/
create table bestBets(ftKey int not null, keywords ntext)
create unique index BBftkey_idx on bestBets(ftKey)
/*
在此插入最佳選擇
*/
-- 為最佳選擇表創(chuàng)建全文目錄和索引
exec sp_fulltext_catalog ‘bestBets_cat‘, ‘create‘, ‘f:\ftCats‘
exec sp_fulltext_table ‘bestBets‘, ‘create‘, ‘bestBets_cat‘, ‘BBftkey_idx‘
exec sp_fulltext_column ‘bestBets‘, ‘keywords‘, ‘a(chǎn)dd‘
exec sp_fulltext_table ‘bestBets‘, ‘start_change_tracking‘
exec sp_fulltext_table ‘bestBets‘, ‘start_background_updateindex‘

首先創(chuàng)建了一個通用的“所有文檔”表,用于存儲所有要全文索引的文檔。通常情況下,文檔表中包含其他列,但在本文中,只包含兩列 - 主鍵索引和文檔本身。全文目錄和索引是為文檔表而創(chuàng)建的。

接著創(chuàng)建了“最佳選擇”表,用于存儲所有全文查詢中首先返回的特殊文檔。此表只需具有全文主鍵列和文檔本身(對將某些文檔作為查詢目標的策略進行優(yōu)化,包括在該文檔本身不包含的文檔中添加其他關(guān)鍵字)。全文目錄和索引是為最佳選擇表而創(chuàng)建的。

最佳選擇表和文檔表可以共享文檔(最佳選擇文檔還存儲在常規(guī)文檔表中,它們共享同一個主鍵值),也可以相互排斥(最佳選擇文檔只存儲在最佳選擇表中)。為便于檢索,使最佳選擇表與文檔表互斥更為容易 - 這樣做就無需從最佳選擇和返回的普通搜索結(jié)果行集合中刪除共享操作。另一方面,使用此方法維護文檔可能很難實現(xiàn),因為在此方法中,要在查詢中添加邏輯來刪除返回的行集合之間的共享文檔。

如果給定上面的表,則可以創(chuàng)建兩個存儲過程,以便對最佳選擇表和文檔表進行搜索??墒褂?Web 服務器級別的邏輯或其他存儲過程來緩存和顯示所需結(jié)果(與最佳選擇一起使用時,請參閱下面有關(guān)緩存、顯示和分頁的一個完整、有效的示例)。

首先,創(chuàng)建一個用于檢索最佳選擇行(如果有)的存儲過程:

create procedure BBSearch @searchTerm varchar(1024) as
select [key], [rank] from freetexttable(bestBets, keywords, @searchTerm) order by [rank] desc

確保已對傳入搜索字符串進行清理,以避免在服務器上隨意執(zhí)行 T-SQL,并確保用單引號將該字符串括起。這種情況下,使用 FREETEXTTABLE 比使用 CONTAINSTABLE 要好,因為 FREETEXTTABLE 將采用尋根溯源功能,并找到與任何搜索詞相匹配的最佳選擇。

接下來,第二個存儲過程檢索與常規(guī)搜索標準匹配的文檔(如果有):

create procedure FTSearch @searchTerm varchar(1024) as
select [key], [rank] from freetexttable(documentTable, keywords, @searchTerm) order by [rank] desc

此外,請確保已清理傳入搜索字符串,并用單引號將該字符串括起。

執(zhí)行這些存儲過程時,應該在兩個存儲過程中傳入相同的搜索詞,首先執(zhí)行最佳選擇搜索,然后執(zhí)行普通全文搜索。下一節(jié)更全面地介紹了在構(gòu)建 Web 搜索應用程序時,如何與其他全文搜索技術(shù)一起使用最佳選擇。

附錄 B:使用最佳選擇、結(jié)果分頁和有效全文查詢邏輯的示例應用程序

在本例中,我們實現(xiàn)了一個幾乎利用了本文介紹的所有優(yōu)化方案的 Web 搜索應用程序。我們對聯(lián)機零售商目錄使用簡單的搜索引擎方案,并假定在通信量很高的情況下,所有用戶都期待在很短的響應時間內(nèi)獲得結(jié)果。本示例使用了前一節(jié)中的最佳選擇表和存儲過程。

此應用程序只是一些可用于實現(xiàn)最佳全文搜索性能的高級策略的簡單示例。本示例使用了 ASP,也可使用 ISAPI、ASP.NET 或其他平臺來實現(xiàn)具有各自優(yōu)缺點的類似解決方案。會話對象并不一定對所有應用程序都適用,如果使用不當,可能帶來一定程度的危險。在本例中,我們使用會話對象來實現(xiàn)快速有效的緩存機制 - 當然還有許多其他方法可以在不同程度上實現(xiàn)該功能。

下面是 ASP 頁的通用代碼:

<% @Language = "VBScript" %>
<% Response.buffer = true %>
<html>
<head>
<title>FT 測試</title></head>
<body>
<pre>
----------------- 開始測試 ------------------
<%
Dim firstRow   ‘ 分頁顯示行時的第一行
Dim lastRow      ‘ 分頁顯示行時的最后一行
Dim pageSize   ‘ 頁面大小(每次的行數(shù))
Dim cn      ‘ 連接對象
Dim rs      ‘ FT 主鍵/排位返回的結(jié)果集(重復使用)
Dim useCache   ‘ 使用緩存或命中 FT(0:不使用;1:使用)
Dim alldata      ‘ 要緩存的結(jié)果行集合
Dim bbdata      ‘ 要緩存的最佳選擇行集合
Dim connectionString   ‘ SQL 連接字符串
‘ 確定是否要從緩存獲取數(shù)據(jù)
‘ 默認為否,否則接受傳入的數(shù)據(jù)
if (request.Form("useCache") <> "") then
useCache = request.Form("useCache")
elseif (request.QueryString("useCache") <> "") then
useCache = request.QueryString("useCache")
else
useCache = 0
end if
‘ 設置常量
pageSize = 24
firstRow = 0
lastRow = 23
connectionString = <在此輸入您的連接字符串>
‘----------------------------------------------------------------‘
‘ 顯示與最佳選擇/搜索詞匹配的簡單主鍵/排位                       ‘
‘----------------------------------------------------------------‘
Private Sub SearchNPage()
Dim p         ‘ 循環(huán)通過行時的計數(shù)器
Dim numRows      ‘ 緩沖/結(jié)果集中的總行數(shù)
if (useCache <> "1") then ‘ 獲取最佳選擇/結(jié)果并將其緩存
Dim queryArg   ‘ 傳入的查詢詞
if (request.Form("searchTerm") <> "") then
queryArg = request.Form("searchTerm")
elseif (request.QueryString("searchTerm") <> "") then
queryArg = request.QueryString("searchTerm")
else
response.Write("未提供搜索詞" & VbCrLF)
exit sub
end if
‘ 理想情況下,應該在此清理查詢詞...
‘ 添加自定義的清理邏輯,以防止
‘ 隨意執(zhí)行 SQL
‘ 調(diào)用 CleanString(queryArg)
‘ 建立與 SQL 的連接
Set cn = Server.CreateObject("ADODB.Connection")
cn.Open connectionString
‘ 從傳入的干凈字符串中獲取最佳選擇匹配項
set rs = cn.Execute("exec BBSearch ‘" & queryArg & "‘")
‘ 如果有最佳選擇,則獲取最佳選擇
if not(rs.EOF) then
bbData = rs.GetRows
end if
‘ 現(xiàn)在從傳入的干凈字符串中獲取普通匹配項
set rs = cn.Execute("exec FTSearch ‘" & queryArg & "‘")
‘ 如果未返回任何結(jié)果,則結(jié)束
if (rs.EOF and IsEmpty(bbdata)) then
response.Write("沒有匹配的行" & VbCrLF)
call ConnClose
exit sub
end if
‘ 否則,獲取行
if not(rs.EOF) then
alldata = rs.GetRows
Session("results") = alldata
end if
call ConnClose
else ‘ 從緩存加載 (usecache=1)
alldata = Session("results")
‘ 在此獲取要使用的行范圍
if (request.Form("firstRow") <> "") then
firstRow = request.Form("firstRow")
lastRow = firstRow+pageSize
elseif (request.QueryString("firstRow") <> "") then
firstRow = request.QueryString("firstRow")
lastRow = firstRow+pageSize
end if
end if ‘ useCache<>TRUE
‘ 對于本應用程序,只是打印出所有最佳選擇
‘ (可能比頁面大小大),然后分頁顯示普通結(jié)果
‘ 此處假設:在使用緩存時,如果沒有新的最佳選擇,
‘ 則使用以前顯示的最佳選擇
if not(IsEmpty(bbdata)) then
response.Write("最佳選擇:" & VbCrLf)
for p = 0 to ubound(bbdata, 2)
response.Write(bbData(0,p) & " "  & bbData(1,p) & VbCrLf)
next
response.Write(VbCrLf)
end if
‘ 返回搜索結(jié)果(可能只有最佳選擇)
if not(IsEmpty(alldata)) then
if uBound(alldata, 2) < lastRow then
lastRow = uBound(allData, 2)
end if
response.Write("搜索結(jié)果:" & VbCrLf)
for p = firstRow to lastRow
response.Write(allData(0,p) & " "  & allData(1,p) & VbCrLf)
next
end if  ‘ not(IsEmpty(alldata))
End Sub
‘----------------------------------------------------------------‘
‘ 關(guān)閉并清除連接對象                                             ‘
‘----------------------------------------------------------------‘
Private Sub ConnClose
rs.Close
Set rs = Nothing
cn.Close
Set cn = Nothing
End Sub
call SearchNPage
%>
---------------- 測試結(jié)束 ----------------
<form action="<本頁>" method="post">
<input type=submit value="next <%=pageSize%> rows" NAME="Submit1">
<input type=hidden name="useCache" value="1">
<input type=hidden name="firstRow" value=<%=lastrow+1%>>
</form>
</pre>
</body>
</html>
一個簡單的 HTML 窗體頁面即可像下面一樣利用上面的腳本:
<html>
<head><title>輸入搜索詞</title>
</head>
<body>
<form action="<搜索 ASP 頁面>" method="post">
搜索詞:<input name="searchTerm">
<p>
<input type="submit" value="Search">
</form>
</body>
</html>

正如以上兩個代碼示例所示,創(chuàng)建可執(zhí)行有效全文查詢(用最佳選擇完成)并緩存和分頁顯示結(jié)果的 Web 應用程序,并不需要花費太多的工夫。只需使用最低的系統(tǒng)開銷,即可添加用于提供其他數(shù)據(jù)、增強最佳選擇的外觀以及在搜索結(jié)果中導航的邏輯(此外,強烈建議您實現(xiàn)其他用于錯誤處理、安全設置和清理傳入數(shù)據(jù)的嚴密邏輯)。

通過上面的高級建議和示例,使用 SQL Server 2000 全文搜索設計和實現(xiàn)快速可縮放的 Web 搜索應用程序就是輕而易舉的事情了。

附錄 C:資源

Full-Text Search Deployment(英文)

是那些初次接觸全文搜索的用戶的最佳參考。介紹了填充方法及硬件和軟件需求,并為使用 SQL Server 2000 全文搜索提供了提示、技巧和其他文檔。

全文搜索公共新聞組 (microsoft.public.sqlserver.fulltext)

查找有關(guān)全文搜索問題的答案以及有用提示和技巧的理想場所。全文搜索新聞組是 SQL Server 開發(fā)小組和博學的 Microsoft MVP 成員經(jīng)常光顧的場所。

    本站是提供個人知識管理的網(wǎng)絡存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多