小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

中文分詞的實現(xiàn)思路

 duduwolf 2005-11-25
在PHPE.net論壇上給網(wǎng)友的回貼。

現(xiàn)在的搜索引擎技術主要包括四個環(huán)節(jié),網(wǎng)頁抓取、超鏈分析、網(wǎng)頁檢索和搜索服務。分詞就是把一句完整的話分成幾個詞,搜索引擎找出其中的關鍵詞進行檢索。中文分詞是搜索服務的入口點,是中文搜索引擎的基礎所在。有了良好的分詞技術,才能真正讓搜索引擎了解用戶所需要的信息是什么。

寫寫中文分詞的PHP實現(xiàn)思路(因為最近正在寫個項目,暫時不能提供源代碼,不過難度不大),雖然在各方面都還有待完善,但是整個流程還是比較完整的。

首先有關分詞的基礎知識:

分詞技術研究報告
http://www./lunwen/computer/ai/3818.html

中文搜索引擎技術揭密:中文分詞
http://www./286.html

推薦看些課件(北大中文系研究生的課程):
http://ccl.pku.edu.cn/doubtfire/Course/Chinese%20Information%20Processing/2002_2003_1.htm
http://ccl.pku.edu.cn/doubtfire/Course/Chinese%20Information%20Processing/contents/Chapter_07_1.ppt



第二. 語料庫的準備
可以選用《人民日報》語料庫,是北京大學計算語言學研究所與富士通公司(Fujitsu)合作的產(chǎn)品,加工2700萬字的《人民日報》語料庫,加工項目包括詞語切分、詞性標注、專有名詞(專有名詞短語)標注。在網(wǎng)上可以下載,不過不清楚是否免費,請自行搜索。

語料庫要加工為詞典,供PHP程序使用。

第三. 分詞算法原理
最常用的是最大匹配法和最大概率法,為了加強精確度,避免歧義,可以結合多種算法。多種算法結合會導致速度下降,視項目要求采用。

第四. 分詞的PHP實現(xiàn)
原理見上面推薦的PPT幻燈片,只不過是用PHP加載詞典文件,再實現(xiàn)字符串的搜索而已。目前來看,效果還是不錯的,但是效率不太高。沒有辦法,像PHP這種腳本語言,要求不能太高。接下來試試先用C寫分詞部份,再用PHP調(diào)用,測試一下效率。

    本站是提供個人知識管理的網(wǎng)絡存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多