小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

機器學習與自然語言處理

 拾麥 2020-11-19

一、 引言<?xml:namespace prefix = o ns = "urn:schemas-microsoft-com:office:office" />

隨著大規(guī)模語料庫的建設和各種語言知識庫的出現(xiàn),基于語料庫的統(tǒng)計機器學習方法進入自然語言處理的視野。多種機器學習方法應用到自然語言處理中來并取得了良好的效果,促進了自然語言處理技術的發(fā)展。然而,自然語言處理領域仍然有許多課題尚待探索,為機器學習的研究與應用提供了廣闊的舞臺。
本文較系統(tǒng)地介紹了自然語言處理中廣泛存在的歧義現(xiàn)象的類型、實例和問題,并提供了我們利用機器學習方法解決其中一些問題的實例。本文還引出文學語言對機器學習的挑戰(zhàn)性課題,其目的是期望更多的機器學習專家關注自然語言處理領域中的問題,共同努力,使自然語言處理技術朝自然語言理解的方向不斷前進。

 

二、自然語言處理的主攻方向

自然語言處理的流程可以劃分為分析和生成兩大部分。自然語言生成固然也有很多難題,但幾十年來,自然語言處理研究的重點是分析。自然語言分析的關鍵就是識別與消解自然語言的歧義。人與人的交流由于有共同的知識背景,并且能領會交流的環(huán)境和過程,通常不會產生誤解。但是,作為語言學研究對象的任何一個語言單位,如詞、短語和句子等,如果脫離語境而孤立存在,通常都是有歧義的。當交流在人和機器之間進行時,由于機器尚不具備“背景知識”和“世界知識”,歧義現(xiàn)象就表現(xiàn)得尤為突出。
漢語信息處理很難回避的一個步驟就是把用漢字序列書寫的句子切分為詞的序列或者說從句子中辨識出詞。在這個最基本的步驟中,就存在大量的歧義。例如,僅“白天鵝”這3個漢字組成的序列就存在歧義:是“白/天鵝/”還是“白天//”?如果這3個字的序列落在更長的漢字序列中,歧義就可能得以消解。
白天鵝飛過來了——/天鵝//過來//  (因為鵝不會飛)
白天鵝可以看家——白天//可以//(家里通常不會養(yǎng)天鵝)
人如何消解歧義呢?當然是根據業(yè)已掌握的知識。也可以把這些知識教授給計算機,存儲在知識庫中,計算機據此也可以消解這樣的歧義。但如果“白天鵝”落在“白天鵝在湖里游泳”中,僅依靠存儲在人腦或電腦中的靜態(tài)知識,是不能判定句中的“白天鵝”這3個字應該如何切分的,必須依賴更大的上下文語境。

 

* 本文相關研究得到國家 973 課題“文本內容理解的數據基礎( 2004CB318102 )”、國家自然科學基金( 60773173 , 60603093 60503071 )、國家博士后基金( 20060400027 )和江蘇省社會科學基金( 06JSBYY001 )的支持。

 

動物園里,白天鵝在湖里游泳?!獎游飯@//,//天鵝////游泳//
白天鵝在湖里游泳,夜晚青蛙在池邊鳴唱。
——白天/////游泳//夜晚/青蛙////鳴唱/。/
詞語切分確定下來之后,還有歧義。見下例: 
老子不在家——老子//// 
這里的“老子”如果讀“lao3zi<?xml:namespace prefix = st1 ns = "urn:schemas-microsoft-com:office:smarttags" />3,是指古代的人物;如果讀lao3zi”,則可能指“父親”,或者指“自己”。以上句子中“子”的讀音不同可以造成意義的不同,而同音詞也會形成另外的歧義。下面幾個例子中“連”的讀音是一樣的,但詞性不同(當然,詞義也不同):
    一個連有三個排——“連”是名詞,指軍隊的建制;
我們兄弟心連心——“連”是動詞,“連接”的意思;
蘋果可以連皮吃——“連”是介詞,“帶”的意思。 
當詞語切分和詞性標注正確解決之后,還會面臨語句結構的歧義。
兩個孩子的母親——/m  /q  孩子/n  /u  母親/n
              ——[ [  /m  /q  孩子/n ]  /u  母親/n ]
              ——/m  /q  [孩子/n  /u  母親/n ] ]
(m,q,n,u 分別是數詞、量詞、名詞、助詞的代碼)
短語中各個詞的結合順序不同,就構成結構不同的短語,意義也就不一樣。
再考察下面一組句子及其切分和詞性標注的結果,其切分、標注、語句結構都無歧義:   
狗熊/n  /v  玉米/n                    
學生/n  /v  食堂/n                                     
民工/n  /v  大碗/n
顯然,動詞“吃”與其后面同是賓語的“玉米”、“食堂”、“大碗”的語義關系是不一樣的:“玉米”是“吃”的受事(動作所及的對象),“食堂”是“吃”的處所,“大碗”則是工具。又如,同是述補結構的“寫完了”、“寫累了”、“寫滿了”、“寫全了”中的補語“完、累、滿、全”的語義指向也是不一樣的:“書稿寫完了”、“老師寫累了”、“紙寫滿了”、“要點寫全了”。這樣的語義指向問題對于計算機理解來說已經非常困難了,但畢竟還可以根據上下文進行分析。而像對
天快要下雨了吧?
這句話的意義的理解,則完全依賴說這句話的人身份和當時的心境:主人希望留客還是在下逐客令。只有對說話者的態(tài)度進行揣度分析,才能消解這種語境歧義。
除上述句子內的切詞、多音詞、詞性、詞義、句法結構、語義角色等都有歧義現(xiàn)象外,其它語言求解問題,諸如斷句(現(xiàn)代漢語盡管有標點符號,確定句法和語義相對完整、又不過長的句子仍是難題)、指代、省略也可歸結為歧義問題。
自然語言處理技術的進步總是伴隨著計算機系統(tǒng)內的知識庫的豐富和發(fā)展。然而,人對知識的運用并不局限于已經知道的知識以及單純的機械計算或邏輯推理,人還會靈活運用舊知識,從而創(chuàng)造出新知識。以下是筆者之一的親身經歷。
曾在飛機上閱讀《今日民航》(20019月號)上一篇關于“沙漠化”的文章:“幾年前由于種植籽瓜有利可圖,使大批的種植者就到過渡帶來開墾,……在這樣的綠洲和沙漠過渡帶開墾,極易造成風蝕。
刪節(jié)號代表略去的很長的篇幅。開始讀刪節(jié)號之前的第2句話,就是讀不懂,朦朧地做了這樣的切分:“就”、“就到”、到”、“到過”、“過渡”、“帶”、“帶來”、“來”、“開墾”,總是感覺不連貫。無奈,也就放過去了。當讀到刪節(jié)號后的那句話時,“過渡帶”這個新詞突然被發(fā)現(xiàn),而且很自然地聯(lián)想到前面那句未能理解的話,現(xiàn)在也豁然理解了。那時筆者第一次接觸“綠洲和沙漠過渡帶”這樣一個新概念,從前筆者的腦海中并沒有這樣的知識,卻突然獲取了這個知識,這種情況可不可以說是“頓悟”?這種“頓悟”的機理,計算機可以模擬嗎?這一段由不懂到懂的文字顯然超出了“未定義詞”的范疇,因為“籽瓜”對很多人和機器詞典來說或許也是未定義詞,但似乎并不像“過渡帶”這個新概念那樣妨礙對文章的理解。
讓計算機理解符合規(guī)則(詞法、句法、語義)的自然語言的語句和文本已經是十分困難的任務,不同語言單位的各種形態(tài)的歧義已經讓研究者左支右絀,力不從心。然而,當自然語言處理面對語言中的各種修辭手法時,又會遭遇什么樣的困難呢?

三、文學語言對機器學習提出的挑戰(zhàn)

    記得一位語言學家W. Taubert 曾說過,“自然語言是一套規(guī)則加噪聲”。這個命題如果不算是一條定律,至少是一種看法。
    哪些現(xiàn)象可以看作是噪聲?規(guī)則能反映形象思維的規(guī)律嗎?這些問題同樣難以界定。
并非所有不合規(guī)則和常識的語句都是噪聲。在常識范圍內,動詞“吃”的客體或對象通常是食物。土塊不是食物。有報紙曾載,“中國河北省有個老太太吃土塊”。顯然不能認為這句違背常識的話是混在正常自然語言中的噪聲。
文學作品常常采用的一些表現(xiàn)手法更增加了自然語言理解的難度,甚至超越了目前機器理解可能達到的界限。而這些文學表現(xiàn)手法也不能簡單地看作是自然語言的噪聲。

1 隱喻和影射

隱喻是修辭學的傳統(tǒng)研究內容,運用隱喻是為了提高語言表達效果。作為一種修辭手段,隱喻可以歸于文學語言的范疇,但從認知語言學角度觀察,隱喻無處不在,因此它又不限于文學語言的范疇。認知語言學甚至認為“隱喻不僅僅是語言修辭手段,而且是一種思維方式——隱喻概念體系。作為人們認知、思維、經歷、語言甚至行為的基礎,隱喻是人類生存主要的和基本的方式[1]。”在計算語言學領域,特別是在漢語信息處理領域,中國內陸學者只是近年來才開始關注“隱喻”的識別和求解[2,3]。不過,語言信息處理要走上自然語言理解的坦途,隱喻是必須逾越的路障。
首先探討隱喻和歧義的關系。歧義是指對同一個語言形式進行分析或理解時,至少存在兩種不同的結果。歧義消解就是對兩種以上的可能結果,在特定的語境中選擇其中的一種作為答案。歧義的最終消解取決于語境,需要語境分析。機器理解的困難是“由同辨異”。
“這男人是狼”和“那女人是狐貍”這樣的話就是隱喻?!澳腥耸抢恰北臼沁`反生物分類學常識的,而在自然語言中這種表現(xiàn)形式又是常見的。隱喻符合人的認知機制,說話人利用了“男人”和“狼”的某種共同屬性構成含有隱喻的句子,比直接說“男人如何如何”的表現(xiàn)力要豐富得多,聽話人“異中求同”,也能夠理解說話人想講什么。對于機器來說,“異中求同”和“由同辨異”一樣困難。隱喻也包含有歧義問題,“男人是狼”在不同的語境中也可能表達不同的意思。又如,“男人都是動物”表面上是符合常識的,這句話在不同語境中有歧義,在某個語境中,也可以作為隱喻。隱喻和歧義的復雜關系及其界定還需要進行深入的討論。 
可以根據包含隱喻的語言單位的大小將隱喻劃分為詞匯級、語句級和篇章級。
從詞匯級隱喻開始(以下涉及詞義,均參照《現(xiàn)代漢語詞典》[4],但也有一些修改)。像“山頭”、“墻腳”、“心田”、“吹?!?、“露馬腳”、“吹毛求疵”、“雞蛋里挑骨頭”這樣一些些詞語,都是借助隱喻形成的。例如,“山頭”有兩個義項:山的最高處;②比喻獨霸一方的宗派。②顯然是隱喻。關于,這個“山頭”也是由隱喻形成的,本體是“山(的最高處)”,喻體是“(人)頭”。只是人們已經習慣叫“山頭”,詞典就不特別指明它是隱喻。“山頭”在組成短語時又可以有進一步的隱喻用法,如“他這個人慣于壘山頭,作風不正派”。
只要詞典(或機器中的詞匯知識庫)登錄了這些詞語的各種義項(包括本義或引申的隱喻義),識別和理解這些詞語沒有特別的困難,其求解技術同歧義消解沒有本質的區(qū)別。詞匯級隱喻也在發(fā)展。像“病毒”、“窗口”、“垃圾”這些詞,1996年版的《現(xiàn)代漢語詞典》的釋義都與計算機技術沒有關系。由于計算機技術的普及,這些詞的新義在社會上的使用日益廣泛。2005年版的《現(xiàn)代漢語詞典》增加了這些詞作為計算機詞匯的新義項。這些詞都是由隱喻形成的,但把這些詞匯加入詞典后,對這些詞匯隱喻意義的識別就如同詞義消歧一樣,沒有特別之處了。
語句級的隱喻如:“金融風暴”、“知識的海洋”、“郎平是中國女排的鐵榔頭”、“鐵榔頭(指郎平)的去向尚未敲定”、“幻想是詩人的翅膀”,等等。“詩人的翅膀”和“幻想是翅膀”已經是隱喻的表現(xiàn)形式,“幻想是詩人的翅膀”則是雙重隱喻。
“風暴”、“海洋”、“鐵榔頭”、“翅膀”都是普通的名詞,用在這里使整個語句有了隱喻的意義。普通動詞和形容詞也可以用于隱喻。像“鐵榔頭(指郎平)的去向尚未敲定”中的“敲”在這里也是隱喻用法。其它的例子還有“用知識照亮希望”,“熱血沸騰,激情燃燒”、“這樣處理可以得到漂亮的結果”,等等。
書要擺在書架上,或者拋幾本在地板上,酒杯要擺在桌子上,但算盤卻要收在抽屜里,或者最好是收在肚子里。”(魯迅《病后雜談》)
這是一個句群。第二個“或者”之前的幾句都符合常識。“算盤”作為計算工具自然可以“收在抽屜里”,前面用“但”,會使人感到奇怪。讀到“或者最好是收在肚子里”,才會理解“收在肚子里”的“算盤”是個人的想法和打算,當然不便擺在“桌面”上。這樣,整個句群的隱喻意義才會顯現(xiàn)出來。
打起黃鶯兒,莫叫枝上啼。啼時驚妾夢,不得到遼西。”這首短詩可以作為篇章級隱喻的例子。其中“遼西”喻指古戰(zhàn)場,整首詩則反映妻子對在遠方征戰(zhàn)的親人的魂牽夢繞。篇章級的隱喻自然更難求解。像魯迅的《狂人日記》顯然不能按字面意義去理解,一定要理解它隱喻什么,影射什么。在這里,影射是要達到的目的,而隱喻只是表現(xiàn)手段。
語言或文章常有弦外之音(這里的“弦外之音”又隱喻“言外之意”),這是最難理解和表達的。弦外之音是否也可看作篇章級隱喻的效果?或許也可看作是語用問題,也就是必須基于語境(狹義的上下文和廣義的社會、文化、歷史環(huán)境)才能消解的歧義。
再看朱慶余的宮中詞“寂寂花開閉院門,美人相并立瓊軒。含情欲說宮中事,鸚鵡前頭不敢言。”詩人想象兩個宮女想講講貼己話,又恐鸚鵡學舌,泄露機密。計算機即使裝備了“鸚鵡會學人說話”的知識,它能理解詩中所反映的宮女的孤寂和膽怯嗎?這首詩或許還有更深一層的含義,表現(xiàn)皇宮內院的壓抑、沉悶、恐怖、人人自危的生存環(huán)境,這樣的一層含義,計算機能夠通過學習進而理解嗎?
文學作品常常表現(xiàn)人物觸景生情,如王昌齡的《閨怨》:“閨中×××不知愁,春日凝妝上翠樓。忽見陌頭楊柳色,悔教夫婿覓封侯。”為什么×××見了楊柳,就對讓丈夫外出競逐功名起了后悔之心?只在這一首詩中是難以找到答案的,必須了解當時人們的文化背景。以“楊柳”為關鍵詞檢索唐詩,找到如下一些詩篇:張九齡的《折楊柳》:“纖纖折楊柳,持此寄情人,一枝何足貴,憐是故園春。”李瑞的《橫吹曲辭——折楊柳》:“贈君折楊柳,顏色豈能久,上客莫沾巾,佳人正回首。”令狐楚的《遠離別》:“昨日盧梅渡口,整見諸人鎮(zhèn)守,都護三年不歸,折盡江邊楊柳。”還有《送別》:“楊柳東門樹,青青夾御河。近來攀折苦,應為別離多。”從這些詩,讀者可以了解,唐代人經常把“楊柳”和“離別”、“思念”聯(lián)系在一起。計算機能不能學到這樣的知識?對包含“楊柳”的詩篇進行比較、計算、判別,探求詩篇所表達的情感,進而達到對不同語境中的“楊柳”詞義的理解。這是計算語言學正在努力研究的問題[5]。
除了隱喻之外,還有很多的文學表現(xiàn)手法也突破了常規(guī)的語法。文學作品是形象思維的結晶,其表現(xiàn)形式自然也需要形象生動,需要標新立異,常常采用夸張、擬人、典故、雙關等表現(xiàn)手法,還要照顧韻律、節(jié)奏、效果等美學因素,由此造成的真實文本往往有不合語法、違反常識的現(xiàn)象,這些算不算噪聲,計算機如何識別、應對和理解?

2 引用典故

韋莊的《章臺夜思》:“清瑟怨遙夜,繞弦風雨哀。孤燈聞楚角,殘月下章臺。芳草已云暮,故人殊未來。鄉(xiāng)書不可寄,秋雁又南回。”鄉(xiāng)書和秋雁有何關聯(lián)?這里引用了古人(《漢書:蘇武傳》)的雁足傳書的故事。
     杜牧的《赤壁》:“折戟沉沙鐵未銷,自將磨洗認前朝。東風不與周郎便,銅雀春深鎖二喬。”這里引用了火燒赤壁的大故事,里面又包含了借東風、孫策娶大喬、周瑜娶小喬、曹操建銅雀臺等小情節(jié)。如果不了解這些歷史事件,如何能知道這首詩在說些什么呢?
    當代人講話、寫文章也常常引用典故或古詩詞。

3 遣詞造句的形象化

3-1 使用形象化的量詞
通常名詞與量詞的搭配有一定的規(guī)則和約定俗成的習慣。為了生動形象,使人印象深刻,
可能故意標新立異,選用其它的詞作量詞。例如:“燈”是可計數名詞,與它搭配的典型量詞是“盞”。可是,在下面的報道中:
雪一程,風一程,災區(qū)雪夜千帳燈。張北縣臺路溝鄉(xiāng)二百來戶人家的大圪村,人口近六百人。走進村民趙榮福家的帳篷,幾戶人正圍坐在一臺電視機前,收看電視新聞節(jié)目。
千帳燈”雖然符合“數詞+量詞+名詞”的結構,可是量詞用了“帳”,顯然不合常規(guī),但又比“盞”要生動,更切合情境。又如,“一鉤新月”、“一葉小舟”、“一寸光陰一寸金”中的量詞“鉤、葉、寸”是很形象的,但都不是通常使用的。
3-2  詞性的變通使用
古漢語中不乏詞性變通使用的實例:
曉鏡但愁云鬢改
在此,名詞“鏡”作動詞用:“照鏡子”。
春風又綠江南岸
在此,形容詞“綠”作動詞用:“使…變綠”。
當局能肩天下事
讀書深得古人心
在此,名詞“肩”作動詞用:“肩負”。
這里的名詞“鏡”、“肩”和形容詞“綠”都作了動詞,固然是受制于古詩、楹聯(lián)的字數和格律,卻也顯得緊湊、生動。由此可以看出,詞性變通使用的現(xiàn)象在古漢語中已經存在。變通使用得多了、久了,就成了兼類。
3-3)韻律影響語序,造成不合語法、語義的詞序
    ×××的詩句“春風楊柳萬千條,六億神州盡舜堯。”中的“神州”指中國,何來“六億中國”?應是“中國的六億人”。受律詩平仄分布規(guī)律的制約,詩人改變了正常語序。
李清照的詞:“簾卷西風,人比黃花瘦?!?/span>查《現(xiàn)代漢語詞典》中動詞“卷”,有例句:“風卷著雨點劈面打來”。據此,正常語序“西風卷簾”才好理解。
3-4)擬聲、擬態(tài)詞
離離原上草,一歲一枯榮。野火燒不盡,春風吹又生。遠芳侵古道,晴翠接荒城。又送王孫去,萋萋滿別情。”這里的“離離”指草長垂貌;“萋萋”指草盛貌。
風蕭蕭兮易水寒,壯士一去兮不復還。”中的“蕭蕭”可能是擬聲詞。“無邊落木蕭蕭下,不盡長江滾滾來”中的“蕭蕭”、“滾滾”可能是擬態(tài)詞,也可能是擬聲詞。 這些擬聲詞、擬態(tài)詞是很難根據所用的漢字猜想其真正意義的。
3-5褒貶色彩轉換
他出國留學不過3年,便‘拐’了一個洋妞回來。”“拐騙”意義的“拐”是貶義詞,用在這里只有夸耀、羨慕的意義,完全沒有貶義。
正意反說與褒貶色彩轉換有點相似?!?/span>嶺外音書絕,經冬復立春。近鄉(xiāng)情更怯,不敢問來人。(李頻:渡漢江)長年流浪在外,好不容易快回到故里了,照常理,本該急切了解家鄉(xiāng)近況,此刻卻反而不敢打聽了,這種心態(tài)把太過牽掛的心境,表現(xiàn)得淋漓盡致。

4 夸張

    李白的樂府詩《將進酒》:“君不見黃河之水天上來,奔流到海不復回。君不見高堂明鏡悲白發(fā),朝如青絲暮成雪。”講黃河水的磅礴氣勢,用頭發(fā)喻人生,都極其夸張,超出了常識。

5)雙關

5-1)語義雙關
由于語言符號的有限性與自然語言所表現(xiàn)的內容的無限性,自然語言的歧義是固有的,但人們有時還要故意采用歧義表現(xiàn)手段,凸現(xiàn)出待人接物的技巧和語言運用的藝術。一語雙關是典型的例證。
可是匪徒們走上幾十里的大山背,他們沒想到包馬腳的麻袋片全爛掉在馬路上,露出了他們的馬腳。”(曲波《林海雪原》)
通常,“露馬腳”只用其引申義(隱喻):露出破綻。這里的“露馬腳”一語雙關:表面上敘述事實,實際上用了隱喻。
往后的日子,兒子開始在下課后被留下來,開始了他自己說的‘留學’生涯。理由是字寫得太丑了,留下來繼續(xù)學寫字?!?/span>
通常,“留學”是“留在國外學習”的縮寫,約定俗成,中國人“留學”還常讓人羨慕。這里將“留下來繼續(xù)學寫字”也緊縮成“留學”,也符合詞語縮略的規(guī)則,卻又明顯帶有調侃的口氣,顯得幽默風趣。
以下的例子是歧義的活用 —— 一語雙關的例子:
某下崗工人開的理發(fā)店的招牌:“從頭開始”。其意思一:我的新生活從(剃)頭(理發(fā))開始;意思二:下崗不可怕,一切可以從頭(重新)做起。表現(xiàn)了理發(fā)店主人詼諧的性格,樂觀的生活態(tài)度。
另一理發(fā)店的招牌:“頂上功夫”。其意思一:頭(頂)上的手藝——理發(fā);意思二:最棒的手藝。一語雙關,用得實在妙!
5-2)諧音雙關
利用音同或音近的條件使詞語或句子語義雙關,也是一種藝術。古詩如:
東邊日出西邊雨
道是無晴(情)卻有晴(情)
這樣的諧音雙關是耐人尋味的?! ?/span>
此外,漢語中的許多歇后語就是利用諧音雙關構成的。例如
老虎拉車——誰趕(敢)?
也有兼顧諧音和意義的。某車主在他的后車窗寫道:“別吻我,我怕羞(修)!
意思一:別撞上我,修車挺麻煩的。意思二:別太親近我,我害羞。語言形象生動,利用諧音雙關,風趣幽默。

6 擬人化

童話故事中的“狼和小羊”的對話惟妙惟肖地刻畫了一個霸道者的蠻不講理和弱小者的聰明善辨。在常識中,無論是狼還是小羊可都不會說人話呀。有的童話故事還濃縮成了一句習慣用語:“狐貍吃不到葡萄說葡萄酸”。
目前不僅自然語言處理的實用技術同識別、理解文學語言的要求尚有很大的距離,而且計算語言學在理論上也沒有找到合適的模型??煞窠梃b機器學習的理論和方法以及如何借鑒?是否可以圍繞文學語言的理解建立一套機器學習的理論和方法?這些問題都值得我們探討、思考和實踐。

 

四、服務于機器學習的語言資源建設

       北京大學計算語言學研究所(ICL/PKU, Institute of Computational Linguistics, Peking University)1986年成立,至今已有二十多個年頭。在這二十余年自然語言處理的實踐中,我們深切體會到語言資源和語言知識庫在自然語言處理中的重要性。面向自然語言的機器學習,就是要在大規(guī)模語料庫的基礎上訓練各種模型的參數;要在各類語言知識庫的強力支撐下,完成自然語言各層級的處理任務。而語言知識庫建設本身,也就是語言文本中的知識發(fā)現(xiàn),同樣可以利用機器學習的各種方法。
二十年來,我們建立起比較齊全的各類語言資源,其中一些已經在國內外機器學習和相關研究中得到廣泛的應用。在此基礎上,我們先后開展了詞法分析、句法分析、語義分析、語用分析、機器翻譯、領域知識工程、信息檢索、信息抽取、自動問答系統(tǒng)等一系列的研究,積累了一定的經驗。到目前為止,已經成形的語言知識庫主要有
1)現(xiàn)代漢語語法信息詞典[6]
2)大規(guī)?,F(xiàn)代漢語基本標注語料庫[7,8]
3)大規(guī)?,F(xiàn)代漢語詞義標注語料庫[9]
4)面向漢英機器翻譯的現(xiàn)代漢語語義詞典[10]
5)面向跨語言文本內容處理的中文概念詞典[11]
6)英漢、日漢對照雙語語料庫[12]
7)多個專業(yè)領域的術語庫(信息科學技術、體育、商務、旅游、餐飲)[13]
8)現(xiàn)代漢語短語結構規(guī)則庫[14]
9)中國古代詩詞語料庫[15]
10)服務于語言知識庫建設的各種工具軟件
成果(1)是北大語言知識庫的第一塊基石。它收詞8萬,依據語法功能優(yōu)勢分布建立了一個面向信息處理的詞類體系,完成了8萬詞語的歸類,在此基礎上,進而又采用關系數據庫文件格式按類描述每個詞語的詳細的語法屬性。成果(2)就是在此基礎上開發(fā)的,現(xiàn)在已經積累到約6000萬漢字的規(guī)模。
成果(4)的結構設計參照成果(1),采用同樣的知識描述形式,詞語條目也是《現(xiàn)代漢語語法信息詞典》的子集,記錄數約有6萬。成果(3)是以成果(4)為基礎建立起來的,同時,大規(guī)模詞義語料庫的標注過程,也對《現(xiàn)代漢語語義詞典》的完善發(fā)揮了巨大的作用。成果(5)參照WordNet, 用同義詞詞集synset表示概念,目前收入的概念已達到10萬。這兩部詞典從不同側面描述了漢語詞匯的語義知識。由于它們是面向機器翻譯以及信息檢索、信息提取等跨語言文本處理的,都涉及兩種以上的語言,所以它們的每一個詞條都有對譯的英語詞。成果(6)以更大的對譯單位(文章、段落、句子、短語)覆蓋兩種語言。目前對齊了的英漢對照的句子在80萬對以上,日漢對照的句子也有2.5萬對。
從成果(1)到成果(6)匯集的都是日常生活語言的知識。成果(7)則提供專業(yè)知識,這些術語庫中的術語都是英漢對照的。另有一部計算語言學的術語庫,英、日、德、漢4種語言對照,收入5000多條計算語言學和自然語言處理領域的術語[16]。
從成果(1)到成果(7)聚焦于詞匯知識。成果(8)描述的則是句法結構知識,含600多條擴充的上下文無關句法規(guī)則。
從成果(1)到成果(8)都是關于現(xiàn)代漢語的。建設“中國古代詩詞語料庫”的目的是利用在現(xiàn)代漢語信息處理研究中積累的技術和方法開展古代詩詞計算機輔助深層研究,同時進行古代漢語和現(xiàn)代漢語的縱向對比研究。
建造語言知識庫需要專家知識的投入,也需要工具軟件的輔助。ICL/PKU開發(fā)的一系列工具軟件也是知識庫的有機組成部分。成果(10)中包含的“現(xiàn)代漢語詞語切分與詞性標注軟件”、“現(xiàn)代漢語文本注音軟件”、“雙語語料庫構建工具集”具有通用性。為中文概念詞典CCD研制的可視化詞典輔助構造軟件VACOL,對加快CCD的研制進程起了關鍵作用。 以前提供《現(xiàn)代漢語語法信息詞典》給用戶使用時,只提供數據庫本身,現(xiàn)在也開發(fā)了功能完善的管理軟件,不但操作快速安全,而且為詞典的擴充提供了方便。
這些語言數據資源匯集的語言知識及其表述形式獨立于特定的語言信息處理系統(tǒng)和實現(xiàn)算法。這種設計理念使得這些知識庫得以廣泛傳播。
從方法論角度考察,這些語言數據資源的建設既采用基于規(guī)則的方法,也采用基于統(tǒng)計的方法?!按笠?guī)模基本標注語料庫”及其開發(fā)工具“詞語切分與詞性標注軟件”是最典型的例證。而這些語言數據資源的存在又促進了這兩種方法的發(fā)展和融合。
ICL/PKU 為這些資源的傳播提供了便利,所有資源的規(guī)格說明書都已經公開發(fā)表?!艾F(xiàn)代漢語詞語切分、詞性標注、注音軟件”的功能可以在網上測試?,F(xiàn)在可以從網上[1]下載的資源包括:《現(xiàn)代漢語語法信息詞典》的1萬個詞語的樣例數據庫;一個月的《人民日報》標注語料庫,200多萬字;機器翻譯評測大綱與例句集;大規(guī)模詞義標注語料庫的部分語料,等等。 2001510《人民日報》語料庫下載次數開始進行統(tǒng)計,截至2007228日,已記錄了11578下載人次。并且,這個數字仍在不斷更新。1996年以來,以《現(xiàn)代漢語語法信息詞典》為龍頭的北大語言數據資源通過簽訂許可使用權協(xié)議的方式轉讓給了國內外的諸多大學、研究院所和公司,遍及美國、法國、德國、英國、瑞典、日本、韓國、新加坡、中國香港、中國臺灣以及境內各地。2007年初,ICL/PKU申報的“綜合型語言知識庫”研究成果通過了教育部組織的技術鑒定。以張鈸院士為主任、懷進鵬教授為副主任的鑒定委員會認為:“《綜合型語言知識庫》開創(chuàng)性地實現(xiàn)了漢語詞語的大規(guī)模歸類與屬性描述,很好地處理了基礎研究與應用研究的關系,形成了基礎資源建設與應用系統(tǒng)開發(fā)相互支撐、相互促進的良性模式,其規(guī)模、深度、質量和應用效果在我國語言工程實踐中是前所未有的。該成果是以漢語為核心的多語言知識庫建設中最全面、最重要的研究成果,總體上達到了國際領先水平?!?/span>
機器學習的本質是基于數據的學習(Learning from Data)。在自然語言處理中,機器要學習的語言知識的源頭是人們使用的話語和創(chuàng)作的文本,現(xiàn)在通常以語料庫的形式存放在機器中。從沒有經過任何加工的原始語料中,機器就可以學到很多書面語言的知識,例如漢字頻度、常用的漢字串(組塊)及其頻度、漢字串與漢字串的搭配以及搭配強度等,甚至通過聚類方法也可以區(qū)分(或者說“辨析”,也是某種意義上的“學習”)詞語的義項乃至文本的內容,這類學習可以歸于無指導的學習。無指導的學習很重要,人可能主要是通過無指導的學習方式培養(yǎng)自己的學習和處事能力的。但人類社會又強調教育的重要性,教育是有指導的學習。人類借助老師、教材等有指導的方式學到的可能主要是知識。知識不能等同于能力,但是能力的強弱在某種程度上或在某些方面又要依賴于是否具備足夠的知識。顯然,對于人來說,有指導的學習和無指導的學習缺一不可。我們以為,機器也是一樣。原始語料固然包含大量的語言知識,在確定的上下文環(huán)境中,其含義和用法也是確定的,機器是可以學到的。但原始語料中語言知識的表現(xiàn)方式卻是隱性的,限于當前人工智能的水平(學習能力)或者數據的規(guī)模,機器還不容易學到這些知識。需要有人加以指導、點撥。以不同的形式和深度對語料進行加工,就是使隱含的信息顯性化。例如,進行了切分的語料,使詞的知識顯性化了;完成了詞性標注的語料,不僅使詞的知識顯性化,而且使其詞性的知識顯性化。加工越深,顯性化的信息就越多。
語言學家的論著和語文詞典是人類語言知識的集大成者。人通過閱讀語言學論著和查閱詞典學習語言知識,可以收到事半功倍的效果。機器也應該是這樣的。不過,面向人的論著和詞典,也是當代的計算機理解不了或不便應用的?!冬F(xiàn)代漢語語法信息詞典》,《現(xiàn)代漢語語義詞典》和《中文概念詞典》這類相當于語文詞典的語言知識庫都是結構化的,機器就便于利用了。結構化的語言知識庫與非結構化的文本中的語言知識構成互補的關系:詞匯知識庫中關于語言知識的表達都是顯性的,但也是靜態(tài)的,存在“不確定性”(例如:一詞多類或一詞多義);在真實的文本語料中,詞的每次出現(xiàn)都有一定的語境,其詞義、句法功能、語義角色雖然都是確定的,但卻是隱性的。要使文本中的語言知識顯性化,結構化的語言知識庫可以提供必要的支持。
對結構化的語言知識庫也可以進行知識挖掘,即結構化的語言知識庫也是機器學習可以利用的數據。特別是當把結構化的語言知識庫以及基于這些知識庫加工的語料庫集成到一起,機器可以學到更豐富、更深入的語言知識。
正是基于上述認識,ICL/PKU不僅研制了多種類型的語言知識庫,而且力求各類知識庫相互補足,形成綜合型語言知識庫。ICL/PKU利用綜合型語言知識庫,嘗試進行深層次的知識挖掘,已經取得一些成果,例如,詞頻、帶詞性的詞頻、詞的(粗/細粒度)義項頻度、詞的分布均勻度、動詞向名詞漂移現(xiàn)象以及詞與詞組合規(guī)律的定量描述,等等。這些知識無論對于信息處理,還是對于語言本體研究乃至語言教學都是十分有價值的。
為了讓已有的各類語言知識庫發(fā)揮更大的效益,ICL/PKU正在努力把它們集成到綜合型語言知識庫系統(tǒng)中[17]。也期望這樣的綜合型語言知識庫系統(tǒng)為機器學習提供一個廣闊的舞臺。

五、機器學習方法的實踐

ICL/PKU現(xiàn)有的語言資源的支撐下,我們近期開展了許多研究,這里介紹3個例子:詞義消歧研究、文本的情感傾向分析研究和隱喻識別研究。這些研究都使用了機器學習的方法,涉及自然語言處理的各個層面。如果說詞義消歧還可以歸于語言本體研究的話,那么文本的情感傾向分析則深入到文本所反映的主觀褒貶態(tài)度,而隱喻的識別則把研究的觸角伸向修辭學以及人類語言認知的層面上。

1)詞義消歧研究

一詞多義在自然語言中是一個非常普遍的現(xiàn)象。以動詞“講”為例,可以出現(xiàn)在“講/故事/”和“講/衛(wèi)生/”等上下文中。前者的意思是“說”,而后者表示“注意”。
詞義消歧(Word Sense Disambiguation, WSD)就是從給定上下文中確定一個多義詞的具體意思(sense)。這項研究最早源起于20世紀50年代的機器翻譯,目前已涉及自然語言處理的諸多領域,如機器翻譯、信息檢索、問答系統(tǒng)等。數十年來,針對詞義消歧已經提出許多方法,大致可以分為基于規(guī)則的方法、基于詞典的方法和基于語料庫的方法。
目前基于統(tǒng)計學習的主流研究方法是把詞義消歧看作典型的分類問題,通過建立詞義標注語料庫作為訓練數據去訓練各種分類器,實現(xiàn)對新的上下文中多義詞的消歧。WSD可以描述如下:
對具有N個義項的多義詞W,記為 S = {s1, s2, … , sn}W出現(xiàn)在某個確定的上下文C(可以是小句、句子、段落甚至篇章)中,詞義消歧的任務就是根據給定的上下文C,在這N個義項中選擇一個最合適的義項,記為<?xml:namespace prefix = v ns = "urn:schemas-microsoft-com:vml" />
其中,R用來計算每個義項和上下文匹配的程度。
需要指出的是,詞義消歧也可以采用自動聚類的方法實現(xiàn),稱為詞義區(qū)分(Word Sense Discrimination)。雖然也可以縮寫為WSD,但這不屬于本文討論的范圍(有興趣的讀者可參閱[18])。以下行文中,若無特別說明,WSD即為詞義消歧。
詞義消歧不是自然語言處理的一項獨立的任務,而且消歧系統(tǒng)性能的評測會因為詞義區(qū)分的顆粒度、所用語料等的不同而有很大的差異。為了更好地開展研究,國際上于1998年成立了SENSEVAL[url]http://www.[/url])組織,提供benchmark 數據,開展國際評測。迄今為止已經進行了3屆。2007年將進行第4屆評測,名稱改為SemEval-2007。從名字的改變可以看出,該測評從以往的單純詞義消歧,發(fā)展到包括詞義消歧和語義角色標注等多個方面的測評。ICL/PKU也提供了一個任務,為評測提供標準語料[19]。從以往的評測結果看,所用分類器包括支持向量機、決策表、決策樹、貝葉斯、神經網絡、最大熵等分類模型和算法。性能比較好的系統(tǒng),幾乎都采用了集成(Ensemble)學習的策略[20]
下面將按照數據采集、特征提取和選擇、模型選擇、訓練和性能評估這一機器學習的經典流程來介紹ICL/PKU所做的工作。
(1) 數據采集
對詞義消歧而言,數據采集WSTWord Sense Tagging就是建立大規(guī)模、高質量的詞義標注語料庫,稱為詞義標注(Word Sense Tagging, WST)。其本身可獨立成為一個研究課題,涉及詞典選擇(詞義區(qū)分的顆粒度)、語料選擇(語料的平衡性和規(guī)模)、標注方法(正確性和一致性如何保證)等方面。我們設計了人機互助的高效詞義標注語料庫建設模式,并積累了一套完整的軟件工具。文獻[9]詳細介紹了詞義標注語料庫的建設工作。
詞典選用ICL/PKU的《現(xiàn)代漢語語義詞典》,語料庫選擇人民日報(詞義標注前已經完成詞語切分和詞性標注),采用機器輔助的人工標注方法。目前已經完成170個動詞和796個名詞的義項區(qū)分和描寫,在《人民日報》642萬字的語料上標注了76519個詞語的義項編碼。這應該是當今規(guī)模最大的現(xiàn)代漢語詞義標注語料庫。
必須指出的是,盡管目前語料庫規(guī)模比較大,但是對于機器學習來講仍然是稀疏的,主要表現(xiàn)為多義詞的各個義項出現(xiàn)的不平衡。出現(xiàn)在20001-3月這三個月人民日報語料中的多義名詞有485個,其中只以一個義項出現(xiàn)在語料中的有237個。僅有51% 表現(xiàn)為真正的多義詞。義項分布的不平衡,給機器學習帶來巨大困難。已經有許多研究人員致力于解決這個問題[21]。
2 特征提取和選擇
英國語言學家J. R. Firth有句名言“觀其伴、知其義”。就是說,人通過一個詞周圍的那些詞(也就是這個詞的上下文語境)來辨別它的意義。目前的機器學習中,特征選擇也主要來自多義詞出現(xiàn)的上下文。上下文是一個廣義的概念,多義詞所在的句子、段落、甚至整個篇章都可以稱為上下文。我們的研究僅以多義詞所在的句子作為上下文,從中提取和選擇特征。以現(xiàn)有的語言資源和處理工具為基礎,目前用到的特征主要是詞法特征和淺層的語義特征。下面舉一個例子來說明,其中多義詞為“分子”:
此外/c  ,/w  他們/r  /d  監(jiān)視/v  恐怖/a  分子/n  可能/v  /p  /m  /n  電腦/n  系統(tǒng)/n  /u  襲擊/v  。/w 
詞法層特征:包括局部詞、局部詞性、局部詞及詞性、局部共現(xiàn)、詞袋和搭配。除搭配外,這些特征的獲取相對容易,也比較準確。針對上面的例子作如下簡單說明:
局部詞特征是指把多義詞周圍窗口大小為n范圍內的詞作為特征。若設定窗口大小為3,則特征向量表示為<W-3=, W-2=監(jiān)視, W-1=恐怖, W+1=可能, W+2=, W+3=>。局部詞性是指把多義詞周圍窗口大小為n的范圍內詞的詞性作為特征。仍以窗口大小為3為例,特征向量表示為<P-3=d, P-2=v, P-1=a, P+1=v, P+2=p, P+3=m>。局部詞及詞性是指把多義詞周圍窗口大小為n的范圍內的“詞+詞性”作為特征。上句中詞和詞性特征向量為</ d, 監(jiān)視/v, 恐怖/a, 可能/v, /p, /m>。局部共現(xiàn)是指兩個(或多個)詞同時出現(xiàn)在多義詞的窗口。設Ci,j表示一個共現(xiàn),并且這兩個詞的位置分別位于距多義詞第i個位置和第j個位置。比如:C-1,1表示多義詞的左右緊鄰的兩個詞。共現(xiàn)限于多義詞所在的句子范圍內。我們取C-2,-1, C-1,1, C1,2, C-2,1, C-2,2作為局部共現(xiàn)特征。例句中的共現(xiàn)特征為<監(jiān)視_恐怖, 恐怖_可能, 可能_, 監(jiān)視_可能, 監(jiān)視_>。局部共現(xiàn)考察了多義詞周圍的詞的搭配對消歧的影響,是對多義詞搭配信息很好的補充。詞袋中的詞(Bag-of-Word, BOW 是指多義詞上下文中所有出現(xiàn)的詞,沒有位置信息,不包括標點。搭配信息對詞義消歧有著重要的作用,許多情況下,僅僅通過搭配就可以直接消解歧義。遺憾的是,在有限的上下文中很難準確地找到搭配詞對。
句法層:在我們的特征選擇中,尚未加入句法特征。文獻[22]的研究表明,和英文相比,加入句法特征后,中文詞義消歧的性能提高并不明顯。
語義層:這里主要進行了機構名稱識別。在現(xiàn)代漢語基本標注語料庫中,已經對機構名作了捆綁。比如“阿拉伯國家聯(lián)盟”,在語料中標記為“[阿拉伯/n  國家/n  聯(lián)盟/n]nt”。其中nt表明,方括號中的是一個機構名稱。
許多研究者認為,特征提取和選擇是目前WSD的研究重點[2324]。我們針對SENSEVAL-3的中文語料,對上下文所開窗口大小對系統(tǒng)性能的影響進行了研究。實驗中采用的分類器是SVM-MultiClass工具包(線性核,一次優(yōu)化)。實驗結果如圖1所示。從結果中不難看出,當窗口為9時,消歧性能達到最好。

 

 

 

 

 

 

 

 

 

 


1:消歧性能隨上下文窗口變化的曲線
3 模型選擇和訓練
選擇支持向量機(Support Vector Machines, SVM)開展研究。支持向量機是近年來機器學習領域非常流行的方法,該方法因其有限樣本下良好的推廣能力而備受重視。SVM已經在手寫體數字識別、人臉識別、文本分類等領域得到了廣泛的應用。文獻[25]利用支持向量機對英文詞義消歧進行實驗,結果要優(yōu)于樸素貝葉斯、決策樹、最大熵等方法。
我們在核函數的選擇和采用何種多分策略兩個方面進行了實驗研究[26]。
核函數的選擇。考察了SVM各種核函數對詞義消歧的影響,選擇二十個多義詞(每個多義詞均為兩個義項),選用上面介紹的所有特征,用SVM-light進行實驗。通過設置不同的核函數,并且對每種核函數試驗各種參數設置,達到最優(yōu)時各種核函數的實驗結果見表1

 

1  利用各種核函數的消歧結果
核函數
參數設置
正確率
訓練時間
線性核
90.03
96s
多項式核
a=1, b=1, d=7
90.05
356s
RBF
86.50
467s
Sigmoid
v=2, c=1
81.12
264s

 

從結果看,如果對核函數參數進行合理的調整,多項式核的效果比其它核的效果要好。但是,多項式核的參數太多,在參數空間中尋找最優(yōu)的參數設置比較困難。綜合各種核函數的參數設置的復雜性、正確率以及時間效率等因素,線性核還是比較理想的選擇。
二分到多分的轉換。WSD顯然是一個多分類問題,因為多義詞常常多于兩個義項。如何用SVM解決多類別的分類問題,是當前機器學習領域的研究熱點之一。目前主要有兩類方法:用多個二類SVM構造多類別SVM的方法和一次優(yōu)化決策的方法。前者又可以分為1對多(1-v-r)、111-v-1)和有向圖三種方法。
針對多義詞“想”(共4個義項)分別對上述四個方法進行實驗(語料使用20001-3月人民日報),結果如表2

 

2 利用各種多類別SVM方法的消歧結果
多類別 SVM 方法
正確率
訓練時間
測試時間
1-v-1
88.06%
36s
3s
1-v-r
87.12%
70s
9s
有向圖 SVM
87.67%
39s
4s
一次優(yōu)化決策
87.94%
43s
4s

 

從結果來看1-v-1的方法正確率最高,運行時間也較短。一次優(yōu)化決策的方法效果也不錯,且構造起來比較簡單、訓練時間也較短。
4)實驗及分析
我們在兩組訓練數據上進行實驗。第一組數據使用SENSEVAL-3中文評測數據(由哈爾濱工業(yè)大學提供)。語料共有20個多義詞,793個訓練實例,379個測試實例。第二組數據是ICL/PKU 的人工標注語料。
SENSEVAL-3數據集上的實驗。實驗結果顯示最大熵的準確率為62.53%,支持向量機

[1] http //icl.pku.edu.cn

    本站是提供個人知識管理的網絡存儲空間,所有內容均由用戶發(fā)布,不代表本站觀點。請注意甄別內容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權內容,請點擊一鍵舉報。
    轉藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多