【專題名稱】語言文字學(xué)【專 題 號】H1【復(fù)印期號】2011年05期【原文出處】《外國語》(滬)2011年1期第9~17頁【英文標(biāo)題】Computational Linguistics: Its Past and Present【作者簡介】馮志偉(1939-),教育部語言文字應(yīng)用研究所研究員,博士生導(dǎo)師,研究方向:計算語言學(xué)、語料庫語言學(xué)(北京 100010)。
    
        
            | 【內(nèi)容提要】 | 本文簡要介紹了計算語言學(xué)的發(fā)展歷程,總結(jié)了計算語言學(xué)中形式模型研究的成果,并分析了當(dāng)前計算語言學(xué)發(fā)展的四個特點。 The author briefly introduces the development process of computational linguistics, summarizes the main success of formal models in computational linguistics, and analyzes the four characteristics of current computational linguistics.
 | 
    
【關(guān) 鍵 詞】計算語言學(xué)/機器翻譯/形式模型/語料庫/戰(zhàn)略轉(zhuǎn)移computational linguistics/machine translation/formal models/corpus/strategic transitEEUU
    計算語言學(xué)(Computational Linguistics)是當(dāng)代語言學(xué)中的一個新興學(xué)科,在這門學(xué)科的發(fā)展過程中,曾經(jīng)在計算機科學(xué)、電子工程、語言學(xué)、心理學(xué)、認知科學(xué)等不同的領(lǐng)域分別進行過研究。之所以出現(xiàn)這種情況,是由于計算語言學(xué)包括了一系列性質(zhì)不同而又彼此交叉的學(xué)科。本文簡要介紹了計算語言學(xué)的萌芽期、發(fā)展期、繁榮期,總結(jié)了計算語言學(xué)中形式模型研究的成果,并分析了當(dāng)前計算語言學(xué)發(fā)展的四個特點。
    1.計算語言學(xué)的萌芽期
    從20世紀(jì)40年代到50年代末這個時期是計算語言學(xué)的萌芽期。
    在“計算語言學(xué)”這個術(shù)語出現(xiàn)之前,就有一些具有遠見卓識的學(xué)者研究過語言的計算問題,他們從計算的角度來研究語言現(xiàn)象,揭示語言的數(shù)學(xué)面貌。
    1847年,俄國數(shù)學(xué)家B. Buljakovski認為可以用概率論方法來進行語法、詞源和語言歷史比較的研究。1851年,英國數(shù)學(xué)家A. De Morgen把詞長作為文章風(fēng)格的一個特征進行統(tǒng)計研究。1894年,瑞士語言學(xué)家De Saussure指出,在基本性質(zhì)方面,語言中的量和量之間的關(guān)系,可以用數(shù)學(xué)公式有規(guī)律地表達出來,他在1916年出版的《普通語言學(xué)教程》中又指出,語言好比一個幾何系統(tǒng),它可以歸結(jié)為一些待證的定理。1898年,德國學(xué)者F. W. Kaeding統(tǒng)計了德語詞匯的在文本中的出現(xiàn)頻率,編制了世界上第一部頻率詞典《德語頻率詞典》。1904年,波蘭語言學(xué)家Baudouin De Courtenay指出,語言學(xué)家不僅應(yīng)當(dāng)掌握初等數(shù)學(xué),而且還要掌握高等數(shù)學(xué)。他表示堅信,語言學(xué)將日益接近精密科學(xué),并將根據(jù)數(shù)學(xué)的模式,更多地擴展量的概念,發(fā)展新的演繹思想的方法。1933年,美國語言學(xué)家L. Bloomfield提出一個著名的論點:“數(shù)學(xué)只不過是語言所能達到的最高境界。”1935年,加拿大學(xué)者E. Varder Beke提出了詞的分布率的概念,并以之作為詞典選詞的主要標(biāo)準(zhǔn)。1944年,英國數(shù)學(xué)家G. U. Yule發(fā)表了《文學(xué)詞語的統(tǒng)計分析》一書,大規(guī)模地使用概率和統(tǒng)計的方法來研究詞匯。
    這些事實說明,關(guān)于語言計算的思想和研究是源遠流長的。
    有四項基礎(chǔ)性的研究特別值得注意:
    一項是Markov關(guān)于馬爾可夫模型的研究;一項是Turing關(guān)于算法計算模型的研究;一項是Shannon關(guān)于概率和信息論模型的研究;一項是Chomsky關(guān)于形式語言理論的研究。
    早在1913年,俄羅斯著名數(shù)學(xué)家A. Markov就注意到俄羅斯詩人普希金的敘事長詩《葉甫蓋尼·奧涅金》中語言符號出現(xiàn)概率之間的相互影響。他試圖以語言符號的出現(xiàn)概率為實例,來研究隨機過程的數(shù)學(xué)理論,提出了馬爾可夫鏈(Markov Chain)的思想,他的這一開創(chuàng)性的成果用法文發(fā)表在俄羅斯皇家科學(xué)院的通報上[10]。
    后來A. Markov的這一思想發(fā)展成為在計算語言學(xué)中廣為使用的馬爾可夫模型(Markov Model),是當(dāng)代計算語言學(xué)最重要的理論支柱之一。
    在計算機出現(xiàn)以前,英國數(shù)學(xué)家A. M. Turing就預(yù)見到未來的計算機將會對自然語言研究提出新的問題。
    1936年,Turing向倫敦權(quán)威的數(shù)學(xué)雜志投了一篇論文,題為《論可計算數(shù)及其在判定問題中的應(yīng)用》。在這篇開創(chuàng)性的論文中,Turing給“可計算性”下了一個嚴(yán)格的數(shù)學(xué)定義,并提出著名的“圖靈機”(Turing Machine)的數(shù)學(xué)模型。“圖靈機”不是一種具體的機器,而是一種抽象的數(shù)學(xué)模型,可制造一種十分簡單但運算能力極強的計算裝置,用來計算所有能想象得到的可計算函數(shù)。1950年10月,Turing在《機器能思維嗎》一文中指出:“我們可以期待,總有一天機器會同人在一切的智能領(lǐng)域里競爭起來。但是,以哪一點作為競爭的出發(fā)點呢?這是一個很難決定的問題。許多人以為可以把下棋之類的極為抽象的活動作為最好的出發(fā)點,不過,我更傾向于支持另一種主張:這種主張認為,最好的出發(fā)點是制造出一種具有智能的、可用錢買到的機器,然后教這種機器理解英語并且說英語。這個過程可以仿效小孩子說話的那種辦法來進行。”
    Turing提出,檢驗計算機智能高低的最好辦法是讓計算機來講英語和理解英語,進行“Turing測試”。他天才地預(yù)見到計算機和自然語言將會結(jié)下不解之緣。
    20世紀(jì)50年代興起的自動機理論來源于Turing在1936年提出的可計算性理論和圖靈機模型,Turing的劃時代的研究工作被認為是現(xiàn)代計算機科學(xué)的基礎(chǔ)。Turing的工作首先催生了McCulloch-Pitts的神經(jīng)元(neuron)理論。一個簡單的神經(jīng)元模型就是一個計算的單元,它可以用命題邏輯來描述。接著,Turing的工作還促進了Kleene關(guān)于有限自動機和正則表達式的研究。
    1948年,美國學(xué)者Shannon使用離散馬爾可夫過程的概率模型來描述語言的自動機。
    Shannon的另一個貢獻是創(chuàng)立了“信息論”(Information Theory)。他把通過諸如通信信道或聲學(xué)語音這樣的媒介傳輸語言的行為比喻為“噪聲信道”(noisy channel)或者“解碼”(decoding)。Shannon還借用熱力學(xué)的術(shù)語“熵”(entropy)作為測量信道的信息能力或者語言的信息量的一種方法,并且他用概率技術(shù)首次測定了英語的熵[11]。
    1956年,美國語言學(xué)家N. Chomsky從Shannon的工作中吸取了有限狀態(tài)馬爾可夫過程的思想,首先把有限狀態(tài)自動機作為一種工具來刻畫語言的語法,并且把有限狀態(tài)語言定義為由有限狀態(tài)語法生成的語言。這些早期的研究工作產(chǎn)生了“形式語言理論”(Formal Language Theory)這樣的研究領(lǐng)域,采用代數(shù)和集合論把形式語言定義為符號的序列。Chomsky在研究自然語言的時候首先提出了“上下文無關(guān)語法”(Context-free Grammar),后來Backus和Naur等在描述ALGOL程序語言的工作中,分別于1959年和1960年也獨立發(fā)現(xiàn)了這種上下文無關(guān)語法。這些研究都把數(shù)學(xué)、計算機科學(xué)與語言學(xué)巧妙地結(jié)合起來。
    Chomsky在計算機出現(xiàn)的初期把計算機程序設(shè)計語言與自然語言置于相同的平面上,用統(tǒng)一的觀點進行研究和界說。他在《自然語言形式分析導(dǎo)論》[4]一文中,從數(shù)學(xué)的角度給語言提出了新的定義,指出:“這個定義既適用于自然語言,又適用于邏輯和計算機程序設(shè)計理論中的人造語言。”在《語法的形式特性》[3]一文中,他專門用了一節(jié)的篇幅來論述程序設(shè)計語言,討論了有關(guān)程序設(shè)計語言的編譯程序問題,這些問題是作為“組成成分結(jié)構(gòu)的語法的形式研究”,從數(shù)學(xué)的角度提出來,并從計算機科學(xué)理論的角度來探討的。他在《上下文無關(guān)語言的代數(shù)理論》一文中提出:“我們這里要考慮的是各種生成句子的裝置,它們又以各種各樣的方式,同自然語言的語法和各種人造語言的語法都有著密切的聯(lián)系。我們將把語言直接地看成在符號的某一有限集合V中的符號串的集合,而V就叫做該語言的詞匯……,我們把語法看成是對程序設(shè)計語青的詳細說明,而把符號串看成是程序。”在這里喬姆斯基把自然語言和程序設(shè)計語言放在同一平面上,從數(shù)學(xué)和計算機科學(xué)的角度,用統(tǒng)一的觀點來加以考察,對“語言”、“詞匯”等語言學(xué)中的基本概念,達成了高度抽象化的認識。
    Markov、Turing、Shannon和Chomsky這四位著名學(xué)者對于語言和計算關(guān)系的探討,是計算語言學(xué)萌芽期最重要的研究成果,為計算語言學(xué)的理論和技術(shù)奠定了堅實的基礎(chǔ)。
    機器翻譯是計算語言學(xué)最重要的應(yīng)用領(lǐng)域。在計算語言學(xué)的萌芽期,機器翻譯研究得到了長足的進展。
    1949年,Weaver在一篇以《翻譯》為題目的《備忘錄》中,把機器翻譯僅僅看成一種機械的解讀密碼的過程,他遠遠沒有看到機器翻譯在詞法分析、句法分析以及語義分析等方面的復(fù)雜性。
    早期機器翻譯系統(tǒng)的研制受到Weaver的上述思想的很大影響,許多機器翻譯研究者都把機器翻譯的過程與解讀密碼的過程相類比,試圖通過查詢詞典的方法來實現(xiàn)詞對詞的機器翻譯,因而譯文的可讀性很差,難于付諸實用。
    由于學(xué)者的熱心倡導(dǎo),實業(yè)界的大力支持,美國的機器翻譯研究一時興盛起來。1954年,美國喬治敦大學(xué)在國際商用機器公司(IBM)的協(xié)同下,用IBM-701計算機,進行了世界上第一次機器翻譯試驗,把幾個簡單的俄語句子翻譯成英語。接著,蘇聯(lián)、英國和日本也進行了機器翻譯試驗,機器翻譯出現(xiàn)熱潮。
    1952年,在美國的MIT召開了第一次機器翻譯會議。1954年,出版了第一本機器翻譯的雜志,名稱就叫做Machine Translation(《機器翻譯》)。盡管人們在自然語言的計算方面進行了很多的研究工作,但是直到20世紀(jì)60年代中期才出現(xiàn)了computational linguistics(計算語言學(xué))這個術(shù)語,而且在剛開始的時候,這個術(shù)語是偷偷摸摸地、羞羞澀澀地出現(xiàn)的。
    1965年Machine Translation雜志改名為Machine Translation and Computational Linguistics(《機器翻譯和計算語言學(xué)》)雜志,在雜志的封面上首次出現(xiàn)了“Computational Linguistics”這樣的字眼,但是,“and Computational Linguistics”這三個單詞是用特別小號的字母排印的。這說明,人們對于“計算語言學(xué)”是否能夠作為一門真正的獨立的學(xué)科還沒有把握。計算語言學(xué)剛剛登上學(xué)術(shù)這個莊嚴(yán)的殿堂的時候,還帶有“千呼萬喚始出來,猶抱琵琶半遮面”那樣的羞澀,以至于人們不敢用Machine Translation同樣大小的字母來排印它。當(dāng)時Machine Translation雜志之所以改名,是因為在1962年美國成立了“機器翻譯和計算語言學(xué)學(xué)會”(Association for machine Translation and Computational Linguistics),通過改名可以使雜志的名稱與學(xué)會的名稱保持一致。
    根據(jù)這些史料,我們認為,遠在1962年就出現(xiàn)了“計算語言學(xué)”這個學(xué)科了,盡管它在剛出現(xiàn)的時候還是偷偷摸摸的,顯示出少女般的羞澀。但是,無論如何,計算語言學(xué)這個新興的學(xué)科終于萌芽了,她破土而出,悄悄地登上了學(xué)術(shù)的殿堂。
    1964年,美國科學(xué)院成立了語言自動處理咨詢委員會(Automatic Language Processing Advisory Committee,簡稱ALPAC委員會),調(diào)查機器翻譯的研究情況,并于1966年11月公布了一個題為《語言與機器》的報告,簡稱ALPAC報告[1],這個報告對機器翻譯采取了否定的態(tài)度,宣稱:“在目前給機器翻譯以大力支持還沒有多少理由”,還指出機器翻譯研究遇到了難以克服的“語義障礙”(semantic barrier)。在ALPAC報告的影響下,許多國家的機器翻譯研究處于低潮,許多已經(jīng)建立起來的機器翻譯研究單位遇到了行政上和經(jīng)費上的困難,在世界范圍內(nèi),機器翻譯的熱潮突然消失了,出現(xiàn)了空前蕭條的局面。
    美國語言學(xué)家David Hays是ALPAC委員會的成員之一,他在參與起草的ALPAC報告中建議,在放棄機器翻譯這個短期的工程項目的時候,應(yīng)當(dāng)加強語言和自然語言計算機處理的基礎(chǔ)研究,可以把原來用于機器翻譯研制的經(jīng)費使用到自然語言處理的基礎(chǔ)研究方面,并把這種基礎(chǔ)研究正式命名為Computational Linguistics(計算語言學(xué))。所以我們可以說,“計算語言學(xué)”這個學(xué)科名稱最早出現(xiàn)于1962年,而在1966年才在美國科學(xué)院的ALPAC報告中正式得到學(xué)術(shù)界的承認。
    2.計算語言學(xué)的發(fā)展期
    20世紀(jì)60年代中期到80年代末期是計算語言學(xué)的發(fā)展期。
    在計算語言學(xué)的發(fā)展期,各個相關(guān)學(xué)科彼此協(xié)作,聯(lián)合攻關(guān),取得了一些令人振奮的成績。
    統(tǒng)計方法在語音識別算法的研制中取得成功。其中特別重要的是“隱馬爾可夫模型”(Hidden Markov Model)和“噪聲信道與解碼模型”(Noisy Channel Model and Decoding Model)。這些模型是分別由兩支隊伍獨立地研制的。一支是Jelinek、Bahl、Mercer和IBM的華生研究中心的研究人員,另一支是卡內(nèi)基梅隆大學(xué)(Carnegie Mellon University)的Baker等,Baker受到普林斯頓防護分析研究所的Baum和他的同事們的工作的影響。AT&T的貝爾實驗室(Bell laboratories)也是語音識別和語音合成的中心之一。
    邏輯方法在計算語言學(xué)中取得了很好的成績。1970年,Colmerauer和他的同事們使用邏輯方法研制了Q系統(tǒng)(Q-system)和“變形語法”(Metamorphosis Grammar),并在機器翻譯中得到應(yīng)用。Colmerauer還是Prolog語言的先驅(qū)者,他使用邏輯程序設(shè)計的思想設(shè)計了Prolog語言。1980年P(guān)ereira和Warren提出的“定子句語法”(Definite Clause Grammar)也是在計算語言學(xué)中使用邏輯方法的成功范例之一。1979年Kay對于“功能語法”(functional grammar)的研究,1982年Bresnan和Kaplan在“詞匯功能語法”(Lexical Function Grammar,簡稱IFG)方面的工作,都是“特征結(jié)構(gòu)合一”(feature structure unification)研究方面的重要成果,他們的研究引入了“復(fù)雜特征”的概念。與此同時,我國學(xué)者馮志偉提出了“多叉多標(biāo)記樹形圖模型”(Multiple-branched Multiple-labeled Tree Model,簡稱MMT模型)[12],在他設(shè)計的多語言機器翻譯FAJRA(英語、法語、日語、俄語和德語時法文首字母縮寫)系統(tǒng)中,采用了“多標(biāo)記”(multiple label)的概念。“多標(biāo)記”的概念與“復(fù)雜特征”的概念實質(zhì)上是一致的,這些關(guān)于自然語言特征結(jié)構(gòu)的研究成果,都有效地克服了Chomsky短語結(jié)構(gòu)語法的生成能力過強的缺陷。
    在這個時期,自然語言理解(natural language understanding)也取得明顯的成績。自然語言理解肇始于Terry Winograd在1972年研制的SHRDLU系統(tǒng),這個系統(tǒng)能夠模擬一個嵌入玩具積木世界的機器人的行為。該系統(tǒng)的程序能夠接受自然語言的書面指令(例如,“Move the red block on top of the smaller green one”[請把綠色的小積木塊移動到紅色積木塊的上端]),從而指揮機器人擺弄玩具積木塊。這樣一個非常復(fù)雜而精妙的系統(tǒng)還首次嘗試建立基于Halliday系統(tǒng)語法的全面的英語語法。Winograd的模型還清楚地說明,句法剖析也應(yīng)該重視語義和話語的模型。1977年,Roger Schank和他在耶魯大學(xué)的同事和學(xué)生們建立了一些語言理解程序,這些程序構(gòu)成一個系列,他們重點研究諸如腳本、計劃和目的這樣的人類的概念知識以及人類的記憶機制。他們的工作經(jīng)常使用基于網(wǎng)絡(luò)的語義學(xué)理論,并且在他們的表達方式中引進了Fillmore在1968年提出的關(guān)于“深層格”(deep case)的概念。
    在自然語言理解研究中也使用過邏輯學(xué)的方法,例如1967年Woods在他研制的LUNAR問答系統(tǒng)中,就使用謂詞邏輯來進行語義解釋。
    計算語言學(xué)在話語分析(discourse analysis)方面也取得了很大的成績?;谟嬎愕脑捳Z分析集中探討了話語研究中的四個關(guān)鍵領(lǐng)域:話語子結(jié)構(gòu)的研究、話語焦點的研究、自動參照消解的研究和基于邏輯的言語行為的研究。1977年,Crosz和她的同事們研究了話語中的“子結(jié)構(gòu)”(substructure)和話語焦點;1972年,Hobbs開始研究“自動參照消解”(automatic reference resolution)。在基于邏輯的言語行為研究中,Perrault和Allen在1980年建立了“信念—愿望—意圖”(Belief-Desire-Intention,簡稱BDI)的框架。
    在1983-1993年的十年中,計算語言學(xué)研究者對于過去的研究歷史進行了反思,發(fā)現(xiàn)過去被否定的有限狀態(tài)模型和經(jīng)驗主義方法仍然有其合理的內(nèi)核。在這十年中,計算語言學(xué)的研究又回到了20世紀(jì)50年代末期到60年代初期幾乎被否定的有限狀態(tài)模型和經(jīng)驗主義方法上去,之所以出現(xiàn)這樣的復(fù)蘇,其部分原因在于1959年Chomsky對于Skinner的“言語行為”的很有影響的評論在80年代和90年代之交遭到了理論上的反對。
    這種反思的第一個傾向是重新評價有限狀態(tài)模型,由于Kaplan和Kay在有限狀態(tài)音系學(xué)和形態(tài)學(xué)方面的工作,以及Church在句法的有限狀態(tài)模型方面的工作,顯示了有限狀態(tài)模型仍然有著強大的功能,因此這種模型又重新得到計算語言學(xué)界的注意。
    這種反思的第二個傾向是所謂的“重新回到經(jīng)驗主義”,這里值得特別注意的是語音和語言處理的概率模型的提出,這樣的模型受到IBM公司華生研究中心的語音識別概率模型的強烈影響。這些概率模型和其他數(shù)據(jù)驅(qū)動的方法還傳播到了詞類標(biāo)注、句法剖析、介詞短語附著歧義的判定以及從語音識別到語義學(xué)的聯(lián)接主義方法的研究中去。
    此外,在這個時期,自然語言的生成研究也取得了引人矚目的成績。
    3.計算語言學(xué)的繁榮期
    從20世紀(jì)90年代開始,計算語言學(xué)進入了繁榮期。1993年7月在日本神戶召開的第四屆機器翻譯高層會議(MT Summit IV)上,英國著名學(xué)者J. Hutchins在他的特約報告中指出,自1989年以來,機器翻譯的發(fā)展進入了一個新紀(jì)元。這個新紀(jì)元的重要標(biāo)志是,在基于規(guī)則的技術(shù)中引入了語料庫方法,其中包括統(tǒng)計方法、基于實例的方法、通過語料加工手段使語料庫轉(zhuǎn)化為語言知識庫的方法,等等。這種建立在大規(guī)模真實文本處理基礎(chǔ)上的機器翻譯,是機器翻譯研究史上的一場革命,它將會把計算語言學(xué)推向一個嶄新的階段。隨著機器翻譯新紀(jì)元的開始,計算語言學(xué)進入了它的繁榮期。
    在20世紀(jì)90年代的最后五年,計算語言學(xué)的研究變化顯著,出現(xiàn)了空前繁榮的局面。這主要表現(xiàn)在如下三個方面:
    第一,概率和數(shù)據(jù)驅(qū)動的方法幾乎成為了計算語言學(xué)的標(biāo)準(zhǔn)方法。句法剖析、詞類標(biāo)注、參照消解、話語處理、機器翻譯的算法全都開始引入概率,并且采用從語音識別和信息檢索中借過來的基于概率和數(shù)據(jù)驅(qū)動的評測方法。
    第二,由于計算機的速度和存儲量的增加,使得在計算語言學(xué)的一些應(yīng)用領(lǐng)域,特別是在語音合成、語音識別、文字識別、拼寫檢查、語法檢查這些應(yīng)用領(lǐng)域,有可能進行商品化的開發(fā)。自然語言處理的算法開始被應(yīng)用于“增強交替通信”(Augmentative and Alternative Communication,簡稱AAC)中,語音合成、語音識別和文字識別的技術(shù)被應(yīng)用于“移動通信”(mobile communication)中。
    第三,隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,互聯(lián)網(wǎng)逐漸變成一個多語言的網(wǎng)絡(luò)世界,互聯(lián)網(wǎng)上的機器翻譯、信息檢索和信息抽取的需要變得更加緊迫。目前,在互聯(lián)網(wǎng)上除了使用英語之外,越來越多地使用漢語、西班牙語、葡萄牙語、德語、法語、俄語、日語、韓國語等英語之外的語言。從2000年到2005年,互聯(lián)網(wǎng)上使用英語的人數(shù)僅僅增加了126.9%,而在此期間,互聯(lián)網(wǎng)上使用俄語的人數(shù)增加了664.5%,使用葡萄牙語的人數(shù)增加了327.3%,使用中文的人數(shù)增加了309.6%,使用法語的人數(shù)增加了235.9%。
    2008年6月,中國的網(wǎng)民已經(jīng)達到2.56億,超過了美國的網(wǎng)民數(shù)量,截至2010年5月,我國網(wǎng)民的數(shù)量已經(jīng)達到4.04億之多,使用手機上網(wǎng)的網(wǎng)民達到2.33億人,我國成為了世界上首屈一指的互聯(lián)網(wǎng)大國。截至2009年,我國共完成互聯(lián)網(wǎng)基礎(chǔ)設(shè)施建設(shè)投資4.3萬億元,建成光纜網(wǎng)絡(luò)線路總長度達826.7萬公里。口前,我國99.1%的鄉(xiāng)鎮(zhèn)和92%的行政村接通了互聯(lián)網(wǎng),95.6%的鄉(xiāng)鎮(zhèn)接通了寬帶,3G網(wǎng)絡(luò)已基本覆蓋全國。2009年我同電子商務(wù)交易總額突破4萬億元?;ヂ?lián)網(wǎng)已經(jīng)成為我國經(jīng)濟發(fā)展的火車頭。
    互聯(lián)網(wǎng)上使用英語之外的其他語言的人數(shù)增加得越來越多,打破了英語在互聯(lián)網(wǎng)上獨霸天下的局面,互聯(lián)網(wǎng)確實已經(jīng)變成了多語言的網(wǎng)絡(luò)世界,因此,網(wǎng)絡(luò)上的不同自然語言之間的計算機自動處理也就變得越來越迫切了。網(wǎng)絡(luò)上的機器翻譯、信息獲取和信息搜索正在迅猛地發(fā)展,計算語言學(xué)的各種應(yīng)用技術(shù)事實上已經(jīng)成為了互聯(lián)網(wǎng)技術(shù)的重要支柱。
    在信息時代,科學(xué)技術(shù)的發(fā)展日新月異,新的信息、新的知識如雨后春筍般地不斷增加,出現(xiàn)了“信息爆炸”的局面?,F(xiàn)在,世界上出版的科技刊物達165000種,平均每天有大約2萬篇科技論文發(fā)表。專家估計,我們目前每天在互聯(lián)網(wǎng)上傳輸?shù)臄?shù)據(jù)量之大,已經(jīng)超過了整個19世紀(jì)的全部數(shù)據(jù)的總和;我們在新的21世紀(jì)所要處理的知識總量將要大大地超過我們在過去2500年歷史長河中所積累起來的全部知識總量。而所有的這些信息主要都是以語言文字作為載體的,也就是說,網(wǎng)絡(luò)世界主要是由語言文字構(gòu)成的。
    為了說明計算語言學(xué)的重要性,我們可以把它與物理學(xué)做如下的類比:我們說物理學(xué)之所以重要,是因為物質(zhì)世界是由物質(zhì)構(gòu)成的,而物理學(xué)恰恰是研究物質(zhì)運動的學(xué)科;我們說計算語言學(xué)之所以重要,是因為網(wǎng)絡(luò)世界主要是由語言文字構(gòu)成的,而計算語言學(xué)恰恰是研究語言文字自動處理的學(xué)科。
    可以預(yù)見,知識突飛猛進的增長和網(wǎng)絡(luò)技術(shù)日新月異的進步,一定會把計算語言學(xué)的研究推向一個嶄新的階段。計算語言學(xué)有可能成為當(dāng)代語言學(xué)中最有發(fā)展?jié)摿Φ膶W(xué)科,計算語言學(xué)已經(jīng)給有著悠久傳統(tǒng)的古老的語言學(xué)注入了新的生命力,在計算語言學(xué)的推動下,語言學(xué)有可能真正成為當(dāng)代科學(xué)百花園中的一門名副其實的領(lǐng)先學(xué)科。
    4.計算語言學(xué)中形式模型的研究
    計算語言學(xué)有著明確的應(yīng)用目標(biāo),語音合成、語音識別、信息檢索、信息抽取、機器翻譯等,都是計算語言學(xué)的重要應(yīng)用領(lǐng)域。由于現(xiàn)實的自然語言極為復(fù)雜,不可能直接作為計算機的處理對象,為了使現(xiàn)實的自然語言成為可以由計算機直接處理的對象,在這眾多的應(yīng)用領(lǐng)域中,我們都需要根據(jù)處理的要求,把自然語言處理抽象為一個“問題”(problem),再把這個問題在語言學(xué)上加以“形式化”(formalism),建立語言的“形式模型”(formal model),使之能以一定的數(shù)學(xué)形式,嚴(yán)密而規(guī)整地表示出來,并且把這種嚴(yán)密而規(guī)整的數(shù)學(xué)形式表示為“算法”(algorithm),建立自然語言的“計算模型”(computational model),使之能夠在計算機上實現(xiàn)。在計算語言學(xué)中,算法取決于形式模型,形式模型是自然語言計算機處理的本質(zhì),而算法只不過是實現(xiàn)形式模型的手段而已。因此,這種建立語言形式模型的研究是非常重要的,它應(yīng)當(dāng)屬于計算語言學(xué)的基礎(chǔ)理論研究。
    由于自然語言的復(fù)雜性,這樣的形式模型的研究往往是一個“強不適定問題”,也就是說,在用形式模型建立算法來求解計算語言學(xué)的問題時,往往難以滿足問題解的“存在性”、“唯一性”和“穩(wěn)定性”的要求,有時是不能滿足其中的一條,有時甚至三條都不能滿足。因此,對于這樣的強不適定性問題求解,應(yīng)當(dāng)加入適當(dāng)?shù)?#8220;約束條件”(constraint conditions),使問題的一部分在一定的范圍內(nèi)變成“適定問題”(wellposed problem),從而順利地求解這個問題。
    計算語言學(xué)是一個多邊緣的交叉學(xué)科,因此,我們可以通過計算機科學(xué)、語言學(xué)、心理學(xué)、認知科學(xué)、人工智能等多學(xué)科的通力合作,把人類知識的威力與計算機的計算能力結(jié)合起來,給計算語言學(xué)的形式模型提供大量的、豐富的“約束條件”,從而解決計算語言學(xué)的各種困難問題。計算語言學(xué)這個學(xué)科的邊緣性、交叉性的特點,為解決這樣的“強不適定問題”提供了有力的手段,我們有可能把計算語言學(xué)形式模型的研究這個“強不適定問題”變成“適定問題”,這是我們在研究計算語言學(xué)的形式模型的時候,值得特別慶幸的,也是應(yīng)該特別注意的。
    早在計算語言學(xué)這個學(xué)科出現(xiàn)之前,語言計算研究的先驅(qū)者們就開始探索自然語言的形式模型。例如。Markov鏈、Zipf定律、Shannon關(guān)于“熵”的研究、Bar-Hillel的范疇語法、Harris的語言串分析法、О.С.Кулагина的語言集合論模型等。Markov等具有遠見卓識的學(xué)者很早就從形式描述的角度來研究自然語言,開計算語言學(xué)形式模型(Formal models for NLP)研究的先河。
    隨著計算語言學(xué)研究的發(fā)展,一系列的形式模型開始建立起來。這些形式模型大致可以歸納為如下幾種[16]:
    ●基于短語結(jié)構(gòu)語法的形式模型:主要有Chomsky的短語結(jié)構(gòu)語法、遞歸轉(zhuǎn)移網(wǎng)絡(luò)和擴充轉(zhuǎn)移網(wǎng)絡(luò)、自底向上分析法與自頂向下分析法、通用句法生成器和線圖分析法、Earley算法、左角分析法、CKY算法、Tomita算法、Chomsky的管轄—約束理論與最簡方案、Joshi的樹鄰接語法等。
    ●基于合一運算的形式模型:主要有Kaplan的詞匯功能語法、Kay的功能合一語法、Gazdar的廣義短語結(jié)構(gòu)語法、Shieber的PATR、Pollard的中心語驅(qū)動的短語結(jié)構(gòu)語法、Pereira的定子句語法等。
    ●基于依存和配價的形式模型:主要有Tesnière的依存語法、德國學(xué)者的配價語法、Hudson的詞語法等。
    ●基于格語法的形式模型:主要有Fillmore的格語法和框架網(wǎng)絡(luò)。
    ●基于詞匯主義的形式模型:主要有Gross的詞匯語法、Sleator和Temperley的鏈語法、Baldridge等的組合范疇語法(Combinatory Categorial Grammar, 簡稱CCG)、詞網(wǎng)(WordNet)等。
    ●基于概率和統(tǒng)計的形式模型:主要有N-元語法(N-gram)、隱馬爾可夫模型(Hidden Markov Model,簡稱HMM)、最大熵模型(Maximum Entropy,簡稱ME)、條件隨機場(Condition Random Field,簡稱CRF)、Charniak的概率上下文無關(guān)語法和詞匯化的概率上下文無關(guān)語法、Bayes公式、動態(tài)規(guī)劃算法、噪聲信道模型、最小編輯距離算法、決策樹模型、加權(quán)自動機、Viterbi算法、向內(nèi)向外算法、向前向后算法等。
    ●語義自動處理的形式模型:主要有義素分析法、語義場理論、語義網(wǎng)絡(luò)理論、Montague的蒙塔鳩語法、Wilks的優(yōu)選語義學(xué)、Schank的概念依存理論、Mel'chuk的意義一文本理論等。
    ●語用自動處理的形式模型:主要有Mann和Thompson的修辭結(jié)構(gòu)理論、文本連貫中的常識推理技術(shù)等。
    計算語言學(xué)形式模型的研究大大地豐富了傳統(tǒng)的理論語言學(xué)的內(nèi)容,是計算機時代理論語言學(xué)研究的重要成果,我們應(yīng)當(dāng)特別關(guān)注這個領(lǐng)域的研究。
    5.當(dāng)前計算語言學(xué)發(fā)展的特點
    21世紀(jì)以來,由于互聯(lián)網(wǎng)的普及,自然語言的計算機處理成為了從互聯(lián)網(wǎng)上獲取知識的重要手段,生活在信息網(wǎng)絡(luò)時代的現(xiàn)代人,幾乎都要與互聯(lián)網(wǎng)打交道,都要或多或少地使用計算語言學(xué)的研究成果來幫助他們獲取或挖掘在廣闊無邊的互聯(lián)網(wǎng)上的各種知識和信息,因此,世界各國都非常重視計算語言學(xué)的研究,投入了大量的人力、物力和財力。
    當(dāng)前計算語言學(xué)研究有四個顯著的特點:
    第一,隨著語料庫建設(shè)和語料庫語言學(xué)的崛起,大規(guī)模真實文本的處理成為計算語言學(xué)的主要戰(zhàn)略目標(biāo),計算語言學(xué)中出現(xiàn)了“戰(zhàn)略轉(zhuǎn)移”(strategic transit):在過去的五十多年中,從事計算語言學(xué)系統(tǒng)開發(fā)的絕大多數(shù)學(xué)者,都把自己的目的局限于某個十分狹窄的專業(yè)領(lǐng)域之中,他們采用的主流技術(shù)是基于規(guī)則的句法—語義分析,盡管這些應(yīng)用系統(tǒng)在某些受限的“子語言”(sub-language)中也曾經(jīng)獲得一定程度的成功,但是,要想進一步擴大這些系統(tǒng)的覆蓋面,用它們來處理大規(guī)模的真實文本,仍然有很大的困難。因為從自然語言系統(tǒng)所需要裝備的語言知識來看,其數(shù)量之浩大和顆粒度之精細,都是以往的任何系統(tǒng)所遠遠不及的。而且,隨著系統(tǒng)擁有的知識在數(shù)量上和程度上發(fā)生的巨大變化,系統(tǒng)在如何獲取、表示和管理知識等基本問題上,不得不另辟蹊徑。這樣,就提出了大規(guī)模真實文本的自動處理問題。1990年8月在芬蘭赫爾辛基舉行的第13屆國際計算語言學(xué)會議(COLING90)為會前講座確定的主題是:“處理大規(guī)模真實文本的理論、方法和工具”,這說明,實現(xiàn)大規(guī)模真實文本的處理將是計算語言學(xué)在今后一個相當(dāng)長的時期內(nèi)的戰(zhàn)略目標(biāo)。為了實現(xiàn)戰(zhàn)略目標(biāo)的轉(zhuǎn)移,需要在理論、方法和工具等方面實行重大的革新。1992年6月在加拿大蒙特利爾舉行的第四屆機器翻譯的理論與方法國際會議(TMI-92)上,宣布會議的主題是“機器翻譯中的經(jīng)驗主義和理性主義的方法”。所謂“理性主義”(rationalism)就是指以生成語言學(xué)為基礎(chǔ)的方法,所謂“經(jīng)驗主義”(empiricism)就是指以大規(guī)模語料庫的分析為基礎(chǔ)的方法。從中可以看出當(dāng)前計算語言學(xué)關(guān)注的焦點。當(dāng)前語料庫的建設(shè)和語料庫語言學(xué)的崛起,正是計算語言學(xué)戰(zhàn)略目標(biāo)轉(zhuǎn)移的一個重要標(biāo)志。隨著人們對大規(guī)模真實文本處理的日益關(guān)注,越來越多的學(xué)者認識到,基于語料庫的分析方法(即經(jīng)驗主義的方法)至少是對基于規(guī)則的分析方法(即理性主義的方法)的一個重要補充。因為從“大規(guī)模”和“真實”這兩個因素來考察,語料庫才是最理想的語言知識資源。但是,要想使語料庫名符其實地成為自然語言的知識庫,就有必要首先對語料庫中的語料進行自動標(biāo)注,使之由“生語料”變成“熟語料”,以便于人們從中提取豐富的語言知識。
    第二,計算語言學(xué)中越來越多地使用機器自動學(xué)習(xí)的方法來獲取語言知識:傳統(tǒng)語言學(xué)基本上是通過語言學(xué)家歸納總結(jié)語言現(xiàn)象的手工方法來獲取語言知識的,由于人的記憶能力有限,任何語言學(xué)家,哪怕是語言學(xué)界的權(quán)威泰斗,都不可能記憶和處理浩如煙海的全部的語言數(shù)據(jù),因此,使用傳統(tǒng)的手工方法來獲取語言知識,猶如以管窺豹,以蠡測海,這種獲取語言知識的方法帶有很大的主觀性。傳統(tǒng)語言學(xué)中嘖嘖地稱道的所謂“例不十,不立法;例外不十,法不破”① 的樸學(xué)精神,貌似嚴(yán)格,實際上,在浩如煙海的語言數(shù)據(jù)中,以十個例子或十個例外就輕而易舉地來決定語言規(guī)則的取舍,難道就能夠萬無一失地保證這些規(guī)則是可靠的嗎?這非常值得懷疑。當(dāng)前的計算語言學(xué)研究提倡建立語料庫,使用機器學(xué)習(xí)的方法,讓計算機自動地從浩如煙海的語料庫中獲取準(zhǔn)確的語言知識。機器詞典和大規(guī)模語料庫的建設(shè),成為了當(dāng)前計算語言學(xué)的熱點。這是語言學(xué)獲取語言知識方式的巨大變化,作為21世紀(jì)的語言學(xué)工作者,應(yīng)該注意到這樣的變化,逐漸改變傳統(tǒng)的獲取語言知識的手段。
    第三,計算語言學(xué)中越來越多地使用統(tǒng)計數(shù)學(xué)方法來分析語言數(shù)據(jù):使用人工觀察和內(nèi)省的方法,顯然不可能從浩如煙海的語料庫中獲取精確可靠的語言知識,必須使用統(tǒng)計數(shù)學(xué)的方法。目前,計算語言學(xué)中的統(tǒng)計數(shù)學(xué)方法已經(jīng)相當(dāng)成熟,如果我們認真地學(xué)會了統(tǒng)計數(shù)學(xué),努力地掌握了統(tǒng)計數(shù)學(xué),就會使我們在獲取語言知識的過程中如虎添翼。目前,在機器翻譯中使用統(tǒng)計方法獲得了很好的成績,統(tǒng)計機器翻譯(statistical machine translation,簡稱SMT)[7]成為了機器翻譯的主流技術(shù)。
    2003年7月,在美國馬里蘭州巴爾的摩(Baltimore, Maryland)由美國商業(yè)部國家標(biāo)準(zhǔn)與技術(shù)研究所NIST/TIDES(National Institute of Standards and Technology)主持的評比中,來自德國亞琛大學(xué)(Achen University)的年輕的博士研究生F. J. Och獲最好成績。他使用統(tǒng)計方法,在很短的時間之內(nèi)就構(gòu)造了阿拉伯語和漢語到英語的若干個機器翻譯系統(tǒng)。兩千多年前,偉大的希臘科學(xué)家阿基米德說過:“只要給我一個支點,我就可以移動地球。”(“Give me a place to stand on, and I will move the world.”),而這次評比中,Och也模仿著Archimedes說:“只要給我充分的并行語言數(shù)據(jù),那么,對于任何的兩種語言,我就可以在幾小時之內(nèi)給你構(gòu)造出一個機器翻譯系統(tǒng)。”(“Give me enough parallel data, and you can have translation system for any two languages in a matter of hours.”)這反映了新一代的機器翻譯研究者朝氣蓬勃的探索精神和繼往開來的豪情壯志。看來,Och似乎已經(jīng)找到了機器翻譯的有效方法,至少按照他的路子走下去,也許有可能開創(chuàng)出機器翻譯研究的一片新天地,使我們在探索真理的曲折道路上看到了,耀眼的曙光。過去我們研制一個機器翻譯系統(tǒng)往往需要幾年的時間,而現(xiàn)在采用Och的方法構(gòu)造機器翻譯系統(tǒng)只要幾個小時就可以了,研制機器翻譯系統(tǒng)的速度已經(jīng)大大地提高了。這是當(dāng)前計算語言學(xué)中令人興奮的新進展。
    第四,計算語言學(xué)中越來越重視詞匯的作用,出現(xiàn)了“詞匯主義”(lexicalism)的傾向:詞匯信息在自然語言的計算機處理中起著舉足輕重的作用,單詞之間的相似度(similarity)的計算、詞匯搭配關(guān)系(lexical collocation)和詞匯聯(lián)想關(guān)系(lexical association)的自動獲取、動詞的次范疇框架(subcategorization frame of verb)的自動獲取、計算詞匯語義學(xué)(computational lexical semantics)等都是當(dāng)前計算語言學(xué)研究的熱點。在統(tǒng)計方法中引入了詞匯信息,可以大大地提高統(tǒng)計分析的精確度,在句法分析中引入詞匯信息,可以減少結(jié)構(gòu)上歧義,提高句法分析的效率。機器可讀詞典和詞匯知識庫成為了自然語言處理最關(guān)鍵、最重要的語言資源。
    6.大哉計算語言學(xué)之為用
    現(xiàn)在計算語言學(xué)正處于激動人心的時刻。普通計算機用戶可以使用的計算資源正以驚人的速度迅速增長,互聯(lián)網(wǎng)興起并且成為了無比豐富的信息資源,無線移動通信日益普及并且日益增長起來,這些都使得計算語言學(xué)的應(yīng)用成為了當(dāng)前科學(xué)技術(shù)的熱門話題。
    這里我想列舉出計算語言學(xué)一些當(dāng)前的應(yīng)用項目,由此可以看出這個學(xué)科近期發(fā)展對于社會進步的重要作用。
    ●自動生成天氣預(yù)報:加拿大的計算機程序TAUM-METEO能夠接受每天的天氣預(yù)報的數(shù)據(jù),然后自動生成天氣預(yù)報的報告,不必經(jīng)過進一步的編輯就可以用英語和法語公布。
    ●自動翻譯和自動問答:美國Systran的Babel Fish機器翻譯系統(tǒng)每天可以從Alta Vista搜索引擎處理100萬個翻譯的問題?;诰W(wǎng)絡(luò)的問答系統(tǒng)(Web-based question answering)是簡單的網(wǎng)絡(luò)搜索的進一步發(fā)展,在基于網(wǎng)絡(luò)的問答系統(tǒng)中,用戶不只是僅僅鍵入關(guān)鍵詞進行提問,而是可以用自然語言提出一系列完整的問題,從容易的問題到困難的問題都可以提,計算機根據(jù)網(wǎng)絡(luò)搜索的結(jié)果,用自然語言回答用戶的提問。
    ●飯館咨詢服務(wù):目前,世界上已經(jīng)出現(xiàn)不少使用自然語言的口語向計算機咨詢飯館服務(wù)情況的系統(tǒng)。例如,前往美國Massachusetts州Cambridge訪問的一個訪問者用口語問計算機在什么地方可以吃飯。系統(tǒng)查詢了一個關(guān)于當(dāng)?shù)仫堭^的數(shù)據(jù)庫之后,給出有關(guān)信息用自然語言做出回答。
    ●圖象到語音的自動轉(zhuǎn)換:給計算機裝上圖象識別系統(tǒng),它就可以觀看一段足球比賽的錄像,并且用自然語言實時地向足球愛好者報告比賽的情況。
    ●殘疾人增強交際:對于有言語或交際障礙的殘疾人,計算機能預(yù)見到在說話過程中下面將要出現(xiàn)的詞語,給他們做出提示,或者幫助他們說話時在詞語方面進行擴充,使殘疾人能完整地說出簡潔的話語。
    ●旅行咨詢服務(wù):例如,美國的Amtrak旅行社、美國聯(lián)合航空公司以及其他的一些旅行社可以與智能會話代理(intelligent conversation agent)進行交互,在智能會話代理的指導(dǎo)下,他們能夠自動地處理關(guān)于旅行中的訂票、到達、離開等方面的信息。
    ●語音地理導(dǎo)航:汽車制造公司可以給汽車駕駛員提供語音識別和文本一語音轉(zhuǎn)換系統(tǒng),使得他們可以通過語音來控制他們的環(huán)境、娛樂以及導(dǎo)航系統(tǒng),從而自由地使用他們的雙手操縱汽車。在國際空間站的宇航員也可以使用簡單的口語對話系統(tǒng)來幫助他們的工作。語音合成系統(tǒng)還可以作為全球定位系統(tǒng)(Global Positioning System,簡稱GPS)的語音導(dǎo)航,使用自動合成的語音來報告地理情況,保證駕駛員用雙手操縱汽車。目前使用語音導(dǎo)航的GPS已經(jīng)逐漸普及,給汽車駕駛員提供了極大的方便。
    ●語音資料搜索:一些視頻搜索公司使用語音識別技術(shù),可以在網(wǎng)絡(luò)上提供多達數(shù)百萬小時的視頻資料的搜索服務(wù),并且在語音資料中搜索到與之相應(yīng)的單詞。
    ●跨語言信息檢索和翻譯:Google(谷歌)在網(wǎng)上提供跨語言信息檢索和40多個語言對的自動翻譯服務(wù),用戶可以使用他們自己的母語來提問,以便搜索其他語言中的有關(guān)信息。Google還可以對用戶提出的問題進行自動翻譯,找出與所提出的問題最相關(guān)的網(wǎng)頁,然后自動地把它們翻譯成用戶的母語。
    ●作文自動評分:在美國,像Pearson(培生公司)這樣的大型出版社和像ES(English Test Service)這樣的測試服務(wù)公司使用自動系統(tǒng)來分析數(shù)千篇學(xué)生的英語作文,對于這些作文進行自動打分、自動排序和自動評價,而且計算機的打分結(jié)果與人的打分結(jié)果幾乎毫無二致,難以分辨。
    ●自動閱讀家庭教師:讓計算機充當(dāng)自動閱讀家庭教師,幫助改善閱讀能力,它能教小孩閱讀故事。當(dāng)閱讀人要求閱讀或者出現(xiàn)閱讀錯誤時,計算機能使用語音識別器來進行干預(yù)。具有生動活潑的動畫特征的交互式虛擬智能代理可以充當(dāng)教員來教兒童學(xué)習(xí)如何閱讀。
    ●個性化市場服務(wù):文本分析公司根據(jù)用戶在互聯(lián)網(wǎng)論壇和用戶群體組織中表現(xiàn)出來的意見、偏好、態(tài)度的自動測試結(jié)果,對用戶提供智能化、個性化的服務(wù),幫助用戶在市場上挑選到符合他們要求的商品。
    計算語言學(xué)這些應(yīng)用項口的成就確實是鼓舞人心的。我國計算語言學(xué)也已經(jīng)取得不少成績,但是,與國際水平相比,差距還很大。2010年8月23日-27日第23屆國際計算語言學(xué)會議在北京召開,與會代表700多人,這說明我同的計算語言學(xué)研究已經(jīng)引起了國際計算語言學(xué)界的廣泛關(guān)注。計算語言學(xué)是國際性的學(xué)科,我們不僅要學(xué)習(xí)和了解國外計算語言學(xué)的研究成果和最新動態(tài),而且要參與到同際計算語言學(xué)的研究中去,用國際的水平和國際的學(xué)術(shù)規(guī)范來要求我們的研究,促進我國計算語言學(xué)研究的世界化。
    注釋:
    ① 王力在《漢語史稿》(上冊)(1980)中指出,“所謂區(qū)別一般與特殊,那是辯證法的原理之一。在這里我們指的足黎錦熙先生所謂‘例不十,不立法’。我們還要補充一句,就是‘例外不十,法不破’。”
 
    
        
            | 
                
                    
                        | 【參考文獻】 | [1]ALPAC. Language and Machines: Computer in Translation and Linguistics[R].A report by the Automatic Language Processing Advisory Committee, Division of Behavioral Sciences, National Academy of Sciences, National Research Council, Publication 1416, Washington.
 [2]Carstensen, Kai-Uwe, et al. Computerlinguistik und Sprachtechnologie, Eine Einführung[M].Heidelberg/Berlin: Spektrum Akademischer Verlag, 2004.
 
 |  |