小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

自然語言處理趨向更加智能化

 洣江 2015-08-04

近年來,腦科學與類腦智能已經(jīng)成為世界各國研究的熱點。記者從近日在天津召開的“類腦智能創(chuàng)新論壇”上獲悉,我國也即將啟動“中國腦計劃”。自然語言處理技術是各種“腦計劃”的核心技術之一,未來“中國腦計劃”的構建也離不開中文語言處理核心技術的突破。

  自然語言處理已到中級階段

  “簡單來說,‘自然語言處理’就是讓計算機能夠像人一樣使用語言文字?!鄙綎|大學文學與新聞傳播學院教授盛玉麒介紹?!白匀徽Z言處理的基本任務是解決人機交互中涉及的各種技術問題?!敝袊鐣茖W院語言研究所研究員李愛軍告訴記者,自然語言處理包括對文本信息的處理以及對語音信息的處理。

  盛玉麒將自然語言處理研究與應用分為三個階段:初級階段的自然語言處理主要解決語言文字的輸入、輸出、存儲、傳輸、顯示、打印、編輯、檢索等功能;中級階段的自然語言處理就是讓機器具有一定的智能,能夠自動識別自然語言指令,按照指令完成信息檢索、數(shù)據(jù)提取、查詢、不同語言的自動翻譯等;高級階段就是智能化處理,速度、容量和正確率都能夠達到接近人的程度。

  目前學界和業(yè)界已經(jīng)實現(xiàn)初級階段的任務,中級階段也取得了一些關鍵性突破,諸如電子詞典、快譯通、機器翻譯等,體現(xiàn)了相關技術的產(chǎn)品化。盛玉麒談到,不過,整體來看這些技術應用的正確率還不理想,自然語言處理的中級階段還處在攻關過程中,離高級階段的真正智能化目標還有較遠距離。

  規(guī)則與統(tǒng)計相結合

  破解自然語言處理難題

  如何才能讓計算機像人類一樣使用語言文字?杭州師范大學錢江學者講座教授馮志偉研究自然語言處理已50多年,他表示,“為了使現(xiàn)實的自然語言成為可以由計算機直接處理的對象,我們都需要建立語言的‘形式模型’,使之能以一定的數(shù)學形式,嚴密而規(guī)整地表示出來,建立自然語言的‘計算模型’,使之能夠在計算機上實現(xiàn)?!?/span>

  李愛軍告訴記者,完成自然語言處理要克服一系列難題,比如單語分析任務中語言的歧義性,遠距離相關性,動態(tài)性,隨意性以及多語任務中的語序差異性,語義集合的差異性,表達習慣差異性等。

 就漢語而言,在歧義性方面,漢語的詞形變化較少,語義的確定更多地依賴上下文及場景關系;而在隨意性方面,漢語的語法結構更為靈活多變?!坝捎跐h語的語言特征,學界在中文自然語言處理中面臨更多難題?!倍嗄陙韽氖聺h語自然語言處理的盛玉麒對此深有體會,漢語的自動分詞、詞性標注、規(guī)則提取、規(guī)則描寫、歧義消解等方面是中文自然語言處理重要瓶頸。

  基于這些難題,自然語言處理的研究歷經(jīng)從基于規(guī)則到基于統(tǒng)計、進而規(guī)則與統(tǒng)計相結合的發(fā)展過程?!霸缙跒榱伺浜匣谝?guī)則的方法而建設的大量知識庫為自然語言處理研究打下了很好的基礎。但基于規(guī)則的方法難以覆蓋大量的變體和適應快速的變化,由此興起了基于統(tǒng)計方法的語言建模?!崩類圮姼嬖V記者。

  盛玉麒強調(diào)說,基于規(guī)則與基于統(tǒng)計相結合的路線,成為自然語言處理領域的共識。

  亟須漢語言文字學界的參與

  基于語料庫的知識挖掘、數(shù)據(jù)提取已成為智能化信息處理的領跑者,理論和技術也漸趨成熟。馮志偉表示,大規(guī)模語料庫的建立為自然語言處理提供了強有力手段。

  近年來,我國以多種基金項目加大對自然語言處理,特別是對少數(shù)民族語言處理的投入,開展對互聯(lián)網(wǎng)環(huán)境中文言語信息處理重大基礎理論和應用研究。李愛軍介紹說,這些研究主要包括互聯(lián)網(wǎng)環(huán)境中文言語感知與表示理論研究;面向復雜環(huán)境的多言語識別方法與關鍵技術等。其中,中國社會科學院語音與言語科學重點實驗室承擔了國家973計劃“互聯(lián)網(wǎng)環(huán)境中文言語信息處理與深度計算的基礎理論和方法項目”中“互聯(lián)網(wǎng)環(huán)境中文言語行為規(guī)律和篇章結構研究”子課題,已經(jīng)成功構建互聯(lián)網(wǎng)中文言語信息的表示體系和大規(guī)模多模態(tài)口語語篇庫。

  針對中文自然語言處理目前存在不盡如人意的情況,盛玉麒認為,主要原因是計算機信息處理與漢語言文字學的結合不夠,漢語言文字學界對于自然語言處理的關注、參與遠遠不夠。“計算機專家需要漢語言學研究者的配合,將語言學家的知識、方法和思路轉(zhuǎn)化為自然語言處理的數(shù)據(jù)庫、知識庫、方法庫和規(guī)則庫。”

    本站是提供個人知識管理的網(wǎng)絡存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多