小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

知識圖譜的系統(tǒng)工程觀

 Wangxn625 2021-02-24

1 引言

知識圖譜是由節(jié)點和邊組成的語義網(wǎng)絡(luò)[1]。節(jié)點可以是實體,如:一個人、一本書等,或抽象的概念,如:人工智能、知識圖譜等。邊可以是實體的屬性,如:姓名、書名,或?qū)嶓w之間的關(guān)系,如:朋友、配偶。知識圖譜的早期理念來自于Web之父Tim Berners Lee于1998年提出的Semantic Web[2][3],其最初理想是把基于文本鏈接的萬維網(wǎng)轉(zhuǎn)化成基于實體鏈接的語義網(wǎng)。

1989年,萬維網(wǎng)之父、圖靈獎獲得者Tim Berners-Lee提出構(gòu)建一個全球化的以“鏈接”為中心的信息系統(tǒng)(Linked Information System)。任何人都可以通過添加鏈接把自己的文檔鏈入其中。他認為以鏈接為中心和基于圖的組織方式,比起基于樹的層次化組織方式,更加適合于互聯(lián)網(wǎng)這種開放的系統(tǒng)。這一思想逐步被人們實現(xiàn),并演化發(fā)展成為今天的World Wide Web。

1994年,Tim Berners-Lee 又提出,Web不應(yīng)該僅僅只是網(wǎng)頁之間的互相鏈接。實際上,網(wǎng)頁中所描述的都是現(xiàn)實世界中的實體和人腦中的概念。網(wǎng)頁之間的鏈接實際包含有語義,即這些實體或概念之間的關(guān)系,然而機器卻無法有效的從網(wǎng)頁中識別出其中蘊含的語義。他于1998年提出了Semantic Web的概念[4]。Semantic Web仍然基于圖和鏈接的組織方式,只是圖中的節(jié)點代表的不只是網(wǎng)頁,而是客觀世界中的實體(如:人、機構(gòu)、地點等),而超鏈接也被增加了語義描述,具體標明實體之間的關(guān)系(如:出生地是、創(chuàng)辦人是等)。相對于傳統(tǒng)的網(wǎng)頁互聯(lián)網(wǎng),Semantic Web的本質(zhì)是知識的互聯(lián)網(wǎng)或事物的互聯(lián)網(wǎng)(Web of Things)。

在Semantic Web被提出之后,出現(xiàn)了一大批新興的語義知識庫。如作為谷歌知識圖譜后端的Freebase[5],作為IBM Waston后端的DBPedia[6]和Yago[7],作為Amazon Alexa后端的True Knowledge,作為蘋果Siri后端的Wolfram Alpha,以及Schema.ORG[8],目標成為世界最大開放知識庫的WikiData[9]等。尤其值得一提的是,2010年谷歌收購了早期語義網(wǎng)公司MetaWeb,并以其開發(fā)的Freebase為數(shù)據(jù)基礎(chǔ)之一,于2012年正式推出了稱為知識圖譜的搜索引擎服務(wù)。隨后,知識圖譜逐步在語義搜索[10][11]、智能問答[12][13][14]、輔助語言理解[15][16]、輔助大數(shù)據(jù)分析[17][18][19]、增強機器學習的可解釋性[20]、結(jié)合圖卷積輔助圖像分類[21][22]等很多領(lǐng)域發(fā)揮出越來越重要的作用。

如圖1所示,本質(zhì)而言,知識圖譜旨在從數(shù)據(jù)中識別、發(fā)現(xiàn)和推斷事物、概念之間的復雜關(guān)系,是事物關(guān)系的可計算模型。知識圖譜的構(gòu)建涉及知識建模、關(guān)系抽取、圖存儲、關(guān)系推理、實體融合等多方面的技術(shù),而知識圖譜的應(yīng)用則涉及到語義搜索、智能問答、語言理解、決策分析等多個領(lǐng)域。構(gòu)建并利用好知識圖譜需要系統(tǒng)性的利用好涉及知識表示、數(shù)據(jù)庫、自然語言處理、機器學習等多個方面技術(shù)。本文嘗試從信息系統(tǒng)工程的觀點總結(jié)知識圖譜的內(nèi)涵和外延,核心的技術(shù)要素及技術(shù)流程,并從智能問答、語言理解、智能推理、數(shù)據(jù)庫、推薦系統(tǒng)、區(qū)塊鏈等多個相關(guān)領(lǐng)域進行了發(fā)展趨勢總結(jié)與分析。

圖 1  知識圖譜:事物關(guān)系的可計算模型

2 從信息系統(tǒng)工程的觀點看知識圖譜

2.1 知識圖譜的規(guī)?;l(fā)展

知識圖譜并非突然出現(xiàn)的新技術(shù),而是歷史上很多相關(guān)技術(shù)相互影響和繼承發(fā)展的結(jié)果,這包括語義網(wǎng)絡(luò)、知識表示、本體論、Semantic Web、自然語言處理等,有著來自Web、人工智能和自然語言處理等多方面的技術(shù)基因。從早期的人工智能發(fā)展歷史來看,Semantic Web是傳統(tǒng)人工智能與Web融合發(fā)展的結(jié)果,是知識表示與推理在Web中的應(yīng)用;RDF/OWL都是面向Web設(shè)計實現(xiàn)的標準化的知識表示語言;而知識圖譜則可以看做是Semantic Web的一種簡化后的商業(yè)實現(xiàn)。

圖 2從語義網(wǎng)絡(luò)到知識圖譜

在人工智能的早期發(fā)展流派中,符號派(Symbolism)側(cè)重于模擬人的心智,研究怎樣用計算機符號來表示人腦中的知識和模擬心智的推理過程;連接派(Connectionism)側(cè)重于模擬人腦的生理結(jié)構(gòu),即人工神經(jīng)網(wǎng)絡(luò)。符號派一直以來都處于人工智能研究的核心位置。近年來,隨著數(shù)據(jù)的大量積累和計算能力大幅提升,深度學習在視覺、聽覺等感知處理中取得突破性進展,進而又在圍棋等博弈類游戲、機器翻譯等領(lǐng)域獲得成功,使得人工神經(jīng)網(wǎng)絡(luò)和機器學習獲得了人工智能研究的核心地位。深度學習在處理感知、識別和判斷等方面表現(xiàn)突出,能幫助構(gòu)建聰明的AI,但在模擬人的思考過程、處理常識知識和推理,以及理解人的語言方面仍然舉步維艱。

符號派關(guān)注的核心是知識的表示和推理(KRR:Knowledge Representation and Reasoning)。早在1960年,認知科學家Allan M. Collins提出用語義網(wǎng)絡(luò)(Semantic Network)來研究人腦的語義記憶。WordNet[23]是典型的語義網(wǎng)絡(luò),它定義了名詞、動詞、形容詞和副詞之間的語義關(guān)系,例如動詞之間的蘊含關(guān)系(如:“打鼾”蘊含著“睡眠”)等。WordNet被廣泛應(yīng)用于語義消歧等自然語言處理領(lǐng)域。

1970 年,隨著專家系統(tǒng)的提出和商業(yè)化發(fā)展,知識庫構(gòu)建和知識表示更加得到重視。專家系統(tǒng)的基本想法是:專家是基于大腦中的知識來進行決策,因此,人工智能的核心應(yīng)該是用計算機符號來表示這些知識,并通過推理機模仿人腦對知識進行處理。依據(jù)專家系統(tǒng)的觀點,計算機系統(tǒng)應(yīng)該由知識庫和推理機兩部分組成,而不是由函數(shù)等過程性代碼組成。早期專家系統(tǒng)最常用的知識表示方法包括基于框架的語言(Frame-based Languages)和產(chǎn)生式規(guī)則(Production Rules)等??蚣苷Z言主要用于描述客觀世界的類別、個體、屬性及關(guān)系等,較多的被應(yīng)用于輔助自然語言理解。產(chǎn)生式規(guī)則主要用于描述類似于IF-THEN的邏輯結(jié)構(gòu),適合于刻畫過程性知識。

知識圖譜與傳統(tǒng)專家系統(tǒng)時代的知識工程有顯著的不同。與傳統(tǒng)專家系統(tǒng)時代主要依靠專家手工獲取知識不同,現(xiàn)代知識圖譜的顯著特點是規(guī)模巨大,無法單一依靠人工和專家構(gòu)建。傳統(tǒng)的知識庫,如由Douglas Lenat從1984年開始創(chuàng)建的常識知識庫Cyc僅包含700萬條 的事實描述(Assertion)。Wordnet主要依靠語言學專家定義名詞、動詞、形容詞和副詞之間的語義關(guān)系,目前包含大約20萬條的語義關(guān)系。由著名人工智能專家Marvin Minsky于1999年起開始構(gòu)建的ConceptNet[24]常識知識庫依靠了互聯(lián)網(wǎng)眾包、專家創(chuàng)建和游戲三種方法,但早期ConceptNet規(guī)模在百萬級別,最新的ConceptNet 5.0也僅包含2800萬RDF三元組關(guān)系描述。現(xiàn)代知識圖譜如谷歌和百度的知識圖譜都已經(jīng)包含超過千億級別的三元組,阿里巴巴于2017年8月份發(fā)布的僅包含核心商品數(shù)據(jù)的知識圖譜也已經(jīng)達到百億級別。DBpedia已經(jīng)包含約30億RDF三元組,多語種的大百科語義網(wǎng)絡(luò)BabelNet包含19億的RDF三元組[25],Yago3.0包含1.3億元組,Wikidata已經(jīng)包含4265萬條數(shù)據(jù)條目,元組數(shù)目也已經(jīng)達到數(shù)十億級別。截止目前,開放鏈接數(shù)據(jù)項目Linked Open Data  統(tǒng)計了其中有效的2973個數(shù)據(jù)集,總計包含大約1494億三元組。

現(xiàn)代知識圖譜對知識規(guī)模的要求源于“知識完備性”難題。馮諾依曼曾估計單個個體的大腦中的全量知識需要2.4*1020個bits來存儲[26]??陀^世界擁有不計其數(shù)的實體,人的主觀世界還包含有無法統(tǒng)計的概念,這些實體和概念之間又具有更多數(shù)量

的復雜關(guān)系,導致大多數(shù)知識圖譜都面臨知識不完全的困境。在實際的領(lǐng)域應(yīng)用場景中,知識不完全也是困擾大多數(shù)語義搜索、智能問答、知識輔助的決策分析系統(tǒng)的首要難題。

圖 3 現(xiàn)代知識圖譜的規(guī)模化發(fā)展

2.2 規(guī)?;闹R圖譜系統(tǒng)工程

規(guī)?;闹R圖譜工程要求系統(tǒng)性的綜合多方面的技術(shù)手段。如圖 4所示,知識圖譜工程的核心流程包括:知識建模、知識抽取、知識融合、知識推理、知識檢索、知識分析等核心環(huán)節(jié)。一般的技術(shù)流程包括:首先確定知識表示模型,然后根據(jù)數(shù)據(jù)來源選擇不同的知識獲取手段導入知識,接下來需要綜合利用知識推理、知識融合、知識挖掘等技術(shù)對所構(gòu)建的知識圖譜進行質(zhì)量提升,最后根據(jù)場景需求設(shè)計不同的知識訪問與呈現(xiàn)方法,如:語義搜索、問答交互、圖譜可視化分析等。下面簡要概述這些技術(shù)流程的核心技術(shù)要素。

圖 4 規(guī)?;闹R圖譜系統(tǒng)工程

● 知識來源

可以從多種來源來獲取知識圖譜數(shù)據(jù),這包括:文本、結(jié)構(gòu)化數(shù)據(jù)庫、多媒體數(shù)據(jù)、傳感器數(shù)據(jù)和人工眾包等。每一種數(shù)據(jù)源的知識化都需要綜合各種不同的技術(shù)手段。 例如,對于文本數(shù)據(jù)源就需要綜合各種自然語言處理技術(shù)(實體識別、實體鏈接、關(guān)系抽取、事件抽取等)來實現(xiàn)從文本中抽取知識。

結(jié)構(gòu)化數(shù)據(jù)庫如各種關(guān)系型數(shù)據(jù)庫,也是最常使用的數(shù)據(jù)來源之一。 通常已有的結(jié)構(gòu)化數(shù)據(jù)庫不能直接作為知識圖譜使用,而需要通過定義結(jié)構(gòu)化數(shù)據(jù)到本體模型之間的語義映射,再通過編寫語義翻譯工具來實現(xiàn)結(jié)構(gòu)化數(shù)據(jù)到知識圖譜的轉(zhuǎn)化。此外,還需要綜合采用實體消歧、數(shù)據(jù)融合、知識鏈接等技術(shù)提升數(shù)據(jù)的規(guī)范化水平和增強數(shù)據(jù)之間的關(guān)聯(lián)。

語義技術(shù)也被用來對傳感器所產(chǎn)生的數(shù)據(jù)進行語義化。這包括對物聯(lián)設(shè)備進行抽象,定義符合語義標準的數(shù)據(jù)接口;對傳感數(shù)據(jù)進行語義封裝和對傳感數(shù)據(jù)增加上下文語義描述等。

人工眾包是獲取高質(zhì)量知識圖譜的重要手段。例如:WikiData和Schema.org都是較為典型的知識眾包技術(shù)手段。此外,還可以開發(fā)針對文本、圖像等多種媒體數(shù)據(jù)的語義標注工具輔助人工進行知識獲取。

● 知識表示與Schema工程

知識表示(Knowledge Representation)是指用計算機符號描述和表示人腦中的知識,以支持機器模擬人的心智進行推理的方法與技術(shù)。知識表示決定了圖譜構(gòu)建的產(chǎn)出目標,即知識圖譜的語義描述框架(Description Framework)、Schema與本體(Ontology)、知識交換語法(Syntax)和實體命名及ID體系。

基本描述框架定義知識圖譜的基本數(shù)據(jù)模型(Data Model)和邏輯結(jié)構(gòu)(Structure),如W3C的RDF(Resource Description Framework)。Schema與本體定義知識圖譜的類集、屬性集、關(guān)系集和詞匯集。交換語法定義知識實際存在的物理格式,如Turtle、JSON等。實體命名及ID體系定義實體的命名原則及唯一標示規(guī)范等。

從知識圖譜的知識類型來分,包括:詞(Vocabulary)、實體(Entity)、關(guān)系(Relation)、事件(Events)、術(shù)語體系(Taxonomy)、規(guī)則(Rules)等。詞一級的知識以詞為中心,并定義詞之間的關(guān)系,如WordNet、ConceptNet等。實體一級的知識以實體為中心,并定義實體之間的關(guān)系、描述實體的術(shù)語體系等。事件是一種復合的實體。

W3C的RDF把三元組(Triple)作為基本的數(shù)據(jù)模型,其基本的邏輯結(jié)構(gòu)包含主語(Subject)、謂詞(Predicate)、賓語(Object)三個部分。雖然不同知識庫的描述框架的表述有所不同,但本質(zhì)上都包含實體、實體的屬性和實體之間的關(guān)系幾個方面的要素。

● 知識抽取

知識抽取按任務(wù)可以分為概念抽取、實體識別、關(guān)系抽取、事件抽取和規(guī)則抽取等。傳統(tǒng)專家系統(tǒng)時代的知識主要依靠專家手工錄入,難以擴大規(guī)?!,F(xiàn)代知識圖譜的構(gòu)建通常大多依靠已有的結(jié)構(gòu)化數(shù)據(jù)資源進行轉(zhuǎn)化形成基礎(chǔ)數(shù)據(jù)集,再依靠自動化知識抽取和知識圖譜補全技術(shù)從多種數(shù)據(jù)來源進一步擴展知識圖譜,并通過人工眾包來進一步提升知識圖譜的質(zhì)量。

結(jié)構(gòu)化和文本數(shù)據(jù)是目前最主要的知識來源。從結(jié)構(gòu)化數(shù)據(jù)庫中獲取知識一般使用現(xiàn)有的D2R工具[27],如 Triplify、D2RServer、OpenLink、SparqlMap、Ontop等。從文本中獲取知識主要包括實體識別和關(guān)系抽取。以關(guān)系抽取為例,典型的關(guān)系抽取方法可以分為:基于特征模板的方法[28-30],基于核函數(shù)的監(jiān)督學習方法[31-39],基于遠程監(jiān)督的方法[40][47],和基于深度學習的監(jiān)督或遠程監(jiān)督方法,如簡單CNN、MP-CNN、MWK-CNN、PCNN、PCNN+Att、和MIMLCNN等[42-46]。遠程監(jiān)督的思想是,利用一個大型的語義數(shù)據(jù)庫來自動獲取關(guān)系類型標簽。這些標簽可能是含有噪聲的,但是大量的訓練數(shù)據(jù)一定程度上可以抵消這些噪聲。另外一些工作通過多任務(wù)學習等方法將實體和關(guān)系做聯(lián)合抽取[47-48]。最新的一些研究則利用強化學習來減少人工標注和自動降低噪音[49]。

● 知識融合

在構(gòu)建知識圖譜時,可以從第三方知識庫產(chǎn)品或已有結(jié)構(gòu)化數(shù)據(jù)獲取知識輸入。例如,關(guān)聯(lián)開放數(shù)據(jù)項目(Linked Open Data)會定期發(fā)布其經(jīng)過積累和整理的語義知識數(shù)據(jù),其中既包括前文介紹過的通用知識庫 DBpedia和 Yago,也包括面向特定領(lǐng)域的知識庫產(chǎn)品,如 MusicBrainz和DrugBank等。當多個知識圖譜進行融合,或者將外部關(guān)系數(shù)據(jù)庫合并到本體知識庫時需要處理兩個層面的問題:A. 通過模式層的融合,將新得到的本體融入已有的本體庫中,以及新舊本體的融合;B.數(shù)據(jù)層的融合,包括實體的指稱、屬性、關(guān)系以及所屬類別等,主要的問題是如何避免實例以及關(guān)系的沖突問題,造成不必要的冗余。

數(shù)據(jù)層的融合是指實體和關(guān)系(包括屬性)元組的融合,主要是實體匹配(或者對齊),由于知識庫中有些實體含義相同但是具有不同的標識符,因此需要對這些實體進行合并處理[91-92]。此外,還需要對新增實體和關(guān)系進行驗證和評估,以確保知識圖譜的內(nèi)容一致性和準確性,通常采用的方法是在評估過程中為新加入的知識賦予可信度值,據(jù)此進行知識的過濾和融合。實體對齊的任務(wù)包括實體消歧和共指消解,即判斷知識庫中的同名實體是否代表不同的含義以及知識庫中是否存在其他命名實體與之表示相同的含義。實體消歧(entity disambiguation)專門用于解決同名實體產(chǎn)生歧義問題的,通常采用聚類法,其關(guān)鍵問題是如何定義實體對象與指稱項之間的相似度,常用方法有:空間向量模型(詞袋模型)[56]、語義模型[57]、社會網(wǎng)絡(luò)模型[58]、百科知識模型[59]和增量證據(jù)模型[60]。一些最新的工作利用知識圖譜嵌入方法進行實體對齊,并引入人機協(xié)作方式提升實體對齊的質(zhì)量[61-62]。

本體是針對特定領(lǐng)域中Schema定義、概念模型和公理定義而言的,目的是彌合詞匯異構(gòu)性和語義歧義的間隙,使溝通達成共識。這種共識往往是通過一個反復的過程達到,每次迭代都是一次共識的修改。因此,本體對齊通常帶來的是共識模式的演化和變化,本體對齊的主要問題之一也可以轉(zhuǎn)化為怎樣管理這種演化和變化[63]。常見的本體演化管理框架有KAON[64]、Conto-diff[65]、OntoView等。

● 知識圖譜補全

常用的知識圖譜補全方法包括:基于本體推理的補全方法,如基于描述邏輯的推理[66-68],以及相關(guān)的推理機實現(xiàn)如:RDFox、Pellet , RACER , HermiT , TrOWL等。這類推理主要針對TBox,即概念層進行推理,也可以用來對實體級的關(guān)系進行補全。

另外一類的知識補全算法實現(xiàn)基于圖結(jié)構(gòu)和關(guān)系路徑特征的方法,如基于隨機游走獲取路徑特征的PRA算法[69],基于子圖結(jié)構(gòu)的SFE算法[70],基于層次化隨機游走模型的PRA算法[71]。這類算法的共同特點是通過兩個實體節(jié)點之間的路徑,以及節(jié)點周圍的圖的結(jié)構(gòu)提取特征,并通過隨機游走等算法降低特征抽取的復雜度,然后疊加線性的學習模型來進行關(guān)系的預(yù)測。此類算法依賴于圖結(jié)構(gòu)和路徑的豐富程度。

更為常見的補全實現(xiàn)是基于表示學習和知識圖譜嵌入的鏈接預(yù)測[73-80],簡單的如前面所介紹最基本的翻譯模型、組合模型和神經(jīng)元模型等。這類簡單的嵌入模型一般只能實現(xiàn)單步的推理。更為復雜一些的模型,如向量空間中引入隨機游走模型的方法,在同一個向量空間中將路徑與實體和關(guān)系一起表示出來再進行補全的模型[81-82]。

文本信息也被用來輔助實現(xiàn)知識圖譜的補全[50-55]。例如Jointly(w)、Jointly(z) 、DKRL、TEKE、SSP等方法將文本中的實體和結(jié)構(gòu)化圖譜中的實體對齊,然后利用雙方的語義信息來輔助實現(xiàn)關(guān)系預(yù)測或抽取。這類模型一般包含3個部分:三元組解碼器、文本解碼器和聯(lián)合解碼器。三元組解碼器將知識圖譜中的實體和關(guān)系轉(zhuǎn)化為低維向量;文本解碼器則是要從文本語料庫中學習實體(詞)的向量表示;聯(lián)合解碼器的目的是要保證實體/關(guān)系和詞的嵌入向量位于相同的空間中并且集成實體向量和詞向量。

● 知識檢索與知識分析

基于知識圖譜的知識檢索的實現(xiàn)形式主要包括語義檢索和智能問答。傳統(tǒng)搜索引擎依靠網(wǎng)頁之間的超鏈接來實現(xiàn)網(wǎng)頁的搜索,而語義搜索是直接對事物進行搜索,如人物、機構(gòu)、地點等。這些事物可能來自于文本、圖片、視頻、音頻、IoT設(shè)備等各種信息資源。而知識圖譜和語義技術(shù)提供了關(guān)于這些事物的分類、屬性和關(guān)系的描述,使得搜索引擎可以直接對事物進行索引和搜索。

知識圖譜和語義技術(shù)也被用來輔助做數(shù)據(jù)分析與決策。例如,大數(shù)據(jù)公司PLANTIR基于本體融合和集成多種來源的數(shù)據(jù),通過知識圖譜和語義技術(shù)增強數(shù)據(jù)之間的關(guān)聯(lián),使得用戶可以用更加直觀的圖譜方式對數(shù)據(jù)進行關(guān)聯(lián)挖掘與分析。近年來,描述性數(shù)據(jù)分析(DECLARATIVE DATA ANALYSIS)受到越來越多的重視[83]。描述性數(shù)據(jù)分析是指依賴數(shù)據(jù)本身的語義描述來實現(xiàn)數(shù)據(jù)分析的方法。不同于計算性數(shù)據(jù)分析主要以建立各種數(shù)據(jù)分析模型,如深度神經(jīng)網(wǎng)絡(luò),描述性數(shù)據(jù)分析突出預(yù)先抽取數(shù)據(jù)的語義,建立數(shù)據(jù)之間的邏輯,并依靠邏輯推理的方法(如DATALOG)來實現(xiàn)數(shù)據(jù)分析[84]。

3 發(fā)展趨勢與展望

3.1 知識圖譜的系統(tǒng)工程思維

知識圖譜本身可以看做是一種新型的信息系統(tǒng)基礎(chǔ)設(shè)施。從數(shù)據(jù)維度,知識圖譜要求用更加規(guī)范的語義來提升企業(yè)數(shù)據(jù)的質(zhì)量,用鏈接數(shù)據(jù)(Linked Data)的思想提升企業(yè)數(shù)據(jù)之間的關(guān)聯(lián)度,終極目標是將非結(jié)構(gòu)、無顯示關(guān)聯(lián)的粗糙數(shù)據(jù)逐步萃取提煉為結(jié)構(gòu)化、高度關(guān)聯(lián)的高質(zhì)量知識。每個企業(yè)都應(yīng)該將知識圖譜作為一種面向數(shù)據(jù)的信息系統(tǒng)基礎(chǔ)設(shè)施進行持續(xù)性建設(shè)。

從技術(shù)維度,知識圖譜的構(gòu)建涉及知識表示、關(guān)系抽取、圖數(shù)據(jù)存儲、數(shù)據(jù)融合、推理補全等多方面的技術(shù),而知識圖譜的利用涉及語義搜索、知識問答、自動推理、知識驅(qū)動的語言及視覺理解、描述性數(shù)據(jù)分析等多個方面。要構(gòu)建并利用好知識圖譜也要求系統(tǒng)性的綜合利用好來自于知識表示、自然語言處理、機器學習、圖數(shù)據(jù)庫、多媒體處理等多個相關(guān)領(lǐng)域的技術(shù),而非單個領(lǐng)域的單一技術(shù)。因此,未來一個發(fā)展趨勢是,知識圖譜的構(gòu)建和利用都應(yīng)注重系統(tǒng)思維。

3.2大規(guī)模的知識圖譜嵌入與基于表示學習的可微分推理

知識圖譜對規(guī)模的擴展需求使得知識表示技術(shù)逐漸發(fā)生了多方面的變化:1)從以強邏輯為中心向以按需增強語義表達能力的變化;2)從較為注重TBox概念型知識轉(zhuǎn)化為更加注重ABox事實型知識;3)從以離散的符號邏輯表示向以連續(xù)的向量空間表示方向發(fā)展。

盡管以連續(xù)向量表示為基礎(chǔ)的知識圖譜嵌入日益得到重視,但其在實際應(yīng)用過程中卻仍然面臨較大的困難。這包括:A. 極大規(guī)模的知識圖譜嵌入的訓練及向量化知識圖譜的存儲計算問題;B.嵌入過程帶來的信息丟失問題及少樣本數(shù)據(jù)訓練不充分的問題。對于問題A,要求更多的考慮結(jié)合數(shù)據(jù)庫技術(shù)及大數(shù)據(jù)存儲技術(shù)來解決大規(guī)模知識圖譜帶來的性能問題,而非單一的考慮參數(shù)的規(guī)模。對于問題B,則需要考慮更多的疊加邏輯規(guī)則和先驗知識來引導知識圖譜嵌入的訓練過程。

另外一個發(fā)展趨勢是基于學習的可微分推理??晌⒎滞评硗ㄟ^統(tǒng)計學習將推理所依賴的元素參數(shù)化,從而使得推理的過程可微??晌⒎滞评硗ǔP枰瑫r對結(jié)構(gòu)和參數(shù)進行學習,因而復雜度和難度都很高。但一旦實現(xiàn),其意義是可以實現(xiàn)從大量數(shù)據(jù)中歸納總結(jié)推理過程,且這些通過大數(shù)據(jù)總結(jié)歸納出的推理過程可以用來產(chǎn)生新的知識。

3.3少樣本、無監(jiān)督的知識獲取

知識圖譜的規(guī)?;瘶?gòu)建需求對知識獲取帶來如下幾個方面的變化:1)從單一人工獲取到更多的依靠大數(shù)據(jù)和機器學習來實現(xiàn)自動化知識抽取;2)從單一來源變化為綜合從結(jié)構(gòu)化、半結(jié)構(gòu)化、文本、傳感器等多個來源,通過多任務(wù)相融合實現(xiàn)聯(lián)合知識獲?。?)從依靠少數(shù)專家到依靠互聯(lián)網(wǎng)群體眾包協(xié)同獲取。

大規(guī)模對自動化知識獲取提出了更高的要求。未來主要發(fā)展趨勢包括:1) 融合深度學習與遠程監(jiān)督,降低自動化抽取對特征工程和監(jiān)督數(shù)據(jù)的依賴;2)通過強化學習降低抽取的的噪音,減少對標注數(shù)據(jù)的依賴;3) 融合多種類型的數(shù)據(jù)通過多任務(wù)學習進行聯(lián)合知識抽??;4) 有機的結(jié)合人工眾包提高知識抽取的質(zhì)量和加強監(jiān)督信號。較好的平衡人工和自動化抽取,盡可能降低機器對標注數(shù)據(jù)和特征工程的依賴,并綜合多種來源的知識進行聯(lián)合抽取,特別是發(fā)展少樣本、無監(jiān)督和自監(jiān)督的方法,是未來實現(xiàn)大規(guī)模知識獲取的關(guān)鍵因素。

3.4區(qū)塊鏈與去中心化的知識圖譜

語義網(wǎng)的早期理念實際上包含三個方面:知識的互聯(lián)、去中心化的架構(gòu)和知識的可信。知識圖譜在一定程度上實現(xiàn)了“知識互聯(lián)”的理念,然而在去中心化的架構(gòu)和知識可信兩個方面都仍然沒有較好的解決方案出現(xiàn)。

對于去中心化,相比起現(xiàn)有的多為集中存儲的知識圖譜,語義網(wǎng)強調(diào)知識是以分散的方式互聯(lián)和相互鏈接,知識的發(fā)布者擁有完整的控制權(quán)。近年來,國內(nèi)外已經(jīng)有研究機構(gòu)和企業(yè)開始探索將區(qū)塊鏈技術(shù)去實現(xiàn)去中心化的知識互聯(lián)。這包括去中心化的實體ID管理、基于分布式賬本的術(shù)語及實體命名管理、基于分布式賬本的知識溯源、知識簽名和權(quán)限管理等。

知識的可信與鑒真也是當前很多知識圖譜項目所面臨的挑戰(zhàn)和問題。由于很多知識圖譜數(shù)據(jù)來源廣泛,且知識的可信度量需要作用到實體和事實級別,怎樣有效的對知識圖譜中的海量事實進行管理、追蹤和鑒真,也成為區(qū)塊鏈技術(shù)在知識圖譜領(lǐng)域的一個重要應(yīng)用方向。

此外,將知識圖譜引入到智能合約(Smart Contract)中,可以幫助解決目前智能合約內(nèi)生知識不足的問。例如PCHAIN[148]引入知識圖譜(Knowledge Graph)Oracle機制,解決傳統(tǒng)智能合約數(shù)據(jù)不閉環(huán)的問題。

4 結(jié)束語

互聯(lián)網(wǎng)促成了大數(shù)據(jù)的集聚,大數(shù)據(jù)進而促進了人工智能算法的進步。新數(shù)據(jù)和新算法為規(guī)模化知識圖譜構(gòu)建提供了新的技術(shù)基礎(chǔ)和發(fā)展條件,使得知識圖譜構(gòu)建的來源、方法和技術(shù)手段都發(fā)生極大的變化。知識圖譜作為知識的一種形式,已經(jīng)在語義搜索、智能問答、數(shù)據(jù)分析、自然語言理解、視覺理解、物聯(lián)網(wǎng)設(shè)備互聯(lián)等多個方面發(fā)揮出越來越大的價值。AI浪潮愈演愈烈,而作為底層支撐的知識圖譜賽道也從鮮有問津到緩慢升溫,雖然還談不上擁擠,但作為通往未來的必經(jīng)之路,注定會走上風口。

作者簡介


陳華鈞

浙江大學計算機科學與技術(shù)學院教授,主要研究方向為知識圖譜、自然語言處理、大數(shù)據(jù)與人工智能。中國中文信息學會語言與知識計算專業(yè)委員會副主任、中國人工智能學會知識工程與分布智能專業(yè)委員會副主任、CCF術(shù)語工委會執(zhí)行委員、CCF信息系統(tǒng)專業(yè)委員會委員等。

王昊奮

上海樂言信息科技有限公司 CTO,主要研究方向為知識圖譜與聊天機器人,CCF理事,CCF術(shù)語審定工作委員會主任,CCF信息系統(tǒng)專業(yè)委員會委員,CCF中文技術(shù)專委委員。

漆桂林

東南大學教授,主要研究方向人工智能、知識工程、語義網(wǎng),中國中文信息學會語言與知識計算專業(yè)委員會副主任,CCF會員。

王鑫

天津大學、副教授、研究方向:知識圖譜數(shù)據(jù)管理與機器學習、圖數(shù)據(jù)庫、大數(shù)據(jù)分布式處理、CCF高級會員、計算機術(shù)語審定工作委員會執(zhí)行委員、信息系統(tǒng)專委會委員、數(shù)據(jù)庫專委會委員,中國中文信息學會語言與知識計算專委會委員。

顧進廣

武漢科技大學,教授, 主要研究方向為語義網(wǎng),分布式計算,CCF高級會員。

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多