小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

WOT2016黃偉:基于深度學(xué)習(xí)的情感分析

【51CTO.com原創(chuàng)稿件】WOT2016大數(shù)據(jù)峰會(huì)將于2016年11月25-26日在北京粵財(cái)JW萬(wàn)豪酒店召開(kāi),屆時(shí),數(shù)十位大數(shù)據(jù)領(lǐng)域一線(xiàn)專(zhuān)家、數(shù)據(jù)技術(shù)先行者將齊聚現(xiàn)場(chǎng),在圍繞機(jī)器學(xué)習(xí)、實(shí)時(shí)計(jì)算、系統(tǒng)架構(gòu)、NoSQL技術(shù)實(shí)踐等前沿技術(shù)話(huà)題展開(kāi)深度交流和溝通探討的同時(shí),分享大數(shù)據(jù)領(lǐng)域最新實(shí)踐和最熱門(mén)的行業(yè)應(yīng)用。

51CTO記者對(duì)即將參加大會(huì)演講的百分點(diǎn)研發(fā)副總監(jiān)黃偉進(jìn)行了專(zhuān)訪(fǎng),讓我們先睹為快,探聽(tīng)他在基于深度學(xué)習(xí)的情感分析方面的心得。

【講師簡(jiǎn)介】

WOT2016黃偉:基于深度學(xué)習(xí)的情感分析

黃偉,百分點(diǎn)科技研發(fā)副總監(jiān)。主要負(fù)責(zé)機(jī)器學(xué)習(xí)和非結(jié)構(gòu)化數(shù)據(jù)挖掘;特別是基于中文語(yǔ)義分析的商業(yè)應(yīng)用,包括商品自動(dòng)分類(lèi)、商品畫(huà)像、情感分析和口碑分析等。同時(shí)致力于研究非結(jié)構(gòu)化數(shù)據(jù)在量化投資中的應(yīng)用。畢業(yè)于上海交通大學(xué)計(jì)算機(jī)專(zhuān)業(yè),曾就職于湯森路透等公司從事機(jī)器學(xué)習(xí)、圖像識(shí)別、自然語(yǔ)言處理方面的工作。

何為文本情感分析

文本情感分析:用自然語(yǔ)言處理文本挖掘以及計(jì)算機(jī)語(yǔ)言學(xué)等方法來(lái)識(shí)別和提取原素材中的主觀信息。通常來(lái)說(shuō),情感分析的目的是為了找出作者/筆者,在某些話(huà)題上或者針對(duì)一個(gè)文本兩極的觀點(diǎn)態(tài)度。這個(gè)態(tài)度或是個(gè)人判斷,或是評(píng)估,也許是當(dāng)時(shí)的情感狀態(tài),或是作者有意向的情感交流。

互聯(lián)網(wǎng)中充斥著大量的非結(jié)構(gòu)化文本數(shù)據(jù), 這里面含有很多有價(jià)值的,但是無(wú)法簡(jiǎn)單處理、提取的信息。情感是其中一類(lèi)比較重要的信息,這時(shí)候就需要通過(guò)文本情感分析來(lái)對(duì)這部分信息進(jìn)行自動(dòng)提取。

當(dāng)機(jī)器能夠自動(dòng)對(duì)新聞或微博、論壇等非結(jié)構(gòu)化文本數(shù)據(jù)進(jìn)行情感提取,可以利用這些提取到的情感信息,應(yīng)用到如公司負(fù)面檢測(cè),從而及時(shí)發(fā)現(xiàn)公司品牌的輿情風(fēng)險(xiǎn)或投資風(fēng)險(xiǎn),應(yīng)用到產(chǎn)品或服務(wù)的正負(fù)口碑檢測(cè),去改善產(chǎn)品設(shè)計(jì)或服務(wù)流程,還可以通過(guò)用戶(hù)的正負(fù)情感反饋,應(yīng)用到電影票房的預(yù)測(cè)甚至如美國(guó)大選結(jié)果的預(yù)測(cè)。

深度學(xué)習(xí)VS普通機(jī)器學(xué)習(xí)

深度學(xué)習(xí)和普通的機(jī)器學(xué)習(xí)最大的區(qū)別在于特征處理和模型結(jié)構(gòu)上。

首先是在特征處理的方式上:普通的機(jī)器學(xué)習(xí)核心在于特征工程,效果的好壞90%取決于特征是否有效,這需要數(shù)據(jù)分析師對(duì)業(yè)務(wù)問(wèn)題深度剖析,設(shè)計(jì)出對(duì)癥的特征,這樣的工程量是非常大的。

隨著數(shù)據(jù)量的大增和計(jì)算資源如GPU的發(fā)展,深度學(xué)習(xí)在大數(shù)據(jù)時(shí)代有了驚人的發(fā)展。在深度學(xué)習(xí)時(shí)代,可以通過(guò)數(shù)據(jù)本身的各種的特征讓機(jī)器自動(dòng)去做特征提取,當(dāng)數(shù)據(jù)量足夠大的時(shí)候,機(jī)器提取的特顯著好于人工特征。

第二,在模型結(jié)構(gòu)上:深度學(xué)習(xí)主要是以類(lèi)人腦的多層神經(jīng)網(wǎng)絡(luò)模型為主,包括如DBM、RNN、CNN等不同的網(wǎng)絡(luò)結(jié)構(gòu)和訓(xùn)練方法。通過(guò)機(jī)器學(xué)習(xí)或淺層機(jī)器學(xué)習(xí)包括了若干種如LR、SVM、隨機(jī)森林、最大熵、HMM等一系列能夠通過(guò)數(shù)據(jù)進(jìn)行模型自動(dòng)學(xué)習(xí)的模型。深度學(xué)習(xí)模型參數(shù)一般遠(yuǎn)遠(yuǎn)大于淺層學(xué)習(xí)模型,為了訓(xùn)練效率的提升,一般采用GPU訓(xùn)練。

情感分析的難點(diǎn)

人類(lèi)的自然語(yǔ)言非常復(fù)雜。同一個(gè)意思可能有無(wú)窮盡的方式來(lái)表達(dá),不同語(yǔ)境下同一段話(huà),語(yǔ)義也可能有所不同。語(yǔ)義判別級(jí)別的文本情感分析也是非常困難的。

考慮到如蘋(píng)果(水果)、蘋(píng)果(公司)一詞多義、如風(fēng)險(xiǎn)高(負(fù)面)、情緒高(正面)詞的結(jié)合將產(chǎn)生不同的語(yǔ)義,同一個(gè)意思對(duì)不同的人產(chǎn)生不同的情感如價(jià)格高(賣(mài)者正面、買(mǎi)者負(fù)面),諷刺表達(dá)(你真厲害!這都不會(huì))等情形, 雖然目前最好的技術(shù)已經(jīng)將效果大大提升,但還遠(yuǎn)未能達(dá)到人的判別能力,還有很大的發(fā)展空間以及技術(shù)挑戰(zhàn)。

情感分析的利器:深度學(xué)習(xí)

深度學(xué)習(xí)為什么能解決情感分析這個(gè)難題?原因主要有三點(diǎn):

一、 深度學(xué)習(xí)是神經(jīng)網(wǎng)絡(luò)模型,如運(yùn)用CNN、RNN等模型,能保留詞序信息。而這部分信息在淺層模型如LR、SVM、決策樹(shù)的應(yīng)用中是需要丟棄的。這部分詞序信息,如果在大量訓(xùn)練數(shù)據(jù)時(shí)能夠提升效果。

二、 深度學(xué)習(xí),因?yàn)镋mbeddin特征的學(xué)習(xí),具有很強(qiáng)的擴(kuò)展性。神經(jīng)網(wǎng)絡(luò)的模型,需要將詞進(jìn)行向量化,利用如W2VGloVe等離線(xiàn)模型(特征挖掘)向量的接入后,其特征已具備語(yǔ)義信息,訓(xùn)練出的模型具有了很強(qiáng)的擴(kuò)展性。而淺層學(xué)習(xí)的輸入多為詞級(jí)別的特征,對(duì)于實(shí)際訓(xùn)練集非常有限的情形下,效果大受制約。

三、 情感分析是語(yǔ)義級(jí)別的文本任務(wù),首先深度學(xué)習(xí)是多層的網(wǎng)絡(luò)結(jié)構(gòu),天生具備了學(xué)習(xí)深層次語(yǔ)義信息的架構(gòu),更符合人類(lèi)思考的方式。

深度學(xué)習(xí)在文本情感分析上主要是運(yùn)用輸入詞的Embedding向量接入,利用如CNN、RNN(LSTM)等神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),通過(guò)SGD算法在訓(xùn)練數(shù)據(jù)上利用GPU進(jìn)行訓(xùn)練。因?yàn)槟P捅旧鞥mbedding有包含語(yǔ)義信息和網(wǎng)絡(luò)結(jié)構(gòu)保留了詞序信息,大量數(shù)據(jù)的訓(xùn)練結(jié)果會(huì)使得效果上是要好傳統(tǒng)的機(jī)器學(xué)習(xí)。

但是也有一定的劣勢(shì),因?yàn)閷?shí)際訓(xùn)練中沒(méi)有完美或足夠大的標(biāo)注集,模型的擴(kuò)展性會(huì)擴(kuò)大,因?yàn)闃?biāo)注集的問(wèn)題(如數(shù)據(jù)不夠大,不滿(mǎn)足實(shí)際分布),會(huì)擴(kuò)大錯(cuò)誤率。所以模型的后期糾錯(cuò)異常重要,這樣模型的效果(召回和精度)才能都提高。

百分點(diǎn)內(nèi)部因?yàn)闃I(yè)務(wù)需要,持續(xù)進(jìn)行情感分析模型的調(diào)優(yōu)。從最早基于規(guī)則的情感模型(結(jié)合一定的語(yǔ)法規(guī)則以及簡(jiǎn)單進(jìn)行正負(fù)詞統(tǒng)計(jì)的模型),到利用機(jī)器學(xué)習(xí)的方法去學(xué)習(xí)情感模型(基于標(biāo)注數(shù)據(jù)、SVM決策樹(shù)等模型融合),最后升級(jí)到利用CNN、LSTM去訓(xùn)練模型,每一步都顯著的提升了效果,細(xì)節(jié)的做法和經(jīng)驗(yàn)將在WOT大數(shù)據(jù)技術(shù)峰會(huì)上給出。

【編輯推薦】

版權(quán)歸原作者所有,文章不代表本站立場(chǎng),轉(zhuǎn)載請(qǐng)注明:寂寞快活林 ? WOT2016黃偉:基于深度學(xué)習(xí)的情感分析

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶(hù)發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶(hù) 評(píng)論公約

    類(lèi)似文章 更多