小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

【數說】當《全宋詞》遇上機器學習

 昵稱65450 2019-09-08

近期,《中國詩詞大會》《朗讀者》《中華好詩詞》等節(jié)目熱播,掀起又一波傳統(tǒng)文化浪潮?;ヂ摼W語境的時代,“飛花令”這樣聽起來復古、文雅的詞匯刷屏了朋友圈,唐詩宋詞的美再次進入人們視野,重新喚起國人的詩心和對文學的溫柔記憶。本文用機器學習的方式來挖掘《全宋詞》帶您一起領略宋詞之美。

作者 | 小雨微瀾

編輯 | 數小妹

近期,《中國詩詞大會》《朗讀者》《中華好詩詞》等節(jié)目熱播,掀起又一波傳統(tǒng)文化浪潮?;ヂ摼W語境的時代,“飛花令”這樣聽起來復古、文雅的詞匯刷屏了朋友圈,唐詩宋詞的美再次進入人們視野,重新喚起國人的詩心和對文學的溫柔記憶。

如今人工智能是最高科技技術之一,人工智能技術與各領域相融合的探索,生活、工作智能化儼然成為一個新的趨勢。那么,詩歌與人工智能能碰撞出怎樣的火花呢?本次,小雨將以自然語言處理的方式和工具來挖掘剖析《全宋詞》,用計算機來完成以對宋詞的信息抽取、摘要,聚類分類、相似性分析等。

文本預處理

由于詩詞與現代漢語的語法和結構的差異,不能采用常用的針對現代漢語的分詞工具,如Jieba,HanLP等,本文是將全宋詞逐字切分,用python編寫的代碼如下:

得到分詞結果后,要進行第二步的操作,去停用詞。停用詞是一些完全沒有用或者沒有意義的詞,例如助詞、語氣詞、標點符號等。本文的停用詞表是筆者首先從網上下載的哈工大停用詞表:

將經過分詞和去停用詞的《全宋詞》文本保存下來,便可以進行下一步的字頻分析了。

字頻分析

整個《全宋詞》中共有797242行詞,合計有18101842字。通過字頻統(tǒng)計發(fā)現,出現次數最多的十個字是:人,山,風,天,日,生,云,中,時,年,其中人出現了7萬多次,說明宋詞很好的秉承了“以人為本”的中華文化;山,風,天,日,云則是描寫自然風光的主要意象;生,時,年是對光陰的表達。這說明人物,景色,時光是宋詞的三大主題,下文中我們將深入探索詩歌的聚類分析。

題目與作者

將184977首宋詞的題目進行統(tǒng)計,繪制詞云。題目頻數較多的有山居雜詩,偶成,宮詞,雜詩,華陽吟,題扇,上丞相壽,雨,梅花,海棠,感事,春日等

由于《全宋詞》中的詞作者眾多,小雨統(tǒng)計了較為喜歡的詩人的作詞數。如:蘇軾,柳永,歐陽修,賀鑄,黃庭堅等人。而作為宋詞兩大派系—“豪放派”與“婉約派”代表人的蘇軾與柳永,詞作數無疑是相對較多的。

文本相似度計算

宋詞之妙,常在于其靈動性。同是寫思念,有溫庭筠的“梧桐樹,三更雨,不道離情正苦。一葉葉,一聲聲,空階滴到明”;有馮延巳的“錦壺催畫箭,玉佩天涯遠。和淚試嚴妝,落梅飛夜霜”;也有韋莊的“琵琶金翠羽,弦上黃鶯語。勸我早還家,綠窗人似花”。作為從小在詩詞熏陶下的中華兒女,我們可能很容易判斷詩的主旨及不同的詩詞之間是否具有相似處,但對計算機來說這些似乎沒那么簡單。因此我們探索用機器學習的方法去判斷詩詞的相似性。

本次采用的是IF-IDF權重計算與余弦相似度(cosine similarity)相結合的方法,使用于向量空間模型中。我們都知道文本是一種高維的語義空間,IF-IDF權重計算方法可將文本向量化。向量實際上是多維空間中有方向的線段。如果兩個向量的方向一致,即夾角接近零,那么這兩個向量就相近。而要確定兩個向量方向是否一致,這就要用到余弦定理計算向量的夾角了。余弦值越大,證明夾角越小,兩個向量越相似。

小雨將用余弦相似度算法計算的結果與《用文本挖掘剖析近5萬首<全唐詩>》一文中基于WMD(Earth Movers Distance)的語義相似度算法的結果進行對比,發(fā)現兩種算法的對詩詞相似度判斷的趨勢基本相似。在“黃沙百戰(zhàn)穿金甲,不破樓蘭終不還”與其相似詩句的相似度判斷中,cosine similarity算法對不同詩詞的區(qū)分度更大;“人生代代無窮已,江月年年只相似”等詩句的相似度計算中,兩種算法在個別詩句的判斷中差異較大,如:能在人代中,遂將人隔代,人間知幾代,今曰見河南。

通過對詩詞之間的相似度進行建模計算。文本之間的相似性對大規(guī)模語料進行去重預處理,或者找尋某一實體名稱的相關名稱(模糊匹配),接著,我們便可以利用劃分法K-means、基于密度的DBSCAN或者是基于模型的概率方法進行文本之間的聚類分析。本文主要基于Word2Vec算法對全宋詞進行聚類分析。

文本聚類分析

近幾年,Google 開發(fā)了名為 Word2Vec 新方法,既能獲取詞的語境,同時又減少了數據大小。Word2Vec 實際上有兩種不一樣的方法:CBOW(Continuous Bag of Words,連續(xù)詞袋)和 Skip-gram。兩個方法都使用人工神經網絡(Artificial Neural Networks)來作為它們的分類算法。本文主要用Skip-gram方法,通過給定一個單獨的詞來預測某個范圍的詞。首先,詞匯表中的每個單詞都是隨機的N維向量。在訓練過程中,算法會Skip-gram 來學習每個詞的最優(yōu)向量,關鍵代碼如下:

我們發(fā)現,與酒關聯度較大的詞有柳,亭,道,送,雁,陽,鵑,水,故等;這類字正好構成了送別類詩詞。古代由于交通不便,通訊極不發(fā)達,親人朋友之間往往一別數載難以相見,故古人特別看重離別。常用意象:長亭飲酒、古道相送、折柳贈別、夕陽揮手、芳草離情,柳、浮萍、孤蓬、杜鵑、鴻雁等。李叔同的《送別》是非常著名的一首送別詞,其中“長亭外,古道邊,芳草碧連天,問君此去幾時還,來時莫徘徊,天之涯,地之角,知交半零落,一壺濁灑盡余歡,今宵別夢寒”中就包含酒,亭,道等字。

閨怨類的關鍵字有:月、夢、淚、寒、燈、燭、簾、被、鏡、人等。這類詞以女子為的主要描寫對象,以女子的身份表達作者內心的感嘆、哀怨等情感。

古人或久宦在外,或長期流離漂泊,或久戍邊關,總會引起濃濃的思鄉(xiāng)懷人之情,所以行旅類詞作就特別多,這類詞的關鍵字有風、月、霜、雁、樓、云、鳥、煙、日、暮等。

詠物類的詞或流露出作者的人生態(tài)度,或寄寓美好的愿望,或包涵生活的哲理,或表現作者的生活情趣。意向有歲寒三友:松、竹、梅(高潔);菊花(隱逸、高潔、脫俗);蓮(出淤泥而不染、高潔);蘭(高潔、君子之德);柳(離情別恨;搖擺不定;春天的美好);動雁(思鄉(xiāng)懷親、羈旅傷感);蟬(悲涼;高潔);鵑(哀怨、凄惻、思歸)等。

山水田園類以描寫自然風光、農村景物以及安逸恬淡的隱居生活見長,詩境雋永優(yōu)美,風格恬靜淡雅,語言清麗洗練。關鍵字有山、月、溪、花、泉、漁、隱、鳥、燕、煙等。

本文用機器學習的方式來挖掘《全宋詞》,通過詞頻統(tǒng)計分析發(fā)現人物,景色,時光是宋詞的三大主題;山居雜詩是詞人最喜歡的題目,“豪放派”與“婉約派”代表人的蘇軾與柳永,被《全宋詞》收錄的詞作數是最多的;通過是IF-IDF權重計算與余弦相似度(cosine similarity)相結合的方法計算兩句詩詞的相似性,并于WMD(Earth Movers Distance)算法的結果進行對比,發(fā)現兩種算法的對詩詞相似度判斷的趨勢基本相同;使用Word2Vec算法中的Skip-gram方法進行聚類分析,通過關鍵字提取,將宋詞中字分為送別類,閨怨類,行旅類等五大類。

小雨目前還處于初學階段,不盡之處,歡迎廣大機器學習愛好者在評論區(qū)留言與小雨一起交流探討哦。

 · end · 

    本站是提供個人知識管理的網絡存儲空間,所有內容均由用戶發(fā)布,不代表本站觀點。請注意甄別內容中的聯系方式、誘導購買等信息,謹防詐騙。如發(fā)現有害或侵權內容,請點擊一鍵舉報。
    轉藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多