小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

AI 插手!用文本分析鑒定《紅樓夢》、《亨利八世》實(shí)際作者

 梅與牛 2019-11-30

原創(chuàng):HyperAI超神經(jīng)

關(guān)鍵詞:文學(xué)名著 文本分析

AI 插手!用文本分析鑒定《紅樓夢》、《亨利八世》實(shí)際作者

人工智能又來插手文學(xué)界了,只不過這一次是用來「找作者」。

對于一部分文學(xué)作品來說,倘若創(chuàng)作者并不確定,再加上年代久遠(yuǎn),沒有詳細(xì)的史料記載,作者問題往往就會(huì)成為眾說紛紜的謎團(tuán)。

想要發(fā)現(xiàn)事實(shí)的真相,需要后世的研究學(xué)者們,花費(fèi)大量的精力去查找資料,進(jìn)行研究對比。即便如此,也常常因?yàn)橐恍┚窒扌远貌坏阶铌P(guān)鍵的證據(jù)。

不過,在人工智能的介入之下,似乎又多了一條撥開迷霧的道路。

用數(shù)據(jù)科學(xué)求證《紅樓夢》的作者

對于《紅樓夢》,普遍都認(rèn)為是曹雪芹創(chuàng)作了前八十回,高鶚整理續(xù)寫了后四十回,胡適、俞平伯、周汝昌等文學(xué)家也都贊同這一說法。

但文學(xué)界也有很多不同的聲音,包括魯迅、林語堂、王國維、白先勇等多位大師都認(rèn)為:全一百二十回都是曹雪芹一人完成。

1. 1980 年發(fā)表的統(tǒng)計(jì)學(xué)研究

早在 1980 年的首屆國際《紅樓夢》研討會(huì)上,就有研究者使用計(jì)算機(jī)的統(tǒng)計(jì)方法,嘗試找出它的實(shí)際作者。

美國威斯康星州立大學(xué)的華裔學(xué)者陳炳藻先生,發(fā)布了一篇《從詞匯上的統(tǒng)計(jì)論〈紅樓夢〉的作者問題》的論文,引起了國際紅學(xué)界的注意。

陳炳藻將《紅樓夢》一百二十回本按順序編成三組,每組四十回。還將另一部小說《兒女英雄傳》作為第四組進(jìn)行對比研究。

AI 插手!用文本分析鑒定《紅樓夢》、《亨利八世》實(shí)際作者

《紅樓夢》作者的相關(guān)研究已經(jīng)持續(xù)了數(shù)百年

從每組中任取八萬字,分別挑出名詞、動(dòng)詞、形容詞、副詞、虛詞這五種詞,通過當(dāng)時(shí)的計(jì)算程序?qū)@些詞進(jìn)行編排、統(tǒng)計(jì)、比較和處理,進(jìn)而找出各組相關(guān)程度。

統(tǒng)計(jì)學(xué)的結(jié)果發(fā)現(xiàn)《紅樓夢》前八十回,與后四十回所用的詞匯正相關(guān)程度達(dá) 78.57%,而《紅樓夢》與《兒女英雄傳》所用詞的正相關(guān)程度是 32.14%。

由此陳炳藻教授作出推斷,前八十回與后四十回的作者均為曹雪芹一人所寫。

2. 現(xiàn)代 SVM 算法研究

但如果用機(jī)器學(xué)習(xí)去判斷,又會(huì)得出怎樣的結(jié)論呢?

近年來就有一位工程師,利用簡單的算法分析,去研究紅樓夢的作者問題。他使用了 Python 工具,通過小說中用詞的頻率等特點(diǎn)進(jìn)行了訓(xùn)練,以區(qū)分不同部分的風(fēng)格問題。

AI 插手!用文本分析鑒定《紅樓夢》、《亨利八世》實(shí)際作者

AI 插手!用文本分析鑒定《紅樓夢》、《亨利八世》實(shí)際作者

他將全書進(jìn)行分詞,并進(jìn)行詞頻統(tǒng)計(jì),找出其中的高頻詞匯后,在每個(gè)章節(jié)中對其進(jìn)行次數(shù)統(tǒng)計(jì),以此得到了不同章回用詞習(xí)慣的區(qū)別。

然后使用 SVM 算法搭建了一個(gè)模型,從前 80 回和后 40 回中,各選一部分章節(jié)喂給模型來學(xué)習(xí)寫作特點(diǎn),并把剩下的章節(jié)作為輸入,讓計(jì)算機(jī)來判斷它們屬于哪個(gè)部分。

最終模型能夠以 95% 的準(zhǔn)確度來進(jìn)行預(yù)測判斷,從而側(cè)證了前 80 回和后 40 回在算法模型中,具有很明顯的寫作風(fēng)格差異,屬于不同的作者。

AI 插手!用文本分析鑒定《紅樓夢》、《亨利八世》實(shí)際作者

前 80 回(紅色)和后 40 回(藍(lán)色)用詞習(xí)慣統(tǒng)計(jì)

這個(gè)項(xiàng)目也有缺點(diǎn),比如選取的特征太少,最終選擇作為指標(biāo)的詞匯只有 278 個(gè),而且訓(xùn)練的內(nèi)容局限于一本書中,沒能嚴(yán)謹(jǐn)?shù)卣f明問題。

如果說對《紅樓夢》的作者分析只是小試牛刀,那么最近一位科學(xué)家對名著《亨利八世》的作者研究,則準(zhǔn)確和嚴(yán)謹(jǐn)了許多。

作者成謎的《亨利八世》,AI 出手了

和《紅樓夢》一樣,英國著名的戲劇文學(xué)《亨利八世》,也遇到了同樣的問題,它被稱為是莎士比亞的最后一部作品,但它的實(shí)際作者卻可能不止一位。

歷史上的亨利八世是一位極其暴虐的君主,堪比更暗黑的秦始皇,僅在 1513-1547 年間,他就下令處決了約72,000 名政治犯,甚至還將六任妻子中的兩位送上了斷頭臺(tái)。

因?yàn)槿宋锉旧淼脑掝}性和傳奇性,關(guān)于他的文學(xué)及影視作品一直層出不窮,比如小說及改編的同名電影《另一個(gè)波琳家的女孩》、電視劇《都鐸王朝》等。

AI 插手!用文本分析鑒定《紅樓夢》、《亨利八世》實(shí)際作者

《另一個(gè)波琳家的女孩》講述了亨利八世的暴戾薄情,由「黑寡婦」斯嘉麗約翰遜和「黑天鵝」娜塔莉波特曼出演

劇本《亨利八世》創(chuàng)作于 1612 年,它是基于亨利八世的相關(guān)事件進(jìn)行的改編和演繹,曾被多次搬上舞臺(tái),取得了很大社會(huì)反響。

但很多人在研讀了文本之后,發(fā)現(xiàn)它的寫作風(fēng)格,都和沙翁的其他作品有太大出入。

有人質(zhì)疑它是旁人所作,或者是合作的產(chǎn)物。直到 1850 年,有研究者具體地指出另一位劇作家弗萊徹可能是《亨利八世》合作者。


他的理由是:在《亨利八世》中找到了大量弗萊徹獨(dú)有的寫作風(fēng)格。

AI 插手!用文本分析鑒定《紅樓夢》、《亨利八世》實(shí)際作者

弗萊徹(左)在莎士比亞(右)退任后成為了國王劇團(tuán)的主劇作家

接下來的一個(gè)世紀(jì)里,關(guān)于作者的爭論一直沒有停息,甚至有一些觀點(diǎn)里,認(rèn)為第三位劇作家馬辛格也參與了創(chuàng)作。

這個(gè)謎團(tuán),因?yàn)樽罱囊豁?xiàng)研究而變得明朗起來。一位數(shù)據(jù)科學(xué)家,利用 AI 算法,更細(xì)致地找出了戲劇《亨利八世》的原作者,而且具體到了文中的每一個(gè)小節(jié)。

機(jī)器學(xué)習(xí)顯身手,判定誰是真的作者

布拉格捷克科學(xué)院的研究員普列查奇(PetrPlechá?) ,最近使用了機(jī)器學(xué)習(xí)技術(shù),來識(shí)別《亨利八世》中的作者問題,并取得具有說服力的結(jié)果。他的成果被寫成論文,傳到了 arXiv 上。

AI 插手!用文本分析鑒定《紅樓夢》、《亨利八世》實(shí)際作者

地址:https:///pdf/1911.05652.pdf

在這項(xiàng)工作中,普萊查從數(shù)據(jù)科學(xué)的維度,確定了《亨利八世》每一部分究竟是出自誰的手筆,并且給出了具體的論據(jù)。

他通過分析文本作品的內(nèi)容,確定出不同作者的寫作風(fēng)格的某些特征,以此對作品進(jìn)行辨別,并進(jìn)行細(xì)致的劃分和歸類。

算法最后將《亨利八世》的某些章節(jié)歸功于莎士比亞,而另一些則判給了弗萊徹,兩個(gè)人對著作的的貢獻(xiàn)幾乎相等。不僅如此,算法還細(xì)化出了具體每個(gè)小節(jié)的作者。

AI 插手!用文本分析鑒定《紅樓夢》、《亨利八世》實(shí)際作者

1623 年首次出版的《亨利八世》首頁

最終,機(jī)器學(xué)習(xí)給出的作者劃分,符合此前某一項(xiàng)主流研究的觀點(diǎn),并且還取得了一些突破。

從詞匯和節(jié)奏入手,辨別文本的來源

他具體是怎么做到的呢?

一旦了解了作者的風(fēng)格和常用的字詞和樣式,便可以用來辨別新作品中的文本習(xí)慣樣式,以判斷它是不是出自同一個(gè)作者。

在這項(xiàng)研究中,讓算法模型對文本常用詞、以及常用語句節(jié)奏模式,進(jìn)行學(xué)習(xí)分析,以使算法學(xué)會(huì)辨別這些特征。

AI 插手!用文本分析鑒定《紅樓夢》、《亨利八世》實(shí)際作者

對語句節(jié)奏(rhythmic types)和常用詞進(jìn)行綜合分析,并在其他作品上驗(yàn)證的模型準(zhǔn)確度接近于 1

具體來說,要先將劇本細(xì)化到多個(gè)小的場景,并使用支持向量機(jī)對《亨利八世》的各個(gè)場景,進(jìn)行歸因分析,并進(jìn)行分類。

其中,以 500 種最常見的節(jié)奏類型的頻率,以及 500 個(gè)最常見單詞的頻率作為分類器的功能集。

鑒于作者在不同時(shí)期可能出現(xiàn)的風(fēng)格差異,研究者采用了同時(shí)期其他戲劇的場景(如《暴風(fēng)雨》、《科里奧拉納斯》)作為訓(xùn)練樣本。對于可能的作者,也同樣收集了訓(xùn)練樣本。

最終收集了53 個(gè)莎士比亞訓(xùn)練樣本,90 個(gè)弗萊徹訓(xùn)練樣本和 46 個(gè)馬辛格訓(xùn)練樣本。為了估計(jì)模型的準(zhǔn)確性,還通過交叉驗(yàn)證的方式進(jìn)行檢驗(yàn)。

完成訓(xùn)練學(xué)習(xí)后,將模型在《亨利八世》的文本上運(yùn)行,結(jié)合詞匯和多功能化的綜合分析,確定哪些作者參與了劇本的寫作,以及他們的具體貢獻(xiàn)。

最后的結(jié)果證明,這是區(qū)分兩位作者風(fēng)格的非常可靠的判據(jù)。尤其是使用常用詞和常用節(jié)奏的組合模型,在三位作者的風(fēng)格鑒定上,準(zhǔn)確率高于 96%。

AI 插手!用文本分析鑒定《紅樓夢》、《亨利八世》實(shí)際作者

分類器對不同章節(jié) 30 個(gè)樣本的分類結(jié)果,結(jié)果比公認(rèn)最權(quán)威的作者劃分(最后一欄)更細(xì)致

當(dāng)應(yīng)用于《亨利八世》的分析時(shí),結(jié)果清楚地表明兩位作者都參與其中。另一位傳聞的劇作家馬辛格,則在算法的層面上表明他和劇本無關(guān)。

新方法細(xì)化出每個(gè)小節(jié)的作者

為了更可靠地了解具體作者承擔(dān)的份額,超越特定場景的簡單歸因,普萊查奇采用了叫做滾動(dòng)歸因(rolling attribution)的分析方法,確定具體文本片段的屬于某位作者的概率。

滾動(dòng)歸因是一項(xiàng)針對涉及混合作者身份的案例的技術(shù)。在滾動(dòng)歸因中,不對整個(gè)文本或其邏輯部分(章節(jié),場景等)進(jìn)行分類,而是對其固定長度的重疊部分進(jìn)行分類任務(wù)。

AI 插手!用文本分析鑒定《紅樓夢》、《亨利八世》實(shí)際作者

滾動(dòng)歸因判斷兩位作者其他作品的作者組成和實(shí)際中的情況高度符合

該方法使用移動(dòng)窗口的概念,并與標(biāo)準(zhǔn)的監(jiān)督分類技術(shù)相結(jié)合。旨在評估離散文本樣本之間的樣式差異,以測試其文本樣式的一致性。

結(jié)果表明,結(jié)合了詞匯特征的滾動(dòng)歸因方法是非常可靠的:在區(qū)分莎士比亞和弗萊徹時(shí),估計(jì)滾動(dòng)歸因的準(zhǔn)確性高達(dá) 0.9977。

AI 插手!用文本分析鑒定《紅樓夢》、《亨利八世》實(shí)際作者

具體到每個(gè)章節(jié)的作者劃分和可信度

使用這種方法,最后具體確定了每個(gè)章節(jié)歸屬于某個(gè)作者的可能性,在上圖中,可以清晰地看到莎士比亞和弗萊徹各自完成的章節(jié)。結(jié)論就是:莎士比亞和弗萊徹各完成了近一半的內(nèi)容創(chuàng)作。

AI 在文學(xué)領(lǐng)域摩拳擦掌

通過 AI 算法,去破解名著的作者之謎,對于文學(xué)研究者和愛好者來說,都是一件很有價(jià)值的事情。同時(shí)也提供了一個(gè)數(shù)據(jù)維度的視角,去看待此類問題。

當(dāng)然,類似的 AI 方法除了應(yīng)用于作者鑒定,代筆或者抄襲判斷,還可以結(jié)合 GPT-2 之類的技術(shù),生成某一風(fēng)格的作品,這對那些在歷史長河中遺失的著作,或許能夠進(jìn)行更好的還原。

如果借鑒到音樂和繪畫等方面,不僅可用于確定作者身份,還能利用已知作者的風(fēng)格來創(chuàng)作出新的作品。

這么想想,AI 成為大文豪的日子似乎也可以提上日程了呢。

AI 插手!用文本分析鑒定《紅樓夢》、《亨利八世》實(shí)際作者


    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多