|
編者按 近年來人工智能技術飛速發(fā)展尤其是ChatGPT、DeepSeek等生成式人工智能技術的興起,為歷史研究和教學帶來新的機遇。借助人工智能技術,歷史學家們可以便捷地獲取數(shù)據(jù)、釋讀史料,發(fā)現(xiàn)不同文本之間存在的關聯(lián)。此外,運用人工智能進行歷史模擬,也逐漸成為歷史教學中積極探索的方向。人工智能為史學研究帶來便利的同時,也給歷史學家的工作帶來不少挑戰(zhàn),如學者們必須注意到生成式人工智能引用的已有數(shù)據(jù)可能會存在價值偏見,進而影響輸出內容的真實性等。人工智能與歷史學之間如何共融共生?人工智能時代歷史學家應該如何提升技能,積極運用新技術,推進歷史知識生產(chǎn)和公共歷史實踐呢?基于此,本版特刊發(fā)專題文章,以期對上述問題作出回答。 當前AI(人工智能)正在逐漸改變世界,成為政府決策、醫(yī)療干預、金融交易、司法審議、環(huán)境保護、科學研究等領域的重要“參與者”。歷史學者將要面對的是一個前所未有的與AI共生的時代。不過,到目前為止,大多數(shù)學者并不認為AI會從根本上改變歷史學,或者歷史學會對AI發(fā)揮關鍵性的作用。 這種態(tài)度部分源自于人文學者將AI理解為機器能力的進展,從而把接受AI視為純粹的技術問題。1956年,美國科學家約翰·麥卡錫提出了“Artificial Intelligence(人工智能,簡稱AI)”這一術語,指代能展示人類智能行為的計算機系統(tǒng)。數(shù)十年后,隨著計算能力提高、有了可用的大規(guī)模數(shù)據(jù)集,在2010年代中期,出現(xiàn)了基于深度學習技術的算法決策系統(tǒng)與預測性的機器學習,“人工智能”的涵義不斷擴展,代表了IT系統(tǒng)(包括機器或軟件系統(tǒng))通過學習和解釋龐大的人類記錄數(shù)據(jù),實現(xiàn)模擬人類認知能力的一系列技術、方法和流程。機器學習的算法和模型走出了學術研究與科學實驗,開始應用于商業(yè)、醫(yī)療、教育以及國家戰(zhàn)略等層面。戲劇性的轉變發(fā)生在2022年底,生成式AI的應用ChatGPT問世,上線兩個月,活躍用戶達到1億人,在引起廣泛關注的同時,也促進中國開發(fā)的諸多大語言模型(LLM)投放市場。2024年底,DeepSeek上線并同步開源的V3模型,以其創(chuàng)新的模型構架和高性價比點燃了民眾以中文使用AI的極大熱情。通過ChatGPT、DeepSeek、Kimi、豆包這些國內外聊天機器人,AI對于普通人變得觸手可及。人們能運用自己熟悉的語言指示機器執(zhí)行任務,個人的決策、行動隨時可以參考、調用算法和模型,機器的回應不僅符合人類表達的邏輯,順暢自然,還能針對個人的輸入進行調整,如同一個適應性強、情緒穩(wěn)定的同伴,使人感到親近。在與人類的互動關系上,這是人工智能一次革命性的飛躍,大語言模型不僅是一項在語義空間里應用生成式人工智能的典型技術,還下沉到日常生活,拉近了人類歷史與現(xiàn)實之間的互動關系。 雖然到目前為止,人們還無法解釋人工智能算法在內部運行的機制細節(jié),但通過其訓練過程,可以看到它正在為人類歷史與現(xiàn)實的關系提供一種從未有過的數(shù)字交互模式。以生成式AI為例,開發(fā)者為了讓AI理解人類語言的指令,實現(xiàn)人機連貫對話,主要讓機器學習大量的文本數(shù)據(jù)。近兩年來,現(xiàn)有的基礎大語言模型幾乎使用了絕大部分的可用高質量文本數(shù)據(jù)源,其中公開的、數(shù)字化的歷史記錄、檔案、書籍論文雖然數(shù)量占比不大,對AI的訓練影響卻很重要。通過理解這些訓練文本背后的結構,AI實現(xiàn)了與人類語言的“對齊”,也表征了這些歷史文獻與歷史認識當中反映出來的偏好、價值觀與意識形態(tài)。主流的機器學習算法目前都近似于一種優(yōu)化多數(shù)的策略,擅長從歷史數(shù)據(jù)中識別模式與類型,如果用于訓練的歷史文本和圖片里含有明顯的偏見、歧視與局限性,數(shù)量又多的話,就會被AI當作重要的參數(shù),帶入判斷當下、影響未來的決策和預測當中,威脅到人類社會的安全、倫理、道德等基本需求。換言之,訓練AI的過程,是在使AI歷史化,從數(shù)據(jù)中獲得定義過去的方法;運用AI的過程,則極大加速了從認識過去到付諸當下行動的轉化,使人類歷史與現(xiàn)實活動之間的關系在數(shù)字層面上呈現(xiàn)為一種持續(xù)相遇、頃刻相通、實時作用的互動形態(tài)。從一開始,AI系統(tǒng)的研究與應用,可以說就是賦予AI歷史性與社會性的過程。 為了確保這項新信息技術的發(fā)明能服務于人類共同的福祉,除了技術開發(fā)者外,還需要人文社會科學工作者的深入理解與廣泛參與。對歷史學者來說,這會是一個與AI共同建構學科、學理與學識的過程。一方面,AI會促成重大的歷史變革,它能自行決策、提出想法,將來還會使大量的非人類智能加入對歷史的研究當中,它們擅長高速處理多模態(tài)的歷史資源,通過智能體模擬進行“虛擬歷史實驗”,可能提出對復雜社會的解釋系統(tǒng),挑戰(zhàn)人類學者的主體性,重新界定歷史學的存在邊界與獨特領域。另一方面,歷史學者如果能理解并掌握AI,可以增強歷史學的技藝,作為領域專家參與審查AI訓練的歷史數(shù)據(jù)集,從長期的歷史脈絡中揭示AI系統(tǒng)的價值內嵌與認識機制,評估AI的預測、決策,并將歷史學提供的對過去記憶與事實的選擇書寫,對人類活動價值與意義的總結反思,通過數(shù)據(jù)構建與算法改進,貫注作用于AI系統(tǒng),影響AI的走向。 以古代歷史研究為例,可以看到AI與歷史學者之間這種正在探索中的共同建構。對于歷史研究工作的核心要素與基礎工作,AI能發(fā)揮積極作用,同時歷史學也有力量推動AI從數(shù)據(jù)與算法兩方面改變現(xiàn)狀、提升性能。 為了理解古代社會、探究人群生活,歷史研究需要的史料搜集與處理技藝非常復雜,比如泥板、紙草、甲骨、金石、寫本這些載體的文獻修復,古漢語、古希臘文等多種文字的識別與釋讀,圖像、雕塑、考古遺址的辨識、分類等。近年來,學者運用深度神經(jīng)網(wǎng)絡、卷積神經(jīng)網(wǎng)絡等深度學習技術,結合遷移學習等策略,貢獻出了前沿成果。中國科學院團隊提高了甲骨文字符的自動識別率;谷歌的模型Ithaca,能合理推斷古希臘銘文的時間與地理歸屬范圍;浙江大學團隊實現(xiàn)了綴合敦煌寫本的自動化流程;中國礦業(yè)大學團隊發(fā)布敦煌壁畫的MuralDH圖像數(shù)據(jù)集,進行分類、修復。2024年初,機器學習從碳化的意大利赫庫蘭尼姆卷軸里,識別出了莎草紙符,提供了古希臘哲學的新史料。像這類具有原創(chuàng)性和影響力的工作,都是由包括歷史學在內的領域專家與計算機科學家組成的跨學科團隊完成,顯示出AI對歷史研究的來源,尤其是在多模態(tài)史料發(fā)掘、解析方面的效能。由于目前大多數(shù)的AI算法依賴英語等主流語種,偏重近現(xiàn)代的歷史訓練集,在將AI運用于古代語言的文本、圖像與考古對象時,需要明顯擴大數(shù)據(jù)的多樣性和包容性,在使AI處理古代歷史中非標準化的、異質的、不完整的資料時,也要同時推進算法的批判性創(chuàng)新,這都顯示出歷史學研究將是助力AI突破結構性限制的重要領域。 研究古代的學者,也可能遇到史料數(shù)量龐大或者類型復雜得難以把握,此時找尋到最合適的AI技術,不僅使研究得以展開,還能發(fā)現(xiàn)隱藏的事實,提出有解釋價值的新問題。在一項針對15至17世紀歐洲史的研究中,學者需要考察359本天文學教科書,其中含有76000頁文本、數(shù)萬幅科學插圖與天文表格。德國馬普所的研究人員通過機器學習來識別文本間的聯(lián)系,檢測、分類與聚類這些插圖和表格,歷史學者則從數(shù)據(jù)中看到了以前不被注意的事實,即歐洲的科學知識傳播并不受宗教改革的分裂影響,而是呈現(xiàn)出凝聚與同質化的形態(tài)。這一時段對應著中國歷史上的明清時期,研究者們同樣也面臨著史料復雜煩瑣、文獻汗牛充棟的問題,對于在整理、分析與思考中如何運用AI系統(tǒng)有著迫切的需求。比如對于明清檔案文獻,中國人民大學團隊提出了深度學習、人機協(xié)同的智能著錄標引流程;對于地方志研究,中國社科院大學團隊開發(fā)了專有工具,通過調用大語言模型的API端口,批量實現(xiàn)方志數(shù)據(jù)的多層次、多義性標注,以知識圖譜進行可視化呈現(xiàn)與分析。這些嘗試都希望能從明確的問題出發(fā),探索以數(shù)據(jù)建設為核心、以算法呈現(xiàn)歷史語境、具有透明性與可解釋性的研究工作流程,以一種符合職業(yè)與專業(yè)的要求,來推進與AI的共構,使研究者把更多的時間和精力解放出來,真正用于歷史學的創(chuàng)造性思考、深度解釋以及價值反思。 在積極擁抱AI變化的歷史學者中,很多人從數(shù)字人文、數(shù)字史學的興起之時已經(jīng)在討論史學與AI的共生之道。在AI迅速發(fā)展、推理思考能力不斷迭代的當下,相信還會有更多的歷史學家主動了解AI運作的機制,視其為學術助手、影子同行,共同建構一種從思考、寫作到交流、教育的史學工作新生態(tài),這將是一場引人注目、面向未來的探索之旅。 (作者:向靜,系中國社科院大學數(shù)字史學研究中心副教授,本文系國家社科基金重點項目“清史地理信息系統(tǒng)開發(fā)與研究”的階段性成果) |
|
|