小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

講堂 | 古籍電子數(shù)據(jù)的類型

 文冠厚樸 2017-02-11



經(jīng)典古籍庫


作者簡介:楊成凱,男,山東招遠人,1941年生。中國社會科學院語言研究所研究員,曾主編《新世紀萬有文庫·傳統(tǒng)文化書系》等。


根據(jù)電子數(shù)據(jù)的制作和加工方式,古籍數(shù)據(jù)可以分成圖像、文本和數(shù)據(jù)庫三種。制作圖像數(shù)據(jù)不必校對,最為迅捷。制作文本數(shù)據(jù)需要校對,很費時間和精力。數(shù)據(jù)庫是對圖像數(shù)據(jù)或文本數(shù)據(jù)加工處理,安排成便于使用的形式,除閱讀外,還加上一些其他功能。古籍數(shù)據(jù)庫制作工作繁重,但是功能強大,便于使用,目前是古籍電子化最理想的成果。


 

一、 圖像


制作電子版古籍最為簡單的方式就是通過光電掃描,把古籍的頁面圖像轉(zhuǎn)化為數(shù)字信息,用計算機予以保存和加工,經(jīng)過加工處理的古籍圖像數(shù)據(jù)可以存儲在各種載體中使用和流通。


書籍的電子圖像版,相當于影印本。圖像數(shù)據(jù)本質(zhì)上就是照片,只是圖像的明暗和色彩要轉(zhuǎn)化為數(shù)字存儲,以便電腦操作和再現(xiàn)。制作圖像數(shù)據(jù)跟照相的過程相似,把要制成數(shù)據(jù)的書頁用掃描儀、數(shù)碼相機或數(shù)碼攝像機攝取下來,轉(zhuǎn)化為數(shù)字存儲起來就成為圖像數(shù)據(jù)。一本書有八十頁,“拍照”八十次,得到八十張圖像頁。


我們知道《四庫全書》包含三千四百多種,三萬六千多冊,七億漢字,掃描成圖像版還不到100G的數(shù)據(jù)量。這些數(shù)據(jù)可以存在計算機中隨時閱讀,也可以存在小小的硬盤上隨身攜帶,制成光盤也只有一百五十多張,摞在一起也不過半尺多高,隨時隨地都能插入計算機中閱讀,比起三萬多冊線裝原書來,儲存和閱讀是何等方便!


《四庫全書》史部

 

二、 文本


古籍的電子文本版,相當于排印本。文本數(shù)據(jù)就是電子排版錄入的文字資料,跟圖像版以一個圖像頁為一個單位不同,文本數(shù)據(jù)是以一個漢字或者一個符號為一個單位。以字為單位,書頁上的文字就像文稿一樣,可以按照需要編輯加工,也可以讓電腦查找某一個字或某一些字,或者拷貝書頁中的文字,這是文本數(shù)據(jù)的巨大優(yōu)越性。


古書的文本形式可以像排版印刷一樣,由人工錄入電腦,這是編輯工作者都很熟悉的事情。人工錄入工作十分繁瑣,先進的方法是由計算機自動把圖像頁面轉(zhuǎn)化為文本頁面,這就要使用所謂OCR軟件,也就是印刷體漢字的計算機自動識別技術(shù)。通過OCR技術(shù)處理,圖像頁面可以轉(zhuǎn)化為文本形式,識別過程可能出現(xiàn)錯誤,這就要由人工做復核校對工作。目前計算機識別漢字的技術(shù)正在飛速發(fā)展之中,技術(shù)界已經(jīng)開發(fā)出很好的OCR軟件,這些適合古籍文字掃描識別使用、針對古籍復雜版面的識別和校對技術(shù),值得關(guān)注。


漢字轉(zhuǎn)化為文本數(shù)據(jù)時有編碼問題需要考慮。在電腦中,一個漢字或者一個符號對應(yīng)一個數(shù)字,不同的數(shù)字代表不同的漢字或符號。漢字數(shù)量很多,迄今為止,機器編碼還不能包括所有的漢字。中國內(nèi)陸開始時使用簡體漢字國標編碼GB,只有6763個漢字;1995年發(fā)布GBK編碼集,有20902個漢字;2000年發(fā)布GB18030-2000編碼集GB18030-2000編碼集,有兩萬七千多字。臺式電腦操作系統(tǒng)DOS平臺只支持GB,Windows2000和WindowsXP系統(tǒng)從95到98和Me一直支持GBK,直到Windows2000和WindowsXP系統(tǒng)才能支持GB18030-2000漢字集和Unicode漢字超大字符集。上述標準編碼集中的漢字有固定的編碼,超出范圍的漢字臨時造字時自定編碼,不同的系統(tǒng)造字各有各的編碼,彼此就不大可能一致。臺灣和其他地區(qū)使用的繁體Big-5編碼,有一萬三千字,跟上述編碼集不同。


目前古籍文本數(shù)據(jù)還是在不同的平臺上錄入電腦,使用的漢字編碼標準并不相同。在把古籍文字錄入電腦時,首先要結(jié)合上述漢字編碼集對原書文字加以處理,確定用繁體還是用簡體,異體奇字要不要歸并為通用字等等。特別是,古籍使用的漢字數(shù)量眾多,不要說GB漢字數(shù)量不夠,即使經(jīng)過幾次擴充,仍然不能包括古籍中所有的漢字,所以都免不了要臨時造字。


除了文字以外,古籍錄為文本數(shù)據(jù)時還要考慮是不是要添加標點和劃分段落。這個問題跟古籍數(shù)據(jù)庫的功能和使用有很大關(guān)系。


盡管古籍的文本數(shù)據(jù)校之圖像數(shù)據(jù)有許多優(yōu)越之處,但是制作文本數(shù)據(jù)的工作性質(zhì)跟重新排版一樣,不能像圖像數(shù)據(jù)一樣再現(xiàn)原書頁面原貌和文字原形。文本數(shù)據(jù)有繁重的文字錄入和校對工作,需要投入大量人力,成本高,售價高,影響數(shù)據(jù)庫的編制和普及。文本數(shù)據(jù)的校對質(zhì)量對數(shù)據(jù)庫的效果有很大影響,所以目前重要的數(shù)據(jù)庫采用圖像和文本對照的方式,可以隨時調(diào)出原書頁面圖像核對文本文字是否正確。


微信古籍庫專業(yè)版原書圖像


三、 數(shù)據(jù)庫


書籍分類上架,編制目錄索引,才便于索取閱覽。電子數(shù)據(jù)同樣需要編排和管理,一張張圖像頁面,一段段文本數(shù)據(jù),既需要分類安置,又需要相互串聯(lián),組成一個有秩序的整體,以便從不同的角度去查找和使用。這就需要建立一個分類系統(tǒng)和檢索系統(tǒng),把所有的數(shù)據(jù)聯(lián)系起來,使用者用系統(tǒng)提供的方式索取就能迅速找到需要的數(shù)據(jù)。


古籍數(shù)據(jù)庫檢索書籍時,一般有從書籍分類查找書籍和從書名或作者名查找書籍等幾種索書方式。由文本數(shù)據(jù)構(gòu)建的數(shù)據(jù)庫不僅能檢索書籍,還能在數(shù)據(jù)庫所包含的古書中查找使用者所需要的字句,這就是所謂“全文檢索”功能。全文檢索功能可以在幾秒或幾十秒內(nèi)從數(shù)據(jù)庫包含的一部書、一批書或所有的書中迅速檢索出一個字或者一些字的所在,對古籍整理出版和學術(shù)研究都有極其巨大的裨益。


古籍數(shù)據(jù)庫為了使用者方便,還可以附加其他功能。圖像頁面雖然是一個整體,但是使用者可以對頁面加工,添加標點和批注,還可以打印在紙上。文本頁面以字為單位,除了加標點和批注外,還可以把字跟電子字典連接,點擊某一個字時,顯示該字的讀音和解釋,甚至還可以發(fā)聲讀出字音。利用電腦的海量存儲和迅速處理能力,古籍數(shù)據(jù)庫還可以附加別的功能和資料,例如干支公元對照表和各種工具書等,都很容易編入數(shù)據(jù)庫,通過鏈接可以隨時查考,給使用者提供更多的方便。


微信古籍庫自帶紀年換算功能




小庫真誠歡迎古籍整理、古籍應(yīng)用相關(guān)的稿件,體裁不限于論文,書評、札記、心得亦可。一經(jīng)選用,必奉稿酬。


>>>>>征文啟事點我


中華經(jīng)典古籍庫

    微信號:jingdianguji

豐富自身文化修養(yǎng)

從關(guān)注一個好的公眾號開始


    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多