各地方言分類目錄
古籍和電子化漫談
從20世紀中期電子計算機面世開始,電子技術的發展和普及,改變了社會活動各方面的面貌。近年來,隨著電子技術的發展和個人電腦的普及,電子圖書和大型數據庫嶄露頭角,圖書編纂、出版和閱讀出現了嶄新的局面。電子圖書存儲量大,閱讀方便,包含大量古籍的電子數據庫具有人力所不能及的強大的處理文字的功能,對學術研究尤其有巨大的幫助。
一、電子版古籍概說
電子版古籍有圖像版和文本版兩種,圖像版相當于影印本,文本版相當于排印本。比起紙版古籍,電子圖像版具有便于保存、便于使用和便于普及等優點。電子文本版更進一步,可以通過計算機快速檢索書中的字詞文句,轉瞬即可在幾億、幾十億漢字中查找出使用者需要的典故出處;而且可以像處理文稿一樣對內容進行各種編輯加工,打印成格式整齊、版面清晰的書頁,免去繁瑣的抄寫之勞。
根據使用者的需要設計電腦程序,可以把電子古籍資料編制成功能強大的古籍數據庫。古籍數據庫不僅可以供人閱讀,可以進行各種人力所不能為的復雜檢索,還可以添加各種實用的工具,附上字典、詞典和其他有用的資料,滿足使用者隨時查閱各種工具書的要求。
1.圖像版
書籍的電子圖像版本質上就是照片,制作圖像版跟影印圖書一樣,把一部書用電子攝像工具拍成一幀幀電子照片,把照片編排起來,制成電子圖像文件,就成為電子圖像版。圖像版圖書實質就是電子影印本,特點是存儲量大,檢閱方便。一百五十來張光盤就可以存儲全部三萬多冊《四庫全書》,在電腦屏幕上點擊幾下,就可以迅速地看到要看的書籍,頁面上還可以加批注。
圖像版圖書相當于影印本,制作圖像版古籍最重要的問題是選擇底本,這里涉及版權問題。使用珍本特藏時,需要征得庋藏者同意;使用近年出版的整理本,必須征得整理者和出版者授權。近年大型圖像版古籍使用的是現成出版物《四庫全書》和《四部叢刊》,這是因為盡管《四庫全書》的版本存在問題,但是它畢竟已然經過選擇匯集了一批重要的古籍,而且已經廣泛流傳于世。如果重要的文獻、珍藏善本和近年整理出版的古籍都能出版圖像版,對一般讀者和研究人員都將是莫大的福音。
2.文本版
圖像版圖書是以一個頁面為單位,一個頁面相當于一張照片。要查找頁面上的文字,那就要使用文本版。電子文本版以一個漢字或者一個符號為單位,書頁上的文字就像文稿一樣,可以按照需要編輯加工,也可以讓電腦迅速地查找由一個或幾個字組成的字符串,或者拷貝書頁中的文字,這是文本數據的巨大優越性。
制作電子文本版古籍,跟目前排印紙本古籍的排校工作完全相同,首先要把一個個字用人工或電子技術錄入電腦。每一個漢字字形在電腦系統中有一個特定的編碼,要把一本書的文字全部錄入電腦,前提是電腦系統中已經包含那些字形。我們日常使用的電腦系統開始使用的漢字字符集只包含6763個簡體字,后來包含繁體字,達到兩萬多字,目前的超大字符集又增加了4萬多字。超出漢字字符集的范圍,就要自行造字。
在文字錄入電腦過程中,校對是另一個重要環節。目前的電子文本校對質量還不能盡如人意,需要作為考證依據時,應該找到原書核對一下,以免出現不應有的差錯。
古籍的電子文本都是由紙本古籍的文字轉化而成,底本的質量如何,也是重要問題。底本可能涉及版權問題,所以制作電子圖書有各種限制。現在除《文淵閣四庫全書》全文檢索版和《四部叢刊》全文檢索版說明所據底本外,其他古籍電子文本,特別是已經標點分段的文本,大都沒有說明源出何處。
3.數據庫
古籍制成圖像文件或文本文件之后,經過簡單的處理,就可以制成可供閱讀的電子圖書。如果對文件進行加工處理,重新組織之后,加上一些相關的資料和功能就可以制成古籍數據庫。
古籍數據庫為使用者服務,力求數據準確、使用方便和閱覽時有賞心悅目的視覺效果,因此首先要對數據進行加工處理。圖像數據可以進行頁面裝飾、顏色配置、格式轉換等處理,文本數據要精心校對,確定最恰當的版式和字體形式。
文本數據的一個重要問題是,需要考慮是否加上標點和劃分段落,這跟數據的使用是否方便有重要關系。從便于閱讀出發,文本需要標點分段,但是在檢索字句時,標點和分段有時有利,有時也有不便之處。
雖然電子文本文件便于檢索,便于作文字處理,但是從紙版本到電子文本中間有各種手續,不僅校對工作跟不上會影響電子文本的正確性,有些古籍有特殊版式或特殊字體也難以如式再現為文本形式。
既然電子文本由于種種原因難以與底本完本一致,既然學術研究有必要看影印本,于是電子文本和底本圖像對照就是優勢互補的好辦法。《文淵閣四庫全書》和《四部叢刊》全文檢索版就是如此,它們都包含原書的一部圖像版和一部文本版。全文檢索使用文本數據,電子文本頁面跟底本圖像頁面版式相同,要核對原書,根據屏幕要求操作,原書同一頁面立刻出現在屏幕上。
文本版和圖像版對照可以解決校對質量問題,可以隨時看原書,給使用者帶來莫大的方便。今后編制古籍數據庫,可以推廣采用。在漢字平臺完善之后,圖書電子版普遍開來,版權問題得到解決,古籍數據庫在版本方面存在的問題也會逐漸減少。
數據庫需要建立一個控制系統對電子數據進行編排和管理,通過分類系統和檢索系統,把所有的數據聯系起來,以便使用者用各種方式都能迅速找到需要的資料。古籍數據庫檢索書籍時,一般有從分類和從書名或作者名查找書籍等幾種索書方式。由文本文件構建的數據庫不僅能檢索書籍,還能在數據庫所包含的古書中查找使用者所需要的字句,這就是所謂“全文檢索”功能。全文檢索功能可以在幾秒或幾十秒內從數據庫包含的一部書、一批書或所有的書中迅速檢索出一個字或者一些字的所在,對古籍整理出版和學術研究都有巨大的裨益。除了閱讀書籍和檢索字句以外,為了使用者方便,古籍數據庫還可以附加其他功能。使用者可以對屏幕上顯示的頁面進行各種加工操作,可以添加標點和批注,標點和批注可以儲存在電腦中隨時調出來觀看或修改,還可以隨同頁面一起打印到紙上。文本頁面以字為單位,除了加標點和批注外,還可以跟電子字典連接,點擊某一個字時,顯示它的讀音和解釋,甚至還可以發聲讀出字音。利用電腦的海量存儲和迅速處理能力,古籍數據庫還可以附加各種工具書。所有附加的資料都可以通過鏈接技術組成一個有機的整體,以便隨時調用查考,給使用者提供方便。
二、文獻檢索
1.檢索方式
電子文本圖書都有在文本中檢索詞語的功能,一次檢索只查找一個字符串是單條件檢索;一次檢索要同時查找兩個或更多字符串是多條件檢索,幾個字符串之間有邏輯“和”、“或”、“非”等關系。例如,要求查找字符串“蘇東坡”,就是單條件檢索;不僅要求查找字符串“蘇東坡”,而且要求上下文中有“黃山谷”,或者沒有“黃山谷”,都是二條件檢索。依此類推,則有包含更多條件的檢索。
電子文本版都具有單條件檢索功能,古籍數據庫則可以進行多條件檢索。目前古籍數據庫最有用的功能就是對數據庫中的文本作全文檢索,大型古籍數據庫包含許多古籍,作全文檢索時可以限定范圍。最常見的是范圍限定在某一部書或數據庫分好的某一類書中,其次是限定書籍的作者,有的還可以自行指定在某幾部書之中查找。
全文檢索的結果有幾種顯示方式:
第一種是列出檢索結果目錄,說明要找的字句的所在,要看哪一處再點擊哪一處。
第二種是逐一實時處理,找到一處就停下來,顯示文本頁面,使用者可以把需要的資料存儲起來,然后決定是不是還要繼續找下去。
第三種是制作卡片文件,由電腦把所有符合條件的文本按照使用者指定的條件自行摘錄為卡片文件儲存起來,卡片文件上的一段段文字跟一摞卡片一樣,可以翻閱,也可以作二次檢索,過濾掉無關的資料。
2.檢索技巧
有些資料不能直接檢索出需要的結果,這就需要一些檢索技巧。一個現成的詞語可能有幾個不同的說法,古書文句往往也有異文,要查找的字句跟數據庫中的文本不能絕對一致時,電腦就找不出來。當把全部詞語作為一個字符串查找不成功時,可以化整為零,逐步減少詞語,每次只檢索很少的幾個字,以排除出現歧異的可能。
檢索有關某一主題的資料時,需要選擇關鍵詞語反復查詢,以便從不同方面獲取有關的信息。例如查詢人物時,可以從姓名、字號、別稱、里貫甚至事跡等不同方面取關鍵詞多次檢索,以免遺漏重要的資料。
查找成語出典時,尤其要注意檢索方式,因為許多成語并不是作為一個連續的字符串出現在典源文獻中。例如查找“杯弓蛇影”的出處時,在《文淵閣四庫全書》數據庫中直接查找“杯弓蛇影”并無所得。這時可以試用《國學寶典》數據庫的多條件檢索,查“杯”和“蛇”同時出現的段落,立刻可以找到《晉書·樂廣傳》有這個故事。
此外,目前幾個大型古籍數據庫收入的古籍各不相同,文本形式和檢索功能也有差異。為了檢索更有成效,聯合使用幾個不同的數據庫,往往可以補苴單一數據庫的不足之處。
3.古籍整理
古籍整理的重要工作是標點、校勘和箋注,這些工作要求大量閱讀書籍,勤于檢索資料。沒有電子手段,我們就只能依*“腹笥”包羅萬象。然而人生幾何,無論怎樣博聞強識,面對無涯的書海,也不免有
鼴鼠飲河之嘆。可是電子手段功能強大,像《文淵閣四庫全書》、《四部叢刊》、《國學寶典》等大型數據庫,都包含大量古籍,有幾億字之多,整理古籍時隨時查閱,檢索資料,都是舉手之勞。
前輩學者朱彭壽的《安樂康平室隨筆》說,開始不知“推潭仆遠”的出處,有人提示可能在《前漢書》中,然而多次細檢《前漢書》并無所獲,后來又查《后漢書》,才找到典源。不憚煩瑣竟至如此,足以令人佩服到五體投地,許多前輩的學問都是這種堅毅精神的產物。然而用古籍數據庫查“推潭仆遠”,不過幾秒鐘就有結果。
數據庫對古籍箋注工作有巨大幫助,不妨舉個例子。姜夔《齊天樂》起調“庾郎先自吟愁賦”,前人撰詞話曾指“愁賦”為捏造故典,后來學者查明庾信確有此賦。若用數據庫檢索,不難發現宋元人詩文多處說到庾信的《愁賦》。《海錄碎事》、《記纂淵海》、《韻府群玉》,甚至《淵鑒類函》都有引文,吳兆宜注《庾開府集箋注》卷一即引自《海錄碎事》。即使偶然失記,有此檢索,也不會失之眉睫。
4.文本分析
利用電腦程序,可以對電子文本文件進行多種參數分析,可以統計字詞的出現次數和出現頻率,可以分析字詞的使用情況,可以分析語句的結構特征,人力難以勝任的工作在電子手段卻是優游為之,易如反掌。文本的語言文字分析可以顯示一篇文字在行文措詞方面的特征,對研究文本內容很有幫助。進行文本分析需要特殊的程序,目前《國學寶典》數據庫有統計字詞出現次數和頻率的功能,相信今后的古籍數據庫會關注和設計更多的文本分析功能。從字詞檢索更進一步,就是智能型的查找有關某一問題的資料,也就是所謂主題檢索。例如我們要研究某種文化現象或某種思想的起源和演變,就需要作主題檢索。主題檢索跟計算機的人工智能研究,特別是跟計算機的自然語言理解和知識的形式化表示有密切聯系,一時還難以實現。如果利用現有的數據庫作主題檢索,我們只能擬定若干關鍵詞,反復迂回地在數據庫中作字詞檢索,從中篩選出需要的資料。
三、古籍數據庫說略
目前古籍數據庫的文本校對質量參差不齊,即使經過精校也還是會有錯字。嚴格地說,從古籍數據庫獲得的資料僅僅可以當做有用的線索,不復核有關的書籍而貿然使用,有時候會釀成大錯。此外,由于文本有差錯,可能影響檢索效果。差錯不僅來自文本的錄入和校對的失誤,底本的版本問題也會導致數據庫的文本不可*。例如《文淵閣四庫全書》中的《韻語陽秋》把“滕白”誤為“李白”,結果檢索滕白的作品時就要漏掉一處。
除了文本質量以外,電子軟件程序一般比較復雜,難免出現瑕疵,這就是所謂軟件的Bug,現有的古籍數據庫軟件在程序方面也有這種情況。例如《文淵閣四庫全書》全文檢索系統標明有簡繁聯系功能,如果開啟這個功能,打簡體字可以把對應的繁體字一起檢索出來。然而現已發現,有時候打進簡體,只能檢出一部分繁體的例子。《四部叢刊》全文檢索系統則有漏檢的情況,頁面上赫然存在的字詞,卻檢索不到。我們在贊賞當前一些古籍數據庫有諸多優越性時,不能不了解它們偶然也會出現問題。
古籍數據庫有的只收某一部書或某幾部書,有的則收一大批書。目前專書數據庫有《全唐詩》、《全宋詞》、《全元曲》、《二十四史》等全文檢索版。下面簡單介紹幾種包含大批古籍的大型古籍數據庫。
1.文淵閣四庫全書
文淵閣本《四庫全書》包含3460多種古書,達7億字。武漢大學出版社出版的《四庫全書原文電子版》,分存于150多張光盤。這個數據庫是圖像頁面,所以不能檢索書內的文字,這是它的不便之處。
上海人民出版社和迪志文化出版有限公司合作出版的《文淵閣四庫全書》電子版,有“原文及標題檢索版”和“原文及全文檢索版”兩種版本。“全文檢索版”具有全文檢索、分類檢索、書名檢索和著者檢索等多種檢索功能,可以迅速查到使用者需要的字、詞、書名、篇目或作者資料。文本頁面的文字基本上跟原書一致,有漢字聯系功能,可以按照需要,把有簡繁、通假、古今、中日等關系的不同字體聯系起來當做同一個字檢索。“全文檢索版”附有多種有用的輔助工具,還附有可以隨時查閱的古漢語字典。
“全文檢索版”最有用的功能是全文檢索,要查找一串文字,一般十幾秒就能給出檢索結果目錄。文本版頁面跟圖像版頁面對應,可以隨時調出圖像頁面查閱原書,便于核對文本的正確性。有些古書有奇字異體和特殊版式,轉為文本時作了一些處理,跟原書不盡一致,所以有時有必要查閱原文圖像。
2.四部叢刊
北京書同文數字化技術有限公司研制的《四部叢刊》原文及全文檢索版,是《文淵閣四庫全書》原文及全文檢索版的姊妹編,制作方法、功能及使用方法有許多相同之處。《四部叢刊》檢索字句也是給出檢索結果目錄,跟《四庫全書》不同的是檢索目錄列出每一個出處的文字摘錄。
3.國學寶典和古籍文獻系列數據庫
《國學寶典》是北京國學時代文化傳播有限公司編制的大型古籍數據庫,收書約3000種,4億多字。《國學寶典》使用簡體字,有標點,分段落,檢索方式有特殊之處:第一,檢索范圍可以是一部書或其某一篇章,也可以選取其中若干書籍自組一類;第二,檢索條件可以是一至四個字符串,可以要求它們出現在同一句或同一段中;第三,檢索結果可以逐一實時處理,也可也自動制成卡片。此外,《國學寶典》可以在所收文獻內統計字、詞、短語的出現次數和出現頻率,這也是一項有用的功能。
北京國學時代文化傳播有限公司與商務印書館聯合,已經啟動《中國歷代基本典籍庫》大型數據庫系列光盤出版工程,預計分為“先秦兩漢魏晉南北朝卷”、“隋唐五代卷”、“宋遼金元卷”、“明清卷”等大型數據庫。
結束語
電子化操作有節省空間、功能強大和便于使用的優點,作者可以利用電腦編纂書籍,出版者可以利用電子手段出版電子書籍。如果把一部書的數據存儲在電子系統中,書籍就可以實現現場制作。電子化技術正在給書籍編纂、印刷、出版工作帶來革命性的變化。
最后還要說明,網絡上還有大量古籍資源可以供我們使用。許多圖書館的網站都有古籍資料,現在我們隨時可以在中國國家圖書館的網站上檢索館內的藏書目錄,跟過去查閱紙本卡片相比,有天壤之別。豐富多彩的電子技術正在飛速發展之中,值得古籍整理和出版工作者關注。
電子化對古籍整理和出版有重大影響,這體現在印刷出版工藝技術方面,也體現在古籍整理和學術研究方面,這篇短文僅僅介紹了幾個側面而已。應該承認,目前中國古籍電子化還是剛剛起步,大規模的數據庫也是近年才陸續面世,方興未艾的勢頭展現了多方位的廣闊前景。
猜你喜歡
網友關注
- 幽默的四川方言
- 錘子
- 閩南語方言——辨別身份
- 常用閩南語方言
- 四川話詞匯構成(五)
- 四川話詞匯構成(四)
- 纏綿游戲——梁漢文
- 四川話詞匯構成(六)
- 粵語歌曲--all about you(鄧紫棋)
- 爸爸去哪兒各地方言版大全
- 閩南語方言——關于語言
- 杭州話同普通話詞匯對照
- 閩南語方言——談論活動
- 粵語歌曲學習--where did you go(鄧紫棋)
- 卡啦永遠ok——譚詠麟
- 岷縣方言版情書
- ok啦——五月天
- 閩南語方言——關于日期
- 朋友——譚詠麟
- 四川話詞匯構成(一)
- 四川話詞匯構成(二)
- 內蒙方言詞典
- 閩南語方言——談論事物
- 四川人來京的奇葩一天游
- 全國各地如何叫老婆
- 閩南語方言——收音機和電視機
- 東北方言小幽默笑話之坐出租
- 全日愛——黎明
- 閩南語方言——關于購物
- 閩南語方言——問候語
- 閩南語方言——辨別物品
- 閩南語簡介
- 閩南語方言——提問題
- 閩南語罵人大全
- 東北話速成寶典(上)
- 廣東話撲街的意思
- 閩南語方言——課堂用語
- 臺灣土話—臺灣諺語之美生命禮俗篇
- 啾啾啾——五月天
- 傻女——陳慧嫻
- 續集——容祖兒
- 歲月無聲——beyond
- 水中花——譚詠麟
- 山東海陽方言情書
- 湖南方言鬧笑話
- 風流——陳小春
- 上海話怎么稱呼人
- 湖南方言土話大全
- 粵語歌曲學習--無賴(鄭中基)
- 四川話詞匯構成(三)
- 閩南語方言——談論日常生活
- 閩南語方言——關于介紹
- 東北話速成寶典(下)
- 河南方言十則
- 閩南語方言——敘述時間
- 各地方言版“我愛你”
- 西安碎碗的笑話
- 讓一切隨風——鐘鎮濤
- 冷雨夜——beyond
- 閩南語方言——形容物品、度量、比較
- 東北話中的“整”
- 閩南語方言——年、月、日
- 重慶方言
- 閩南語方言——關于拜訪
- 一生中最愛——譚詠麟
- 湖南方言的笑話大全
- 官家山版方言情書
- 喬布斯情書大改寫,網友比拼方言版
- 學生爆笑方言聽寫古詩
- 上海話問候打招呼怎么說?
- 閩南語方言——詢問地址
- 大家來學藏語
- 笑談廣東話粗口
- 閩南語方言——關于所有物
- 閩南語方言——關于年齡
- 東北話中的“磨嘰”
- 臨夏方言版情書
- 廣州為什么叫羊城呀
- 茂名方言笑話
- 高邑方言版情書
- 四川經典段子
精品推薦
- 平陸縣05月30日天氣:多云,風向:西南風,風力:<3級,氣溫:23/18℃
- 陵水縣05月30日天氣:多云,風向:無持續風向,風力:<3級,氣溫:34/25℃
- 昌江縣05月30日天氣:多云,風向:無持續風向,風力:<3級,氣溫:33/25℃
- 托克遜縣05月30日天氣:晴,風向:無持續風向,風力:<3級,氣溫:32/18℃
- 尉犁縣05月30日天氣:晴轉陰,風向:無持續風向,風力:<3級,氣溫:26/15℃
- 昌吉市05月30日天氣:陰,風向:東北風,風力:3-4級轉<3級,氣溫:24/11℃
- 城東區05月30日天氣:小雨轉中雨,風向:東風,風力:3-4級,氣溫:24/10℃
- 庫爾勒市05月30日天氣:晴,風向:無持續風向,風力:<3級,氣溫:24/12℃
- 和碩縣05月30日天氣:晴,風向:無持續風向,風力:<3級,氣溫:24/9℃
- 瑪納斯縣05月30日天氣:多云轉陰,風向:東北風,風力:3-4級轉<3級,氣溫:25/13℃