陳夢(mèng)圓
語(yǔ)料庫(kù)研究興起于20世紀(jì)60年代其在語(yǔ)言學(xué)各領(lǐng)域所引發(fā)的革命,引起了語(yǔ)言學(xué)家、教育學(xué)家的極大關(guān)注。語(yǔ)料庫(kù)研究以及基于語(yǔ)料庫(kù)的語(yǔ)言研究,正逐漸成為語(yǔ)言學(xué)研究領(lǐng)域的話語(yǔ)中心,其涵蓋范圍及應(yīng)用領(lǐng)域也日益廣泛。本文首先對(duì)國(guó)內(nèi)外語(yǔ)料庫(kù)建設(shè)研究進(jìn)行梳理、分析,且就與語(yǔ)料庫(kù)相關(guān)的方面如自動(dòng)標(biāo)注與檢索研究等進(jìn)行了闡述,重點(diǎn)介紹中醫(yī)文獻(xiàn)語(yǔ)料庫(kù)建設(shè)研究概況,旨在于為中醫(yī)文化研究及中醫(yī)翻譯提供借鑒。
語(yǔ)料庫(kù)(corpus)就是計(jì)算機(jī)應(yīng)用于語(yǔ)言領(lǐng)域的一種形式,是存放語(yǔ)言的倉(cāng)庫(kù),將實(shí)際使用中真實(shí)出現(xiàn)過(guò)的語(yǔ)言材料經(jīng)過(guò)加工(分析和處理)成為有用的資源以電子計(jì)算機(jī)為載體的語(yǔ)言知識(shí)基礎(chǔ)資源。近年來(lái),語(yǔ)料庫(kù)的建設(shè)已在世界范圍廣泛展開,容量逐步擴(kuò)大,種類繁多,其應(yīng)用已滲透到語(yǔ)言領(lǐng)域的各個(gè)方面,成為語(yǔ)言研究、詞典編纂、語(yǔ)言教學(xué)的有力工具,受到語(yǔ)言研究者和教育工作者的重視。
1.1國(guó)外語(yǔ)料庫(kù)建設(shè)
計(jì)算機(jī)語(yǔ)料庫(kù)建設(shè)始于1964年美國(guó)布朗大學(xué)發(fā)布的BROWN語(yǔ)料庫(kù)以及1987年英國(guó)Lancaster大學(xué)發(fā)布的LOB語(yǔ)料庫(kù)。歐美學(xué)者利用這兩個(gè)語(yǔ)料庫(kù)開展了大規(guī)模的研究,范圍涉及自然語(yǔ)言文本的采集、存儲(chǔ)、檢索、統(tǒng)計(jì)、語(yǔ)法標(biāo)注等問(wèn)題以及語(yǔ)料庫(kù)在語(yǔ)言定量分析、詞典編纂、作品風(fēng)格分析、自然語(yǔ)言理解和機(jī)器翻譯等領(lǐng)域中的應(yīng)用,取得了豐碩的成果(Leech,1987;Sinclair, 1999; Thomas, 2001)。此后的十幾年里,語(yǔ)料庫(kù)建設(shè)在全球范圍內(nèi)快速發(fā)展:歐洲相繼建成了COBUILD語(yǔ)料庫(kù)、BNC語(yǔ)料庫(kù)(British National Corpus);美國(guó)的賓州大學(xué)發(fā)布了樹庫(kù)語(yǔ)料庫(kù)(TreeBank);日本建成了RWC日語(yǔ)語(yǔ)料庫(kù);臺(tái)灣的中央研究院建成了現(xiàn)代漢語(yǔ)平衡語(yǔ)料庫(kù)。
1.2中國(guó)的語(yǔ)料庫(kù)建設(shè)
中國(guó)的語(yǔ)料庫(kù)建設(shè)發(fā)端于上海交通大學(xué)的科技英語(yǔ)語(yǔ)料庫(kù)和國(guó)家語(yǔ)委的現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)。此后,北京大學(xué)計(jì)算語(yǔ)言研究所開發(fā)了《人民日?qǐng)?bào)》語(yǔ)料庫(kù),中國(guó)科學(xué)院自動(dòng)化研究所、清華大學(xué)、哈爾濱工業(yè)大學(xué)、山西大學(xué)等等也建設(shè)了各具特色的語(yǔ)料庫(kù)(馮志偉,1999;何安平,2001;楊惠中,2002)。國(guó)家語(yǔ)委現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)是一個(gè)大規(guī)模的平衡語(yǔ)料庫(kù),語(yǔ)料選材類別廣泛,時(shí)間跨度大。在線提供檢索的語(yǔ)料經(jīng)過(guò)分詞和詞性標(biāo)注,可以進(jìn)行按詞檢索和分詞類的檢索,還錄入了一部分未加工的古漢語(yǔ)語(yǔ)料,但沒(méi)有涉及《黃定內(nèi)經(jīng)》、《難經(jīng)》等中醫(yī)經(jīng)典著作。
進(jìn)入21世紀(jì)以來(lái),語(yǔ)料庫(kù)建設(shè)中的文本加工、存儲(chǔ)、檢索、管理等等問(wèn)題基本上已經(jīng)解決,研究語(yǔ)料庫(kù)的學(xué)者們開始關(guān)注基于語(yǔ)料庫(kù)的數(shù)據(jù)統(tǒng)計(jì)、句法分析、語(yǔ)義分析、機(jī)器翻譯、自動(dòng)對(duì)齊、知識(shí)自動(dòng)獲取等等深層次的自動(dòng)處理與應(yīng)用問(wèn)題。
國(guó)內(nèi)外語(yǔ)料庫(kù)標(biāo)注與檢索(Annotation & Concordance)方面的文獻(xiàn)非常豐富,綜合既有文獻(xiàn)看,標(biāo)注與檢索研究主要涉及具以下幾個(gè)方面的內(nèi)容:第一,語(yǔ)料庫(kù)標(biāo)注規(guī)范及詞典研究,包括詞匯的詞性分類和語(yǔ)義分類,標(biāo)注符號(hào)的制定等。BROWN語(yǔ)料庫(kù)使用了不足40種詞類標(biāo)注符號(hào),LOB語(yǔ)料庫(kù)卻使用了120多種,北大語(yǔ)料庫(kù)使用的詞類標(biāo)注符號(hào)跟中科院的也各不相同;詞匯語(yǔ)義分類中,Wordnet使用了詞義相互關(guān)系的網(wǎng)絡(luò)結(jié)構(gòu),北大語(yǔ)料庫(kù)詞典主要采用了上下義關(guān)系的層次結(jié)構(gòu)(Leech,1994;于江生,2002;詹衛(wèi)東,2004)。第二,自動(dòng)標(biāo)注程序開發(fā),BROW語(yǔ)料庫(kù)設(shè)計(jì)了一個(gè)基于規(guī)則的自動(dòng)標(biāo)注系統(tǒng) TAGGIT,LOB語(yǔ)料庫(kù)則設(shè)計(jì)了基于統(tǒng)計(jì)模型的 CLAWS 自動(dòng)詞性標(biāo)注系統(tǒng),我國(guó)中科院研制的中文分詞系統(tǒng)ICTCLAS具備漢語(yǔ)分詞和詞性標(biāo)注的雙重功能(Sinclair, 1991;俞士汶,2004;劉群,2005)。第三,語(yǔ)料庫(kù)檢索方法研究,除了跟大型語(yǔ)料庫(kù)配套的專用檢索工具之外,還出現(xiàn)了一些語(yǔ)料庫(kù)通用檢索工具,Wordsmith、 Antconc等工具具有關(guān)鍵詞檢索和搭配分析等功能;nooj系統(tǒng)還具有根據(jù)正則表達(dá)式、語(yǔ)法規(guī)則進(jìn)行檢索的能力。第四,語(yǔ)料庫(kù)應(yīng)用研究,主要集中在計(jì)算語(yǔ)言學(xué)領(lǐng)域,自動(dòng)句法分析和機(jī)器翻譯研究是此方面的典型代表,已提出很多算法如轉(zhuǎn)換生成語(yǔ)法、依存語(yǔ)法、詞匯功能語(yǔ)法、富田勝算法、概率算法等等(劉開瑛,2000;劉穎,2004)。第五,基于語(yǔ)料庫(kù)的數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)研究,主要涉及自動(dòng)文摘、知識(shí)提取等方面,這種研究往往以語(yǔ)義詞典為基礎(chǔ),其研究范圍已經(jīng)擴(kuò)展到自由文本分析和網(wǎng)絡(luò)資源分析等等方面。
縱觀語(yǔ)料庫(kù)建設(shè)方面的既有文獻(xiàn)可見,隨著語(yǔ)料庫(kù)自動(dòng)標(biāo)注工具的開發(fā),語(yǔ)料庫(kù)建設(shè)的規(guī)模越來(lái)越大,語(yǔ)料庫(kù)建設(shè)的難度也在不斷降低,然而,關(guān)于中醫(yī)經(jīng)典文獻(xiàn)語(yǔ)料庫(kù)建設(shè)方面的研究文獻(xiàn)卻寥寥無(wú)幾,已有文獻(xiàn)大多是泛泛的建議或可行性研究、或者是一些定性概括。中醫(yī)經(jīng)典文獻(xiàn),按照中醫(yī)學(xué)的觀點(diǎn),至少應(yīng)該包括《黃帝內(nèi)經(jīng)》、《難經(jīng)》、《神農(nóng)本草經(jīng)》、《傷寒雜病論》和《金匱要略》五部作品。建設(shè)一個(gè)中醫(yī)經(jīng)典文獻(xiàn)語(yǔ)料庫(kù),不但需要面對(duì)語(yǔ)料庫(kù)建設(shè)過(guò)程中關(guān)于文本存儲(chǔ)、標(biāo)注、檢索等等基本問(wèn)題,還必須解決錯(cuò)訛字、假借字、異體字規(guī)范化、古漢語(yǔ)自動(dòng)分詞與標(biāo)注、中醫(yī)術(shù)語(yǔ)分類詞典設(shè)計(jì)等等特殊問(wèn)題,尤其是語(yǔ)料庫(kù)的檢索系統(tǒng),不能僅僅停留在語(yǔ)言問(wèn)題的檢索方面,還必須研究如何充分利用分詞和標(biāo)注符號(hào)進(jìn)行信息篩選提取的問(wèn)題。
已有文獻(xiàn)調(diào)查顯示,字詞研究以及中醫(yī)術(shù)語(yǔ)詞典研究相對(duì)豐富,已出版有《內(nèi)經(jīng)詞典》、《實(shí)用中醫(yī)詞典》等等(馬繼興,1990;張登本,1990)。深加工的古漢語(yǔ)中醫(yī)文獻(xiàn)語(yǔ)料庫(kù)建設(shè)及其標(biāo)注與數(shù)據(jù)分析方面的研究尚未見到。由陜西中醫(yī)藥大學(xué)聞?dòng)酪阍谘械摹爸嗅t(yī)經(jīng)典文獻(xiàn)語(yǔ)料庫(kù)建設(shè)及其數(shù)據(jù)分析方法研究”(2016-2019)是一種深加工的古漢語(yǔ)中醫(yī)經(jīng)典文獻(xiàn)語(yǔ)料庫(kù)建設(shè)項(xiàng)目,在國(guó)內(nèi)外尚無(wú)先例,填補(bǔ)了古漢語(yǔ)語(yǔ)料庫(kù)建設(shè)方面的空白。本研究目的截然不同于其他語(yǔ)料庫(kù),已有語(yǔ)料庫(kù)建設(shè)項(xiàng)目主要服務(wù)于語(yǔ)言自身問(wèn)題研究或者機(jī)器翻譯研究,對(duì)本課題而言,這只是語(yǔ)料庫(kù)的一種基本功能;本研究高度關(guān)注如何從古漢語(yǔ)文獻(xiàn)語(yǔ)料庫(kù)中自動(dòng)篩選并提取有價(jià)值的信息,探索一整套適合古漢語(yǔ)自動(dòng)加工和數(shù)據(jù)分析的具體方法才是本研究的最終目的。再者,以分詞與標(biāo)注的方法處理并保存中醫(yī)經(jīng)典文獻(xiàn),是保護(hù)與傳承古籍的一種新思路,含有古籍文獻(xiàn)標(biāo)準(zhǔn)化的理念,是對(duì)標(biāo)準(zhǔn)化研究古漢語(yǔ)文獻(xiàn)的一種創(chuàng)造性探索。
十八大以來(lái),黨和國(guó)家領(lǐng)導(dǎo)人多次強(qiáng)調(diào)要保護(hù)好、傳承好中醫(yī)藥文化,屠呦呦獲得諾貝爾獎(jiǎng)的青蒿素故事更進(jìn)一步激發(fā)了人們從中醫(yī)古籍文獻(xiàn)中挖掘數(shù)據(jù)的積極性,中醫(yī)經(jīng)典文獻(xiàn)語(yǔ)料庫(kù)能夠在此方面發(fā)揮重要作用。中醫(yī)經(jīng)典文獻(xiàn)語(yǔ)料庫(kù)能夠徹底改變一邊翻閱紙質(zhì)資料、一邊手工記錄的資料查閱方式,而只需在計(jì)算機(jī)上輸入關(guān)鍵詞或特定模式,然后由檢索系統(tǒng)自動(dòng)篩選并提取所需信息,無(wú)需擔(dān)心因異體字、假借字、分詞斷句、古漢語(yǔ)閱讀障礙等因素而造成信息檢索不全的問(wèn)題,其檢索準(zhǔn)確性會(huì)遠(yuǎn)遠(yuǎn)優(yōu)于谷歌、百度等搜索引擎。另外,深加工的中醫(yī)經(jīng)典文獻(xiàn)語(yǔ)料庫(kù)又是一個(gè)古漢語(yǔ)研究平臺(tái),能夠用于古漢語(yǔ)的字詞、語(yǔ)法、語(yǔ)義問(wèn)題研究,徹底扭轉(zhuǎn)古漢語(yǔ)研究缺乏大規(guī)模統(tǒng)計(jì)數(shù)據(jù)支持以及漢語(yǔ)研究與醫(yī)古文研究長(zhǎng)期相互脫節(jié)的局面。
本文為國(guó)家社會(huì)科學(xué)基金項(xiàng)目;課題編號(hào):16xyy011
(作者單位:陜西中醫(yī)藥大學(xué))