田丁月
渤海大學(xué)
隨著計(jì)算機(jī)技術(shù)的不斷發(fā)展,從最早的計(jì)算機(jī)語(yǔ)料庫(kù)BROWN(由納爾遜和庫(kù)切拉建立的美國(guó)英語(yǔ)語(yǔ)料庫(kù))建成至今已過(guò)近六十年,語(yǔ)料庫(kù)語(yǔ)言學(xué)既可以被看作一門新興學(xué)科,又可以被看作20世紀(jì)美國(guó)結(jié)構(gòu)主義語(yǔ)言學(xué)研究方法的延續(xù),是現(xiàn)代語(yǔ)言學(xué)的一個(gè)重要分支。
語(yǔ)料庫(kù)語(yǔ)言學(xué)有著經(jīng)驗(yàn)主義的哲學(xué)基礎(chǔ),注重語(yǔ)言事實(shí),以大量的語(yǔ)料素材為研究基礎(chǔ)是該學(xué)科的突出特點(diǎn),研究者們通過(guò)計(jì)算機(jī)批量處理語(yǔ)料素材,形成電子語(yǔ)料庫(kù),再進(jìn)一步系統(tǒng)化分析形成論述成果,因而語(yǔ)料庫(kù)語(yǔ)言學(xué)與計(jì)算機(jī)技術(shù)密不可分,但也因此令人望而生畏,使很多初學(xué)者失去了了解語(yǔ)料庫(kù)語(yǔ)言學(xué)學(xué)科的興趣。
梁茂成的《什么是語(yǔ)料庫(kù)語(yǔ)言學(xué)》(上海外語(yǔ)教育出版社,2016)在一定程度上彌補(bǔ)了以上的遺憾。
本書(shū)是一本工具性很強(qiáng)的問(wèn)答書(shū),采用問(wèn)題解答的方式,將語(yǔ)料庫(kù)語(yǔ)言學(xué)相關(guān)知識(shí)拆解成55個(gè)具體的問(wèn)題,主要內(nèi)容分為五個(gè)部分:
在第一部分,作者從“什么是語(yǔ)料庫(kù)”基本概念出發(fā),簡(jiǎn)要介紹了語(yǔ)料庫(kù)的定義、建設(shè)、實(shí)用價(jià)值、類型、局限等基礎(chǔ)知識(shí)。作者旁征博引,為讀者構(gòu)建了一個(gè)語(yǔ)料庫(kù)基礎(chǔ)知識(shí)的整體框架,為后面的四個(gè)章節(jié)作鋪墊。
在第二部分,作者以第一部分的“語(yǔ)料庫(kù)”為引,從語(yǔ)料庫(kù)語(yǔ)言學(xué)學(xué)科的命名過(guò)程講起,介紹了該學(xué)科的哲學(xué)基礎(chǔ)、與計(jì)算機(jī)技術(shù)和計(jì)算語(yǔ)言學(xué)的關(guān)系、學(xué)科發(fā)展、研究范式等概念。講解時(shí)注重對(duì)比,如在論述語(yǔ)料庫(kù)語(yǔ)言學(xué)的哲學(xué)基礎(chǔ)時(shí),除對(duì)經(jīng)驗(yàn)主義的介紹外,作者還對(duì)比了與之不同的理性主義研究方法,肯定了理性主義思辨的嚴(yán)密性、解決問(wèn)題流程的清晰性,并從經(jīng)驗(yàn)主義與理性主義雙方的優(yōu)劣勢(shì)之中做出取舍,得出“理性主義和經(jīng)驗(yàn)主義的融合才是語(yǔ)言學(xué)研究發(fā)展的必由之路”的結(jié)論。此外,本書(shū)補(bǔ)充了“類聯(lián)接”、“語(yǔ)義傾向和語(yǔ)義韻”、“OSTI報(bào)告”等知識(shí),使得講授內(nèi)容更加專業(yè)化。
在第三部分,語(yǔ)料庫(kù)的處理和加工,作者增加了專業(yè)術(shù)語(yǔ)的使用,問(wèn)題也趨向于名詞解釋,作者開(kāi)始抽象地對(duì)學(xué)科知識(shí)進(jìn)行講授。在這部分,作者介紹了文本清理、元信息、語(yǔ)料庫(kù)的標(biāo)注、分詞和詞形還原、詞性標(biāo)注、句法剖析、雙語(yǔ)對(duì)齊七個(gè)獨(dú)立的知識(shí)點(diǎn),并運(yùn)用普適度較高的示例與簡(jiǎn)明清晰的圖表輔助讀者理解。
在第四部分,全書(shū)的難點(diǎn)知識(shí),是關(guān)于語(yǔ)料庫(kù)分析方法的介紹。作者從相對(duì)簡(jiǎn)單的“詞表”概念出發(fā),逐步介紹了“N元分析”、“型次比”、“索引分析”、“正則表達(dá)式”等十個(gè)具體概念。
在第五部分,本書(shū)的問(wèn)題重新回歸具體,把講解的重點(diǎn)放在了學(xué)科應(yīng)用上。這部分作者主要介紹了常用的中英語(yǔ)語(yǔ)料庫(kù)、語(yǔ)料庫(kù)翻譯學(xué)、中介語(yǔ)及相關(guān)知識(shí)、詞匯大綱等知識(shí)。這部分內(nèi)容結(jié)構(gòu)層次清晰,比如在回答“什么是微型文本?”時(shí),先舉出實(shí)操環(huán)節(jié)中數(shù)據(jù)驅(qū)動(dòng)學(xué)習(xí)存在的困難,再基于這些困難提出微型文本的概念,使講解更加易懂。
在本書(shū)的末尾,作者列出了詳盡的參考文獻(xiàn)與推薦的閱讀書(shū)目,并在附錄中列出該書(shū)涉及到的語(yǔ)言學(xué)術(shù)語(yǔ)漢英對(duì)譯總覽表和CLAWS詞性標(biāo)注集,方便讀者查找和學(xué)習(xí)。
語(yǔ)料庫(kù)語(yǔ)言學(xué)的發(fā)展日益興盛,我國(guó)的相關(guān)研究者也日益增多,除本書(shū)外,還有賈愛(ài)武、濮建忠主編的《語(yǔ)料庫(kù)語(yǔ)言教學(xué)與研究》、楊惠中的《語(yǔ)料庫(kù)語(yǔ)言學(xué)導(dǎo)論》、余國(guó)良的《語(yǔ)料庫(kù)語(yǔ)言學(xué)的研究與應(yīng)用》等學(xué)術(shù)著作。
《語(yǔ)料庫(kù)語(yǔ)言教學(xué)與研究》(以下簡(jiǎn)稱《教學(xué)與研究》)以論文集的形式呈現(xiàn)語(yǔ)料庫(kù)語(yǔ)言學(xué)的教學(xué)與研究方面的研究成果。全書(shū)甄選了22篇優(yōu)秀論文,內(nèi)容包含范圍廣,如政府報(bào)告、演講稿、新聞報(bào)道、英語(yǔ)教學(xué)、英文寫(xiě)作等。
《教學(xué)與研究》與《什么是語(yǔ)料庫(kù)語(yǔ)言學(xué)》(以下簡(jiǎn)稱《什么是》)是完全不同的兩類書(shū)籍,《教學(xué)與研究》注重應(yīng)用成果的展現(xiàn),適合有一定英語(yǔ)或英語(yǔ)教學(xué)基礎(chǔ)的讀者學(xué)習(xí),而《什么是》是一本答疑解惑的工具書(shū),更適合初學(xué)者。
《語(yǔ)料庫(kù)語(yǔ)言學(xué)導(dǎo)論》(以下簡(jiǎn)稱《導(dǎo)論》)是一本用于高等院校英語(yǔ)語(yǔ)言文學(xué)專業(yè)研究生教學(xué)的系列教材之一,該書(shū)中外結(jié)合,史論結(jié)合,廣泛搜集資料,有著很強(qiáng)的實(shí)用性、系統(tǒng)性。全書(shū)分為三部分,每一部分由專門的專家負(fù)責(zé)編撰,并由楊惠中先生做最后的審閱工作。該書(shū)第一部分主要是語(yǔ)料庫(kù)語(yǔ)言學(xué)的理論研究,分三章講解了基礎(chǔ)知識(shí);第二部分是語(yǔ)料庫(kù)的分析方法與技術(shù),從基本統(tǒng)計(jì)手段及原理與文本索引工具及應(yīng)用兩部分,對(duì)實(shí)操的環(huán)節(jié)進(jìn)行詳細(xì)的講授;第三部分則是偏向應(yīng)用類的專題研究,包含英語(yǔ)詞語(yǔ)搭配種類、學(xué)術(shù)英語(yǔ)語(yǔ)體研究、學(xué)術(shù)英語(yǔ)語(yǔ)義韻研究等方面。該書(shū)在附錄部分列出了術(shù)語(yǔ)表、書(shū)面英語(yǔ)詞語(yǔ)類碼表、英漢術(shù)語(yǔ)對(duì)照表等實(shí)用價(jià)值極高的工具表,對(duì)學(xué)習(xí)者幫助極大。
《導(dǎo)論》相比于《什么是》,在基礎(chǔ)知識(shí)的詳細(xì)講解上增加了學(xué)科專業(yè)性、系統(tǒng)性,使理論與應(yīng)用結(jié)合得更密切,此外,分章講解的學(xué)位論文模式是該書(shū)的內(nèi)容編排特點(diǎn),這樣的編排對(duì)研究生的學(xué)位論文的寫(xiě)作也具有指導(dǎo)意義。
《語(yǔ)料庫(kù)語(yǔ)言學(xué)的研究與應(yīng)用》(以下簡(jiǎn)稱《研究與應(yīng)用》)通過(guò)七個(gè)章節(jié)運(yùn)用理論闡釋和實(shí)例分析的方法,對(duì)語(yǔ)料庫(kù)語(yǔ)言學(xué)進(jìn)行了知識(shí)梳理。該書(shū)第一章介紹了語(yǔ)料庫(kù)語(yǔ)言學(xué)的學(xué)科概貌,明確了學(xué)科定位;第二章與第三章從語(yǔ)料庫(kù)的建設(shè)發(fā)展、加工利用兩個(gè)方面進(jìn)行細(xì)致的講解;第四章到第七章可以看為一個(gè)整體,介紹了語(yǔ)料庫(kù)語(yǔ)言學(xué)在外語(yǔ)教學(xué)、翻譯、文體學(xué)等領(lǐng)域的具體應(yīng)用與價(jià)值。
《研究與應(yīng)用》與《什么是》都對(duì)語(yǔ)料庫(kù)的定義、分類、發(fā)展等基礎(chǔ)知識(shí)做了介紹。但《研究與應(yīng)用》并未涉及語(yǔ)料庫(kù)分析方法的部分,《什么是》中的語(yǔ)料庫(kù)研究應(yīng)用也比《研究與應(yīng)用》中涵蓋的學(xué)科范圍窄,內(nèi)容不如《研究與應(yīng)用》豐富。此外,不同于《什么是》的解答式編排,《研究與應(yīng)用》將內(nèi)容的重心放在了語(yǔ)料庫(kù)語(yǔ)言學(xué)對(duì)其他學(xué)科領(lǐng)域的影響與應(yīng)用上,該書(shū)用了將近一半的篇幅(四個(gè)章節(jié))來(lái)證明語(yǔ)料庫(kù)語(yǔ)言學(xué)的研究科學(xué)性、工具便捷性。該書(shū)還對(duì)語(yǔ)料庫(kù)的加工和利用展開(kāi)了更細(xì)致的闡釋,關(guān)于應(yīng)用的實(shí)例也比上述提及的其他著作涉獵的多,但有利有弊,應(yīng)用實(shí)例較多,對(duì)于不了解語(yǔ)料庫(kù)語(yǔ)言學(xué)的初學(xué)者,理解起來(lái)可能會(huì)有困難,閱讀有定一定門檻。
以上例舉的幾本著作僅是我國(guó)語(yǔ)料庫(kù)語(yǔ)言學(xué)研究成果的一小部分,如今已有越來(lái)越多的學(xué)者以不同的角度在該領(lǐng)域筆耕不輟,我們相信,隨著時(shí)代的進(jìn)步,語(yǔ)料庫(kù)語(yǔ)言學(xué)會(huì)有著更美好更廣闊的的發(fā)展前景。
本書(shū)以解答為重點(diǎn),循序漸進(jìn)地為讀者傳授語(yǔ)料庫(kù)語(yǔ)言學(xué)的知識(shí)。但因此的不足就比較明顯:不能很好的將知識(shí)系統(tǒng)化,個(gè)別問(wèn)題前后之間的關(guān)聯(lián)松散,一定程度上使個(gè)別知識(shí)的前因后果不夠連貫。例如開(kāi)篇對(duì)“什么是語(yǔ)料庫(kù)?”的介紹,僅僅解釋了語(yǔ)料庫(kù)的概念,概述了其他學(xué)者對(duì)語(yǔ)料庫(kù)的兩種認(rèn)識(shí),并未對(duì)其發(fā)展進(jìn)行大致的梳理,有種“意猶未盡”之感。
在計(jì)算機(jī)技術(shù)飛速發(fā)展的今天,如何順應(yīng)科技化潮流與時(shí)俱進(jìn)是每門學(xué)科不可回避的問(wèn)題,語(yǔ)言學(xué)已借助語(yǔ)料庫(kù)這門新技術(shù)有了累累研究碩果,觀之我們中國(guó)的漢字,雖早已通過(guò)發(fā)達(dá)的信息處理技術(shù)進(jìn)入計(jì)算機(jī)之中,但漢字學(xué)的新時(shí)代創(chuàng)新仍充滿了挑戰(zhàn)。傳統(tǒng)漢字學(xué)的研究方法已不能滿足當(dāng)今學(xué)者研究的需要,我們?cè)撊绾卫煤糜?jì)算機(jī)技術(shù)這一有利工具,將傳統(tǒng)知識(shí)與新科技的結(jié)合起來(lái),是漢字學(xué)研究者普遍面臨的問(wèn)題,因而,書(shū)中提及的語(yǔ)料庫(kù)語(yǔ)言學(xué)建設(shè)方法就為漢字學(xué)的新發(fā)展提供了很好的參考范式。
不同的語(yǔ)言有與之對(duì)應(yīng)的語(yǔ)料庫(kù),那么觸類旁通,漢字則應(yīng)對(duì)應(yīng)有自己的漢字字料庫(kù),字料庫(kù)漢字學(xué)正是此類新興學(xué)科,它“以真實(shí)文本中出現(xiàn)的漢字字料為界定和描述漢字現(xiàn)象的起點(diǎn),通過(guò)字料的采集、存儲(chǔ)、標(biāo)注、檢索和統(tǒng)計(jì)分析,用來(lái)提出全新的漢字學(xué)理論或驗(yàn)證、修正已有的漢字學(xué)理論”(柳建鈺,2017),對(duì)漢字學(xué)的新發(fā)展有著不可忽視的貢獻(xiàn),是一門富有研究?jī)r(jià)值的交叉學(xué)科。王寧在《漢字構(gòu)形學(xué)導(dǎo)論》中,將漢字學(xué)的研究分支歸為四類:漢字構(gòu)形學(xué)、漢字字體學(xué)、漢字字源學(xué)和漢字文化學(xué),這四類分支在字料庫(kù)的輔助下勢(shì)必會(huì)有新的、卓越的發(fā)展。令人欣喜的是,這樣的預(yù)設(shè)并非空想,目前漢字學(xué)的字料庫(kù)建設(shè)與發(fā)展有著欣欣向榮之勢(shì),已有許多學(xué)者投入到對(duì)此的建設(shè)中來(lái),他們從字料庫(kù)的基礎(chǔ)定義、理論建設(shè)、實(shí)際應(yīng)用等諸多方面辛勤研究著新時(shí)代漢字學(xué)理論,同時(shí)證明著字料庫(kù)的運(yùn)用會(huì)給漢字學(xué)的新發(fā)展提供無(wú)限可能。
本書(shū)第三章的“語(yǔ)料庫(kù)的處理和加工”可為字料庫(kù)漢字學(xué)的字料信息計(jì)算機(jī)化提供參考,尤其是第一問(wèn)涉及到的文本清理,本書(shū)從編碼轉(zhuǎn)換、規(guī)范格式、字符替換等方面為漢字學(xué)語(yǔ)料庫(kù)處理提供了詳盡的參考,例如推薦了UTFCast的編碼轉(zhuǎn)換工具,PowerGREP的拼寫(xiě)檢查功能,并分享了“文本清理是一項(xiàng)需要細(xì)心和耐心的操作技術(shù),需要在實(shí)踐中不斷增強(qiáng)意識(shí)提高操作效率”的經(jīng)驗(yàn)。又如“什么是語(yǔ)料庫(kù)的標(biāo)注?”中談到的不同層面的語(yǔ)料標(biāo)注分類:語(yǔ)音、語(yǔ)義、語(yǔ)用、語(yǔ)篇、詞類、句法,盡管語(yǔ)料標(biāo)注在語(yǔ)言學(xué)研究領(lǐng)域是存在爭(zhēng)議的,但有此分類作為參考,能極大方便研究者對(duì)掌握的語(yǔ)料進(jìn)行語(yǔ)言特征的分析,同時(shí)也為字料庫(kù)漢字學(xué)中的字料標(biāo)注提供了參考。
本書(shū)的第五十五問(wèn)“大數(shù)據(jù)時(shí)代的語(yǔ)料庫(kù)語(yǔ)言學(xué)會(huì)有什么新的特征?”也同樣引人深思,這個(gè)問(wèn)題的回答不僅是針對(duì)語(yǔ)料庫(kù)語(yǔ)言學(xué),更適用于當(dāng)今語(yǔ)言學(xué)廣泛的相關(guān)學(xué)科。在新時(shí)代條件下,各學(xué)科在大數(shù)據(jù)的影響下,會(huì)有怎樣的發(fā)展與創(chuàng)新,讀者能在此回答上窺探一二:
(1)研究規(guī)模會(huì)發(fā)生變化,資源會(huì)越來(lái)越豐富;(2)研究?jī)?nèi)容會(huì)更龐雜,降噪會(huì)成為學(xué)科建設(shè)的重要課題之一;(3)網(wǎng)絡(luò)爬蟲(chóng)智能化、工具便捷化;(4)研究材料的存儲(chǔ)方式會(huì)發(fā)生改變;(5)研究分析方法會(huì)有變化;數(shù)據(jù)的解讀更有挑戰(zhàn)性。
在當(dāng)今日新月異的世界,隨著社會(huì)開(kāi)放程度、人們的認(rèn)識(shí)水平與認(rèn)識(shí)能力的不斷提高,新思想、新技術(shù)層出不窮,促進(jìn)了不同文化之間的交流融合、取長(zhǎng)補(bǔ)短、互利共贏。這一點(diǎn)體現(xiàn)在學(xué)術(shù)界,便是學(xué)科與學(xué)科之間、學(xué)科與新研究方法之間的碰撞,產(chǎn)生了大量如“國(guó)際中文教育”、“字料庫(kù)漢字學(xué)”等等新興學(xué)科,交叉學(xué)科的興盛更是大勢(shì)所趨。
愿我們各學(xué)科之間能夠相互學(xué)習(xí)借鑒,愿我們漢字學(xué)的后輩研究者們能學(xué)好、借鑒好語(yǔ)料庫(kù)語(yǔ)言學(xué)學(xué)科的發(fā)展經(jīng)驗(yàn),結(jié)合前輩們辛勤耕耘出的成果,建設(shè)好我們的字料庫(kù),做好研究,做好創(chuàng)新,為漢字學(xué)的發(fā)展盡一份綿薄之力。