徐李榮
(浙江大學(xué)外國語言文化與國際交流學(xué)院,浙江 杭州 310058)
《網(wǎng)絡(luò)語料庫:理論與實踐》是意大利巴里大學(xué)現(xiàn)代語言系英語語言與翻譯研究員兼講師Maristella Gatto 所著,由Bloomsbury Academic 于2014年出版。該書被列入國際知名語料庫語言學(xué)專家伯明翰大學(xué)Wolfgang Teubert 教授以及諾丁漢大學(xué)Michaela Mahlberg 教授主編語料庫與話語研究系列叢書。
從傳統(tǒng)意義上的語料庫來講,網(wǎng)絡(luò)本身不能稱為語料庫。根據(jù)McEnery and Wilson(1996:21),在理論上,任何本文集只要不少于一個,都可以稱為語料庫。但在現(xiàn)代語言學(xué)的背景下,“語料庫”有更多的延伸義,絕非簡單的定義就能解釋清楚。一般語料庫會從以下四個方面進行考察:樣本收集及代表性,語料庫大小,機器可讀以及標(biāo)準(zhǔn)參考。一些語料庫學(xué)者提出因為網(wǎng)絡(luò)存在內(nèi)部信息組織凌亂不規(guī)整、不穩(wěn)定性以及無法操控等問題,所以不太適用于進行語言學(xué)研究。Leech(2007:145)也認(rèn)為,雖然網(wǎng)絡(luò)能夠提供大量文本,但因其內(nèi)容量大種類冗雜,難以代表一般意義上真實語言的使用。綜上,目前大多數(shù)有關(guān)語料庫專著都把網(wǎng)絡(luò)作為語料庫語言學(xué)研究的一個輔助,抑或語料庫語言學(xué)未來的發(fā)展方向,鮮有著作把網(wǎng)絡(luò)本身作為語料庫進行研究。然而隨著時間的推進和網(wǎng)絡(luò)科技的進步,網(wǎng)絡(luò)本身因其巨大的語言數(shù)據(jù)資源受到越來越多的語言學(xué)學(xué)者的關(guān)注。該書則是在新的網(wǎng)絡(luò)時代背景下,對網(wǎng)絡(luò)作為語料庫在語言學(xué)研究中的各方面問題進行了詳盡探討。
該書作者Maristella Gatto 把網(wǎng)絡(luò)本身作為語料庫研究對象,采用網(wǎng)絡(luò)輔助分析工具進行語言學(xué)數(shù)據(jù)分析,針對目前網(wǎng)絡(luò)作為語料庫這一爭議話題進行理論上的探討和實踐上的操作。文章內(nèi)容通俗易懂,案例解說詳細(xì),對語料庫語言學(xué)以及計算語言學(xué)方向的學(xué)生和學(xué)者來說是一本不錯的通識入門讀物。
全書共分為七個章節(jié)。第一章簡要概括介紹了涉及語料庫語言學(xué)的基本概念、原則以及方法。開宗明義,作者首先提出語料庫語言學(xué)是語言學(xué)的一個重要研究領(lǐng)域,討論了語言學(xué)理論與用語料庫研究方法進行語言研究的一些關(guān)系,同時作者也指出網(wǎng)絡(luò)作為語料庫這一方法與傳統(tǒng)語料庫研究方法并不沖突,反而會成為語料庫語言學(xué)發(fā)展的一個重要輔助。繼而作者從歷史角度著重探討了電子語料庫及其主要的概念定義和標(biāo)準(zhǔn),包括語料庫語言學(xué)中不可避免的重要概念:權(quán)威性,代表性,數(shù)據(jù)采集及平衡和語料大小,不同類型的語料庫等。之后,作者介紹了用于進行語料庫數(shù)據(jù)分析的索引工具,索引行和上下文關(guān)鍵詞,討論了搭配和類鏈接等重要概念。其中,從語料庫的創(chuàng)建(語料的收集、標(biāo)記和注解),到語料庫的分析(使用Wordsmith Tools,Antcoc 以及基于互聯(lián)網(wǎng)的數(shù)據(jù)搜索系統(tǒng)提供大型語料庫在線界面的BNCweb,BYU 語料庫系列以及詞匯素描系統(tǒng)Sketch Engine),作者通過許多案例具體直觀展現(xiàn)了這些語料庫分析工具在語料分析中的各項功能與作用。
第二章節(jié)從網(wǎng)絡(luò)作為即時、自生的文本庫這一角度出發(fā),對網(wǎng)絡(luò)作為語料庫存在的爭議進行了簡要介紹,并且從理論層面對語料庫語言學(xué)和網(wǎng)絡(luò)本身作為文本實體集之間的關(guān)系進行了討論。作者指出(p35),近年來“網(wǎng)絡(luò)作為語料庫”這一概念本身發(fā)生了一些變化:最初由于網(wǎng)絡(luò)并非專門用于語言學(xué)研究而進行科學(xué)設(shè)計和建立,那么從傳統(tǒng)的語料庫語言學(xué)視角看,“網(wǎng)絡(luò)作為語料庫”這一看法并不被學(xué)者所認(rèn)可;隨著時間的推移,世界各地的語言學(xué)家越來越多地把注意力投向網(wǎng)絡(luò):它不僅可以提供大量真實的并且用于傳統(tǒng)語料庫設(shè)計和建設(shè)的語言文本,本身作為語料庫也越來越引起學(xué)者和專家的關(guān)注。如今,網(wǎng)絡(luò)因具備機器可讀性,還具有搜索真實文本庫的這一特質(zhì),其作為語料庫的地位被越來越多的語言學(xué)家所接受。為了進一步論證“網(wǎng)絡(luò)作為語料庫”的可接受性,作者除了從網(wǎng)絡(luò)這一角度重新探討語料庫語言學(xué)中的若干重要概念和議題,如真實性、代表性、語料庫大小和語料庫組成等,還加入新的版權(quán)問題。與此同時,網(wǎng)絡(luò)作為語料庫進行語言學(xué)研究也帶了新的問題,諸如網(wǎng)絡(luò)本身的動態(tài)性、可再生性、相關(guān)性和可信度。這些新問題也不可避免地對語料庫語言學(xué)本身的概念產(chǎn)生重大的影響。
網(wǎng)絡(luò)作為語料庫可以帶來新問題,第三章節(jié)就重點討論利用普通的搜索引擎,展示網(wǎng)絡(luò)作為現(xiàn)成語料庫在查詢方面展現(xiàn)出來的潛能以及局限。首先,介紹由于網(wǎng)絡(luò)作為語料庫可以提供前所未有的大量語言數(shù)據(jù),那么連同網(wǎng)絡(luò)本身的普及,在自然語言處理、機器翻譯和詞義消歧方面足以發(fā)揮的巨大作用。接著,作者對搜索引擎如何運作做了簡要概述,并且通過一系列的案例研究對使用商業(yè)搜索引擎進行語言學(xué)研究進行詳細(xì)展示,比如,提供既定語言使用的證據(jù)、研究短語和測試翻譯選項等。作者通過谷歌搜索引擎,從簡單的單詞等基本搜索到短語搭配語域等高級搜索等一些案例,向讀者展示網(wǎng)絡(luò)作為語料庫提供給研究人員巨大的語言使用的資源庫。盡管網(wǎng)絡(luò)作為語料庫在呈現(xiàn)語言信息時不如傳統(tǒng)的為特定研究而建立的語料庫具有針對性,但由于網(wǎng)絡(luò)呈現(xiàn)結(jié)果的迅速以及其背后巨大的語言資源,研究人員仍然可以通過反復(fù)精確關(guān)鍵詞進行高級查詢進而達(dá)到研究目的。
在介紹普通搜索引擎進行一般常規(guī)查詢之后,第四、第五章節(jié)作者繼而介紹一些從語料庫角度對網(wǎng)絡(luò)資源進行高級索引的工具,展現(xiàn)了如何通過不同的方式利用網(wǎng)絡(luò)作為語料庫去克服網(wǎng)絡(luò)作為語言資源存在的局限性,并且提供用于特定研究目的和特定背景下及時有用的語言資源。作者首先介紹了有關(guān)索引工具的背景知識和技術(shù)特點,然后展示了如何通過使用WebCorp 和WebAsCorpus 迅速獲取最新、現(xiàn)成的語言資源的一系列案例研究,尤其是在外語教學(xué)領(lǐng)域,展現(xiàn)了它們在詞匯搭配和研究新詞方面的優(yōu)點。最后,作者重點介紹WebCorp Linguist’s Search Engine在不借助商業(yè)搜索引擎的情況下研究當(dāng)代英語的重要作用。對于WebCorp Linguist’s Search Engine,網(wǎng)絡(luò)是用來建立線下語料庫的數(shù)據(jù)源,但是這個線下語料庫能夠一直持續(xù)不斷由新的網(wǎng)絡(luò)下載填充,因而被稱為“網(wǎng)絡(luò)小宇宙”。它既是語料庫,是具有確定大小和組成的文本集可供線下加工分析;同時它也是巨大的不斷更新的網(wǎng)絡(luò)。目前WebCorp Linguist’s Search Engine 已經(jīng)建成包含三個語料庫:共時英語網(wǎng)絡(luò)語料庫、歷時英語網(wǎng)絡(luò)語料庫和伯明翰博客語料庫,它們可以通過注冊免費使用。
在第五章節(jié)中,作者介紹了如何通過網(wǎng)絡(luò)創(chuàng)建專門語料庫和術(shù)語列表的工具和方法。首先,作者描述了人工創(chuàng)建小型網(wǎng)絡(luò)語料庫的步驟并且討論了其中的理論問題,如語料的代表性和真實性。然后,介紹如何使用BootCat 自創(chuàng)特定領(lǐng)域的語料庫和專門用途語料庫,通過一系列反復(fù)的關(guān)鍵詞細(xì)化,BootCat 能夠以極快的速度挖掘網(wǎng)絡(luò)網(wǎng)頁,產(chǎn)出某個特定領(lǐng)域常用的詞匯以及具體使用,如旅游、化學(xué)、文學(xué)等領(lǐng)域。最后,介紹了比較網(wǎng)絡(luò)語料庫的建立和使用,以及在翻譯實踐領(lǐng)域的應(yīng)用。作者指出不同語言語料庫之間的可比性除了關(guān)心語料庫的內(nèi)容之外,還要確保各語料庫收集策略的一致性,考慮各語料庫之間的平衡性和代表性等。作者詳細(xì)展示了英語“Renewable Energy”語料庫和意大利語“Energie Rinnovabili”語料庫制作過程,指出它們在翻譯研究領(lǐng)域能夠為研究人員提供母語使用者所使用的真實語言材料,方便跨文化研究;在自然語言處理領(lǐng)域能彌補平行語料庫稀缺的現(xiàn)象,快速自動生成包括原語文本和翻譯文本在內(nèi)的比較語料庫,為訓(xùn)練統(tǒng)計翻譯系統(tǒng)或建立術(shù)語庫提供可靠數(shù)據(jù)。
在第六章節(jié)中,作者探討了在語料庫語言學(xué)領(lǐng)域中,利用大型一般用途網(wǎng)絡(luò)創(chuàng)建語料庫的可能性,并且通過一系列個案研究證明在網(wǎng)絡(luò)作為語料庫背景下開發(fā)的工具和數(shù)據(jù)集不但可以用來獲取語言使用的信息,而且對話語和社會研究也會有所啟發(fā)。首先,作者介紹了大型一般用途網(wǎng)絡(luò)語料庫Leeds Collection of Internet Corpora:它包含英語、漢語、日語、德語法語等多語種語料庫;所有語料都進行了語法標(biāo)注,并且可以進行互信息值,T 檢驗和對數(shù)似然檢驗等搭配統(tǒng)計。還有最近發(fā)行的TenTen 包含100 億詞,開發(fā)出包括漢語、英語、德語、意大利語等多語種的語料庫,這些語料庫同樣可以通過Sketch Engine進行檢索使用。作者重點講解了Sketch Engine在詞匯素描、詞語搭配與區(qū)分等方面的功能。最后,作者通過使用大型一般網(wǎng)絡(luò)語料庫ukWac對“culture”一詞進行研究,并將得到的數(shù)據(jù)與其在BNC 得到的結(jié)果進行比較,進而描述和討論基于網(wǎng)絡(luò)語料庫得到的數(shù)據(jù)和基于傳統(tǒng)大型語料庫得到的數(shù)據(jù)之間的相似點和不同之處。
在第七章節(jié)中,作者簡要探討了由于科技的進步和普及,網(wǎng)絡(luò)作為語料庫本身經(jīng)歷的一些變化,尤其是新一代網(wǎng)絡(luò)2.0 的出現(xiàn),使網(wǎng)絡(luò)成為無處不在、人人參與的場合。作者首先提出了網(wǎng)絡(luò)2.0 的出現(xiàn)使網(wǎng)絡(luò)內(nèi)容的制造者和使用者之間的界限變得模糊,用戶既是網(wǎng)絡(luò)內(nèi)容的使用者也是制造者。進而作者以多語語料庫維基百科作為范例,指出其未來可能的發(fā)展趨勢。最后,作者提到由于云計算和集體智慧的出現(xiàn),網(wǎng)絡(luò)合作范式將成為未來語料庫語言學(xué)研究的常規(guī)模式。
《網(wǎng)絡(luò)語料庫:理論與實踐》既涉及語料庫語言學(xué)的一般概念和原則,也將傳統(tǒng)的概念和方法與新一代網(wǎng)絡(luò)2.0 出現(xiàn)之后的語料庫研究現(xiàn)狀聯(lián)系起來。本書通過具體直觀的案例向語言學(xué)習(xí)者、教師和研究人員展現(xiàn)了如何使用網(wǎng)絡(luò)提供的巨大語言資源,同時也探討了目前網(wǎng)絡(luò)作為語料庫這一研究領(lǐng)域的不成熟和不完善,在對于這些問題做了比較客觀的評價同時,也指出未來網(wǎng)絡(luò)作為語料庫在語料庫語言學(xué)研究領(lǐng)域的發(fā)展趨勢。除此之外,書本每個章節(jié)后附有啟發(fā)性的研究問題以及擴展閱讀,可以為希望深入研究該論題的學(xué)者提供更多的背景和學(xué)術(shù)資源。整體來說,此書將會引發(fā)讀者對網(wǎng)絡(luò)在語料庫語言學(xué)中的地位進行重新審視,并且對語料庫語言學(xué)的研究產(chǎn)生新的認(rèn)識。
[1]Leech,G.New resources or just better old ones?The Holy Grail of Representativeness[M].in M.Hundt et al.(eds),2007.
[2]McEnery,Tony and Andrew Wilson.Corpus Linguistics[M].Edinburgh University Press,1996.
[3]Maristella Gatto.Web As Corpus:Theory and Practice[M].Bloomsbury Academic,2014.