• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      許家金談?wù)Z料庫(kù)語(yǔ)言學(xué)的本體與方法*

      2014-03-11 09:04:00北京外國(guó)語(yǔ)大學(xué)許家金
      關(guān)鍵詞:語(yǔ)言學(xué)語(yǔ)料庫(kù)短語(yǔ)

      北京外國(guó)語(yǔ)大學(xué) 許家金

      許家金談?wù)Z料庫(kù)語(yǔ)言學(xué)的本體與方法*

      北京外國(guó)語(yǔ)大學(xué) 許家金

      1.你怎么看語(yǔ)料庫(kù)研究對(duì)語(yǔ)言學(xué)的貢獻(xiàn)和意義?

      基于電子語(yǔ)料庫(kù)開(kāi)展研究,在我國(guó)歷史不長(zhǎng),若以人作比,不過(guò)剛過(guò)而立。而如今語(yǔ)言學(xué)天地里,語(yǔ)料庫(kù)研究的學(xué)科身份,已日漸清晰、穩(wěn)固。究其原因,語(yǔ)料庫(kù)語(yǔ)言學(xué)理念符合人們據(jù)實(shí)論理的經(jīng)驗(yàn)思維。只是過(guò)去囿于技術(shù),人們無(wú)法考察海量語(yǔ)言事實(shí)罷了。

      語(yǔ)料庫(kù)研究之于語(yǔ)言學(xué),至少有4個(gè)方面的意義。我們不妨概括為:用、量、聚、器。

      1)“用”的意思是尊重語(yǔ)言事實(shí)、關(guān)注用法。用法是語(yǔ)法的源泉。過(guò)去的用法是今天的語(yǔ)法,今天的用法是明天的語(yǔ)法(Bolinger 1980:30;Newmeyer 2003;Bybee 2005,2006;Meyer & Tao 2005)。Wittgenstein(2009:86)更是明確指出意義不在別處,而在使用中。

      2)“量”的含義,一方面指語(yǔ)法是語(yǔ)言實(shí)踐長(zhǎng)期頻繁互動(dòng)的結(jié)果??梢哉f(shuō),重復(fù)是人們言語(yǔ)交際的主旋律。老子所說(shuō)的“萬(wàn)物并作,吾以觀復(fù)”也有這層意思。語(yǔ)法化觀點(diǎn)也認(rèn)為,語(yǔ)言形式在經(jīng)年累月的重復(fù)使用中,會(huì)出現(xiàn)實(shí)詞虛化、音節(jié)簡(jiǎn)并等變化。這是上文有關(guān)尊重用法的繼續(xù)。另一方面,“量”的含義是指,鑒于言語(yǔ)交際中重復(fù)是主導(dǎo)性的,則可以利用量化和概率統(tǒng)計(jì)手段來(lái)描?。ㄈ缑枋鼋y(tǒng)計(jì))、驗(yàn)證(如顯著性差異檢驗(yàn))、探索(如回歸分析、因子分析)語(yǔ)言事實(shí),這是語(yǔ)料庫(kù)研究題中應(yīng)有之義。換言之,語(yǔ)料庫(kù)語(yǔ)言學(xué)視角下的語(yǔ)言事實(shí)是概率性的(probabilistic)(參閱Halliday 1991)。語(yǔ)料庫(kù)研究觀察和解釋的是,多大概率人們會(huì)使用某一語(yǔ)言事實(shí),而不是斷言式地判定,某種說(shuō)法合法不合法。語(yǔ)料庫(kù)研究的“用”“量”觀,本質(zhì)上是描寫(xiě)語(yǔ)言學(xué)的立場(chǎng);而“聚”和“器”這兩項(xiàng)特征,觀照的是如何去考察語(yǔ)言使用,用什么樣的技術(shù)手段去觀察人力所不能及的大量語(yǔ)言事實(shí)。

      3)“聚”試圖揭示語(yǔ)言成分的聚集共現(xiàn)機(jī)制。使用中的語(yǔ)言在很大程度上是線性的。語(yǔ)素和語(yǔ)素、詞語(yǔ)和詞語(yǔ)、語(yǔ)句和語(yǔ)句、篇章和篇章之間一定有某種看不見(jiàn)的力量,使它們有效地聚合到一起,從而傳情達(dá)意。這方面的研究,“擴(kuò)展意義單位模型”(extended unit of meaning model,Sinclair 2004)可以較好闡釋詞匯短語(yǔ)聚集達(dá)意的機(jī)制。而類似于Biber(1988)提出的“多特征多維度分析模型”(multi-feature multi-dimensional analysis)將大量語(yǔ)言特征(少則五六十,多則上百)在不同功能維度(如,信息與互動(dòng)維度、抽象概括與精細(xì)闡述維度)的聚集情況,可以量化方式分析出語(yǔ)體間的聚集或排斥,這是一種宏觀層面的語(yǔ)言特征的聚集共現(xiàn)現(xiàn)象。

      4)“器”與“工欲善其事,必先利其器”中的“器”同義。語(yǔ)料庫(kù)語(yǔ)言學(xué)為研究語(yǔ)言事實(shí)的概率特征,提供了強(qiáng)大的工具箱。其中的各種工具可以對(duì)特定語(yǔ)言現(xiàn)象的用法、用量和聚集情況進(jìn)行自動(dòng)或半自動(dòng)的分析。計(jì)算機(jī)應(yīng)用于大規(guī)模語(yǔ)料的量化分析給語(yǔ)言研究帶來(lái)的變化,就好比人類對(duì)星空的探索——從肉眼到光學(xué)望遠(yuǎn)鏡,再到射電望遠(yuǎn)鏡——所帶來(lái)的變化。“聚”和“器”對(duì)語(yǔ)言學(xué)的貢獻(xiàn),既有技術(shù)帶來(lái)的變革,也有對(duì)語(yǔ)言內(nèi)在機(jī)制重新認(rèn)識(shí)引發(fā)的變革。

      2.你如何描述語(yǔ)料庫(kù)研究的本體論與方法論及其關(guān)系?

      1)語(yǔ)言描寫(xiě)的短語(yǔ)學(xué)本體及方法

      語(yǔ)料庫(kù)語(yǔ)言學(xué),作為語(yǔ)言學(xué)內(nèi)部的新生研究領(lǐng)域,其本體理應(yīng)立足于語(yǔ)言結(jié)構(gòu)、意義、功能及其機(jī)制的探究。一言以蔽之,語(yǔ)料庫(kù)語(yǔ)言學(xué)的本體在于語(yǔ)言描寫(xiě),是典型的實(shí)證語(yǔ)言學(xué)(empirical linguistics)。坐擁大量語(yǔ)言素材,掌握“語(yǔ)言望遠(yuǎn)鏡”這樣的技術(shù)手段,可以鳥(niǎo)瞰語(yǔ)言的宏觀面貌。這樣的新型語(yǔ)言描寫(xiě),可謂“計(jì)算機(jī)時(shí)代的田野調(diào)查”(許家金 2011)。語(yǔ)料庫(kù)語(yǔ)言學(xué)發(fā)展至今,另一本體關(guān)切是對(duì)意義的追尋。意義研究是個(gè)宏大的議題,是許多學(xué)科的研究焦點(diǎn)。即便在語(yǔ)言學(xué)范疇內(nèi),意義依然是復(fù)雜、精密、難以琢磨的。倫敦學(xué)派創(chuàng)始人J.R.Firth在1951年的論文“意義的多種建構(gòu)模式”(Modes of meaning)中將語(yǔ)義概括為“意義譜段”(the spectrum of meaning)(Firth 1951/1957:203)。其中包含高層級(jí)的意義建構(gòu)模式(如語(yǔ)言使用者的身份特性和文化語(yǔ)境),以及低層級(jí)的意義建構(gòu)模式(包括語(yǔ)音、音系、詞匯、語(yǔ)法等層級(jí))。Firth及后繼者用力較勤的是對(duì)低層級(jí)的韻律意義和詞匯意義的探究,其中最為專注的是詞匯意義方面的探索。對(duì)意義研究方法論,F(xiàn)irth(1951/1957:194)提出一個(gè)專門(mén)術(shù)語(yǔ)——“搭配識(shí)義”(meaning by collocation),并借助大量詩(shī)歌、名人通信闡釋其意義研究理念。

      此后,Halliday(1961:276,1966:158)和Sinclair(1966)、Sinclairet al.(2004)將搭配識(shí)義這一語(yǔ)義研究方法加以發(fā)展,并運(yùn)用統(tǒng)計(jì)算法,從大量語(yǔ)料中挖掘語(yǔ)言使用中慣常搭配形式,從而確定特定詞義或短語(yǔ)義。這些成果被成功應(yīng)用于改造詞典編纂,并引發(fā)了該領(lǐng)域的變革。在搭配識(shí)義理念之上,Sinclair提出“擴(kuò)展意義單位模型”。這一模型兼顧詞匯和語(yǔ)法,外加語(yǔ)義和語(yǔ)用,將單詞意義擴(kuò)展并鎖定在短語(yǔ)意義之上。這一開(kāi)創(chuàng)性理論框架突破了“句法本位”的語(yǔ)言學(xué)主流,也超越了“詞匯本位”的靜態(tài)語(yǔ)言觀。擴(kuò)展意義單位的分析方法,明確地與既有語(yǔ)言學(xué)理論保持距離,不用(或最低限度使用)已有概念和理論,形成了以短語(yǔ)為核心的語(yǔ)言觀(見(jiàn)Sinclair 2004)。以擴(kuò)展意義單位模型為方法論的短語(yǔ)學(xué)語(yǔ)言本體研究,是語(yǔ)料庫(kù)研究領(lǐng)域具有原創(chuàng)意義的方法論和本體論的綜合體。

      誠(chéng)然,擴(kuò)展意義單位模型和短語(yǔ)學(xué)已自成體系,成果可觀,但在語(yǔ)言學(xué)核心領(lǐng)域并未引起關(guān)注。認(rèn)知語(yǔ)言學(xué)中的構(gòu)式語(yǔ)法與短語(yǔ)學(xué)理念相近,但構(gòu)式語(yǔ)法并非借鑒短語(yǔ)學(xué),兩者各自為政,未見(jiàn)有融通的跡象,或許仍需假以時(shí)日,或許因?yàn)椤岸陶Z(yǔ)本位”語(yǔ)言觀太過(guò)前衛(wèi),試圖摒棄既有的語(yǔ)法范疇。客觀來(lái)看,短語(yǔ)學(xué)視角的語(yǔ)言描寫(xiě)及應(yīng)用,優(yōu)勢(shì)和局限并存,優(yōu)勢(shì)前文已有闡釋,其局限有如下幾點(diǎn)。

      第一,短語(yǔ)不是語(yǔ)言的全部。短語(yǔ)學(xué)忽視了真實(shí)語(yǔ)言中存在大量孤零不靠的單詞。Sinclair(2008)宣稱語(yǔ)言中“除卻短語(yǔ),別無(wú)他物”(The phrase, the whole phrase, and nothing but the phrase1),這種說(shuō)法過(guò)于絕對(duì)。短語(yǔ)在語(yǔ)言描寫(xiě)中地位重要,但除此之外,還有一些與短語(yǔ)配合使用的單用詞語(yǔ)。比如,一些表達(dá)起承轉(zhuǎn)合關(guān)系的連接詞(如and、so、however)、評(píng)注性附加語(yǔ)(如用在句首后接逗號(hào)的frankly、hopefully)、口語(yǔ)中的語(yǔ)氣詞(如yeah、Jesus、well、like),話語(yǔ)中單用的小標(biāo)題(如學(xué)術(shù)論文中的introduction、results、conclusion等)等。如果說(shuō)短語(yǔ)是磚塊,這些單用詞語(yǔ)就是泥漿,兩者相輔相成。Sinclair & Mauranen(2006:55-62)將上述單用詞語(yǔ)也劃歸為“組織型詞塊”(organisation chunks),并細(xì)分為信息片段(MF,message fragments),不完整信息片段(M-,incomplete message segments)等。單詞則為單詞,短語(yǔ)則為短語(yǔ)。這種將單用詞語(yǔ)也視為詞塊的做法有些削足適履。短語(yǔ)學(xué)目前在技術(shù)上難以解決短語(yǔ)切分的邊界問(wèn)題,也正是對(duì)語(yǔ)言構(gòu)成認(rèn)識(shí)不清造成的。短語(yǔ)邊界的困局,還是習(xí)語(yǔ)原則和開(kāi)放選擇原則的互動(dòng)所致。模糊的短語(yǔ)邊界,恰是開(kāi)放選擇原則發(fā)揮作用之處。目前短語(yǔ)學(xué)更注重習(xí)語(yǔ)原則,關(guān)注線性語(yǔ)言單位的組合關(guān)系,忽視在一定語(yǔ)法位置上詞匯語(yǔ)義和形態(tài)句法的聚合關(guān)系,因此“Sinclair的理論在實(shí)際應(yīng)用中并非沒(méi)有問(wèn)題”(Hunston 2002:147),在某些情況下完全不起作用,或作用甚微(同上:145)。Hunston & Francis(2000)提出“型式語(yǔ)法”(Pattern Grammar以及“型式語(yǔ)流”(pattern flow)或“搭配疊泉”(collocational cascade,由Gledhill提出)這些概念,對(duì)于整合詞匯語(yǔ)法,習(xí)語(yǔ)原則和開(kāi)放選擇原則,以及解決短語(yǔ)邊界問(wèn)題(參見(jiàn)Hunston 2002:146-148),提供了一些思路。然而,一種語(yǔ)言觀若獨(dú)尊短語(yǔ),則必定行而不遠(yuǎn)。

      第二,短語(yǔ)學(xué)對(duì)于更大的語(yǔ)言單位(傳統(tǒng)意義上的小句、句子、語(yǔ)篇2)的意義建構(gòu)解釋力有限。英國(guó)語(yǔ)言學(xué)有注重完整語(yǔ)篇的傳統(tǒng)。Stubbs(1993:11)和Sinclair(1991:19)都主張“語(yǔ)言研究的單位需要是完整語(yǔ)篇”。他們認(rèn)為完整語(yǔ)篇優(yōu)于由樣本構(gòu)成的語(yǔ)料庫(kù),完整語(yǔ)篇可以促成我們開(kāi)發(fā)更廣泛的語(yǔ)言學(xué)研究選題。然而,McEnery & Hardie(2012:153)指出,盡管Sinclair、Stubbs等人如此主張,但在實(shí)際操作層面,絕大多數(shù)情況下他們都只專注于局部語(yǔ)境,即中心詞左右各5個(gè)詞的索引行,完整語(yǔ)篇極少得到真正的分析和利用。短語(yǔ)學(xué)研究者也談?wù)Z篇功能,嚴(yán)格來(lái)講,他們談的是語(yǔ)用功能。語(yǔ)篇概念在形式和結(jié)構(gòu)上是“超句”單位。如果僅僅基于索引行這樣的局部語(yǔ)境來(lái)談?wù)Z篇功能,恐怕更多屬于研究者根據(jù)直覺(jué)和語(yǔ)感補(bǔ)足的語(yǔ)境。Sinclair本人是十分注重語(yǔ)篇研究的,比如他對(duì)課堂話語(yǔ)的研究(Sinclair & Coulthard 1975);《篤信文本》(Trust the Text)一書(shū)接近一半的篇幅也是有關(guān)篇章組織結(jié)構(gòu)的;《線性單位語(yǔ)法》(Linear Unit Grammar)也十分注重將口語(yǔ)和書(shū)面語(yǔ)的語(yǔ)篇同短語(yǔ)研究銜接起來(lái)。目前來(lái)看,詞匯語(yǔ)法體系對(duì)接已在短語(yǔ)層面完成,但短語(yǔ)與語(yǔ)篇的對(duì)接還缺少完善的機(jī)制(參閱Hoey 2005)。

      第三,不太關(guān)注詞匯短語(yǔ)之外的意義。對(duì)于詞匯語(yǔ)義趨向和積極消極語(yǔ)義色彩之外紛繁復(fù)雜的意義、功能等(如言語(yǔ)行為、話語(yǔ)互動(dòng)功能、邏輯語(yǔ)義、非命題的語(yǔ)用意義等)并不涉及或涉及很少。前文提到的高層級(jí)社會(huì)文化意義的建構(gòu),短語(yǔ)學(xué)更是力有不逮。

      第四,效率問(wèn)題。從詞語(yǔ)出發(fā),將最小意義單位定位于短語(yǔ),細(xì)致有余,抽象不足。從語(yǔ)言描寫(xiě)和語(yǔ)言習(xí)得效率兩方面看,每個(gè)語(yǔ)言點(diǎn)都從詞語(yǔ)入手,其結(jié)果很可能是產(chǎn)生數(shù)萬(wàn)條短語(yǔ)型式,這顯然有違經(jīng)濟(jì)性原則?;蛟S短語(yǔ)學(xué)的最佳用武之地是詞典編纂和詞匯研究與教學(xué)。詞典是工具書(shū),縱使篇幅一兩千頁(yè),收詞過(guò)萬(wàn),無(wú)可厚非。目前,在詞典編纂(Sinclair 1987a,1987b)和詞匯教學(xué)中,例如,詞匯大綱(Willis 1990;Lewis 1993;楊惠中、黃人杰 1982;肖忠華、許家金2008;許家金2009)、通用學(xué)術(shù)短語(yǔ)表(Simpson-Vlach & Ellis 2010)、通用學(xué)術(shù)搭配表(Ackermann & Chen 2013)等,都有很多成熟的應(yīng)用實(shí)例。

      2)語(yǔ)言描寫(xiě)的話語(yǔ)語(yǔ)用本體及方法

      如果意義研究是語(yǔ)料庫(kù)研究的核心任務(wù)的話,語(yǔ)音、詞匯、短語(yǔ)、句法這些低層級(jí)意義建構(gòu)維度中,擴(kuò)展意義單位模型對(duì)詞匯短語(yǔ)層面確有充分描述,但語(yǔ)音、句法和高層級(jí)的語(yǔ)篇、社會(huì)語(yǔ)言學(xué)層面涉及不多,這些方面仍大有可為。這其中,Biber(1988)的“多特征多維度分析模型”在基于語(yǔ)料庫(kù)的語(yǔ)篇研究方面作出了突出的成績(jī)。而在更高層級(jí)的社會(huì)文化意義建構(gòu)方面,國(guó)際范圍內(nèi)基于語(yǔ)料庫(kù)的批評(píng)話語(yǔ)分析(critical discourse analysis)開(kāi)展得如火如荼。語(yǔ)料庫(kù)與話語(yǔ)分析具有天然的兼容性。它們?cè)趯?duì)語(yǔ)言本體的認(rèn)識(shí)方面,都關(guān)注真實(shí)使用中的語(yǔ)言,都關(guān)注連句成篇的較大語(yǔ)言單位,在研究方法上都特別關(guān)注上下文語(yǔ)境和社會(huì)文化、歷史、政治語(yǔ)境對(duì)文本意義的解讀。可以說(shuō)語(yǔ)料庫(kù)研究與話語(yǔ)研究都稱得上是語(yǔ)言本體與方法論的無(wú)縫對(duì)接。翻開(kāi)語(yǔ)料庫(kù)研究期刊和專著,能發(fā)現(xiàn)大量借助語(yǔ)料庫(kù)方法的性別語(yǔ)言、熱點(diǎn)事件(恐怖事件、伊斯蘭形象、國(guó)家形象、氣候變暖現(xiàn)象、戰(zhàn)爭(zhēng)報(bào)道等)等方面的研究。這些高層級(jí)的意義建構(gòu)研究,所涉及的意義主要潛藏于文本之中的社會(huì)、政治、文化、歷史意義,在文獻(xiàn)中更多使用的是“意識(shí)形態(tài)”(ideology)這一表述。

      3.相對(duì)于其他語(yǔ)言學(xué)領(lǐng)域,語(yǔ)料庫(kù)研究的方法論特色是什么?

      就影響而論,語(yǔ)料庫(kù)研究的方法論波及更遠(yuǎn)。語(yǔ)料庫(kù)研究方法廣泛應(yīng)用于詞匯、語(yǔ)法、話語(yǔ)層面的語(yǔ)言描寫(xiě),在語(yǔ)言習(xí)得、社會(huì)語(yǔ)言學(xué)、語(yǔ)用學(xué)、話語(yǔ)分析、翻譯研究領(lǐng)域多有采用。再以話語(yǔ)分析領(lǐng)域?yàn)槔?,學(xué)術(shù)話語(yǔ)、法律話語(yǔ)、媒體話語(yǔ)、日??陬^會(huì)話、學(xué)習(xí)者話語(yǔ)、文學(xué)作品、網(wǎng)絡(luò)體裁都廣泛借助語(yǔ)料庫(kù)開(kāi)展研究。

      語(yǔ)料庫(kù)研究方法的首要特色在于量化。超常規(guī)模的語(yǔ)料量,使得研究者可以縱橫數(shù)百年(如布朗家族語(yǔ)料庫(kù)、COHA語(yǔ)料庫(kù)和赫爾辛基語(yǔ)料庫(kù)等歷時(shí)語(yǔ)料庫(kù)),跨越幾大洲(比如ICE中近20個(gè)英語(yǔ)變體的對(duì)比研究),團(tuán)結(jié)巴別塔的后人(如歐盟二十多種語(yǔ)言構(gòu)成的多語(yǔ)平行語(yǔ)料庫(kù))。如今百億字詞的語(yǔ)料庫(kù)(如“北京語(yǔ)言大學(xué)漢語(yǔ)語(yǔ)料庫(kù)”)已然問(wèn)世。隨著人們?nèi)粘I钆c(移動(dòng))互聯(lián)網(wǎng)越來(lái)越不可分離,基于整個(gè)互聯(lián)網(wǎng)進(jìn)行語(yǔ)言分析變得離我們?cè)絹?lái)越近。事實(shí)上已經(jīng)有一些此類成果,如Renouf主持創(chuàng)建的WebCorp檢索平臺(tái),以及Kilgarriff為代表的“網(wǎng)絡(luò)語(yǔ)料庫(kù)”(Web as Corpus)的第四代語(yǔ)料庫(kù)的相關(guān)研究及實(shí)踐,參閱許家金、吳良平(2014)。

      新工具的運(yùn)用,使得縱橫、跨越、團(tuán)結(jié)成為可能。這恐怕是再長(zhǎng)壽、再博學(xué)的語(yǔ)言學(xué)者,憑個(gè)人語(yǔ)感,所不能企及的。新工具可以同時(shí)觀察到成千上萬(wàn)的語(yǔ)言實(shí)例,據(jù)此概括出來(lái)的語(yǔ)言規(guī)律是有可能提升我們對(duì)語(yǔ)言的認(rèn)識(shí)的。這即Sinclair (1991:100)所謂“若是同時(shí)觀察很多語(yǔ)例的話,語(yǔ)言看上去會(huì)迥然不同”(The language looks rather different when you look at a lot of it at once)。

      4.統(tǒng)計(jì)分析手段在語(yǔ)料庫(kù)研究中的地位與作用如何?

      頻數(shù)統(tǒng)計(jì)是語(yǔ)料庫(kù)統(tǒng)計(jì)的基本方式。通過(guò)語(yǔ)料庫(kù)查詢工具可以窮盡式地列舉出語(yǔ)料庫(kù)中所有的詞匯、短語(yǔ)、詞類、特定句法結(jié)構(gòu)等,或者根據(jù)需要精確搜查某些(類)詞匯或語(yǔ)言單位。一般在列舉出語(yǔ)言結(jié)構(gòu)的同時(shí),語(yǔ)料庫(kù)軟件都會(huì)給出相應(yīng)的出現(xiàn)頻次。

      對(duì)兩個(gè)或多個(gè)語(yǔ)言特征共現(xiàn)頻率(co-frequency),特別是對(duì)詞語(yǔ)搭配的統(tǒng)計(jì)分析在語(yǔ)料庫(kù)研究中十分常見(jiàn)。近幾十年來(lái),伴隨著短語(yǔ)學(xué)的發(fā)展,有關(guān)搭配統(tǒng)計(jì)的算法不下幾十種,互信息、對(duì)數(shù)似然率、dice系數(shù)、Δp等算法層出不窮。搭配強(qiáng)度算法是在上述單個(gè)語(yǔ)言單位頻數(shù)統(tǒng)計(jì)基礎(chǔ)上進(jìn)行的,通常是分別得到單詞A和單詞B的使用頻數(shù),然后檢索A和B共同出現(xiàn)的頻數(shù),再綜合考慮語(yǔ)料庫(kù)容量等因素,從而計(jì)算出A、B兩個(gè)詞經(jīng)常在一起出現(xiàn)的概率。

      語(yǔ)料庫(kù)研究中,為了進(jìn)行對(duì)比分析(比如,英國(guó)英語(yǔ)和美國(guó)英語(yǔ)、口語(yǔ)和書(shū)面語(yǔ)、英語(yǔ)和漢語(yǔ)、中國(guó)人寫(xiě)的英文與本族語(yǔ)者的英文、男性和女性的語(yǔ)言、不同時(shí)代的語(yǔ)言等),需要將某個(gè)(些)語(yǔ)言現(xiàn)象在兩類文本中出現(xiàn)的頻數(shù)分別檢索出,然后進(jìn)行統(tǒng)計(jì)檢驗(yàn),以判別兩項(xiàng)(類)頻數(shù)是否存在顯著性差異。較為常見(jiàn)的統(tǒng)計(jì)方法是卡方檢驗(yàn)、對(duì)數(shù)似然率、費(fèi)舍爾精確檢驗(yàn)等。遇到較多文本類型,多變量情況下的頻數(shù)差異對(duì)比,還會(huì)用到更高級(jí)的統(tǒng)計(jì)方法。如今,有越來(lái)越多的高級(jí)統(tǒng)計(jì)方法被引入語(yǔ)料庫(kù)研究中。其中主要是針對(duì)多項(xiàng)語(yǔ)言特征多個(gè)分析維度的降維方法。例如,因子分析以及與之相關(guān)的多特征多維度分析、聚類分析、層級(jí)配置頻次分析(HCFA,hierarchical configural frequency analysis)等。

      當(dāng)然,還有一些源于自然語(yǔ)言處理領(lǐng)域的統(tǒng)計(jì)方法,比如文本分類(text classification)領(lǐng)域所適用的文本特征相似度的統(tǒng)計(jì)方法,如詞頻*倒排文本頻率法(TF*IDF,term frequency * inverse document frequency)、向量空間模型(VSM,vector space model)等。

      如前所述,語(yǔ)料庫(kù)研究中所用統(tǒng)計(jì)方法基本都是頻數(shù)統(tǒng)計(jì)。然而,常常也可見(jiàn)到語(yǔ)料庫(kù)方法應(yīng)用于二語(yǔ)習(xí)得等方面的研究案例。這些情況下,T檢驗(yàn)、方差分析、回歸分析等也同樣適用語(yǔ)料庫(kù)研究(參閱Oakes 1998;Gries 2009)。

      需要強(qiáng)調(diào)的是,統(tǒng)計(jì)分析不是語(yǔ)料庫(kù)研究的全部。概率統(tǒng)計(jì)是針對(duì)大規(guī)模語(yǔ)料進(jìn)行語(yǔ)言描寫(xiě)的手段。對(duì)于統(tǒng)計(jì)得到的規(guī)律性現(xiàn)象,需要從前文所談的各個(gè)意義層級(jí)或借助其他領(lǐng)域的理論加以闡釋,才是完整的語(yǔ)料庫(kù)研究。

      5.語(yǔ)料庫(kù)研究如何做到與相關(guān)學(xué)科的借鑒融通?

      不難發(fā)現(xiàn),如今語(yǔ)料庫(kù)研究越來(lái)越以跨學(xué)科面貌示人。除了Corpora、Corpus Linguistics and Linguistic Theory、ICAME Journal、International Journal of Corpus Linguistics、International Journal of Learner Corpus Research、《語(yǔ)料庫(kù)語(yǔ)言學(xué)》等語(yǔ)料庫(kù)專業(yè)期刊外,現(xiàn)在很多(應(yīng)用)語(yǔ)言學(xué)期刊都登載語(yǔ)料庫(kù)研究論文。語(yǔ)料庫(kù)研究因其關(guān)注語(yǔ)言事實(shí),采用量化分析方法,那些認(rèn)同“用法觀”(usagebased approach)和實(shí)證方法的領(lǐng)域(比如,社會(huì)語(yǔ)言學(xué)、功能語(yǔ)言學(xué)、話語(yǔ)分析、語(yǔ)用學(xué)、二語(yǔ)習(xí)得),借鑒語(yǔ)料庫(kù)方法,順理成章。對(duì)于其他一些領(lǐng)域(比如,認(rèn)知語(yǔ)言學(xué)、心理語(yǔ)言學(xué)),其研究基本取向與語(yǔ)料庫(kù)研究相異,但近年來(lái)也常見(jiàn)有利用語(yǔ)料庫(kù)數(shù)據(jù)和方法開(kāi)展研究的。就認(rèn)知語(yǔ)言學(xué)而言,其中一部分學(xué)者堅(jiān)持用法觀,認(rèn)為語(yǔ)言的概念表征有體驗(yàn)基礎(chǔ),是人們長(zhǎng)期接觸語(yǔ)言輸入形成并固化(entrenchment)而來(lái)的。某種意義上,語(yǔ)料庫(kù)方法的引入給認(rèn)知語(yǔ)言學(xué)帶來(lái)了新的研究方法和思路(參閱Tomasello 2005;Gries & Stefanowitsch 2006;Stefanowitsch & Gries 2006;Glynn & Fischer 2010;Taylor 2012)。而在語(yǔ)言習(xí)得領(lǐng)域,不少學(xué)者(以Nick Ellis等為代表),兼容并包,綜合考察語(yǔ)言習(xí)得中的心理表征和輸入(產(chǎn)出)數(shù)據(jù),試圖了解心理語(yǔ)言學(xué)數(shù)據(jù)與語(yǔ)料庫(kù)語(yǔ)言學(xué)數(shù)據(jù)能否互證。這也是對(duì)二語(yǔ)習(xí)得領(lǐng)域長(zhǎng)期以來(lái)有關(guān)認(rèn)知觀和社會(huì)文化觀之爭(zhēng)的積極回應(yīng)。語(yǔ)言習(xí)得過(guò)程本應(yīng)是社會(huì)和認(rèn)知兩相互動(dòng)的結(jié)果。

      另外,語(yǔ)料庫(kù)研究與自然語(yǔ)言處理和計(jì)算語(yǔ)言學(xué)之間的對(duì)接是天然的。目前語(yǔ)料庫(kù)研究中很多技術(shù)手段,本來(lái)就源于自然語(yǔ)言處理領(lǐng)域的成果,例如詞性標(biāo)注和自動(dòng)句法分析。如果能將命名實(shí)體識(shí)別、知識(shí)本體、情感分析等方面研究也充分引入語(yǔ)料庫(kù)研究,將會(huì)大大推進(jìn)語(yǔ)料庫(kù)研究的發(fā)展。如今大數(shù)據(jù)十分熱門(mén),試想如果基于互聯(lián)網(wǎng)用戶的地理信息、個(gè)人身份數(shù)據(jù)(性別、職業(yè)、年齡、收入水平等)、網(wǎng)絡(luò)行為數(shù)據(jù),結(jié)合到微觀語(yǔ)言特征的分析之中,這在很大程度上可以將高層級(jí)的意義建構(gòu)也納入到語(yǔ)料庫(kù)研究的框架中來(lái)。

      在國(guó)際上,已有學(xué)者將語(yǔ)料庫(kù)研究運(yùn)用于歷史、政治、心理學(xué)、社會(huì)學(xué)、醫(yī)學(xué)、傳播學(xué)等社會(huì)科學(xué)各個(gè)領(lǐng)域。這方面國(guó)內(nèi)學(xué)者顯得學(xué)科壁壘意識(shí)過(guò)強(qiáng),缺少真正的跨學(xué)科思維。殊不知,跨學(xué)科結(jié)合處正是新知識(shí)的萌發(fā)處。不論哪個(gè)學(xué)科,但凡研究中涉及文本或話語(yǔ),都有構(gòu)建語(yǔ)料庫(kù),開(kāi)展語(yǔ)料庫(kù)研究的潛力。而量化分析、文本意義及社會(huì)文化的解讀,可以為解決其他學(xué)科的一些研究問(wèn)題另辟蹊徑。這與學(xué)術(shù)界所謂“話語(yǔ)轉(zhuǎn)向”也有內(nèi)在關(guān)聯(lián)性。

      最后,尺短寸長(zhǎng),語(yǔ)料庫(kù)研究者需要認(rèn)識(shí)到語(yǔ)料庫(kù)顯然不是無(wú)所不能的。首先,目前看語(yǔ)料庫(kù)比較擅長(zhǎng)在詞匯和短語(yǔ)層面進(jìn)行語(yǔ)言描寫(xiě),如果將整個(gè)語(yǔ)言描寫(xiě)和語(yǔ)言學(xué)理論建構(gòu)僅限于此,將無(wú)法得到語(yǔ)言的全貌。另外,語(yǔ)言使用中不出現(xiàn)(如省略、回避使用),或缺少明確的形式標(biāo)記(如隱喻、情感態(tài)度、言語(yǔ)行為)的語(yǔ)言現(xiàn)象,并非語(yǔ)料庫(kù)所長(zhǎng)。再者,語(yǔ)料庫(kù)語(yǔ)言學(xué)適合分析重復(fù)出現(xiàn)的語(yǔ)言現(xiàn)象。然而,按照語(yǔ)料庫(kù)頻率統(tǒng)計(jì),出現(xiàn)一兩次的語(yǔ)言現(xiàn)象其總和在語(yǔ)料庫(kù)中的比重常常達(dá)50%左右。這些低頻的語(yǔ)言現(xiàn)象是語(yǔ)言中“沉默的大多數(shù)”。語(yǔ)料庫(kù)研究所著眼的是高頻語(yǔ)言現(xiàn)象,適合揭示概率上具有規(guī)律性的常見(jiàn)語(yǔ)言特征,可以將不擅長(zhǎng)的工作交由其他學(xué)科去完成,或者與其他相關(guān)學(xué)科協(xié)同完成。

      注釋

      1.Sinclair這一說(shuō)法是The truth, the whole truth, and nothing but the truth的戲仿。這句話具有法律和宗教雙重含義。在英美等國(guó),證人法庭作證前,需左手置于《圣經(jīng)》之上,舉起右手,跟著法官宣誓I do solemnly swear that I will tell the truth,the whole truth, and nothing but the truth, so help you God(美國(guó)法庭宣誓詞)。Truth是多義詞,至少有事實(shí)真相和真理兩層含義。Sinclair戲仿這句話時(shí),似乎想表達(dá)短語(yǔ)在語(yǔ)言描寫(xiě)中具有獨(dú)一無(wú)二以及至高無(wú)上的地位。

      2.本文涉及discourse這一術(shù)語(yǔ)的中文表述時(shí),使用“語(yǔ)篇”時(shí)更強(qiáng)調(diào)其作為結(jié)構(gòu)單位的性質(zhì),使用“話語(yǔ)”則更突出其社會(huì)文化屬性。

      Ackermann, K.& Y.Chen.2013.Developing the Academic Collocation List (ACL) – A corpusdriven and expert-judged approach [J].Journal of English for Academic Purposes12(4): 235-247.

      Biber, D.1988.Variation across Speech and Writing[M].Cambridge: CUP.

      Bolinger, D.1980.Language–The Loaded Weapon: The Use and Abuse of Language Today[M].London: Longman.

      Bybee, J.2005.The impact of use on representation: Grammar is usage and usage is grammar [R].The presidential address presented at the annual meeting of the Linguistic Society of America in Oakland, California on January 8, 2005.

      Bybee, J.2006.From usage to grammar: The mind’s response to repetition [J].Language82(4): 711-733.

      Firth, J.1951/1957.Modes of meaning [A].In J.Firth (ed.).1957.Papers in Linguistics[C].London: OUP.190-215.

      Glynn, D.& K.Fischer (eds.).2010.Quantitative Methods in Cognitive Semantics: Corpus-Driven Approaches[C].Berlin: Walter de Gruyter.

      Gries, S.& A.Stefanowitsch (eds.).2006.Corpora in Cognitive Linguistics[C].Berlin: Mouton de Gruyter.

      Gries, S.2009.Quantitative Corpus Linguistics with R: A Practical Introduction[M].New York: Routledge.

      Halliday, M.1961.Categories of the theory of grammar [J].Word17(3): 241-292.

      Halliday, M.1966.Lexis as a linguistic level [A].In C.Bazell, J.Catford, M.Halliday & R.Robins (eds.).In Memory of J.R.Firth[C].London: Longmans, Green and Co., Ltd.148-162.

      Halliday, M.1991.Corpus studies and probabilistic grammar [A].In K.Aijmer & B.Altenberg (eds.).English Corpus Linguistics[C].London: Longman.30-43.

      Hoey, M.2005.Lexical Priming[M].London: Routledge.

      Hunston, S.2002.Corpora in Applied Linguistics[M].Cambridge: CUP.

      Hunston, S.& G.Francis.2000.Pattern Grammar: A Corpus-driven Approach to the Lexical Grammar of English[M].Amsterdam: John Benjamins.

      Lewis, M.1993.The Lexical Approach: The State of ELT and a Way Forward[M].London: Language Teaching Publications.

      McEnery, T.& A.Hardie.2012.Corpus Linguistics: Method, Theory and Practice[M].Cambridge: CUP.

      Meyer, C.& H.Tao.2005.Response to Newmeyer’s ‘Grammar is grammar and usage is usage’[J].Language81(1): 226-228.

      Newmeyer, F.2003.Grammar is grammar and usage is usage [J].Language79(4): 682-707.

      Oakes, M.1998.Statistics for Corpus Linguistics[M].Edinburgh: Edinburgh University Press.

      Simpson-Vlach, R.& N.Ellis.2010.An academic formulas list: New methods in phraseology research [J].Applied Linguistics31(4): 487-512.

      Sinclair, J.1966.Beginning the study of lexis [A].In C.Bazell, J.Catford, M.Halliday & R.Robins (eds.).In Memory of J.R.Firth[C].London: Longmans, Green and Co., Ltd.410-430.

      Sinclair, J.(ed.).1987a.Looking Up: An Account of the COBUILD Project in Lexical Computing[C].London: Collins ELT.

      Sinclair, J.1987b.The Collins COBUILD English Language Dictionary[M].London: Collins ELT.

      Sinclair, J.1991.Corpus, Concordance, Collocation[M].Oxford: OUP.

      Sinclair, J.2004.Trust the Text: Language Corpus and Discourse[M].London: Routledge.

      Sinclair, J.2008.The phrase, the whole phrase and nothing but the phrase [A].In S.Granger & F.Meunier (eds.).Phraseology: An Interdisciplinary Perspective[C].Amsterdam: John Benjamins.407-410.

      Sinclair, J.& M.Coulthard.1975.Towards an Analysis of Discourse: The English Used by Teachers and Pupils[M].London: OUP.

      Sinclair, J., S.Jones, R.Daley & R.Krishnamurthy.2004.English Collocation Studies: The OSTI Report[M].London: Contiuum.

      Sinclair, J.& A.Mauranen.2006.Linear Unit Grammar: Integrating Speech and Writing[M].Amsterdam: John Benjamins.

      Stefanowitsch, A.& S.Gries (eds.).2006.Corpus-Based Approaches to Metaphor and Metonymy[C].Berlin: Mouton de Gruyter.

      Stubbs, M.1993.British traditions in text analysis: From Firth to Sinclair [A].In M.Baker, G.Francis & E.Tognini-Bonelli (eds.).Text and Technology: In Honour of John Sinclair[C].Amsterdam: John Benjamins.1-33.

      Taylor, J.2012.The Mental Corpus: How Language is Represented in the Mind[M].Oxford: OUP.

      Tomasello, M.2005.Constructing a Language: A Usage-Based Theory of Language Acquisition[M].Harvard: Harvard University Press.

      Willis, D.1990.TheLexical Syllabus[M].London: Collins ELT.

      Wittgenstein, L.2009.Philosophical Investigations (Revised 4th Edition)[M].Chichester, West Sussex: Wiley-Blackwell.

      肖忠華、許家金,2008,語(yǔ)料庫(kù)與語(yǔ)言教育 [J],《中國(guó)外語(yǔ)教育》(2):50-60。

      許家金,2009,詞匯中心教學(xué)法的交際觀:理論溯源與反思 [J],《中國(guó)外語(yǔ)教育》(4):38-45。

      許家金,2011,語(yǔ)料庫(kù)語(yǔ)言學(xué)研究——計(jì)算機(jī)時(shí)代的“田野調(diào)查” [N],《中國(guó)社會(huì)科學(xué)報(bào)》,7月5日第14版。

      許家金、吳良平,2014,基于網(wǎng)絡(luò)的第四代語(yǔ)料庫(kù)分析工具CQPweb及應(yīng)用實(shí)例 [J],《外語(yǔ)電化教學(xué)》(5):10-15,56。

      楊惠中、黃人杰,1982,JDEST科技英語(yǔ)計(jì)算機(jī)語(yǔ)料庫(kù) [J],《外語(yǔ)教學(xué)與研究》(4):60-62。

      通信地址:100089 北京市北京外國(guó)語(yǔ)大學(xué)中國(guó)外語(yǔ)教育研究中心

      * 本文撰寫(xiě)得到國(guó)家社科基金項(xiàng)目“基于雙語(yǔ)語(yǔ)料庫(kù)的漢語(yǔ)復(fù)雜動(dòng)詞結(jié)構(gòu)英譯研究”(編號(hào)12CYY060)和教育部“新世紀(jì)優(yōu)秀人才支持計(jì)劃”(編號(hào)NCET-12-0790)資助,特此致謝。

      猜你喜歡
      語(yǔ)言學(xué)語(yǔ)料庫(kù)短語(yǔ)
      《語(yǔ)料庫(kù)翻譯文體學(xué)》評(píng)介
      把課文的優(yōu)美表達(dá)存進(jìn)語(yǔ)料庫(kù)
      認(rèn)知語(yǔ)言學(xué)與對(duì)外漢語(yǔ)教學(xué)
      基于JAVAEE的維吾爾中介語(yǔ)語(yǔ)料庫(kù)開(kāi)發(fā)與實(shí)現(xiàn)
      語(yǔ)言學(xué)與修辭學(xué):關(guān)聯(lián)與互動(dòng)
      語(yǔ)料庫(kù)語(yǔ)言學(xué)未來(lái)發(fā)展趨勢(shì)
      基于認(rèn)知語(yǔ)言學(xué)的“認(rèn)知修辭學(xué)”——從認(rèn)知語(yǔ)言學(xué)與修辭學(xué)的兼容、互補(bǔ)看認(rèn)知修辭學(xué)的可行性
      腾冲县| 渭源县| 田林县| 遵义县| 肇州县| 中宁县| 龙山县| 正定县| 上蔡县| 塘沽区| 柘城县| 临潭县| 石城县| 屏东县| 长沙县| 太湖县| 泾源县| 德州市| 华容县| 晋宁县| 八宿县| 石嘴山市| 仙游县| 黄平县| 会泽县| 凯里市| 筠连县| 泾阳县| 仁布县| 凤山县| 平乐县| 辰溪县| 岳阳市| 牡丹江市| 安远县| 神木县| 菏泽市| 丹东市| 博野县| 普兰县| 沾化县|