• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      語料庫數(shù)據(jù)性質(zhì)面面觀

      2020-07-02 10:36:04井岡山大學(xué)孫仕光
      語料庫語言學(xué) 2020年1期
      關(guān)鍵詞:平衡性嵌套語料

      井岡山大學(xué) 孫仕光

      提要:通過對語料庫數(shù)據(jù)進行分析得到可靠的語言知識的前提和基礎(chǔ)是全面、深入地了解語料庫數(shù)據(jù)的性質(zhì),并選用與數(shù)據(jù)性質(zhì)對應(yīng)的數(shù)據(jù)分析工具。本文通過梳理一些關(guān)于語料庫數(shù)據(jù)的研究,嘗試對語料庫數(shù)據(jù)特點作出系統(tǒng)性總結(jié)。本文發(fā)現(xiàn):語料庫數(shù)據(jù)很多情況下不服從正態(tài)分布,語料庫數(shù)據(jù)具有層級嵌套結(jié)構(gòu),語料庫數(shù)據(jù)具有一定程度的非平衡性、非隨機性、非代表性和非獨立性,語料庫數(shù)據(jù)潛在地包含固定效應(yīng)和隨機效應(yīng)因素。針對這些特質(zhì),目前較為恰當?shù)恼Z料庫數(shù)據(jù)統(tǒng)計分析工具有秩和檢驗、混合效應(yīng)/層級模型等。

      1.引言

      現(xiàn)如今,語言學(xué)研究大多以實際發(fā)生的語言數(shù)據(jù)為依據(jù)。作為自然、真實的語言事實,語料庫數(shù)據(jù)是語言知識不可或缺的來源。然而,對于語言學(xué)研究以什么樣的數(shù)據(jù)為研究對象,語言學(xué)者的認識和做法經(jīng)歷了變遷和反復(fù)。這里面既有認識論哲學(xué)基礎(chǔ)的原因,也有時代技術(shù)發(fā)展水平的原因。在喬姆斯基的生成語法出現(xiàn)以前,語言學(xué)家們主要依據(jù)經(jīng)驗主義認識論,收集少量的語言實例,然后進行分析、分類、描寫。喬姆斯基認為這種數(shù)據(jù)收集方式類似收集蝴蝶標本,無法充分描寫語言,這種研究方式也不能發(fā)現(xiàn)內(nèi)在的語言知識(能力)。喬姆斯基和他的追隨者的認識論基礎(chǔ)是以笛卡爾為代表的理性主義傳統(tǒng),他們的語言研究依靠的數(shù)據(jù)是基于直覺、內(nèi)省的合乎語法性或可接受性的判斷數(shù)據(jù)。但是,在因特網(wǎng)、語料庫技術(shù)產(chǎn)生之后,因特網(wǎng)和語料庫中的語料證明這種直覺式的、內(nèi)省式的、脫離具體語境的語言數(shù)據(jù)大部分是不可靠的(Manning 2003;Bresnanet al.2007;馮志偉 2011),語言能力(language competence)和語言運用(language performance)也是難以區(qū)分的。比如,Bresanet al.(2007:69,76)指出了內(nèi)省數(shù)據(jù)的缺點:由于缺乏語境,對生造的、脫離語境的句子的內(nèi)省判斷會低估語法的可能性空間;這種語料數(shù)據(jù)也不能反映多重的、互相沖突的語言限制條件的相互作用,包括人類大腦處理能力的限制條件。Wasow(2009:255)指出,生成語法理論,在其歷史中的大部分時間里,始終處于與實際語言數(shù)據(jù)的矛盾和緊張關(guān)系當中。具體來說,一方面是生成語法理論的截然分明性,表現(xiàn)為語言范疇的離散性,即語言范疇非此即彼;語法規(guī)則的剛性,即語言規(guī)則非真即偽;語言現(xiàn)象非合法即違法,非有即無;另一方面是實際語言數(shù)據(jù)中的漸變性、梯度性(gradient),表現(xiàn)為語言現(xiàn)象出現(xiàn)的概率性;語言范疇邊界的模糊性、流變性;語法規(guī)則的概率性、柔性(語言限制條件可以被違反)。學(xué)者們(如Manning 2003;Levy 2005;Bresan 2007)越來越認識到語言現(xiàn)象和語言規(guī)律的漸變性、概率性特征,確定性的語言現(xiàn)象和語言規(guī)律不過是發(fā)生概率為0或1的特殊情況。語言現(xiàn)象的概率性以及語言的統(tǒng)計性規(guī)律靠直覺判斷語言數(shù)據(jù)或有限的實驗心理語言學(xué)數(shù)據(jù)是發(fā)現(xiàn)不了的,只能通過大規(guī)模的、密集的自然語言數(shù)據(jù)去發(fā)現(xiàn)。

      語言工程技術(shù)界也支持從語料庫中發(fā)現(xiàn)語言知識?;谡Z料庫和概率的語言處理模型往往比基于剛性規(guī)則的語言處理模型表現(xiàn)要好得多?;诙嗄暾Z言工程實踐經(jīng)驗,谷歌研究主管Norvig(2012)批駁了以喬姆斯基為代表的生成學(xué)派無視語言事實,把語言理論凌駕于語言事實之上的傾向,指出科學(xué)是收集事實和建構(gòu)理論的統(tǒng)一體,兩者相輔相成,共同前行。在科學(xué)史中,勞神費力地收集、積累事實是主流的科學(xué)發(fā)展模式,語言科學(xué)在這方面和其他科學(xué)也并沒有什么不同。我國計算語言學(xué)專家馮志偉(2011:4)也指出,語料庫是客觀的、可靠的語言數(shù)據(jù)資源,從語料庫挖掘知識和抽取信息應(yīng)當成為現(xiàn)代語言學(xué)的基本研究方法。語言學(xué)的一切知識,都有必要放到語料庫中來檢驗,決定其是正確的,還是片面的,還是錯誤的,甚至是荒謬的,從而決定其存在的必要性。他認為“內(nèi)省”的研究方式只能是基于語料庫研究方法的補充,而絕不能是語言學(xué)研究的主流。

      在運用語料庫數(shù)據(jù)挖掘語言知識之前,我們需要認識到語料庫數(shù)據(jù)具有一些特殊性質(zhì)。不了解這些性質(zhì),生搬硬套地直接利用一些數(shù)據(jù)統(tǒng)計分析工具去分析語料庫數(shù)據(jù),可能會導(dǎo)致錯誤的結(jié)論。目前,無論是在國內(nèi)還是國外的語料庫研究中,這種現(xiàn)象比比皆是。其原因主要是研究者不了解這些性質(zhì),或者不熟悉應(yīng)使用的統(tǒng)計方法。Kilgarriff (2005)、Evert(2006)、Gries(2015a)對語料庫數(shù)據(jù)特點作了一些研究和討論。在語料庫研究方法和工具方面,Bresnan (2007)、Gries(2015b)等也在大力呼吁:針對語料庫數(shù)據(jù)的特殊性質(zhì),要利用先進的混合效應(yīng)/多層線性模型來分析語料庫數(shù)據(jù)。通過閱讀文獻,我們發(fā)現(xiàn),在國內(nèi)的語料庫研究中,針對具體語言問題的研究較多,但是針對語料庫數(shù)據(jù)性質(zhì)及其相應(yīng)研究工具和方法的研究偏少,這方面僅有的幾個研究包括葛詩利(2010)、許家金(2014)等。因此,本文旨在通過梳理一些相關(guān)研究,嘗試對語料庫數(shù)據(jù)的性質(zhì)、特征作出系統(tǒng)性總結(jié),以供學(xué)界參考。

      2.語料庫數(shù)據(jù)具有一定程度的非平衡性

      通常語料庫的平衡性是指語料庫(語言樣本)對語言總體的語料類別及其比例結(jié)構(gòu)的反映的準確程度。在本文中,我們可以把這種平衡性看作是狹義的語料庫平衡性問題,因為我們還需要從其他方面來考察語料庫數(shù)據(jù)的平衡性問題,包括語言項目在語言總體或語料庫中的頻率分布的平衡性問題、語言數(shù)據(jù)點數(shù)量在(跨)各個說話者之間分布的平衡性問題、語言數(shù)據(jù)點數(shù)量跨語言項目之間分布的平衡性問題,語言項目跨文本之間頻率分布的平衡性問題等。所有這些平衡性問題可以統(tǒng)稱為廣義的語料庫數(shù)據(jù)平衡性問題。

      2.1 語料庫中各個語類及其比例結(jié)構(gòu)的平衡性問題

      目前,語料的分類標準、語料庫中各類別語料的比例結(jié)構(gòu)的確定尚缺乏科學(xué)、客觀的依據(jù),尚沒有科學(xué)的方法度量、保證語料庫的這種平衡性。黃昌寧和李涓子(2002)認為,語料庫的代表性和平衡性是一個迄今都沒有公認答案的復(fù)雜問題。Hunston(2002:28-30)指出,很難客觀地確定語料庫中各類語料的比例。目前,大多數(shù)語料庫所聲稱的平衡性并不是真正嚴格意義上的平衡性。這種平衡性是相對而言的,是指盡可能廣泛地覆蓋多種語料,或盡可能多地涵蓋可能影響語言變異的各種語言外部變量,如語式(口語、筆語)、性別、年齡段、社會階層、受教育程度、專業(yè)領(lǐng)域等。既然語料的分類標準、語料庫中各類別語料的比例結(jié)構(gòu)尚缺乏科學(xué)、客觀的依據(jù),那么這種平衡性只能是寬松意義上的平衡性。也可以說,目前語料庫的所謂的“平衡性”與其說是一種事實,不如說是語料庫建構(gòu)者的一種信念和目標。

      2.2 語言成分項目頻率分布的不平衡

      在語言整體中,或者在語言樣本(語料庫)中,語言成分項目[如音素或字母組合、詞匯、Ngram(Haet al.2003)]的頻數(shù)(率)分布是不平衡的:少數(shù)幾個語言成分以極高的頻率出現(xiàn);而大多數(shù)成分可能只出現(xiàn)一或兩次。語言成分的這種不平衡性的分布屬于冪律分布(power-law distribution)(Zipf 1949;Baayen 2001)。如圖1中美國英語語料庫中的詞匯頻率分布1。

      圖1 當代美國英語語料庫(COCA)的5000單詞頻率按照位次順序的分布

      圖1中的縱軸是單詞出現(xiàn)頻率,橫軸是各個單詞按照頻率從大到小排列的位次。我們可以看到這種分布明顯不同于正態(tài)分布。在這種分布中,每個語言成分的頻率(fi)與其頻率的位次(ri)的乘積都接近某個常數(shù)(C),即fi×ri≈ C,這就是齊普夫定律。無論語料庫大小,語言成分的頻率分布都遵循齊普夫定律。即使是現(xiàn)有最大的語料庫(10億詞匯以上),其詞匯頻數(shù)(率)分布中,很大比重的單詞也只出現(xiàn)一、二次。繼續(xù)增大語料庫的規(guī)模,還是會有大量的新詞匯以極低的頻率出現(xiàn)。

      2.3 語言數(shù)據(jù)點數(shù)量在各語料產(chǎn)出者之間的不平衡

      語料庫中的語料數(shù)據(jù)是由眾多的說話者提供的,每個說話者提供的語料數(shù)量多少不一,造成了說話者之間的數(shù)據(jù)點數(shù)量分布的不平衡。比如,在Bresnanet al.(2007)的研究語料中,共有424人提供了總共2,360個與格結(jié)構(gòu)(包括雙賓結(jié)構(gòu)和介賓與格結(jié)構(gòu))用例(索引行),在提供數(shù)量最多的前387人當中,與格結(jié)構(gòu)的數(shù)量分布如下:

      這表示每個說話者提供的語言項目(觀察、數(shù)據(jù)點)是不平衡的。

      2.4 語言數(shù)據(jù)點數(shù)量跨語言項目之間分布的不平衡

      不同的語言項目有不同的語法行為傾向,比如give更傾向于出現(xiàn)在雙及物結(jié)構(gòu)中,而sell 更傾向于出現(xiàn)在介賓與格結(jié)構(gòu)中。也可以把這些傾向理解為語言項目對語法行為的特異性影響。當我們要研究一些變量對語法行為的影響時,如果從語料庫檢索到的語言項目對應(yīng)的索引行數(shù)量不平衡,那么不同語言項目對語法行為的特異性影響就會以不同的數(shù)量被帶入到統(tǒng)計分析中。比如,我們要研究的問題是多個預(yù)測變量對與格變換(雙及物構(gòu)式和介賓與格結(jié)構(gòu)之間的轉(zhuǎn)換)的影響,當我們從某個語料庫中搜索語料時,我們會發(fā)現(xiàn)每個與格動詞對應(yīng)的索引行(包括雙賓結(jié)構(gòu)和介賓與格結(jié)構(gòu))數(shù)量是不一樣的,也就是說,每個語言項目對應(yīng)的數(shù)據(jù)點數(shù)量是不平衡的。例如:

      give 出現(xiàn)在552個索引行中(包括332個DO結(jié)構(gòu)和220個PO結(jié)構(gòu)2);

      send 出現(xiàn)在267個索引行(79個DO結(jié)構(gòu)、188個PO結(jié)構(gòu))中;

      offer 出現(xiàn)在215個索引行(186個DO結(jié)構(gòu)、29個PO結(jié)構(gòu))中;

      sell 出現(xiàn)在126個索引行(28個DO結(jié)構(gòu)、98個PO結(jié)構(gòu))中。

      這種數(shù)據(jù)的不平衡會導(dǎo)致各個語言項目的特異性效應(yīng)以不同的權(quán)重影響因變量(響應(yīng)變量即語法行為),干擾、混淆了我們對主要的預(yù)測變量對響應(yīng)變量的影響的觀察。各個語言項目對應(yīng)數(shù)據(jù)量的不平衡是語料庫數(shù)據(jù)中普遍存在的問題。同語言數(shù)據(jù)量跨說話者之間分布的不平衡一樣,這種項目之間的數(shù)據(jù)量分布不平衡也必須得到控制或處理,才能觀察到我們感興趣的主要預(yù)測變量的效應(yīng)。目前,混合效應(yīng)統(tǒng)計模型是應(yīng)對這個問題的有效方法。

      2.5 語言項目跨文本分布的不平衡

      一些語言現(xiàn)象會因為專業(yè)領(lǐng)域或個人語言風(fēng)格的原因而集中分布在語料庫中個別語篇中。比如,一篇討論折紙藝術(shù)的文章會異乎尋常地大量出現(xiàn)fold、cut、paper等單詞;一本廚藝書會大量出現(xiàn)fry、braise、sauté、pickle等詞匯;某個作者特別喜歡使用被動語態(tài),他的文獻里面會頻繁出現(xiàn)被動語態(tài)。所以,一些語言項目和語言現(xiàn)象存在跨文本之間數(shù)量(頻率)分布的不平衡。假設(shè)一個語料庫包含500個同等篇幅長度的語篇(文本),我們要觀察A、B兩個語言現(xiàn)象在這500個等份語料中的分布。圖2呈現(xiàn)的是A語言現(xiàn)象的跨文本之間的分布,我們可以看到A語言現(xiàn)象的分布很不均勻,呈現(xiàn)聚集效應(yīng)。

      圖2 語言現(xiàn)象/成分的聚集分布(Gries 2015a)

      圖3呈現(xiàn)的是B語言現(xiàn)象跨文本之間的頻率分布。我們發(fā)現(xiàn),語言現(xiàn)象B的頻率分布較語言現(xiàn)象A的頻率分布均勻得多。

      圖3 語言現(xiàn)象/成分較為均勻的分布(Gries 2015a)

      圖2中語言現(xiàn)象A的跨文本分布的不平衡又稱為語言現(xiàn)象(項目)的聚集分布效應(yīng)或欠分散效應(yīng),非均勻分散分布效應(yīng)(clustering effect,underdispersion)。有很多統(tǒng)計量來度量這種不平衡,在此不再詳述。我們需要知道的是,單純地報告某語言形式的頻率會有誤導(dǎo)性。所以,在報告語言形式的頻率時,需要附帶報告這個語言形式的散布程度(Gries 2010:11),以明確是否具有聚集效應(yīng)。

      3.語料庫數(shù)據(jù)具有一定程度的非隨機性

      本節(jié)討論語料庫建設(shè)過程中的語料隨機抽樣問題。語料庫研究中大多數(shù)的研究問題是針對詞匯、多詞單位、語法構(gòu)式或型式、詞—詞搭配、詞—語法構(gòu)式搭配等。如果嚴格按照統(tǒng)計理論,當研究問題的數(shù)據(jù)測量單位是單詞級別時,就需要一個與之對應(yīng)的以單詞作為抽樣單位的語料庫;當研究問題的數(shù)據(jù)測量單位是短語級別時,就需要一個與之對應(yīng)的以短語為抽樣單位的語料庫,依此類推。但是實際中的語料庫絕大多數(shù)是以語篇作為單位抽樣得來的,如整篇文章、整本書,或者書、文章中連續(xù)性的一部分。這就造成了抽樣的單位級別和數(shù)據(jù)測量/分析的單位級別不一致的狀況,抽樣的單位級別(顆粒度)大于數(shù)據(jù)測量的單位級別。Evert(2006:184)認為,這兩種單位的不一致等價于破壞了以數(shù)據(jù)測量單位為抽樣單位的語料抽樣過程的隨機等概率原則。比方說,我們要研究的語言現(xiàn)象是單詞級別,對應(yīng)的語料庫應(yīng)該是以單詞作為抽樣單位抽樣得來的。但是我們?yōu)榱耸∈?,把語篇作為抽樣單位,這種行為就等同于破壞了以單詞為樣本元素的語料庫的抽樣過程的隨機等概率原則。其原因與上文提到的語言現(xiàn)象的聚集分布效應(yīng)有關(guān)。比如,一篇包含大量的fold、cut、paper等單詞的折紙藝術(shù)文章碰巧被抽取到一個語料庫中,那么這些以超常頻率出現(xiàn)的詞匯出現(xiàn)在樣本中的概率陡然增大了,從而違反了抽樣的隨機等概率原則。對于我們要研究的單詞級別的語言現(xiàn)象而言,這種以語篇為抽樣單位的語料庫影響了這個語料庫的代表性。在這個語料庫中,我們要研究單詞的頻率時,統(tǒng)計值就被放大了。語料庫的抽樣單位和語言研究問題測量單位的不一致造成的后果是:不僅語言結(jié)構(gòu)成分/特征頻數(shù)在實際語料庫抽樣分布中的變異比其在理想語料庫抽樣分布中的變異大,而且語言成分/特征頻數(shù)在實際語料庫各部分之間的變異要比在理想語料庫各部分之間的變異大(Evert 2006)。

      4.語料庫中數(shù)據(jù)點之間存在相關(guān)性

      獨立性是概率論中的一個概念。若事件A的發(fā)生不影響事件B發(fā)生的概率,即P(B|A)=P(B),并且事件B的發(fā)生也不影響事件A發(fā)生的概率,即P(A|B)=P(A),則稱事件A、B互相獨立;否則A與B不獨立或相依、相關(guān)。當事件A、B互相獨立時,即P(AB)=P(A)*P(B)。大多數(shù)統(tǒng)計分析方法要求數(shù)據(jù)的各個觀察值之間具有獨立性(Garson 2012:46)。

      與嚴格控制的心理語言實驗數(shù)據(jù)相比,語料庫數(shù)據(jù)中數(shù)據(jù)點之間存在更多的相關(guān)性或非獨立性。語言數(shù)據(jù)點之間的相關(guān)性包括:(1)語言本身固有的序列相關(guān)性;(2)在言語過程中,由于說話者大腦的啟動效應(yīng)產(chǎn)生的相關(guān)性;(3)由于語料庫數(shù)據(jù)的嵌套結(jié)構(gòu)造成的相關(guān)性。

      第一,我們先來看序列相關(guān)性。從數(shù)學(xué)的觀點和信息接收者的角度來看,語言是一個由語言成分構(gòu)成的鏈,這些語言成分以不等概率、前后依存的隨機方式依次出現(xiàn),一個語言成分出現(xiàn)的概率依賴于前面先出現(xiàn)的幾個語言成分。這種鏈稱為馬爾科夫鏈。這里面所說的語言成分的單位(顆粒度)大小不一,有語素、單詞、短語、句子等之分。比如,各個單詞的出現(xiàn)概率之間互相依賴(單詞搭配及搭配強度);冠詞后面出現(xiàn)名詞的概率比出現(xiàn)形容詞、動詞的概率大;輔音后面出現(xiàn)元音的概率比再次出現(xiàn)輔音的概率大,等等。這種序列相依性是語言本身固有的。換句話說,語言作為符號序列,具有序列相依性(sequence dependency),后面出現(xiàn)某一語言成分或語言特征的概率依賴于前面的語言成分及其語言特征。在一些語料庫語言研究中,這種序列相依性會造成的數(shù)據(jù)點之間不具有獨立性。

      第二,我們來看看言語過程中的啟動效應(yīng)造成的語言數(shù)據(jù)點之間的相關(guān)性。這種相關(guān)性指的是在人的言語過程中,語言成分出現(xiàn)的幾率遵循“有錢人變得更有錢”的效應(yīng)(rich-get-richer effect)(Church & Gale 1995;Barth & Kapatsinski 2015),即:一個語言項目在過去的使用頻率比其他語言項目越高,它在未來被再次使用的概率相較其他語言項目就越大,這樣就形成了正向反饋回路(循環(huán))(見圖4),導(dǎo)致了語言項目使用頻率的指數(shù)式增長,這就是上文第4部分所講的語言項目頻率的冪律分布的原因。也就是說,語篇前面各個語言成分出現(xiàn)的頻率會影響語篇后面各相應(yīng)語言成分出現(xiàn)的頻率,所以,語言成分出現(xiàn)的觀測之間就喪失了獨立性。從生理機制上來看,這是因為頻繁使用的詞匯比使用不頻繁的詞匯在大腦中的激活狀態(tài)更高,或激活閾限更低,更能迅捷地進入大腦激活狀態(tài)(Oldfield & Wingfield 1965),再次得到使用的可能性更大。

      圖4 語言成分出現(xiàn)頻次的正向反饋回路(循環(huán))

      第三,也是最后一點,我們要討論一下嵌套造成的相關(guān)性。語料庫近似是一個“語言總體”的分類抽樣樣本。語料庫的分類在很多情況下不只限于一個層級,是多個層級的,如圖5所示。

      圖5 語料庫數(shù)據(jù)的層級嵌套結(jié)構(gòu)

      從數(shù)據(jù)結(jié)構(gòu)的角度來看,具有這樣多層分類結(jié)構(gòu)的語料數(shù)據(jù)是層級嵌套數(shù)據(jù),其中,語言項目嵌套于語篇(文件)/作者之中,語篇/作者嵌套于次級語域(subregister)中,次級語域嵌套于語域(register)中,語域又嵌套于語式(mode)中。語料的分類因素,如語式、語域、作者身份等,都會對語言現(xiàn)象產(chǎn)生影響,比如R?thlisberger(2015)發(fā)現(xiàn)語式、文體等因素都對與格轉(zhuǎn)換產(chǎn)生顯著影響。

      所以,嵌套的第一種情況是同一語式(或同一語域、次語域)之內(nèi)的一些數(shù)據(jù)項目(索引行或句子)會在一些語言特征上面存在相關(guān)性。比如,我們要研究被動語態(tài)現(xiàn)象,我們得到的一批數(shù)據(jù)項目都來自于口語語料,而另外一批數(shù)據(jù)項目都來自于筆語學(xué)術(shù)語料。一般來說,在口語語料中被動語態(tài)句式比較少;而在筆語學(xué)術(shù)語料中,被動語態(tài)結(jié)構(gòu)比較多。那么來自于口語語料的那一批數(shù)據(jù)項會在“是否是被動結(jié)構(gòu)”這個特征上存在相關(guān)性;同樣的道理,來自于筆語學(xué)術(shù)語類的數(shù)據(jù)項也在這個特征上相關(guān)??傊?,嵌套于同一語類(語式、語域、次語域)的語料中的各個數(shù)據(jù)項目會在某個(些)語言特征上表現(xiàn)出相關(guān)性。

      第二種情況是多個觀測(數(shù)據(jù)點,如索引行)嵌套于同一個作者(或說話者、語篇)造成的相關(guān)。我們研究某個語言現(xiàn)象時,這個語言現(xiàn)象的成分單位或測量單位級別一般是語素級、單詞級、多詞單位級、短語級或句子級中的一種。但是語料庫中的語料一般是以語篇為單位來抽取的。這樣,數(shù)據(jù)測量單位和語料抽取的單位就產(chǎn)生了不匹配、不一致的現(xiàn)象。由于這兩種單位的不一致,在針對某個研究問題收集數(shù)據(jù)時,多個觀測會來自于同一語篇或同一作者。從數(shù)據(jù)的結(jié)構(gòu)性質(zhì)來看,這些來自于同一語篇的多個觀測是嵌套于這個語篇的。由于主題、啟動效應(yīng)和作者個人一貫的文體風(fēng)格等原因,同一語篇或同一作者的語料中的各個語言數(shù)據(jù)項會在一些語言特征上具有相似性、相關(guān)性,因而違反了很多統(tǒng)計檢驗分析要求的觀測之間具有獨立性的前提條件。有學(xué)者把這種嵌套于同一作者、語篇造成的相關(guān)性叫作單位相依性(unit dependency)(Rietveldet al.2004:352)。

      第三種嵌套情況是多個索引行嵌套于同一語言項目而產(chǎn)生的相關(guān)。一般來說,在語料庫中,一個節(jié)點詞匯對應(yīng)多個索引行或數(shù)據(jù)項目。在某個句法現(xiàn)象中,這些含有相同詞匯的索引行之間會存在相依性,這也違反了統(tǒng)計檢驗要求數(shù)據(jù)項之間具有獨立性的假設(shè)。當我們要研究的是一些因素對某一類詞的句法行為的影響,而不是對某個特定詞的句法行為的影響時,這些個別詞匯多個數(shù)據(jù)項之間的相關(guān)性會對統(tǒng)計分析結(jié)果造成偏差。這些個性化的相關(guān)性如果不得到控制,也會影響統(tǒng)計檢驗的效力。比如,我們要研究雙及物結(jié)構(gòu)和介賓與格結(jié)構(gòu)中接受者(recipient)和客體(theme)的信息地位、生命性等因素對與格變換的影響,用與格動詞如give、send、offer、tell等作為搜索詞搜索,得到語料庫中全部的具有雙及物結(jié)構(gòu)和介賓與格結(jié)構(gòu)的索引行。每個索引行是一個數(shù)據(jù)項或一個觀測。我們發(fā)現(xiàn)每個與格動詞都會出現(xiàn)在多個索引行之中。同一與格動詞的多個索引行之間會或多或少呈現(xiàn)句法行為的一致性或相關(guān)性,反映了這個詞句法行為的個性傾向。比如,give更傾向于出現(xiàn)在雙及物結(jié)構(gòu)中,而sell 更傾向于出現(xiàn)在介賓與格結(jié)構(gòu)中。所以,同一動詞的多個索引行之間不具有獨立性。這就違反了很多統(tǒng)計分析、檢驗要求各個觀察之間具有獨立性的前提條件。

      5.語料庫數(shù)據(jù)特點對語料庫數(shù)據(jù)分析方法的影響

      語料庫數(shù)據(jù)的上述特點,即數(shù)據(jù)點之間的不平衡性、相關(guān)性和層級嵌套結(jié)構(gòu)特點,會影響和限制對語料庫數(shù)據(jù)分析方法的選用。很多數(shù)據(jù)分析的方法,比如方差分析或簡單線性模型,都建立在一個重要的前提條件之上,即數(shù)據(jù)點之間必須相互獨立。然而,在很多的語言學(xué)研究中,數(shù)據(jù)點之間存在關(guān)聯(lián)性或相關(guān)性。相關(guān)性會影響研究者對語料庫分析方法的選用。比如,我們想要知道甲乙兩個語料庫中實義詞、功能詞的分布是否有所不同,我們收集了數(shù)據(jù)并制成如表1所示的列聯(lián)表。

      表1 甲乙兩語料庫中實詞、功能詞的分布

      這種類別的頻次數(shù)據(jù)看上去好像可以用于卡方檢驗分析。但是在語言中,一個觀測(單詞)的類別(是實詞還是虛詞)會影響下一個觀測(下一個單詞)是某個類別(是實詞還是虛詞)的概率。也就是說,這種情況中的觀測之間不具有獨立性。這就違反了卡方檢驗要求觀測之間獨立性的前提條件,所以,這個列聯(lián)表中的數(shù)據(jù)不能用于卡方檢驗分析。

      語料庫數(shù)據(jù)的不平衡性也會限制對統(tǒng)計分析工具的選用。由于語料庫語言數(shù)據(jù)分布的齊普夫性質(zhì),中心極限定理不能保障樣本統(tǒng)計值的抽樣正態(tài)分布。所以,用一般的基于正態(tài)分布前提假設(shè)的統(tǒng)計模型去估計單詞等語言成分的出現(xiàn)概率是不可靠的,即使使用估計值的置信區(qū)間也無濟于事(Evert & Baroni 2006)。例如,有實驗表明,語料庫中一些極其常用的詞匯,如the、of等,其抽樣分布比較接近于正態(tài)分布,所以對這些詞匯,各種檢驗方法的效果都比較理想;但是大多數(shù)不那么常用的詞匯,其抽樣分布嚴重偏離正態(tài)分布,難以符合很多統(tǒng)計方法的要求,統(tǒng)計效果不好(葛詩利 2010:256)。肖忠華(2015:10)也指出,目前語料庫研究中許多常用統(tǒng)計方法假設(shè)數(shù)據(jù)呈正態(tài)分布,而在語言運用中正態(tài)分布并不普遍。語料庫語言研究中另外一個很常見的問題是比較語料庫之間單詞頻率的差異,由于語言項目頻次分布的上述特點,用t檢驗來比較頻率差異是不合適的,而采用不依賴于任何分布的非參數(shù)Wilcoxon-Mann-Whitney 秩和檢驗結(jié)果就較為客觀、準確(Kilgarriff 2001;葛詩利2010)。為了獲得得更為精細和準確的統(tǒng)計結(jié)果,上述二位學(xué)者建議對語料庫之間詞匯特征差異的比較盡可能采用秩和檢驗。

      針對語料庫數(shù)據(jù)的層級嵌套、相關(guān)性和不平衡性的特點,語言學(xué)界現(xiàn)在有了另外一個比較好的應(yīng)對方法——混合效應(yīng)多層模型?;旌闲?yīng)多層模型不僅能處理各個層級的分組效應(yīng),比如語式、語域和次語域這幾個由上到下的分組變量各自帶來的效應(yīng),還能處理個體效應(yīng),比如每個說話者或每個詞匯帶來的效應(yīng)?;旌闲?yīng)模型能有效處理各層分組內(nèi)部數(shù)據(jù)項之間的相關(guān)性。相比一般線性模型,混合效應(yīng)模型在處理不平衡數(shù)據(jù)時表現(xiàn)更加優(yōu)越(Pinheiro & Bates 2000)。所以,這種模型能夠應(yīng)對語料庫數(shù)據(jù)的特點?;旌闲?yīng)/多層模型的理論和建模手段已經(jīng)成功地廣泛應(yīng)用于一些學(xué)科,像心理學(xué)、社會學(xué)、生物學(xué)等。最近幾年來,混合效應(yīng)模型開始在語言科學(xué)領(lǐng)域,包括應(yīng)用語言學(xué)、心理語言學(xué)、社會語言學(xué)以及語料庫語言學(xué)等分支之中得到應(yīng)用。比如,在心理語言學(xué)領(lǐng)域,混合效應(yīng)模型正在取代傳統(tǒng)的方差分析的優(yōu)勢地位。Gries(2015b)指出,語料庫語言學(xué)也能夠像心理語言學(xué)那樣從應(yīng)用混合效應(yīng)模型/多層模型中獲益。

      6.結(jié)語

      語料庫數(shù)據(jù)具有一些特殊的性質(zhì)。語料庫數(shù)據(jù)是一種自然觀察性數(shù)據(jù),并且由于自然語言數(shù)據(jù)本身固有的性質(zhì)和抽樣的原因,語料庫數(shù)據(jù)具有一定程度的非平衡性、非隨機性、非獨立性和非代表性,其展現(xiàn)的語言特征在很多情況下不服從正態(tài)分布。語料庫數(shù)據(jù)具有層級嵌套結(jié)構(gòu),因此,潛在地包含固定效應(yīng)因素和隨機效應(yīng)因素。語料庫數(shù)據(jù)的這些性質(zhì)使得它不適合用基于正態(tài)分布的參數(shù)檢驗方法去分析。我們在解讀語料庫研究結(jié)果時也要持謹慎的態(tài)度。針對語料庫數(shù)據(jù)的這些特質(zhì),秩和檢驗、混合效應(yīng)層級模型等方法是目前比較好的分析語料庫數(shù)據(jù)的工具。從長遠來看,還需要開發(fā)新的統(tǒng)計手段來分析語料庫數(shù)據(jù)(Evert 2006:189)。本文呼吁我國語料庫研究學(xué)界重視對語料庫數(shù)據(jù)性質(zhì)、特點的研究和探討,重視開發(fā)、引進和普及更合適的語料庫分析工具和方法,以提高基于語料庫的語言研究的質(zhì)量。

      注 釋

      1.此圖是本文作者根據(jù)當代美國英語語料庫(COCA)(庫容:4.5億單詞)的頻率最高的前5000個單詞的詞頻數(shù)據(jù)(http://www.wordfrequency.info/top5000.asp)繪制的詞頻-位次分布圖。

      2.DO結(jié)構(gòu)即雙賓結(jié)構(gòu),PO結(jié)構(gòu)即介賓與格結(jié)構(gòu),下同。

      猜你喜歡
      平衡性嵌套語料
      基于嵌套Logit模型的競爭性選址問題研究
      這個動作堅持二十秒預(yù)示壽命長
      長壽(2018年2期)2018-07-13 06:44:56
      基于熵值法的山西省煤炭行業(yè)生產(chǎn)使用平衡性分析
      基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
      扁電磁線導(dǎo)體直流電阻平衡性研究
      華語電影作為真實語料在翻譯教學(xué)中的應(yīng)用
      突發(fā)事件的平衡性報道分析——以地震類報道為例
      新聞傳播(2015年21期)2015-07-18 11:14:21
      《苗防備覽》中的湘西語料
      國內(nèi)外語用學(xué)實證研究比較:語料類型與收集方法
      一種基于區(qū)分服務(wù)的嵌套隊列調(diào)度算法
      計算機工程(2014年6期)2014-02-28 01:25:29
      巴塘县| 平武县| 卫辉市| 开封市| 泰顺县| 通江县| 洛南县| 财经| 邢台县| 武定县| 邯郸市| 卢氏县| 皮山县| 灌南县| 临朐县| 彰化市| 灵寿县| 龙口市| 鲁甸县| 环江| 宿迁市| 新宾| 冕宁县| 花莲县| 沈阳市| 青河县| 高邑县| 平凉市| 临泽县| 大悟县| 射洪县| 卓资县| 诏安县| 葫芦岛市| 衡东县| 平度市| 鄢陵县| 阳信县| 晋城| 临沧市| 东明县|