摘? ? 要:隨著語料庫在語言研究中的地位越來越重要,WordSmith、Antconc、Editplus等檢索工具對文本信息和語言特點的檢索分析也更多的使用在信息查詢、實際教學、詞典編寫和翻譯領域中。通過在軟件中語料檢索、詞表和主題詞表的生成,可以提取一定數(shù)量的句子或結(jié)構(gòu),通過一系列的統(tǒng)計分析可以對檢索結(jié)果的真正意義加以說明。本文針對語料庫分析中常用的頻數(shù)標準化和卡方檢驗來解決日常生活中的實際問題,借此來深入研究語料庫樣本的出現(xiàn)和分布情況以及某種語言項目在文本間表現(xiàn)出來的差異性。
關鍵詞:語料庫分析;統(tǒng)計方法;頻數(shù)標準化;卡方檢驗
引言
語料庫不僅能進行快速準確的分析,同時具有規(guī)模大,語域?qū)捄头秶鷱V的特點,“既有定量分析,又有定性解釋功能,對語言的描寫比較全面”(王克非等,2004:4-5)。語料庫的這些特點要求我們要采取不同的統(tǒng)計方法來對不同語料進行分析,比如采集樣本的分布情況、不同項目在一定語境下的共現(xiàn)概率以及不同變量間的差異性分析。頻數(shù)標準化及頻數(shù)差異檢驗統(tǒng)計法是最常用的語料庫語料分析法,但因其定義和應用過于程式化,造成不少研究者在語言項目的分析中對其采取回避的態(tài)度,如何采取淺顯實用的方法來驗證這兩種統(tǒng)計方法的有效性將是本文的重點,從而對運用于語料庫的統(tǒng)計方法進行實際驗證。
一、解析頻數(shù)標準化
何為“標準化”?為什么在統(tǒng)計分析中使用標準化?我們以WordSmith軟件中詞表功能提取的標準化類符形符比為例。我們知道,形符數(shù)指語篇有多少個詞,類符數(shù)指語篇有多少個不同的詞,用它們的比率我們來判斷語料用詞的多樣性,而標準化類符形符比(standardized TTR)是按一定長度,通常是1000詞,分批計算文本的類符形符比,然后求平均值。主要在文本長度不一,詞匯密度不均勻的情況下,標準化的比值能更準確的反應不同文本用詞的多樣性(劉澤權(quán),2010:65)。又如,我們通過語料檢索和詞表生成后會報告頻數(shù),以檢索單詞“and”為例,and在第一個語料庫中出現(xiàn)50次,在第二個語料庫中出現(xiàn)89次,我們能得出結(jié)論說and在第二個語料庫中更常用么?顯然不能。只有當我們把and在兩個語料庫中的出現(xiàn)頻率歸于一個共同基數(shù)時,即得到一種標準化的頻率時才能準確的反映語言真實的頻率情況。
標準化頻率的公式表示為:
上述公式里觀測頻數(shù)即是檢索結(jié)果實際出現(xiàn)的次數(shù),總體頻數(shù)則是語料庫中總字數(shù)。有數(shù)據(jù)表明:“good”在學生的作業(yè)中出現(xiàn)362次,而且歐洲國家母語口語語料中出現(xiàn)568次。兩個語料庫大小分別為48566次和252468次,我們利用Excel或SPSS工具可直接得出標準化頻率即每千次使用“good”為7.45次和2.25次。如圖1:
二、解析頻數(shù)差異檢驗
頻數(shù)標準化可以通過共同的基數(shù)(如1000)來對不同頻數(shù)加以比較,但在復雜的語料庫統(tǒng)計中,我們要參與比較的數(shù)據(jù)之間是否有顯著性也是我們要重點考察的內(nèi)容,本文我們將重點放在卡方檢驗這個方法來檢驗頻數(shù)之間的差異性。卡方檢驗的名稱來源于英文Chi-Square Test,在統(tǒng)計學的大數(shù)據(jù)運行中,多用在證明某個變量和應變量間是否有顯著關系。簡單來講,卡方檢驗就是為了測試兩個挑選的變量間有沒有關系。
我們生活中有很多具有兩面的物體,如撲克牌,硬幣等,我們拿撲克牌來做個試驗?,F(xiàn)在我們手上有一張正常的撲克牌,我們隨意丟50次,按照我們的經(jīng)驗來看,最理想的情況會是25個正面,25個反面。但實際操作中發(fā)現(xiàn)很難達到這樣理想的效果,正常23個正面,27個反面或者24個正面,26個反面,28個正面,22個反面也是可能的,但40個正面,10個反面就是非常低的概率了。我們通過以上的分析和推斷,等于是拿已經(jīng)確定的結(jié)果(撲克是沒人動過手腳,它是均衡的)來推斷會出現(xiàn)的不同現(xiàn)象的次數(shù)。而我們要論證的卡方檢驗恰恰相反,它是用實際看到的現(xiàn)象(例如正面或反面的次數(shù))來判斷結(jié)果(撲克本身是否是均衡的)。
還是撲克牌這個情況,我們?nèi)恿?0次,22個正面,28個反面,如何用卡方檢驗來證明撲克牌本身是均衡還是不均衡?我們這里還要了解下卡方檢驗的公式:
其中observed指我們實際扔出來的次數(shù),expected則指正常的撲克牌在理論上可以扔出的次數(shù)。我們按照這個理論值和實際觀察值來做個表格,如下圖:
代入卡方公式中我們得出第一考察因素卡方值為:
同時第二考察因素自由度我們可以通過公式得出:(行數(shù)-1)*(列數(shù)-1)=1。
第三考察因素置信度我們則可按照意愿挑選,比如90%或95%,這里我們以95%為例。依據(jù)以上三個因素我們來參考卡方實驗表格,如下表:
根據(jù)自由度1和置信度95%我們從上表查出3.841的數(shù)值,此數(shù)值大于我們求出的卡方值0.72,所以我們能夠得出撲克牌是均衡的結(jié)論(置信度為95%)。
撲克牌的卡方檢驗手段讓我們得出牌的本身是均衡的,但生活中的一些物品則未必像我們想象中的一樣。我們再拿一個小孩子平時玩的長方體的積木為例,我們把這塊隨機挑選的積木扔36次,積木的六個面分別擲出來的次數(shù)是10次,9次,8次,4次,3次和2次,這里還是需要借助前文用過的表格,如下:
代入卡方公式中我們得出第一考察因素卡方值為:
同時第二考察因素自由度我們可以通過公式得出:(行數(shù)-1)*(列數(shù)-1)=5。
第三考察因素置信度我們則可按照意愿挑選,比如90%或95%,這里我們以95%為例。依據(jù)以上三個因素我們來參考卡方實驗表格,如下表:
根據(jù)自由度5和置信度95%我們從上表查出11.070的數(shù)值,此數(shù)值大于我們求出的卡方值9.6,所以我們能夠得出這個積木是均衡的結(jié)論(置信度為95%)。但當我們把自由度5和置信度90%放在一起考量的時候,從表中我們得出的數(shù)值是9.235,是小于卡方值9.6的,這樣的話這個積木就不是均衡的(置信度為90%)。所以通過投擲36次的現(xiàn)象我們得出無法判斷此積木是否均衡的結(jié)論。
三、卡方檢驗與變量分析
在通過語料庫來對搜索結(jié)果進行比較和研究時,如果我們選取的某個變量并不顯著,我們就可以刪除掉這個變量,從而去選取其他顯著的變量,但是這個時候一定要搞清楚你判斷此變量是否顯著所采用的卡方值是多少,置信度選取的多少,只有是顯著的變量才能被放入我們做語言研究的模型貨或分析中去。
我們上邊談到,通過語料庫得出的結(jié)論我們是需要進一步統(tǒng)計和分析的,最常見的統(tǒng)計分析就是兩個所比較的變量之間到底是否具有顯著關系,這將直接決定我們提取的樣本是否具有代表性,能否準確代表我們所要研究的目標。
例如,現(xiàn)在社會中網(wǎng)購已經(jīng)成為極為普遍的現(xiàn)象,各個年齡層都在購物時會考慮到網(wǎng)購,同時各種針對蔬菜水果的公眾號或者app都開始推出,那不同性別與在網(wǎng)上買不買蔬菜水果之間有沒有顯著關系呢?我們對隨機采訪的不同性別的人群的采購習慣進行統(tǒng)計,具體如下:
根據(jù)上表的統(tǒng)計,我們可以計算出66%的人群是不通過網(wǎng)絡買菜的(599/907),而剩下的34%則是會在網(wǎng)上購菜,這樣的話男性在網(wǎng)絡購菜的理論人數(shù)就是733*66%=484人,女性的理論購菜人數(shù)就是174*66%=115。由此我們得出的理論值表格統(tǒng)計如下:
同時第二考察因素自由度我們可以通過公式得出:(行數(shù)-1)*(列數(shù)-1)=1。
第三考察因素置信度我們則可按照意愿挑選,這次我們以90%為例。依據(jù)以上三個因素我們來參考卡方實驗表格,得出不同性別和在網(wǎng)絡上購菜是有關系的。
如果用TF-IDF判斷選取樣本重要性
在語料庫的分析統(tǒng)計方法中,我們最常接觸到的考察因素就是詞頻(Term Frequency,縮寫為TF),顧名思義,詞頻就是一個詞在文章中重復出現(xiàn)的次數(shù),如果統(tǒng)計出來的詞多次出現(xiàn),那么我們就要考慮這個詞在文本中可能起著一定的作用,這種統(tǒng)計方法對我們考量選取的文本樣本或關鍵詞樣本是否顯著作用明顯,但在實際對提取的結(jié)果做分析時,我們發(fā)現(xiàn)統(tǒng)計出來的詞頻數(shù)前幾位的都是如“的”,“是”,“在”這樣的詞,這種詞對我們的分析毫無作用,甚至會干擾我們的判斷,我們需要利用停用詞語料庫來過濾掉這種無意思的詞語。
當過濾掉所有無意義的詞后,文本中剩下的就是有實際意義的詞。在所有這些詞中,我們會發(fā)現(xiàn)有一些詞出現(xiàn)的次數(shù)一樣多,這種結(jié)果是不是就說明這些詞具有同種重要性?我們舉例來說明。比如通過語料庫統(tǒng)計,我們得出某文本中,“人民”和“民主制”出現(xiàn)的次數(shù)一樣多,那么如何來看待這兩個詞的重要程度?“人民”本身就是很常見的詞,相對而言,“民主制”則不那么常見,如果兩個詞在某文本中出現(xiàn)的詞頻一樣,我們有理由認為,“民主制”的重要程度要大于“人民”,對于研究的重要性上,“人民”很可能反映了所在文本的特性,對于關鍵詞或顯著樣本的選擇上,類似于“民主制”這樣的詞就會給予較大的權(quán)重,這種權(quán)重又稱為“逆文檔頻率”(Inverse Document Frequency,縮寫為IDF)。IDF和我們之前討論的TF相乘就得到一個TF-IDF值,這個值越大,就說明所提取的詞或樣本重要性越高,對我們選取的樣本是否顯著有重要的參考。
四、文本分類特征選擇法
上面我們討論TF-IDF在有效評估關鍵詞在文本集或者一個語料庫中一份文件的重要程度,但在文本分類中單純用這個TF-IDF數(shù)值來判斷一個特征是否有區(qū)分度是不夠的。一方面它沒有考慮特征詞在類間的分布,也就是說選取的特征應該在某類出現(xiàn)的頻率多,在其他類別出現(xiàn)的頻率少,即考察各類別文檔頻率的差異。另一方面沒有考慮特征詞在類內(nèi)部文檔中的分布情況,如果僅僅出現(xiàn)在幾個文檔中,而在此類其他文檔中不出現(xiàn),就證明選取的特征詞不能夠代表這個類特征。我們從文本中往往可觀察到的量有兩個:詞頻和文檔頻率,這兩個量是所有統(tǒng)計方法的基礎,上述TF-IDF值用于向量空間模型,進行文檔相似度計算是有用的,但其選擇出來的特征卻不具備類別區(qū)分度,而此時卡方檢驗作為最佳特征選擇方法的優(yōu)勢就凸顯了出來。
我們在列舉的實際例子中看到卡方檢驗最基本的思想是通過觀察實際值與理論值的偏差來確定理論的正確性與否,(前文已對卡方檢驗的實際操作做了具體說明,此處不再贅述。)先假設兩個變量是獨立的,然后觀察理論值和實際值的偏差,如偏差足夠小則說明兩變量間確實是獨立存在的,此時可接受原假設;若偏差大到一定程度,以致于不太可能是偶然產(chǎn)生或測量不精確所致,我們可認為兩變量實際是相關的,即否定原假設。在我們對文本分類的特征做出選擇時,一般用“詞類t和類別c不相干”來做原假設,得出的開方值越大,證明對原假設的偏離越大,則得出原假設的對立面是正確的。
卡方檢驗對我們在做量變間顯著性研究時起了重要作用,但其“低頻詞缺陷”卻只統(tǒng)計文檔中是否出現(xiàn)詞,并不考慮出現(xiàn)了多少次,在不知不覺中夸大了低頻詞的作用,最終選擇的詞并不具有代表性,因為在進行特征選擇的時候篩選掉了那些開方數(shù)小的詞(這些詞其實是更具代表性的)。所以我們在進行文檔特征選擇時要將卡方檢驗與詞頻等因素綜合考慮,以確保選取樣本的代表性。
結(jié)論
頻率標準化和卡方檢驗現(xiàn)已具體的運用到大數(shù)據(jù)運營場景中,對語料庫樣本選擇和變量顯著性的特征統(tǒng)計也起到重要作用。在語料庫研究逐步向量化發(fā)展的趨勢下,本文力圖通過更為通俗易懂的論證使常用語言統(tǒng)計方法和日常生活更為貼近,將語料庫研究方法和我們平時的思維方式聯(lián)系起來,同時對文本特征的選取方法研究來說明提取結(jié)果的真正意義,從而準確描述所得語料庫樣本的出現(xiàn)和分布情況,對語料庫應用中統(tǒng)計方法的深入運用提供新的思路。
參考文獻:
[1] 劉澤權(quán).《紅樓夢》四個英譯本的譯者風格初探——基于語料庫的統(tǒng)計與分析[J]. 中國翻譯,2011(9):3-4.
[2] 韓金龍.語料庫間多特征相似性的統(tǒng)計方法研究[J].現(xiàn)代教育技術,2016(8):42-43.
[3] 葛詩利.語料庫間詞匯差異的統(tǒng)計方法研究[J]. 現(xiàn)代外語, 2010(5):37-39.
[4] 魯慶云,劉紅霞. 關于列聯(lián)表卡方檢驗在數(shù)學教育研究中的使用方法分析[J].統(tǒng)計與決策, 2008(4):18-19.
[5] 王克非. 雙語對應語料庫研制與應用[M].北京:外語教學與研究出版社. 2004:45.
[6] 謝益武,郭俊芳,周生寶. 關聯(lián)規(guī)則相關性的度量[J]. 計算機應用,2007(1):12-13.
[7] 陸運清. 用pearsons卡方統(tǒng)計量進行統(tǒng)計檢驗時應注意的問題[J].統(tǒng)計與決策, 2009(4):19.
[8] 喻國明,李慧娟. 大數(shù)據(jù)時代傳播研究中語料庫分析方法的價值[J].傳媒, 2014(10):26.
[9] 隋桂嵐,孫利望. 語料庫、統(tǒng)計學與問題分析[J]. 遼寧工程技術大學學報(社會科學版),2003(4):6-7.
[10] 方稱宇,陳小力. 頻率統(tǒng)計在語料庫中的應用[J]. 現(xiàn)代外語,1992(5):12-13.
[11] 李梅秀,Daniel,S.Worlton. 基于語料庫統(tǒng)計的“音-形”激活概率及加工機制[J]. 心理學探新, 2018(4):20-21。
[12] 郭曙綸. 漢語語料庫大規(guī)模統(tǒng)計與小規(guī)模統(tǒng)計的對比[R]. 全國教育教材語言專題學術研討會, 2008.
[13] 劉澤權(quán). <紅樓夢>中英文語料庫的創(chuàng)建及應用研究[M]. 北京:光明日報出版社. 2010:145.
[14] 梁茂成. 什么是語料庫語言學[M]. 上海:上海外語教育出版社.2016:128.
[15] 胡開寶. 語料庫翻譯學概論[M]. 上海:上海交通大學出版社.2011:59.
作者簡介:禹琳琳(1988-),女,漢族,籍貫:河南鄭州,單位:河南牧業(yè)經(jīng)濟學院外國語學院,職業(yè):助教,學位:碩士,研究方向:翻譯,英美文學。