高 魏 張顯成
《壯族麼經(jīng)布洛陀影印譯注》(以下簡(jiǎn)稱《麼經(jīng)布洛陀》)共包含廣西及云南各地29本麼經(jīng)抄本。作為目前最大型的用方塊壯字記載的壯族民間宗教文獻(xiàn),《麼經(jīng)布洛陀》對(duì)研究壯族的歷史文化和語(yǔ)言文字具有極高價(jià)值。[1]79-87字頻統(tǒng)計(jì)是研究文字實(shí)際使用狀況的一種有效方法。[2]109全面考察《麼經(jīng)布洛陀》的字頻,有助于了解方塊壯字在大型真實(shí)語(yǔ)料中的使用情況,可為方塊壯字的定量、標(biāo)準(zhǔn)化及信息化提供有效參考。同時(shí),通過(guò)字頻全面掌握《麼經(jīng)布洛陀》的用字情況,也有助于完善這一壯族典籍的基礎(chǔ)研究。但是,限于技術(shù)手段的條件,《麼經(jīng)布洛陀》的字頻研究迄今尚未得到很好的開(kāi)展。
為了能夠全面、準(zhǔn)確地統(tǒng)計(jì)字頻,我們自行設(shè)計(jì)了字庫(kù)和輸入法,實(shí)現(xiàn)了方塊壯字在計(jì)算機(jī)中的錄入和顯示。字庫(kù)以《麼經(jīng)布洛陀》中的方塊壯字作為字形依據(jù),字形的區(qū)分具體到筆畫(huà),字庫(kù)中的每個(gè)字形都設(shè)計(jì)了唯一的暫用內(nèi)碼,以確保不同字形的唯一性。利用方塊壯字字庫(kù)和輸入法,我們建立了《麼經(jīng)布洛陀》電子全文語(yǔ)料庫(kù),在此基礎(chǔ)上統(tǒng)計(jì)方塊壯字的字頻,形成1個(gè)總字頻表和29個(gè)分抄本字頻表。統(tǒng)計(jì)字頻時(shí),以具體的字形作為單位,不進(jìn)行同字異形的合并計(jì)算。
我們按照字頻的降序排列編制了方塊壯字字頻表,表中每個(gè)字都包括字號(hào)、頻次、字頻、累計(jì)覆蓋率等參數(shù)。字號(hào)是按字的字頻降序排列的序號(hào),由于字頻表是封閉的,因此字號(hào)實(shí)際上標(biāo)明了每個(gè)單字在《麼經(jīng)布洛陀》中的使用地位。頻次是字出現(xiàn)的次數(shù),也稱字次。字頻是單字的頻次與文本總頻次的百分比 (字頻=頻次/總頻次)。[3]45累計(jì)覆蓋率是單字的字頻之和,反映了某 (些)字在文本中的覆蓋面。限于篇幅,本文僅列出具有標(biāo)志作用的數(shù)據(jù)。
從方塊壯字字頻表可知,方塊壯字的總頻次為218062次 (含“△、×”等具有特定含義的符號(hào),不含“□”、衍字、原手抄本注釋與空格),字量 (字形不重復(fù)的單字量)為6601個(gè)。全書(shū)使用最多的字是“造”,頻次為4082次,覆蓋了全書(shū)1.87%的內(nèi)容。只用一次的字有2316個(gè),累計(jì)覆蓋率為1.06%。頻次1000次以上的字有23個(gè),累計(jì)出現(xiàn)37551次,覆蓋了全書(shū)17.22%的內(nèi)容。這23個(gè)字是使用頻率最高的一群,依頻次的降序排列分別為: “造、不、斗、王、丕、到、批、甫、否、三、你、布、那、之、名、貧、力、他、禮、了、得、蓋、皇”??梢?jiàn),23個(gè)字都是常用的借漢字。在6601個(gè)字形不重復(fù)的單字中,有3515個(gè)字形已有Unicode編碼,占總字量的53.25%。利用SPSS統(tǒng)計(jì)軟件,對(duì)方塊壯字的頻次分布進(jìn)行單變量頻率分析,得出以下結(jié)果:頻次的均值為33.03,即方塊壯字的平均使用量為33.03。中值為3.00,即一半的字的頻次在3以上或以下。眾數(shù)為1,即頻次為1的字出現(xiàn)的頻率最頻繁。
字頻分級(jí)是字頻統(tǒng)計(jì)的基本工作,可為科學(xué)認(rèn)識(shí)用字的層次與差異提供參考。[4]85表1是根據(jù)不同頻次級(jí)別進(jìn)行的統(tǒng)計(jì)。
表1 方塊壯字頻次分級(jí)
從表1可知,高頻字的字量少但覆蓋率高,而低頻字的字量多但覆蓋率低。這一反差可以為方塊壯字提供定量的依據(jù)。此外,從方塊壯字字頻表可知,1-164號(hào)字的累計(jì)覆蓋率可達(dá)50%,1-1281號(hào)字的統(tǒng)計(jì)覆蓋率可達(dá)90%,1-3333號(hào)字的累計(jì)覆蓋率可達(dá)98%。根據(jù)這一數(shù)據(jù),同時(shí)參考漢字的頻度劃分,我們把《麼經(jīng)布洛陀》的字頻級(jí)別劃分為極高頻字、高頻字、中頻字、低頻字和罕用字。極高頻字的字號(hào)范圍為1-164,覆蓋文本50%的內(nèi)容。高頻字的字號(hào)范圍為165-1281,覆蓋文本40%的內(nèi)容。中頻字的字號(hào)范圍為1282-3333,覆蓋文本8.00%的內(nèi)容。其余的字為低頻字,字號(hào)范圍為3334-6601,覆蓋文本2%的內(nèi)容。罕用字是只出現(xiàn)1次的字,覆蓋文本1.06%的內(nèi)容。
各抄本的用字也存在差異。為了更好地描述,我們按抄本在《麼經(jīng)布洛陀》中的先后順序,將29本抄本分別編為1-29號(hào)。從頻次上看,抄本間的平均頻次是7519.38,中值是7274,均值與中值非常接近。頻次規(guī)模在7001-8000間的抄本最集中,共有8本。頻次最多的是17號(hào)抄本《麼送 》,共出現(xiàn)32844次;頻次最少的是15號(hào)抄本《麼 一科》,僅出現(xiàn)994次,兩者相差31850次。從字量上看,各抄本的平均字量是860.34,中值是901,均值與中值也很接近,字量規(guī)模在901-1000的抄本最集中,共有5本;字量最多的是17號(hào)抄本《麼送 》,共1319個(gè)單字,字量最少的是15號(hào)抄本《麼 一科》,僅326字,兩者相差993個(gè)單字。各抄本的頻次概況見(jiàn)表2。
表2 《麼經(jīng)布洛陀》29本抄本的頻次概況
?
同一語(yǔ)料的頻次分布是有相關(guān)性的,例如,某字在A組語(yǔ)料出現(xiàn)10次,在B組語(yǔ)料出現(xiàn)0次,在C組語(yǔ)料出現(xiàn)5次,在D組語(yǔ)料出現(xiàn)15次,那么,就該字的頻次分布而言,顯然A與D的相關(guān)性最強(qiáng),與C的相關(guān)性較強(qiáng),而與B的相關(guān)性最弱。《麼經(jīng)布洛陀》共包含了29本抄本,考察每個(gè)抄本字頻分布的相關(guān)性,可以更好地認(rèn)識(shí)抄本之間內(nèi)部的聯(lián)系與規(guī)律,也可以在抄本考證的某些方面 (如版本辨?zhèn)?、判斷流行范圍與年代等)提供一定程度上的內(nèi)證材料。下面我們通過(guò)《麼經(jīng)布洛陀》總字表中的6601個(gè)單字,根據(jù)每個(gè)字在不同抄本中出現(xiàn)的頻次,從整體上考察頻次分布的相關(guān)性。
在統(tǒng)計(jì)分析中常常用到主成分分析法,它可以用少數(shù)的指標(biāo)將重疊、相關(guān)的信息高度概括,達(dá)到數(shù)據(jù)簡(jiǎn)化的目的。[5]113-114利用SPSS統(tǒng)計(jì)軟件,以29本抄本為變量,對(duì)每個(gè)字在每本抄本中出現(xiàn)的頻次進(jìn)行主成分分析。SPSS的輸出結(jié)果有“KMO和Bartlett的檢驗(yàn)表”、“公因子方差表”、“解釋的總方差表”和“成分矩陣表”等。限于篇幅,本文只對(duì)其中的關(guān)鍵數(shù)據(jù)做出說(shuō)明,而不列出所有的表格。
從“KMO和Bartlett的檢驗(yàn)”可知,KMO的值為0.801,Sig.值達(dá)0.000,表示適合進(jìn)行因子分析,可以抽出主成分。從“公因子方差表”可知,每個(gè)變量的共同度都非常高,除了有4個(gè)變量的共同度在0.5-0.7之間,其他變量的共同度全部達(dá)到0.7及以上,表明變量中的大部分信息都已被提取,主成分分析的結(jié)果是有效的。從“解釋的總方差表”可知,前五個(gè)主成分的特征值大于1,第一成分的特征值達(dá)14.486,占總特征值的49.952%。第二、三、四、五主成分的特征值分別為2.854、1.517、1.348和1.025,各占總特征值的9.840%、5.230%、4.647%、3.534%。累計(jì)方差貢獻(xiàn)率為73.203%,說(shuō)明前五個(gè)主成分可解釋全部總特征的73.203%。在第六成分之后的特征值越來(lái)越小,相差也不明顯,故提取前五個(gè)成分作為主成分。
從“成分矩陣表”可知,第一主成分與所有抄本的相關(guān)性都比較強(qiáng),相關(guān)性最強(qiáng)的是10號(hào)抄本,相關(guān)系數(shù)達(dá)0.873,其他相近的還有08號(hào)抄本0.868、01號(hào)抄本0.855、05號(hào)抄本0.850、07號(hào)抄本0.848、11號(hào)抄本0.839;相關(guān)性最弱的是26號(hào)抄本,相關(guān)系數(shù)僅為0.312。與第二主成分的相關(guān)性較強(qiáng)的有 17、18、19、20、21號(hào)抄本,系數(shù)分別為 0.649、0.764、0.723、0.759、0.513,其余抄本的相關(guān)系數(shù)最高也不超過(guò)0.250,且大多數(shù)為負(fù)相關(guān),表明這幾個(gè)抄本具有非常強(qiáng)的內(nèi)部一致性和外部排他性。26、28號(hào)抄本與第三主成分的相關(guān)性較強(qiáng),系數(shù)分別為0.508、0.423。26號(hào)抄本與第四主成分的相關(guān)性較強(qiáng),系數(shù)為0.426。27號(hào)抄本與第五主成分的相關(guān)性較強(qiáng),系數(shù)為0.431。每一載荷量表示該主成分與所對(duì)應(yīng)變量的相關(guān)系數(shù),相關(guān)系數(shù)越大,表示該主成分與變量的相關(guān)性越強(qiáng)。SPSS的輸出窗口還給出了前三個(gè)主成分的三維成分圖,見(jiàn)圖1。
根據(jù)掌握的抄本背景知識(shí),可以將主成分大致識(shí)別為抄本用字的頻次和抄本流行的地域兩大方面。第一主成分大體從正面體現(xiàn)了所有抄本的用字頻次,這是由輸入的原始數(shù)據(jù)決定的。第一主成分的載荷量顯示,所有抄本的載荷量都達(dá)到0.3,表明抄本的用字頻次具有相關(guān)性;其中有23本抄本的載荷量在0.5以上,在成分三維圖中不少抄本的坐標(biāo)甚至出現(xiàn)了重疊,表明絕大多數(shù)抄本的頻次分布顯著相關(guān)。
再來(lái)看偏離主要特征的抄本,它們是17-21、26、27和28號(hào)抄本。根據(jù)《麼經(jīng)布洛陀》每本抄本的語(yǔ)音說(shuō)明[6]前言43-44以及壯族方言的分布情況[7]29-30可知,17 -21 號(hào)抄本流行于紅水河流域,屬于壯語(yǔ)北部方言紅水河土語(yǔ)區(qū);26號(hào)抄本流行于云南文山一帶,屬于壯語(yǔ)南部方言文馬土語(yǔ)區(qū);27號(hào)抄本流行于那坡一帶,屬于壯語(yǔ)南部方言德靖土語(yǔ)區(qū)。這些抄本都偏離了主要特征,并且恰好分別與第二、四、五主成分具有較強(qiáng)的相關(guān)性 (見(jiàn)上文的相關(guān)系數(shù))。據(jù)此可以推斷,第二主成分為紅水河地區(qū)抄本的頻次特征,第四主成分為云南文山一帶抄本的頻次特征,第五主成分為那坡一帶抄本的頻次特征??梢?jiàn),影響頻次偏離主要特征的主要因素是抄本的流行地域,換言之,麼經(jīng)抄本的頻次分布具有很強(qiáng)的地域性,流行在同一地域的抄本,頻次分布具有很高的一致性;而流行在不同地域的抄本,頻次分布則表現(xiàn)出差異性。
此外,28號(hào)抄本和26號(hào)抄本在第三主成分上也共同偏離了主要特征,并表現(xiàn)出一定的相關(guān)性,但是它們又流行于不同的地域。這可能與抄本的版本、內(nèi)容,書(shū)寫的方式、年代或者其他因素有關(guān)。另外,雖然21號(hào)抄本與17-20號(hào)抄本都流行于紅水河流域,但也有差別,在三維圖中偏離了其他抄本,可能與其過(guò)高的單字平均頻次有關(guān) (見(jiàn)下文)。
單字平均使用量即單字的平均頻次 (單字平均使用量=總頻次/字量),它是衡量單字效用的重要指標(biāo)。單字平均使用量和總頻次之間存在著一定的依賴關(guān)系,表現(xiàn)在《麼經(jīng)布洛陀》中,就是單字平均使用量會(huì)隨著抄本頻次的變化而變化。下面我們采用回歸分析的數(shù)學(xué)方法[8]300,來(lái)分析這種變化的規(guī)律和頻次分布的特點(diǎn)。
利用SPSS對(duì)各抄本頻次與單字平均使用量進(jìn)行相關(guān)分析,輸出結(jié)果顯示,各抄本頻次與單字平均使用量的Pearson相關(guān)系數(shù)R為0.956,說(shuō)明兩者高度相關(guān),存在顯著的線性關(guān)系。決定系數(shù)R2的值越接近1,線性模型對(duì)數(shù)據(jù)的擬合程度越好。抄本頻次與單字平均使用量的決定系數(shù)R2為0.915,說(shuō)明該回歸方程的數(shù)據(jù)擬合程度非常好,各抄本單字平均使用量變異的91.5%可由頻次的變化來(lái)解釋。兩者的線性回歸方程圖見(jiàn)圖2。
在圖2中,直線是對(duì)29本抄本頻次與其單字平均使用量一般關(guān)系的擬合,散點(diǎn)是各抄本虛擬的坐標(biāo)位置。抄本坐標(biāo)越接近直線,則抄本的單字平均使用量越符合一般關(guān)系;抄本坐標(biāo)越偏離直線,則抄本的單字平均使用量越不符合一般關(guān)系,越可能出現(xiàn)異常。抄本坐標(biāo)位于直線上方,則抄本的單字平均使用量高出一般關(guān)系;抄本坐標(biāo)位于直線下方,則抄本的單字平均使用量低于一般關(guān)系。從圖2上看,21號(hào)抄本《佈洛陀造方唱本》大大超出了一般關(guān)系,表明該抄本的單字平均使用量過(guò)高。在總頻次一定的情況下,單字平均使用量過(guò)高,其使用字量必然要比一般抄本的少得多。這應(yīng)該是該抄本在圖1中偏離主要特征的主要原因。高出一般關(guān)系的抄本還有26號(hào)《麼荷泰》、28號(hào)《麼破塘》,低于一般關(guān)系的抄本有05號(hào)《九狼叺》、07號(hào)《麼叭床 一科》、09號(hào)《 兵棹 啟科》、10號(hào)《 兵甲一科》、23號(hào)《 漢皇祖王一科》,其余的抄本大都位于直線上或者靠近直線。
在偏離一般關(guān)系的抄本中,21號(hào)抄本流傳于紅水河流域,但該區(qū)域其他抄本的單字平均使用量非常接近一般關(guān)系,表明該抄本的偏離并未受到流傳區(qū)域的影響。26號(hào)抄本流傳于云南文山,但是該區(qū)域的抄本只此一本,沒(méi)有更多的材料證明是否與區(qū)域因素相關(guān)。除了這兩本抄本,其他偏離一般關(guān)系的抄本都流傳于右江流域。在接近一般關(guān)系的抄本中,各抄本也沒(méi)有因?yàn)榱餍袇^(qū)域的不同而顯示出差異。由此可見(jiàn),抄本的單字平均使用量與其流傳地域沒(méi)有必然關(guān)系。
我們估計(jì),出現(xiàn)偏離的原因可能有以下幾種情形:第一,抄寫人員不規(guī)范書(shū)寫、隨意用字[9]97,一定的內(nèi)容使用過(guò)多或過(guò)少的字來(lái)表示,從而導(dǎo)致單字的平均使用量出現(xiàn)異常。第二,與造字者的文字水平[10]74-77有關(guān),文字水平高,造字者就能用較多的字形表示一定的語(yǔ)素;文字水平低,造字者則可能用較少的字形表示一定的語(yǔ)素,甚至用相同的字形表示不同的語(yǔ)素。第三,與抄本的內(nèi)容相關(guān),有的是綜合性的抄本,有的則是單一內(nèi)容的抄本,在頻次一定的情況下,單一內(nèi)容抄本的相同語(yǔ)素所占的比例要高,單字的平均使用量自然也高。第四,與轉(zhuǎn)抄過(guò)程中的人為因素[11]5有關(guān),如,人為地改動(dòng)原抄本的內(nèi)容、文字、篇幅等,或者轉(zhuǎn)抄者按照自己的意志改寫原抄本的字形。由于麼經(jīng)抄本的用字特征是相對(duì)一致的,在文本內(nèi)容、篇幅及流傳區(qū)域等因素相同的情況下,改動(dòng)過(guò)的抄本很可能會(huì)偏離一般抄本的頻次特征。
通過(guò)對(duì)方塊壯字的統(tǒng)計(jì)和分析,我們初步掌握了《麼經(jīng)布洛陀》的字頻概況,并得出以下結(jié)論:第一,方塊壯字的字頻分布具有差異性。一方面,從總體上看,頻次級(jí)別不同,其相應(yīng)的字量和覆蓋率也不同,并表現(xiàn)出少數(shù)高頻字的高覆蓋率和多數(shù)低頻字的低覆蓋率的兩端分布格局;另一方面,從29本抄本各自的字頻分布來(lái)看,不同的抄本在單本抄本的總頻次、字量、平均頻次及前十高頻字上也存在差異。第二,麼經(jīng)抄本的字頻具有相關(guān)性,絕大多數(shù)的抄本在頻次分布上趨于一致;頻次分布比較特殊的抄本主要受到了地域因素的影響。第三,《麼經(jīng)布洛陀》各抄本的單字平均使用量和抄本頻次之間存在著顯著的依存關(guān)系,單字平均使用量隨著抄本頻次的變化而變化;偏離一般關(guān)系的抄本與其流傳的地域沒(méi)有必然關(guān)系,可能與人為、抄本版本及內(nèi)容等因素有關(guān)。
[1]梁庭望.古壯字結(jié)出的碩果——對(duì)《壯族麼經(jīng)布洛陀影印譯注》的初步研究[J].廣西民族研究,2005(1).
[2]馮志偉.現(xiàn)代漢字和計(jì)算機(jī)[M].北京:北京大學(xué)出版社,1989.
[3]李國(guó)英,周曉文.漢字字頻統(tǒng)計(jì)方法的改進(jìn)[J].北京師范大學(xué)學(xué)報(bào):社會(huì)科學(xué)版,2011(6).
[4]張?jiān)倥d.從字頻看西周金文文字系統(tǒng)的特點(diǎn)[J].語(yǔ)言研究,2004(1).
[5]覃勤.先秦古籍字頻分析[J].語(yǔ)言研究,2005(4).
[6]張聲震.壯族麼經(jīng)布洛陀影印譯注[Z].南寧:廣西民族出版社,2004.
[7]張均如,梁敏,等.壯語(yǔ)方言研究[M].成都:四川民族出版社,1999.
[8]李志輝,羅平.PASW/SPSS Statistics中文版統(tǒng)計(jì)分析教程[M].北京:電子工業(yè)出版社,2010.
[9]黃南津,高魏,等.方塊壯字文獻(xiàn)生存及傳承狀況調(diào)查分析[J].廣西民族研究,2010(2).
[10]覃曉航.方塊壯字研究[M].北京:民族出版社,2010.
[11]黃南津.略談廣西少數(shù)民族手抄文獻(xiàn)整理研究[N].廣西民族報(bào),2013-08-23.