基于多維度熵值考察的常用字表構(gòu)建

2024-05-21 23:56:18張艷梅李如龍呂展

華文教學(xué)與研究 2024年2期

張艷梅李如龍呂展

［關(guān)鍵詞］常用字；常用字表；漢字效用；熵值法

［摘要］常用字除了字頻這一外顯特性外，還應(yīng)當(dāng)具有穩(wěn)定性、較廣的分布性、構(gòu)詞構(gòu)字的能產(chǎn)性等特征。以往基于語料選取來考察漢字，無法對每個漢字不同維度的特征進(jìn)行量化，最終仍主要通過字頻來構(gòu)建字表。文章基于2007—2021年《中國語言生活狀況報告》語言大數(shù)據(jù)，對常用字的字頻、穩(wěn)定性、分布度、構(gòu)詞頻、構(gòu)字頻等五個維度進(jìn)行詳細(xì)的數(shù)據(jù)考察與特征分析，使用熵值法建立漢字效用綜合測度模型，構(gòu)建多維度常用字表。通過熵值法構(gòu)建的漢字效用綜合測度模型，從多個方面測量、量化了漢字的效用，得出的排序結(jié)果與以往的字表有著較大的差異。不單單考慮字頻這一維度之后，大量在穩(wěn)定性、分布度、構(gòu)詞構(gòu)字能力等維度具有突出優(yōu)勢的常用字躋身字表前列，由此也更為科學(xué)合理。

［中圖分類號］H195.3? ［文獻(xiàn)標(biāo)識碼］A? ［文章編號］1674-8174（2024）02-0068-14

1. 引言

我國關(guān)于現(xiàn)代漢字常用字的研究是基于字頻統(tǒng)計開展的，比較科學(xué)的字頻統(tǒng)計起于上世紀(jì)二三十年代，發(fā)端之作當(dāng)屬1928年陳鶴琴先生的《語體文應(yīng)用字匯》，隨后經(jīng)過一代代學(xué)者篳路藍(lán)縷的探索，字頻統(tǒng)計研究的方法更加科學(xué)、應(yīng)用的范圍更加廣泛。至本世紀(jì)初教育部國家語委、國家語言資源監(jiān)測中心首次進(jìn)行大規(guī)模的社會用字用詞調(diào)查，字頻統(tǒng)計這項工作在語料庫規(guī)模、統(tǒng)計工具、分析方法等方面均有了長足的進(jìn)步。

回顧近百年的字頻統(tǒng)計、常用字研究，整體來看分為三個部分：一是對常用字的理論研究，如周有光（1980）、費錦昌（1988）、高家鶯等（1993）、蘇培成（1994）等學(xué)者，主要集中于常用字的效用問題、功能特征問題等的探討；二是基于字頻統(tǒng)計的常用字表構(gòu)建，如《常用字表》（1952）、《常用字和常用詞》（1985）、《現(xiàn)代漢字常用字表》（1988）、《通用規(guī)范漢字表》（2013）等成果，為中小學(xué)語文基礎(chǔ)教育教材選字用字、國際中文教育教材選字用字、辭書編纂以及漢字機械處理和信息處理等領(lǐng)域提供了重要參考；三是基于大型語料庫的用字調(diào)查，如周美玲、蘇新春（2009）、王衍軍（2009）、劉華（2010）、張軍（2013）、史曉東等（2015）、趙雪等（2018）、張艷梅、呂展（2022）等學(xué)者，基于大規(guī)模的語料庫，從各個角度對中國語言文字的使用進(jìn)行調(diào)查研究，反映當(dāng)代漢字用字現(xiàn)狀。

在以上的常用字研究中，常用字表的研制最為引人注目。新中國以來常用字表的研制成為了一項重要工作，并取得了一系列豐富的成果，主要由國家組織，規(guī)模大、影響深遠(yuǎn)。在常用字表的研制基礎(chǔ)上，高家鶯等（1993）、蘇培成（1994）等學(xué)者總結(jié)了構(gòu)建常用字表所需要考察的維度問題，與《現(xiàn)代漢字常用字表》的選取原則一致，大抵是字頻、穩(wěn)定性、分布度、構(gòu)詞能力、構(gòu)字能力等五個方面，另外還考慮到了生活常識。以往的常用字表構(gòu)建工作中，對以上漢字不同維度的考察是基于語料庫的選取而開展的：通過選取不同時期、不同學(xué)科領(lǐng)域的語料進(jìn)行字頻統(tǒng)計，繼而通過考察漢字的構(gòu)詞構(gòu)字能力與實際使用進(jìn)行人工干預(yù)調(diào)整。盡管基于語料選取來考察漢字的不同維度體現(xiàn)了語料基礎(chǔ)的科學(xué)、全面，但無法對每個漢字不同維度的特征進(jìn)行量化，最終仍主要通過字頻來構(gòu)建字表，字頻依舊是最主要的參考指標(biāo)。

關(guān)于常用字的理論研究有一個非常重要的結(jié)論，即周有光（1980）《現(xiàn)代漢字學(xué)發(fā)凡》總結(jié)的漢字字頻的不平衡規(guī)律，即后來抽象出的“漢字效用遞減率”：“漢字的使用效率是很不平衡的。各家的頻率統(tǒng)計互有出入。斟酌于各家之間，得到如下的規(guī)律：最高頻1000字的覆蓋率大約是90%，以后每增加1400字大約提高覆蓋率十分之一。這就叫‘漢字效用遞減率?！保ㄖ苡泄?，1980；周有光，2009：63-64；蘇培成，2019：43）周有光先生雖沒有明確指出“漢字效用”的概念，但認(rèn)為字頻越大的漢字“漢字效用”越大，因此提出“想辦法把用途很小的大量漢字少用乃至不用，‘取其少，棄其多”（周有光，2009：63-64）。結(jié)合這一觀點，本研究認(rèn)為“漢字效用”是指漢字在中國語言文字生活中實際發(fā)揮的作用，不同的漢字“效用”不同，掌握少部分的高效用漢字，就可以識讀和聽懂漢語實際語言生活中大部分的語言和言語。同時，我們認(rèn)為，“漢字效用”是一個綜合的字用體現(xiàn)，字頻只是其外顯的一個方面，難以完全反映漢字的總體效用，構(gòu)建綜合的多維度“漢字效用”測度體系能夠更全面、更完整地測量與分析常用字在多個維度中的“漢字效用”特點。

因此，基于前人對于常用字選取的原則問題，我們嘗試基于2007—2021年《中國語言生活狀況報告》的語言大數(shù)據(jù)，運用計量語言學(xué)、數(shù)據(jù)挖掘的方法對現(xiàn)代漢字常用字的多個維度進(jìn)行數(shù)據(jù)考察并量化，使用相關(guān)性分析、線性回歸、分層回歸等方法分析各個維度特征之間的關(guān)系，并使用熵值法建立漢字效用綜合測度模型，構(gòu)建多維度常用字表。

2. 相關(guān)說明

2.1 相關(guān)術(shù)語

根據(jù)國家語言資源監(jiān)測與研究中心《中國語言生活狀況報告2013》中的《語言監(jiān)測相關(guān)術(shù)語》，本研究涉及的相關(guān)術(shù)語如下：

字種：指被調(diào)查語料中字形不同的漢字；

詞種：指被調(diào)查語料中不重復(fù)的詞（不區(qū)分同形詞）；

頻次：指被調(diào)查對象在調(diào)查語料中出現(xiàn)的次數(shù)；

頻序：指被調(diào)查對象的頻次排序；

覆蓋率：指被調(diào)查語料內(nèi)指定調(diào)查對象占所有調(diào)查對象總量的百分比。

2.2常用字的考察維度

以往常用字表的構(gòu)建很大程度上基于字頻而開展，而字頻并不代表漢字的效用，因此有學(xué)者提出了“使用度”的說法，將字頻與分布結(jié)合起來，以此代表效用發(fā)揮范圍的廣狹，而漢字效用發(fā)揮的穩(wěn)定性也十分重要，劉華（2010）提出了漢字的時空分布。這些相關(guān)探索，啟示我們漢字效用不能單單靠字頻表現(xiàn)，常用字表需要構(gòu)建綜合測度指標(biāo)體系。

對于常用字需要考察的維度問題，基于前人對于常用字特征的分析與總結(jié)，我們可以歸納為漢字字頻、時空分布能力、生成能力等三個方面。漢字的時空分布能力表現(xiàn)為時間和空間的兩條軸上，時間的分布體現(xiàn)為字詞在歷時發(fā)展中的恒定情況即穩(wěn)定性，空間則集中于領(lǐng)域（適用人群和適用領(lǐng)域）分布即分布度（劉華，2010：100），分別體現(xiàn)了漢字效用發(fā)揮的穩(wěn)定程度以及范圍的廣狹。漢字的生成能力表現(xiàn)為構(gòu)詞能力與構(gòu)字能力，即構(gòu)詞頻（次）、構(gòu)字頻（次）兩個方面，可以突破單個字用的限制，與其他漢字組合成多個高頻詞，或成為其他漢字的部件。因此，本研究對于常用字的多維度考察，從漢字字頻、時空分布能力、生成能力三大方面入手，從字頻、穩(wěn)定性、分布度、構(gòu)詞頻、構(gòu)字頻五個維度考慮，如圖1所示：

2.3 語料說明

自2005年起，教育部國家語委、國家語言資源監(jiān)測中心《中國語言生活狀況報告》對每年的報紙、廣播電視、網(wǎng)絡(luò)（新聞）用字用詞進(jìn)行調(diào)查統(tǒng)計，建立年度國家語言資源監(jiān)測語料庫，包括平面、有聲、網(wǎng)絡(luò)三種媒體：平面媒體語料來源包括國內(nèi)23家報紙；有聲媒體語料來源包括中央電視臺3個欄目、中央人民廣播電臺8個欄目以及央廣網(wǎng)、央視網(wǎng)、北京、安徽等16家融媒體共63個欄目的轉(zhuǎn)寫文本；網(wǎng)絡(luò)媒體語料來自新浪的新聞網(wǎng)頁。語料選取的規(guī)模性、來源的科學(xué)性，是自建語料庫難以達(dá)到的程度，且有聲媒體語料一定程度上彌補了以往字頻統(tǒng)計中口語語料的不足，因此基于此語料庫所統(tǒng)計得出的《年度媒體用字總表》《年度媒體高頻詞語表》，是目前來說當(dāng)代中國語言生活中用字用詞調(diào)查最為科學(xué)、全面、可靠的字詞使用數(shù)據(jù)，是測量漢字字頻、穩(wěn)定性、分布度、構(gòu)詞頻、構(gòu)字頻的權(quán)威數(shù)據(jù)。

由于2006年并未公布《年度媒體用字總表》《年度媒體高頻詞語表》，我們選取了《中國語言生活狀況報告》中2007—2021共15年的《年度媒體用字總表》《年度媒體高頻詞語表》，校對、整理并二度統(tǒng)計數(shù)據(jù)，自建15年媒體用字用詞數(shù)據(jù)庫。

3. 研究過程

3.1 常用字字頻維度考察

對于常用字字頻維度的考察，本研究通過計算漢字的頻次來體現(xiàn)?；?007至2021年度共15年的《年度媒體用字總表》，匯總常用字在15年間的總的頻次，以考察其頻序，體現(xiàn)字頻屬性。具體方法如下：將《年度媒體用字總表》中所有字種進(jìn)行匯總，計算這些字在15年中每年具體的頻次值并加和運算，形成15年的總頻次值，然后按各個漢字的總頻次由高到低排列，形成《現(xiàn)代漢字常用字頻度排序表》。受文章篇幅所限，《現(xiàn)代漢字常用字頻度排序表》部分展示如表1所示：

3.2 常用字穩(wěn)定性維度考察

上文關(guān)于漢字字頻屬性的考察，能發(fā)現(xiàn)不同漢字之間效用的巨大差異。如前文所言，“漢字效用”的巨大差異為周有光先生“漢字效用遞減率”的主要內(nèi)容，即隨著字頻的下降，漢字使用的覆蓋率呈遞減趨勢，漢字的效用也呈遞減趨勢。而漢字效用是動態(tài)變化著的，負(fù)載著實體意義的漢字在不同年份、不同時期的效用可能存在差異，高頻字種①的使用頻率是否穩(wěn)定也應(yīng)當(dāng)是其效用的一部分體現(xiàn)，還應(yīng)當(dāng)考察漢字效用的時間分布是否均勻穩(wěn)定?？梢酝ㄟ^分析漢字在各個年份《年度媒體用字總表》中頻序上下波動的狀況，即計算每個漢字15年頻序的方差，來體現(xiàn)其效用穩(wěn)定程度。方差值越小，則頻序變化程度越小，漢字效用的穩(wěn)定性越強。

所謂方差，就是和中心偏離的程度，是用來衡量數(shù)據(jù)的波動大小（即這組數(shù)據(jù)偏離平均數(shù)的大?。┑亩攘恐?。在樣本容量相同的情況下，方差越大，說明數(shù)據(jù)的波動越大，越不穩(wěn)定。其公式為：

[S2=[1n]［（X1-x）2+（X2-x）2+…+（Xn-x）2］] 其中，x表示某個漢字15年頻序的平均值，n表示頻序值的數(shù)量，Xn表示某個漢字在第n年的頻序，如X1表示某個漢字2007年的頻序，X2表示某個漢字2008年的頻序，以此類推，X15表示某個漢字2021年的頻序?；谏衔牡摹冬F(xiàn)代漢字常用字頻度排序表》，將前3500字②在2007年至2021年中每年的頻序進(jìn)行統(tǒng)計，計算15年頻序的方差，部分統(tǒng)計結(jié)果展示如表2所示。如“的”字，在《現(xiàn)代漢字常用字頻度排序表》中字頻屬性排第一位，在2007年至2021年的《年度媒體用字總表》中每年頻序均排第一位，頻序方差為0，15年間字頻效用非常穩(wěn)定。

通過表2的數(shù)據(jù)及觀察所有前3500字的歷年穩(wěn)定性，可以發(fā)現(xiàn)漢字頻序的穩(wěn)定程度跟字頻在整體上存在正相關(guān)的關(guān)系：此表中頻序代表著字頻的大小，頻序越靠前的字，字頻越大。隨著頻序的降低，字頻的減小，頻序方差整體上逐漸增大，漢字的穩(wěn)定性降低。為了更直觀地展示前3500字歷年穩(wěn)定性數(shù)據(jù)的全貌，我們將這3500字的頻序方差制成散點圖按穩(wěn)定程度聚類（如圖2所示）可以更明顯地觀察出穩(wěn)定性與字頻呈正相關(guān)的關(guān)系。當(dāng)橫坐標(biāo)頻序逐漸增大時，字頻減小，漢字的頻序方差整體上也逐漸增大，穩(wěn)定性整體上減弱，但相似頻度段內(nèi)部的漢字穩(wěn)定程度不一。如取任一數(shù)值的頻序，相似頻度段內(nèi)的漢字，頻序方差均有一定的大小差異。

通過觀察圖2，可以發(fā)現(xiàn)位于前1000頻序的高頻字中有兩個字的穩(wěn)定性較差，離散程度較大，分別是頻序位于760的“疫”和895的“貧”字，具體頻序變化如表3所示。“疫”字在2020年、2021年兩年中頻序極其靠前，并當(dāng)選“漢語盤點2021”年度國內(nèi)字、國際字，“貧”字自2016年其頻序逐漸上升。兩字的穩(wěn)定性程度相對于前1000頻序的字而言較差，頻序方差大。主要是因社會熱點事件的發(fā)生，這兩字在近幾年字頻急升，組成高頻詞“防疫”“抗疫”以及“扶貧”“脫貧攻堅”等。這說明漢字的效用是動態(tài)變化著的，且動態(tài)變化的程度不同?？傊?fù)載著實體意義的字在不同年份、不同時期的效用是不同的，熱點事件輿情的爆發(fā)對相應(yīng)漢字的效用影響較大。

3.3 常用字分布度維度考察

漢字效用在不同學(xué)科、不同領(lǐng)域的文本中的分布情況是不同的。在詞頻統(tǒng)計方面，尹斌庸、方世增（1994）提出了使用度公式，張普（1999）提出了流通度公式，劉華（2010）將字詞的頻次、分布、生成能力結(jié)合起來提出了字詞的使用度公式，以上研究均是將字詞的空間分布能力考慮到了常用程度的衡量之中。本研究對于漢字分布度的考察通過分布率來體現(xiàn)，具體方法為：基于上文的《現(xiàn)代漢字常用字頻度排序表》，將頻序位于前3500的字在2007年至2021年各年統(tǒng)計中的出現(xiàn)文本數(shù)進(jìn)行統(tǒng)計，計算得出其文本分布率，分布率越大，分布度越強。分布率計算的公式如下：

Di=ti/T

其中，Di是第i號字的分布率，ti為第i號字的出現(xiàn)文本數(shù)，T為所有語料的文本總數(shù)，且T為常數(shù)。由于《中國語言生活狀況報告》并未詳細(xì)公布2007至2013年所使用的的語料文本總數(shù)，因此在文本總數(shù)的計算上，2007年至2013年以分布率近乎于1的“的”字的出現(xiàn)文本數(shù)為準(zhǔn)，2014至2021年以《年度媒體用字總表說明》的實際文本總數(shù)為準(zhǔn)。此處的常數(shù)T計算之后為15812431。分布率計算結(jié)果的部分展示如表4所示。

通過表4的數(shù)據(jù)及觀察所有前3500字的分布率，可以發(fā)現(xiàn)漢字的文本分布率即分布度跟字頻在整體上存在正相關(guān)的關(guān)系：隨著頻序的增高，字頻的降低，漢字的文本分布率整體上逐漸降低。將這3500字的文本分布率制成散點圖按分布程度聚類，如圖3所示。當(dāng)橫坐標(biāo)頻序逐漸增大時，漢字的分布率整體上也逐漸變小，分布度整體上減弱，但相似頻度段內(nèi)部的漢字分布度不等。如取任一數(shù)值的頻序，相似頻度段內(nèi)的漢字，分布率均有一定的大小差異。

通過觀察圖3，可以發(fā)現(xiàn)位于前1000頻序的高頻字中有兩個字的分布率較低，為前1000字的最低值。分別是頻序位于895的“貧”和921的“媽”字，具體分布率情況如表5所示?！柏殹薄皨尅倍窒噍^于前1000頻序的漢字而言分布率較低，效用發(fā)揮的文本范圍相對較窄?！柏殹弊侄嘟M成“扶貧”“脫貧攻堅”等詞，較書面化，“媽”字多組成“媽媽”或單用，較口語化。

3.4 常用字構(gòu)詞頻維度考察

漢字的效用還可以體現(xiàn)在突破單個字用的限制，通過與其他的字組合成詞的能力，即漢字的構(gòu)詞能力。對于漢字的構(gòu)詞能力，前人已有相關(guān)研究，如張凱（1997）對《現(xiàn)代漢語常用字表》（1988）3500字的構(gòu)詞能力進(jìn)行了統(tǒng)計與分級。本研究參照此思路，以構(gòu)詞頻即生成詞數(shù)為調(diào)查內(nèi)容，體現(xiàn)漢字的構(gòu)詞能力，并將其與字頻、詞頻結(jié)合起來。

我們通過對《中國語言生活狀況報告》2007—2021年共15年《年度媒體高頻詞語表》的所有詞種進(jìn)行統(tǒng)計分析，進(jìn)行漢字的構(gòu)詞數(shù)統(tǒng)計，分析常用字的構(gòu)詞能力。各年度的《年度媒體高頻詞語表》的調(diào)查語料均來自國家語言資源監(jiān)測語料庫，包括平面、有聲、網(wǎng)絡(luò)三種媒體①。具體方法：基于上文的《現(xiàn)代漢字常用字頻度排序表》，將前3500字在歷年《年度媒體高頻詞語表》中的生成詞數(shù)進(jìn)行統(tǒng)計，計算3500字各個字的構(gòu)詞頻。統(tǒng)計結(jié)果展示如下：

通過表6的數(shù)據(jù)及觀察所有前3500字的構(gòu)詞頻，可以發(fā)現(xiàn)漢字的構(gòu)詞頻即構(gòu)詞能力跟字頻在整體上亦存在一定的正相關(guān)的關(guān)系：隨著頻序的增加，字頻的降低，漢字的構(gòu)詞頻整體上逐漸降低。為了更直觀地展示前3500字歷年構(gòu)詞頻數(shù)據(jù)的全貌，我們將這3500字的構(gòu)詞頻制成散點圖按構(gòu)詞能力聚類，如圖4所示。當(dāng)橫坐標(biāo)頻序逐漸增大時，漢字的構(gòu)詞頻整體上也逐漸變小，構(gòu)詞能力整體上減弱，但相似頻度段內(nèi)部的構(gòu)詞能力不等。如取任一數(shù)值的頻序，相似頻度段內(nèi)的漢字，構(gòu)詞頻均有一定的大小差異。再比如“的”字，盡管字頻表現(xiàn)最突出，但它的構(gòu)詞頻卻比較低。

3.5 常用字構(gòu)字頻維度考察

漢字的生成能力除構(gòu)詞能力以外，構(gòu)字能力也是其重要的屬性特點。有些字的構(gòu)字能力特別強，常常作為構(gòu)字部件跟別的部件拼合成另外一些字，邢紅兵（2007：33）對漢字部件的構(gòu)字情況進(jìn)行了統(tǒng)計，發(fā)現(xiàn)漢字部件在構(gòu)字能力上是不均勻的。90年前，高本漢曾說過：“中國文字是中國人精神創(chuàng)造力的產(chǎn)品，并不是從他族借來的；書體很美麗可愛，所以中國人常應(yīng)用它為藝術(shù)裝飾品，而且學(xué)習(xí)起來也不見得怎么繁難，只需熟悉了幾百個單體字，就得到了各種合體字里所包含的分子?！保ǜ弑緷h，1931：20）因此，本部分以構(gòu)字頻即構(gòu)成合體字的數(shù)量為調(diào)查內(nèi)容，并將其與字頻結(jié)合起來，測量《現(xiàn)代漢字常用字頻度排序表》前3500字的能產(chǎn)度。

本研究對于構(gòu)字頻的統(tǒng)計，是基于現(xiàn)行漢字的“活字”范圍之內(nèi)的，即中國當(dāng)代語言文字生活中仍在使用的漢字。具體方法如下：首先，對2007—2021共15年《年度媒體用字總表》的所有字種進(jìn)行統(tǒng)計，共獲得17154個字種；其次，剔除17154個字種中的繁體字、異體字、舊計量用字等非簡體字字種，剩下12569個字種；最后，對12569個簡體字字種進(jìn)行拆分，計算常用字的構(gòu)字能力。對于漢字的拆分，充分考慮到了字理，遵循以下原則：

（1）一般來說，拆至獨體字：合體字拆，獨體字不拆。如“冊”“書”“刀”“弓”“尸”“單”等字為獨體字，不作拆分；合體字“蟬”拆為“蟲，單”，拆到了獨體字便不繼續(xù)拆。另外，需要注意的是：根據(jù)漢字的造字原理，有的看上去不是特別典型的合體字，實際上是合體字，能拆分成兩個或幾個典型的獨體字，這樣的情況也拆，比如“看”拆分成“手”和“目”。（2）“草、木、手、水、金、火、刀、言、心、食”等由獨體字構(gòu)成的偏旁，拆分后維持獨體字的形狀，其他依據(jù)《信息處理用GB13000.1字符集漢字部件規(guī)范》拆成部件，如果還成字則保持，不成字則刪去。

統(tǒng)計結(jié)果部分展示如表7。

通過表7的數(shù)據(jù)可以發(fā)現(xiàn)漢字的構(gòu)字頻即構(gòu)字能力跟字頻的相關(guān)性并沒有前三個維度那么顯著。我們認(rèn)為，主要是因為漢字之間構(gòu)字頻的差別過大，只有少部分字具有構(gòu)字能力，極少數(shù)字具有強構(gòu)字能力。因此本研究將3500字中極端大的值去掉，即去掉33個構(gòu)字頻在100以上的字，保留剩下的3467個字，將其構(gòu)字頻制作成散點圖按構(gòu)字能力聚類，如圖5所示?？梢园l(fā)現(xiàn)構(gòu)字頻即構(gòu)字能力跟字頻仍有一定的相關(guān)性：當(dāng)橫坐標(biāo)頻序逐漸增大時，字頻降低，漢字的構(gòu)字頻整體上也逐漸變小，構(gòu)字能力整體上減弱，但相似頻度段內(nèi)部的構(gòu)字能力不等。如取任一數(shù)值的頻序，相似頻度段內(nèi)的漢字，構(gòu)字頻均有一定的大小差異。

將3500字中構(gòu)字能力最強、構(gòu)字頻在100以上的33個字按構(gòu)字能力降序排列，如表8所示。這些構(gòu)字能力極強的漢字所代表的大多是從古至今人們?nèi)粘Ｉ钪卸贾陵P(guān)重要的事物，如“水”“木”“草”“口”“人”等，這些極少數(shù)的字便可以生成大量的合體字。常用字之間構(gòu)字能力差異顯著，構(gòu)字頻較高的漢字學(xué)習(xí)起來更加經(jīng)濟能產(chǎn)，這也說明將其作為常用字的考察維度之一非常有必要。

4. 基于熵值法的漢字效用綜合測度

通過上文的分析，可以發(fā)現(xiàn)字頻只是常用字外顯的屬性，很大程度上受漢字時空分布能力、生成能力的影響。因此，字頻并不能決定一個漢字的總體效用。本研究嘗試通過字頻（X1）、穩(wěn)定性（即頻序方差，X2）、分布率（X3）、構(gòu)詞頻（X4）、構(gòu)字頻（X5）等五個維度構(gòu)建綜合測度模型，考察、量化漢字的總效用（Y），構(gòu)建多維度常用字表。

在綜合指標(biāo)體系的測度中，確定指標(biāo)權(quán)重的方法主要有主觀賦權(quán)法和客觀賦權(quán)法。主觀賦權(quán)法是一類根據(jù)評價者主觀上對各指標(biāo)的重視程度來決定權(quán)重的方法，客觀賦權(quán)法所依據(jù)的賦權(quán)原始信息來源于客觀環(huán)境，它根據(jù)各指標(biāo)所提供的信息量來決定指標(biāo)的權(quán)重。熵值法即是結(jié)合熵值提供的信息值來確定權(quán)重的一種客觀賦權(quán)法，相對主觀賦權(quán)具有較高的可信度和精確度，能深刻反映出指標(biāo)的區(qū)分能力。熵值（Entropy）是一種物理計量單位，熵越大說明數(shù)據(jù)越混亂，攜帶的信息越少，效用值越小，因而權(quán)重也越小。熵值法也具有局限性，它僅憑數(shù)據(jù)的波動程度，或者說所謂的信息量來獲得權(quán)重，不考慮數(shù)據(jù)的實際意義，很可能得出違背常識的結(jié)果。所以，確定權(quán)重前有時需要確定指標(biāo)對目標(biāo)得分的影響方向，對可能使得權(quán)重失真的指標(biāo)要進(jìn)行預(yù)處理或者剔除。故此，盡管熵值法可單獨進(jìn)行綜合評價，但因為研究問題的復(fù)雜性，為盡可能避免熵值法計算權(quán)重的局限性，熵值法通常情況下也會與其他方法相結(jié)合。

對于漢字效用綜合測度，我們認(rèn)為很難通過人為主觀賦權(quán)達(dá)到理想客觀的測度結(jié)果，因此本研究采用熵值法客觀賦權(quán)，以消除確定權(quán)重的人為主觀因素。為確保結(jié)論的可靠，通過熵值法構(gòu)建漢字效用綜合測度模型前，首先通過相關(guān)分析確認(rèn)有相關(guān)關(guān)系，可進(jìn)行回歸分析；然后通過線性回歸、分層回歸進(jìn)行檢驗，確任模型構(gòu)建有意義、模型較好；在以上基礎(chǔ)上再通過熵值法計算權(quán)重。我們使用SPSS軟件，基于前文的數(shù)據(jù)，以字頻為因變量，穩(wěn)定性（頻序方差）、分布率、構(gòu)詞頻、構(gòu)字頻等四種數(shù)據(jù)作為自變量，先通過相關(guān)性分析、線性回歸分析、分層回歸分析，對模型進(jìn)行檢驗。結(jié)論如下：（1）發(fā)現(xiàn)字頻與其它四個維度之間具有顯著的相關(guān)關(guān)系。具體來說，字頻和頻序方差之間有著顯著的負(fù)相關(guān)關(guān)系；字頻和分布率之間有著顯著的正相關(guān)關(guān)系；字頻和構(gòu)詞頻之間有著顯著的正相關(guān)關(guān)系；字頻和構(gòu)字頻之間有著顯著的正相關(guān)關(guān)系。（2）發(fā)現(xiàn)模型通過F檢驗，模型構(gòu)建有意義；模型中VIF值全部均小于5，意味著不存在共線性問題；并且D-W值在數(shù)字2附近，說明模型不存在自相關(guān)性，樣本數(shù)據(jù)之間并沒有關(guān)聯(lián)關(guān)系，模型較好。

在通過以上檢驗的基礎(chǔ)上，本研究熵值法的主要步驟如下：

4.1 數(shù)據(jù)標(biāo)準(zhǔn)化預(yù)處理

在多維度的綜合測度中，由于幾組維度指標(biāo)的性質(zhì)不同，具有不同的量綱和數(shù)量級，各類數(shù)值之間的水平相差很大，如果使用原始數(shù)值進(jìn)行分析，就會突出數(shù)值較高的維度在綜合分析中的作用（如字頻），相對削弱數(shù)值水平較低維度的作用（如分布率）。因此，為了保證結(jié)果的可靠性，本研究對原始指標(biāo)數(shù)據(jù)進(jìn)行了標(biāo)準(zhǔn)化預(yù)處理。標(biāo)準(zhǔn)化的公式為：

[x-xStd]

其中x表示數(shù)據(jù)的平均值，Std表示數(shù)據(jù)的標(biāo)準(zhǔn)差。將數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化之后，取穩(wěn)定性維度頻序方差值的相反值，與其他數(shù)據(jù)保持一致。

4.2 熵值法綜合測度模型

（1）根據(jù)熵值法的原理及其特性，建立m（3500）個評價樣本，n（5）個評價維度的初始矩陣為：

X=[X11? ?X12 … X1nX21? ?X22 … X2nX31? ?X32 … X3nXm1? ?Xm2 … Xmn]，其中Xij是第i個漢字的第j項維度指標(biāo)。

（2）計算第j項維度指標(biāo)下第 i個漢字占該指標(biāo)的比重：

Pij=[Xijn=1nXij]

（3）計算第j項維度指標(biāo)的熵值：

eij=-k[n=1nPijln（Pij）]，其中k=[1ln（n）]

（4）計算第j項維度指標(biāo)的差異系數(shù)：

gj = 1-ej

對第j項指標(biāo)，指標(biāo)值的差異越大，對方案評價的左右就越大，熵值就越小。則gj越大，指標(biāo)越重要（裴瑋，2020：119-122）。

（5）計算權(quán)值：

WJ =[gjj=1mgj]，其中1≤j≤m

（6）計算各漢字的多維度綜合效用：

SI=[J=1MWJPij]

4.3 綜合測度權(quán)重系數(shù)

對于漢字效用的綜合測度，每個維度指標(biāo)下所有漢字的差異系數(shù)越大，所得到的熵值越小，該指標(biāo)的相對權(quán)重越大；差異系數(shù)越小，所得到的熵值越大，該指標(biāo)的相對權(quán)重越小。將各維度指標(biāo)的數(shù)值代入公式進(jìn)行計算，得出各項維度指標(biāo)的熵值和權(quán)重系數(shù)，如表9所示：

使用熵值法對字頻等總共5項進(jìn)行權(quán)重計算，從上表可以看出：字頻、頻序方差、分布率、構(gòu)詞頻、構(gòu)字頻總共5項，它們的權(quán)重值分別是0.2483、0.0482、0.1718、0.1368、0.3949。因此綜合測度模型為：

漢字總效用Y=X1*0.2483+X2*-0.0482+X3*0.1718+X4*0.1368+X5*0.3949

X1至X5分別字頻、頻序方差、分布率、構(gòu)詞頻、構(gòu)字頻。此處0.0482為負(fù)數(shù)，是因為字頻和頻序方差之間的相關(guān)系數(shù)值為-0.285，呈現(xiàn)顯著的負(fù)相關(guān)關(guān)系。

其中構(gòu)字頻維度下所有的漢字的差異系數(shù)最大，相對權(quán)重大。這與我們的經(jīng)驗常識是相符合的，三千多的常用漢字中僅有少部分漢字有著較高的構(gòu)字能力，據(jù)本研究的調(diào)查數(shù)據(jù)，近15年《中國語言生活狀況報告》媒體用字總表前3500個高頻字中，構(gòu)字頻大于等于2的漢字僅有955個、大于等于10的漢字僅有429個、大于等于100的漢字僅有33個，因此構(gòu)字頻屬于漢字效用綜合測度的優(yōu)勢維度，權(quán)重系數(shù)大。而頻序方差的差異系數(shù)相對較小，熵值最大，權(quán)重系數(shù)最小，這與我們的經(jīng)驗常識也是相符合的：前3500高頻字，這些字本身便都具備了一定的穩(wěn)定性，因而15年總頻次較大，只是相似頻度段內(nèi)部的漢字穩(wěn)定程度不一，因此權(quán)重系數(shù)較小。

4.4 綜合測度排序結(jié)果

基于前文《現(xiàn)代漢字常用字頻度排序表》中的頻次（X1）、《現(xiàn)代漢字常用字頻度排序表》中的頻序方差（X2）、《現(xiàn)代漢字常用字頻度排序表》中的分布率（X3）、《現(xiàn)代漢字常用字頻度排序表》中的構(gòu)詞頻（X4）、《現(xiàn)代漢字常用字頻度排序表》中的構(gòu)字頻（X5），將數(shù)據(jù)標(biāo)準(zhǔn)化之后使用以上的綜合測度模型，可以得出漢字效用的總效用值（Y），并按總效用值由大到小排序，構(gòu)建多維度的常用字表，部分計算結(jié)果如下：

根據(jù)以上的綜合測度排序結(jié)果，可以發(fā)現(xiàn) “人”“水”“的”位居前三?！叭恕蔽鍌€維度均展現(xiàn)出突出的數(shù)據(jù)排名，不僅字頻高，而且穩(wěn)定性強、分布度高、構(gòu)詞頻大、構(gòu)字頻大，因此綜合排序第一；“水”字在字頻、穩(wěn)定性、分布度等三個維度表現(xiàn)較好，在構(gòu)詞頻、構(gòu)字頻兩個維度中表現(xiàn)突出，因此綜合排序位于第二；“的”字的構(gòu)詞頻、構(gòu)字頻相對較低，但是在字頻、穩(wěn)定性、分布度三個方面表現(xiàn)突出。

按照以上的漢字效用綜合測度排序結(jié)果所形成的多維度常用字表，取1～2500、2501～3500兩個級別，具體結(jié)果在文后附表中展示。

與《通用規(guī)范漢字表》（2013）對比，本研究得出的以上3500字，與一級字表3500字有336字的差異，具體體現(xiàn)在級別分布不同：多維度常用字表1～2500字中，有61個二級字、1個三級字；多維度常用字表2501～3500字中，有271個二級字，3個三級字。

在以上多維度常用字表中，排序最為靠前的一批字，往往在各維度中均有著較大的優(yōu)勢，綜合起來看呈現(xiàn)出各方面良好的特征。排序較為靠后的一批字，如2501～3500的1000字，則是在各個維度表現(xiàn)中有良有劣，可以通過各維度的排序來觀察，以2501～2506的5個字為例，各個維度的排序表現(xiàn)如表15所示?！盃q駱?biāo)熬尽?個字的構(gòu)字頻均為0，并列1259位，因此構(gòu)字頻對這些字的影響相同。其中，“爍”“駱”的穩(wěn)定性為優(yōu)勢維度，字頻、分布度、構(gòu)詞頻為劣勢維度；“塌”“桶”的字頻、分布度、構(gòu)詞頻為優(yōu)勢維度，穩(wěn)定性為劣勢維度；“揪”的穩(wěn)定性為優(yōu)勢維度，字頻、分布度、構(gòu)詞頻為劣勢維度。且以上5個字各個維度的優(yōu)劣程度也有著具體的大小差別，據(jù)此可以看出漢字效用多維度測量對于常用字排序的影響。當(dāng)然，像“桶”這樣的口語用字未能進(jìn)入前2500字，應(yīng)當(dāng)與我們采用的語料（《中國語言生活狀況報告》語言大數(shù)據(jù)）中純口語語料仍較少有關(guān)。將來或可補充海量的（比如與書面語語料同等體量的）口語語料并進(jìn)行科學(xué)的計量統(tǒng)計，將高頻用字按“書口五分法”分為“純書面用字”“偏書面用字”“書口兼用”“偏口語用字”“純口語用字”五類，以此給口語用字（尤其是純口語用字）“加權(quán)”，從而讓總效用值排序更為科學(xué)地反映常用字在書面語和口語中的實際效用。

5. 結(jié)語

在新中國以來常用字表的制定中，大多是主要通過字頻的高低來選取常用字并進(jìn)行分級，其它維度指標(biāo)并沒有進(jìn)行量化。文章嘗試在前人理論與應(yīng)用研究的基礎(chǔ)上，基于15年《中國語言生活狀況報告》的語言大數(shù)據(jù)庫，進(jìn)行漢字效用的量化考察，并使用多種分析方法分析各維度之間的相關(guān)關(guān)系、影響關(guān)系，最終使用熵值法構(gòu)建字頻、穩(wěn)定性（頻序方差）、分布率、構(gòu)詞頻、構(gòu)字頻的綜合測度模型，按總體效用值降序排列得出了3500數(shù)的多維度常用字表。通過熵值法構(gòu)建的漢字效用綜合測度模型，從多個方面測量、量化了漢字的效用，得出的排序結(jié)果與以往的字表有著較大的差異。不單單考慮字頻這一維度之后，大量在穩(wěn)定性、分布度、構(gòu)詞構(gòu)字能力等維度具有突出優(yōu)勢的常用字躋身字表前列，如前二十字中“人水口木草手心一日大金土女火山”等，均是各方面效用都較為突出的常用字。

本研究關(guān)于常用字表的多維度指標(biāo)構(gòu)建的理念以及研究方法，期待能為現(xiàn)代漢字的研究、常用字表的制定、中小學(xué)語文基礎(chǔ)教育教材及國際中文教育教材的用字選字等提供一些可供參考的數(shù)據(jù)和結(jié)論。而文中提到的“書口五分法”“純口語加權(quán)”等更多進(jìn)一步的、扎實細(xì)致的調(diào)查，我們將持續(xù)進(jìn)行，以期字表構(gòu)建更加科學(xué)地反映常用字在書面語和口語中的實際效用。

［參考文獻(xiàn)］

陳明星，陸大道，張華 2009 中國城市化水平的綜合測度及其動力因子分析［J］.地理學(xué)報（4）.

費錦昌 1988 常用字的性質(zhì)、特點及其選取標(biāo)準(zhǔn)［J］.語文學(xué)習(xí)（9）.

馮志偉 1989 現(xiàn)代漢字和計算機［M］.北京：北京大學(xué)出版社.

高本漢 1931 中國語與中國文［M］.北京：商務(wù)印書館.

高家鶯，范可育，費錦昌 1993 現(xiàn)代漢字學(xué)［M］.北京：高等教育出版社.

國家語言資源監(jiān)測與研究中心 2008a 中國語言生活狀況報告2007（上）［M］.北京：商務(wù)印書館.

——— 2008b 中國語言生活狀況報告2007（下）［M］.北京：商務(wù)印書館.

——— 2009a 中國語言生活狀況報告2008（上）［M］.北京：商務(wù)印書館.

——— 2009b 中國語言生活狀況報告2008（下）［M］.北京：商務(wù)印書館.

——— 2010a 中國語言生活狀況報告2009（上）［M］.北京：商務(wù)印書館.

——— 2010b 中國語言生活狀況報告2009（下）［M］.北京：商務(wù)印書館.

——— 2011 中國語言生活狀況報告2011［M］.北京：商務(wù)印書館.

——— 2012 中國語言生活狀況報告2012［M］.北京：商務(wù)印書館.

——— 2013 中國語言生活狀況報告2013［M］.北京：商務(wù)印書館.

——— 2014 中國語言生活狀況報告2014［M］.北京：商務(wù)印書館.

——— 2015 中國語言生活狀況報告2015［M］.北京：商務(wù)印書館.

——— 2016 中國語言生活狀況報告2016［M］.北京：商務(wù)印書館.

——— 2017 中國語言生活狀況報告2017［M］.北京：商務(wù)印書館.

——— 2018 中國語言生活狀況報告2018［M］.北京：商務(wù)印書館.

——— 2019 中國語言生活狀況報告2019［M］.北京：商務(wù)印書館.

——— 2020 中國語言生活狀況報告2020［M］.北京：商務(wù)印書館.

——— 2021 中國語言生活狀況報告2021［M］.北京：商務(wù)印書館.

——— 2022 中國語言生活狀況報告2022［M］.北京：商務(wù)印書館.

李如龍 2016 漢字的發(fā)展脈絡(luò)和現(xiàn)實走向［J］.社會科學(xué)文摘（1）.

——— 2018 漢字雙重性質(zhì)論綱［J］.漢字漢語研究（4）.

劉華 2010a 詞語計算與應(yīng)用［M］.廣州：暨南大學(xué)出版社.

——— 2010b 東南亞主要華文媒體用字情況調(diào)查［J］.華文教學(xué)與研究（1）.

——— 2020 語料庫語言學(xué)——理論、工具與案例［M］.北京：外語教學(xué)與研究出版社.

裴瑋 2020 基于熵值法的城市高質(zhì)量發(fā)展綜合評價［J］. 統(tǒng)計與決策（36）.

史曉東，王博立 2015 臺灣漢字使用狀況，中國語言生活狀況報告2015［M］.北京：商務(wù)印書館.

蘇培成? ?2010 當(dāng)代中國的語文改革和語文規(guī)范［M］.北京：商務(wù)印書館.

——— 2019 現(xiàn)代漢字學(xué)綱要（第3版）［M］.北京：商務(wù)印書館.

王寧（主編），李宇明、王鐵琨（審定） 2013 通用規(guī)范漢字表解讀［M］.北京：商務(wù)印書館.

王衍軍 2009 20世紀(jì)50年代以來對外漢語精讀教材用字情況調(diào)查——以五套對外漢語精讀教材為例［J］. 暨南大學(xué)華文學(xué)院學(xué)報（華文教學(xué)與研究）（2）.

吳茗 2008 現(xiàn)代漢語常用語素項屬性研究［D］.中國傳媒大學(xué)博士學(xué)位論文.

邢紅兵 2007 現(xiàn)代漢字特征分析與計算研究［M］.北京：商務(wù)印書館.

尹斌庸，方世增 1994 詞頻統(tǒng)計的新概念和新方法［J］.語言文字應(yīng)用（2）.

張軍 2014 傈僳族新老文字使用問題，中國語言生活狀況報告2013［M］. 北京：商務(wù)印書館.

張凱 1997 漢語構(gòu)詞基本字的統(tǒng)計分析［J］.語言教學(xué)與研究（1）.

張普 1992 關(guān)于語感與流通度的思考［J］.語言教學(xué)與研究（2）.

張艷梅，呂展 2022 從當(dāng)前漢字使用情況調(diào)查看《現(xiàn)代漢語常用字表》［J］.華文教學(xué)與研究（4）.

張宇鐳，黨琰，賀平安 2005 利用Pearson相關(guān)系數(shù)定量分析生物親緣關(guān)系［J］.計算機工程與應(yīng)用（33）.

趙雪，魯瑾芳，劉一凡 2018 北京城區(qū)社會用字調(diào)查研究［J］.語言文字應(yīng)用（2）.

周美玲，蘇新春 2009 四套基礎(chǔ)教育語文教材的用字狀況調(diào)查及思考——基于人教、蘇教、北師大、語文版教材［J］.上海教育科研（4）.

周有光 1980 現(xiàn)代漢字學(xué)發(fā)凡［J］.語言現(xiàn)代化叢刊（2）.

——— 2009 中國語文的時代演進(jìn)［M］.北京：人民文學(xué)出版社.

威廉H·格林 1998 經(jīng)濟計量分析［M］.北京：中國社會科學(xué)出版社.

Hauke， J. & T. Kossowski 2011 Comparison of values of Pearsons and Spearmans correlation coefficients on the same sets of data［J］. Quaestiones Geographicae（30）.

On construction of a commonly used glossary based on multidimensional entropy examination

ZHANG Yanmei1， LI Rulong2， LV Zhan3

（1. School of Foreign Languages， Wuhan Institute of Technology， Wuhan， Hubei 430205， China； 2. Department of Chinese Language and Literature， Xiamen University， Xiamen， Fujian 361005， China； 3. College of Chinese Language and

Culture， Jinan University， Guangzhou， Guangdong 510610， China）

Key words： commonly used characters； glossary of commonly used characters； utility of Chinese characters； entropy method

Abstract： In addition to the external characteristics of character frequency， commonly used characters should possess stability， wide distribution， and the ability to form new characters and words. Chinese characters used to be examined on the basis of corpus selection， but it was not possible to quantify the characteristics of each character in different dimensions， and eventually the glossary was constructed mainly through character frequency. Based on the language data from Language Situation in China （2007-2021）， the article examines and analyzes the character frequency， stability， distribution and word-formation frequency and character-formation frequency in detail. And the entropy method was used to establish a comprehensive model for measuring the utility of Chinese characters and to construct a multi-dimensional glossary of commonly used characters. The comprehensive model built by entropy method measures and quantifies the utility of Chinese characters in a number of ways， and the ranking results are significantly different from those of previous glossaries. Once the research considers not only character frequency， but also the stability， distribution， and word-formation ability of characters from multiple dimensions， a large number of commonly used characters with these significant characteristics will occupy top positions in the glossary. Therefore， a glossary of commonly used characters created from comprehensive consideration is more scientific and logical.

【責(zé)任編輯匡小榮】

［收稿日期］ 2023-09-27

［作者簡介］張艷梅，女，主要研究方向為古文字學(xué)、漢字學(xué)、國際中文教育、出土文獻(xiàn)語言研究，576720717

@qq.com；李如龍，男，主要研究方向為漢語方言學(xué)、漢語音韻學(xué)、漢字學(xué)、漢語詞匯學(xué)、漢語地名學(xué)、社會語言學(xué)、應(yīng)用語言學(xué)（包括國際中文教育、語文教育等），lirulongchina@126.com；呂展，男，主要研究方向為計量語言學(xué)、國際中文教育，1181203904@qq.com。本文通訊作者：呂展。

［基金項目］教育部中外語言交流合作中心2022年國際中文教育研究中外聯(lián)合專項課題“基于《國際中文教育中文水平等級標(biāo)準(zhǔn)》的漢字分級讀物《漢字會說話》”（22YH29ZW）；2021年湖北省高等學(xué)校教學(xué)研究項目 “趣話漢字故事—《漢字與文化》社會實踐一流課程建設(shè)”（2021323）；2020年湖北省高等學(xué)校哲學(xué)社會科學(xué)研究重大項目（省社科基金前期資助項目）“中華優(yōu)秀漢字文化融入大中小學(xué)教育研究”（20ZD049）

① 論文修改過程中先后蒙教育部語言文字應(yīng)用研究所馮志偉先生，暨南大學(xué)華文學(xué)院王漢衛(wèi)教授、邵宜教授、劉華教授，廈門大學(xué)國際中文教育學(xué)院/海外教育學(xué)院張靈芝副教授及《華文教學(xué)與研究》匿名審稿專家指教，謹(jǐn)此一并致以誠摯的謝意。唯文責(zé)自負(fù)。

1? 高頻字種指的是頻次較高的字種，如表1中的“的”“一”“在”。

② 正如周有光先生所提出的“漢字效用遞減率”，常用范圍之外的漢字效用已然很低。因此本研究對于常用字各個維度的分析考察，均以3500數(shù)，即以《通用規(guī)范漢字表》（2013）所設(shè)置的常用字?jǐn)?shù)為限，并不擴大到通用范圍和專用范圍。

1 為方便廣大讀者使用國家語言資源監(jiān)測與研究中心的研究成果，實現(xiàn)語言資源共享，《中國語言生活狀況報告》從2011年開始，用光盤形式呈現(xiàn)語言數(shù)據(jù)。據(jù)我們統(tǒng)計，光盤呈現(xiàn)的2010—2021年《高頻詞語表》收錄詞種數(shù)共35904個。

1 本研究在漢字拆分時兼顧了字理，左耳旁“阝”與右耳旁“阝”拆為了“阜”“邑”二字，使“阜”“邑”二字的構(gòu)字頻與綜合效用值極高，最終的排序分別為252、178?？紤]到“阜”“邑”二字作為部首但字形已發(fā)生改變，且字頻、穩(wěn)定性、分布度、構(gòu)詞頻等其余四個維度的表現(xiàn)較為一般，本文將其稍作處理，排到“綜合效用值前2500字”的最后兩位。