• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      漢語詞表建設(shè)概述

      2012-04-13 08:48:15
      華中學(xué)術(shù) 2012年2期
      關(guān)鍵詞:常用詞詞表主題詞表

      劉 云

      (華中師范大學(xué)文學(xué)院,湖北武漢,430079)

      詞表是詞語按照一定的原則收集起來的詞匯集合。詞表既是漢語詞匯計(jì)量研究的對(duì)象,又是漢語詞匯計(jì)量研究的結(jié)果,對(duì)語言教學(xué)與研究、圖書情報(bào)分類檢索、詞典編撰和中文信息處理等都有著重要的價(jià)值。就目前已經(jīng)刊行的詞表而言,主要集中在三個(gè)方面:語文詞典收錄的詞目表、語言信息處理用詞表、圖書情報(bào)的主題詞表。

      一、語文詞典收錄的詞目表

      語文詞典詞目的研制在我國有悠久的歷史,古代漢語單音節(jié)詞占優(yōu)勢(shì),因此語文詞目表的研制在古代表現(xiàn)為字書的編撰。漢字是一種表意文字,要學(xué)習(xí)文化知識(shí)首先面臨的就是識(shí)字的任務(wù)。我國自古就有集中識(shí)字的傳統(tǒng),要識(shí)字就得有識(shí)字的教材。周宣王時(shí)太史籀編寫的教學(xué)童書《史籀篇》是我國蒙學(xué)識(shí)字教材的源頭。秦始皇統(tǒng)一中國后,實(shí)行“書同文”的政策,對(duì)以前各國文字的使用進(jìn)行徹底的整理,命令丞相李斯、中車府令趙高和太史令胡毋敬模仿《史籀篇》的體例,改籀文為秦篆,分別編寫了《倉頡》七章、《爰?xì)v》六章、《博學(xué)》七章,到漢初將這三部字書合并為《蒼頡篇》。此后,識(shí)字課本的編纂開始增多,據(jù)《漢書·藝文志》,在西漢武帝時(shí)司馬相如作《凡將篇》,元帝時(shí)黃門令史游作《急就篇》,成帝時(shí)將作大匠李長作《元尚篇》[1]。后來出現(xiàn)的《千字文》、《三字經(jīng)》、《百家姓》等識(shí)字課本,所選的字也都是常見的字,句式簡短、對(duì)稱、押韻,用字重復(fù)率極低。三本書合起來的總字?jǐn)?shù)是2708個(gè),去重后的字?jǐn)?shù)是1426個(gè),這些字有84.27%屬于如今3500個(gè)常用字的范圍內(nèi)[2]。不過,當(dāng)時(shí)還沒有統(tǒng)計(jì)字頻,只是根據(jù)語感選用,我國第一部漢語頻率字典是陳鶴琴在1928年編成的《語體文應(yīng)用字匯》,他分析了554478個(gè)詞,得出4261個(gè)常用字,但這還不是嚴(yán)格意義上的頻率詞表。

      新中國成立后,為了推廣普通話,普及文化知識(shí),需要編寫各種識(shí)字教材,因此,各級(jí)各部門都非常重視對(duì)漢語常用字詞的統(tǒng)計(jì),陸續(xù)公布了一些基于頻率統(tǒng)計(jì)的字表和詞表,如1950年9月中央人民政府教育部社會(huì)教育司發(fā)布的《常用漢字登記表》收字1017個(gè),1952年6月中央人民政府教育部發(fā)布的《常用字表》收字2000個(gè),1958年8月山東省教育廳發(fā)布的《普通話常用字表》收字3000個(gè),1962年中國文字改革委員會(huì)發(fā)布的《普通話三千常用詞表》收詞3000個(gè),1965年3月北京市教育局發(fā)布的《常用字表》收字3100個(gè)等。其中《普通話三千常用詞表》是這一時(shí)期詞匯統(tǒng)計(jì)研究最重要的成果,詞表收詞達(dá)3218個(gè)。這一時(shí)期的統(tǒng)計(jì)工作基本上是面向中小學(xué)語文教學(xué)的,常用字的字頻手工統(tǒng)計(jì)占了絕對(duì)優(yōu)勢(shì),詞頻統(tǒng)計(jì)剛剛開始,而且規(guī)模一般比較小,統(tǒng)計(jì)結(jié)果也只是用來編寫常用字表或詞表,相關(guān)的詞匯統(tǒng)計(jì)研究尚未真正展開。

      對(duì)漢語詞匯頻率的統(tǒng)計(jì)研究,最早要算鄭林曦所編《普通話三千常用詞表》。該詞表初稿本于1959年出版,收詞3624個(gè),增訂本于1987年出版,收詞3996個(gè)。這是我國第一本分詞類排列的常用詞表,該詞表采取選擇和統(tǒng)計(jì)、檢驗(yàn)相結(jié)合的方法,據(jù)編者自己進(jìn)行的常用性檢驗(yàn),初稿本的詞匯出現(xiàn)頻率平均約為80%,增訂本的詞匯出現(xiàn)頻率提高到87%。這項(xiàng)成果不是建立在嚴(yán)格的詞頻統(tǒng)計(jì)的基礎(chǔ)上的,計(jì)算機(jī)技術(shù)得到廣泛應(yīng)用之后,我國便開展了大規(guī)模的不同用途的漢語詞頻統(tǒng)計(jì)工作。劉英林、宋紹周在《論漢語教學(xué)字詞的統(tǒng)計(jì)與分級(jí)(代序)》中概括了我國20世紀(jì)90年代之前普通話詞表的研制情況,提及那一時(shí)期制訂的詞表有[3]:

      普通話三千常用詞表(3000詞),1959年,文字改革委員會(huì)漢字組

      兩千雙字詞表(2000詞),1960年,《文字改革》發(fā)表

      外國學(xué)生用四千詞表(4000詞),1964年,北京語言學(xué)院

      外國人實(shí)用漢語常用詞表(3040詞),1981年,北京語言學(xué)院

      報(bào)刊詞語三千六百條(3600詞),1983年,北京語言學(xué)院

      中小學(xué)文科教學(xué)七千詞表(7000詞),承德醫(yī)學(xué)院、中國人民大學(xué)

      現(xiàn)代漢語七千詞表(7000詞),中國人民大學(xué)

      擬制文件六千詞表(6800詞),燕山計(jì)算機(jī)應(yīng)用研究中心

      信息處理用現(xiàn)代漢語五千詞表(收雙音以上詞語5639條),1985年,現(xiàn)代漢語工程實(shí)用詞庫國家標(biāo)準(zhǔn)研制組

      現(xiàn)代漢語頻率詞典(常用詞部分8548詞),1985年,北京語言學(xué)院

      對(duì)外漢語教學(xué)常用詞表(4000詞),1986年,北京語言學(xué)院

      漢語水平等級(jí)標(biāo)準(zhǔn)和等級(jí)大綱(《詞匯大綱》部分收甲、乙、丙三級(jí)常用詞5168個(gè)),1988年,中國對(duì)外漢語教學(xué)學(xué)會(huì)

      現(xiàn)代漢語常用詞詞頻詞典(常用詞部分9000),1989年,北京航空航天大學(xué)等

      中小學(xué)漢語常用詞表(常用詞部分8107),1990年,北京師范大學(xué)現(xiàn)代教育技術(shù)研究所

      現(xiàn)代漢語常用詞庫(常用詞部分9000),1990年,山東大學(xué)

      北京口語調(diào)查(常用詞部分6966),1991年,北京語言學(xué)院

      利用計(jì)算機(jī)統(tǒng)計(jì)詞頻并進(jìn)而建立各種詞表主要開展了以下工作:

      (1)北京師范大學(xué)現(xiàn)代教育技術(shù)研究所同中文系合作,從1983年至1985年完成了中小學(xué)語文教材的詞頻統(tǒng)計(jì)與分析研究。課題組對(duì)當(dāng)時(shí)全國統(tǒng)一使用的1983—1984年度的中小學(xué)語文教材(共24冊(cè))作了大規(guī)模的詞頻統(tǒng)計(jì)與分析。利用計(jì)算機(jī)把詞頻值(即詞的出現(xiàn)頻度的高低)和方差值(即詞在各種文體中的覆蓋率)都達(dá)到某一界限的詞全部挑選出來,確認(rèn)為常用詞,編成常用詞表。這項(xiàng)成果于1985年7月通過國家鑒定,形成了《現(xiàn)代漢語詞表》、《三千常用詞表》、《八千常用詞表》、《一萬常用詞表》和《現(xiàn)代漢語構(gòu)詞字典》等具體成果。這項(xiàng)研究對(duì)于中小學(xué)詞匯教學(xué)的意義毋庸置疑,但是詞頻統(tǒng)計(jì)的取材范圍局限于一套統(tǒng)編教材,不足以充分證明所選詞語的“常用性”。

      (2)國家語委語用所現(xiàn)代漢語通用詞課題組,在近2億漢字語料的基礎(chǔ)上,吸收國內(nèi)外主要的詞頻統(tǒng)計(jì)成果,并運(yùn)用新的抽樣語料進(jìn)行覆蓋率檢驗(yàn),采集“全社會(huì)性質(zhì)的、跨行業(yè)的、應(yīng)用廣泛的”通用詞匯集。通用詞包括人們通常說的“常用詞”、“次常用詞”,還包括少量頻度較低但分布率較高、人們十分熟悉的詞語。該項(xiàng)研究的成果《現(xiàn)代漢語通用詞·基本集》于1997年通過專家審定,基本集以語法詞為主,兼收慣用語和成語,收詞6萬多個(gè),其中一級(jí)詞5191個(gè),二級(jí)詞8792個(gè),共13983個(gè)。除《現(xiàn)代漢語通用詞·基本集》以外,還有擴(kuò)充集,擴(kuò)充集以短語為主。通用詞集的研制兼顧了抽樣語料的通俗性、廣泛性、規(guī)范性,采用通用度計(jì)算公式,盡量克服抽樣偏差或統(tǒng)計(jì)偏差造成的“假象高頻詞干擾”[4]。

      (3)經(jīng)教育部、國家語委批準(zhǔn),我國出臺(tái)了漢語國際教育方面的第一個(gè)國家標(biāo)準(zhǔn)《漢語國際教育用音節(jié)漢字詞匯等級(jí)劃分》?!稘h語國際教育用音節(jié)漢字詞匯等級(jí)劃分》創(chuàng)立了適用于漢語國際教育的音節(jié)漢字詞匯的三維基準(zhǔn)體系,一級(jí)音節(jié)608個(gè),二級(jí)音節(jié)301個(gè),三級(jí)音節(jié)163個(gè),三級(jí)附錄音節(jié)38個(gè),共計(jì)1110個(gè);一級(jí)漢字900個(gè),二級(jí)漢字900個(gè),三級(jí)漢字900個(gè),三級(jí)附錄漢字300個(gè),共計(jì)3000個(gè);一級(jí)詞匯2245個(gè),二級(jí)詞匯3211個(gè),三級(jí)詞匯4175個(gè),三級(jí)附錄詞匯1461個(gè),共計(jì)11092個(gè)。與此配套的《漢語口語水平等級(jí)標(biāo)準(zhǔn)及測(cè)試大綱》也同步實(shí)施,測(cè)試的詞語表分為初等(2100條)、中等(3100條)、高等(3100條)三個(gè)層級(jí),共8300條詞語,主要測(cè)試在日常生活領(lǐng)域運(yùn)用漢語口語交際的語音水平、理解水平和表達(dá)水平。

      (4)漢語常用詞詞表的研制。漢語常用詞表的研制歷史由來已久,學(xué)者們經(jīng)過多次實(shí)踐,研制出多個(gè)面向不同需求的常用詞詞表,例如,1985年北京語言學(xué)院研制的《現(xiàn)代漢語頻率詞典》,1989年北京航空航天大學(xué)的《現(xiàn)代漢語常用詞詞頻詞典》,北京師范大學(xué)的《中小學(xué)漢語教學(xué)詞表》,1990年山東大學(xué)的《現(xiàn)代漢語常用詞庫》以及1992年國家漢語水平考試委員會(huì)辦公室考試中心研制的《漢語水平詞匯與漢字等級(jí)大綱》(簡稱HSK 詞匯大綱)。其中HSK 詞匯大綱的影響較大,大綱中詞匯的篩選不僅集成了上述各類詞表的資源成果,同時(shí)還邀請(qǐng)對(duì)外漢語教學(xué)專家進(jìn)行人工干預(yù)。《漢語水平詞匯與漢字等級(jí)大綱》收詞8822個(gè),由易到難分甲、乙、丙、丁四個(gè)等級(jí),其中甲級(jí)詞1033個(gè),乙級(jí)詞2018個(gè),丙級(jí)詞2202個(gè),丁級(jí)詞3569個(gè)。詞匯大綱曾經(jīng)作為我國對(duì)外漢語總體設(shè)計(jì)、教材編寫、課堂教學(xué)、教學(xué)測(cè)試的重要依據(jù),在學(xué)界發(fā)揮了重要的作用。漢語常用詞詞表研制方面規(guī)模最大、影響最大的要數(shù)《現(xiàn)代漢語常用詞表》課題組編的《現(xiàn)代漢語常用詞表(草案)》?!冬F(xiàn)代漢語常用詞表(草案)》提出了現(xiàn)當(dāng)代社會(huì)生活中比較穩(wěn)定的、使用頻率較高的漢語普通話常用詞語56008個(gè),形成了《現(xiàn)代漢語常用詞表(草案)》給出了詞語的詞形。詞表的研制采取詞和語兼顧原則,草案的詞語收錄,以單音節(jié)詞和雙音節(jié)詞為主,同時(shí),根據(jù)語言使用的實(shí)際情況,也收錄一些常用的縮略語、成語、慣用語等熟語,以及表達(dá)整體概念名稱的其他固定短語,兼顧系統(tǒng)性和實(shí)用性原則。草案的詞語收錄,既注意詞語的系統(tǒng)性,又注意詞語在語用中的實(shí)用性,最終形成的《現(xiàn)代漢語常用詞表》,收錄詞語共56008個(gè)[5]。包括單音節(jié)詞3181個(gè),雙音節(jié)詞語40351個(gè),三音節(jié)詞語6459個(gè),四音節(jié)詞語5855個(gè),五音節(jié)和五音節(jié)以上詞語162個(gè)。詞表確定詞語的使用頻度順序采用的是“詞頻頻級(jí)排序法”。由于詞語的來源面比較寬,各種語料都有自己的覆蓋面與構(gòu)成特點(diǎn),詞表中的詞語不能在每種語料中都得到全部顯現(xiàn)。同一個(gè)詞語在不同語料庫中的頻次也可能相差較大,因而不同語料庫中的具體頻次之間缺乏嚴(yán)格的可比性。用頻級(jí)統(tǒng)計(jì)則能較客觀地顯示每個(gè)詞語的使用情況。頻級(jí)排序法就是同一語料庫中所有詞語按頻次數(shù)的多少進(jìn)行的一種排序方法。相同頻次的為一個(gè)頻級(jí)。相同頻級(jí)的詞語,根據(jù)總頻次的多少由高到低排序,相同頻次的根據(jù)讀音按字母升序排列。詞表的研制成果可供中小學(xué)語文教學(xué)、掃盲教育、漢語教育、中文信息處理和辭書編纂等方面參考、采用[6]。

      進(jìn)入21世紀(jì)后,先后有六次大規(guī)模的詞匯統(tǒng)計(jì),分別是《中國語言生活狀況報(bào)告(2005)》、《中國語言生活狀況報(bào)告(2006)》、《中國語言生活狀況報(bào)告(2007)》、《中國語言生活狀況報(bào)告(2008)》、《中國語言生活狀況報(bào)告(2009)》和《中國語言生活狀況報(bào)告(2010)》??v觀這六次大規(guī)模的詞匯統(tǒng)計(jì),每次統(tǒng)計(jì)的樣本都相當(dāng)大,這里以《中國語言生活狀況報(bào)告(2010)》為例,全部語料共計(jì)601649583詞次,詞種2175837個(gè)。覆蓋率達(dá)到90%的高頻詞語13672個(gè),占全部詞種數(shù)的0.63%。媒體的詞語使用具有以下特點(diǎn):(1)高頻詞語數(shù)量及高頻詞語用字?jǐn)?shù)量較穩(wěn)定。高頻詞語數(shù)量穩(wěn)定在1萬余條,高頻詞語用字?jǐn)?shù)量穩(wěn)定在2700條左右。這些高頻詞語在媒體中使用穩(wěn)定,主要是語文詞語,也包括少數(shù)專名和時(shí)間表達(dá)式。(2)高頻詞語中使用頻率變化較大的詞語體現(xiàn)了年度的社會(huì)生活。如:與2009年詞語相比,2010年度下列高頻詞語使用頻率有明顯增加,這些詞語反映2010年的社會(huì)圖景:微博、低碳、團(tuán)購、加息、二手房、房貸、高鐵、央企、準(zhǔn)備金率、糾結(jié)、給力、上海世博會(huì)、亞運(yùn)會(huì)、海地、玉樹、舟曲、智利、希臘、泥石流、火山、國美、富士康、阿凡達(dá)、曹操。(3)媒體中大量詞語出現(xiàn)頻率較低,占年度全部詞種約92%的低頻詞語僅覆蓋全部語料的1%。這些詞語主要是人名、地名、組織機(jī)構(gòu)名以及時(shí)間、數(shù)字表達(dá)式等[7]。

      除了以上這些直接體現(xiàn)頻率的詞表外,方言調(diào)查詞匯手冊(cè)和《現(xiàn)代漢語詞典》在某種意義上也是一種語文詞表。

      方言調(diào)查。新中國成立后,1955年召開了“現(xiàn)代漢語規(guī)范問題學(xué)術(shù)會(huì)議”,著名語言學(xué)家丁聲樹、李榮在會(huì)上作了《漢語方言調(diào)查》的學(xué)術(shù)報(bào)告,提出為了推廣普通話必須重視漢語方言的調(diào)查與研究,“不僅要調(diào)查語音情況,還要重視方言詞匯和方言語法的研究”,并建議“在兩年內(nèi)完成漢語方言初步普查的計(jì)劃”[8]。1955年中科院語言研究所丁聲樹和李榮主編的《方言調(diào)查詞匯手冊(cè)》(《方言》1989年第2期),收詞300多條,小型﹑初步的調(diào)查可以以它為基礎(chǔ)。1956年中科院語言研究所編寫了《方言詞匯調(diào)查手冊(cè)》。1958年語言研究所方言組編寫了《方言調(diào)查詞匯表》(《方言》1981年第3期),之后,方言研究室在《方言調(diào)查詞匯表》的基礎(chǔ)上制定了《漢語方言詞匯調(diào)查詳表》,供課題組內(nèi)部使用,一直沒有公開發(fā)表過。北京大學(xué)中文系語言學(xué)教研室編纂的《漢語方言詞匯》(1964),收錄了18個(gè)代表點(diǎn)方言905條詞語,其修訂版《漢語方言詞匯》(1995)收錄了20 個(gè)代表點(diǎn)方言1230 條。1991年起,方言研究室組織編纂《現(xiàn)代漢語方言大詞典》,為此制定了《漢語方言詞匯調(diào)查表》,后來,方言研究室資料室對(duì)原來的詞匯表做了一些必要的修正和改動(dòng),刪去了編碼,定名為《漢語方言詞語調(diào)查條目表》(《方言》2003年第1期)?!稘h語方言詞語調(diào)查條目表》共有29大類,前23類按照意義來分,后6類按照詞類來分。每大類下再分若干小類,列詞目3000余條?!冬F(xiàn)代漢語方言大詞典》分為42種分卷本,分卷本具有統(tǒng)一的編纂體例,使用統(tǒng)一的詞匯表,因此有大致相同的詞語收錄范圍。每卷本收錄8000條上下的詞語條目,以實(shí)詞為主,兼收虛詞。

      詞典的詞目是按照一定的原則收錄的,整個(gè)詞典的詞目就是一個(gè)一定規(guī)模的詞表?!冬F(xiàn)代漢語詞典》是新中國成立后編寫的第一部中型漢語詞典?!冬F(xiàn)代漢語詞典》1978年正式公開發(fā)行第1版,收詞約56000條,在正式公開發(fā)行之前,還有三種鉛印本:1960年的試印本、1965年的試用本送審稿和1973年的試用本[9]。《現(xiàn)代漢語詞典》以其科學(xué)性、規(guī)范性、實(shí)用性把我國的語文詞典推向了一個(gè)新的起點(diǎn),在推廣普通話、促進(jìn)漢語規(guī)范化方面,在我國語文教育、語言文字的應(yīng)用及理論研究方面都發(fā)揮了積極作用,受到了社會(huì)各界的重視和歡迎。試印本正文共收詞43000條,1965年修改成的試用本,多收了一些古漢語詞匯和方言詞匯,正文增到50000條,到1978年第1版,收詞條目增到56000余條。1983年出版的第2版主要是消除殘存的“文革”的影響,收詞方面變動(dòng)不大,共收詞56147條,其中單字詞目10540條,復(fù)音詞目45607條。1996年出版的修訂第3版,收詞61000余條,修訂的重點(diǎn)在于增刪條目,增收詞語達(dá)9000余條,主要是新詞;刪詞約4000條,主要是過于專業(yè)或過時(shí)的自然科學(xué)、社會(huì)科學(xué)??茥l目[10]。2002年出版的第4版,用粉紅色的紙張將1200多條新詞匯附在原《現(xiàn)代漢語詞典》第3版正文后面,單獨(dú)排序。2005年的第5版與1996年出版的第3版相比,增加了詞語7200余條,其中新詞新義約占三分之一,刪去詞語2700余條,還增、刪了不少詞義。收詞方面增新刪舊,調(diào)整平衡,能較為全面地反映詞匯的新發(fā)展,以適應(yīng)讀者的需要。新修訂版增收的內(nèi)容主要包括新詞新義和為調(diào)整、平衡而增補(bǔ)的詞語兩個(gè)方面[11]??梢?,5個(gè)版本的《現(xiàn)代漢語詞典》收詞范圍不斷擴(kuò)大,收詞數(shù)量呈“三級(jí)跳”式擴(kuò)展,第1~2版收詞相差無幾,在56000條詞目左右;第4版較第3版略有增多,兩者都有60000余條;第5版收詞數(shù)量又上了一個(gè)臺(tái)階,達(dá)到65000余條。總體而言,5個(gè)版本的《現(xiàn)代漢語詞典》都遵守了“收詞要收‘通用(普通)的詞’”、“次要的‘應(yīng)該酌量選收’”的收詞原則。

      二、語言信息處理用詞表

      語言信息處理后臺(tái)一般要有一個(gè)一定規(guī)模的后臺(tái)詞表,漢語的詞匯平面構(gòu)成了現(xiàn)階段中文信息處理主要應(yīng)用領(lǐng)域(漢字識(shí)別,漢語語音識(shí)別及合成,全文信息檢索及文本自動(dòng)分類,文本自動(dòng)校對(duì)等)的主要支撐平臺(tái)。中文信息處理界影響較大的詞表有北京語言學(xué)院完成的“現(xiàn)代漢語詞匯的統(tǒng)計(jì)與分析”專題研究,北京航空學(xué)院等完成的“現(xiàn)代漢語詞頻統(tǒng)計(jì)”項(xiàng)目,許嘉璐、傅永和主持的國家社科基金“九五”重大項(xiàng)目《信息處理用現(xiàn)代漢語詞匯研究》,孫茂松構(gòu)建的《信息處理用現(xiàn)代漢語分詞詞表》,北京大學(xué)俞士汶主編的《漢語語法信息詞典》。

      (1)北京語言學(xué)院語言教學(xué)研究所從1979年末至1986年完成了“現(xiàn)代漢語詞匯的統(tǒng)計(jì)與分析”專題研究,對(duì)4類(報(bào)刊政論、科普、生活口語、文學(xué)作品)語體179種180萬字的語料進(jìn)行統(tǒng)計(jì),共得到詞條31159個(gè),其中出現(xiàn)頻率在10次以上的常用詞,只有8000個(gè),其累計(jì)頻率占95%強(qiáng),其余23159個(gè)詞的累計(jì)頻率僅占不到5%。據(jù)此編撰了《現(xiàn)代漢語頻率詞典》,是我國第一部有著嚴(yán)格統(tǒng)計(jì)學(xué)意義的反映詞量、詞長、詞匯分布、詞語構(gòu)成等斷代詞匯狀況的詞典,其結(jié)果具有較高的客觀性和準(zhǔn)確性。這項(xiàng)成果對(duì)對(duì)外漢語教學(xué)產(chǎn)生了比較大的影響,國家對(duì)外漢語教學(xué)領(lǐng)導(dǎo)小組辦公室還據(jù)此確立了《漢語水平詞匯與漢字等級(jí)大綱》(1992)和《漢語水平等級(jí)標(biāo)準(zhǔn)與語法等級(jí)大綱》(1995)里的詞匯量化標(biāo)準(zhǔn)8822個(gè)。

      (2)北京航空學(xué)院等11個(gè)單位從1981年到1986年完成了“現(xiàn)代漢語詞頻統(tǒng)計(jì)”項(xiàng)目。此次詞頻統(tǒng)計(jì)選材3億漢字,選了1919年到1982年的正式出版物,并分四個(gè)時(shí)期,其統(tǒng)計(jì)成果有三個(gè)方面:①四個(gè)時(shí)期十類分科頻度表,共35個(gè)頻度表;②四個(gè)時(shí)期中每一時(shí)期均有社會(huì)科學(xué)綜合頻度表、自然科學(xué)綜合頻度表和社會(huì)科學(xué)、自然科學(xué)綜合頻度表;③四個(gè)時(shí)期的綜合頻度表。這次詞頻統(tǒng)計(jì)是當(dāng)時(shí)規(guī)模最大、取材范圍最廣的一次,統(tǒng)計(jì)結(jié)果具有一定的代表性。主要成果體現(xiàn)為劉源主編的《現(xiàn)代漢語常用詞詞頻詞典》,但該統(tǒng)計(jì)也存在不足,例如收詞時(shí)沒有一個(gè)嚴(yán)格的“詞”的標(biāo)準(zhǔn)。

      (3)由許嘉璐、傅永和主持的國家社科基金“九五”重大項(xiàng)目《信息處理用現(xiàn)代漢語詞匯研究》于2001年3月通過專家鑒定,其子課題“信息處理用現(xiàn)代漢語分詞詞表”制定了一個(gè)面向信息處理的、具有較強(qiáng)通用性及覆蓋能力的現(xiàn)代漢語分詞詞表,整個(gè)詞表分成7大分庫:普通詞庫、帶字母詞庫、專名庫、常用接續(xù)庫、成語庫、俗語庫(以上均針對(duì)多字詞)以及單字詞庫。以一個(gè)包含158000個(gè)詞的工作初表為基礎(chǔ),將這個(gè)表中的每個(gè)詞置于一個(gè)8億字左右的語料中作詞頻統(tǒng)計(jì),最后采用“定性+定量”的處理策略,形成了《信息處理用現(xiàn)代漢語分詞詞表》,這個(gè)詞表共收詞92843個(gè),其中一級(jí)常用詞56606個(gè),二級(jí)常用詞36237個(gè)[12]。

      (4)國家技術(shù)監(jiān)督局1993年發(fā)布了中華人民共和國國家標(biāo)準(zhǔn)GB/T13715-92《信息處理用現(xiàn)代漢語分詞規(guī)范》,定義了一個(gè)新的概念“分詞單位”,即“漢語信息處理使用的、具有確定的語義或語法功能的基本單位。包括本規(guī)范的規(guī)則限定的詞和詞組”,其中“詞”和“詞組”這兩個(gè)概念與語言學(xué)中的相同[13]??梢姡胺衷~單位”較語言學(xué)意義上的“詞”要寬泛些,涵蓋了語言學(xué)中的“詞”以及一部分看上去比較接近詞的“詞組”。《信息處理用現(xiàn)代漢語分詞規(guī)范》中多次出現(xiàn)“結(jié)合緊密、使用穩(wěn)定”的表述,這個(gè)表述比較模糊、難以操作。由此,孫茂松主持的國家社科“九五”規(guī)劃重大項(xiàng)目《信息處理用現(xiàn)代漢語詞匯研究》子課題“信息處理用現(xiàn)代漢語分詞詞表”就是想制定一個(gè)面向信息處理的、具有較強(qiáng)通用性及覆蓋能力的現(xiàn)代漢語分詞詞表。課題組把經(jīng)過精心挑選的十多部詞典合并去重后,得到一個(gè)包含158000條多字詞的工作初表;然后,對(duì)工作初表中的每個(gè)詞,均從一個(gè)8億字的生語料庫中自動(dòng)獲取了其串頻、詞頻、互信息等統(tǒng)計(jì)數(shù)據(jù);最后,審校者運(yùn)用各類語言學(xué)規(guī)則(定性)并參照上述統(tǒng)計(jì)數(shù)據(jù)(定量),對(duì)工作初表中的158000個(gè)詞逐條作出是否應(yīng)該收入詞表的判斷。經(jīng)過多次審校,最后得到課題最終成果的詞表,詞表的總詞數(shù)為92843條,其中一級(jí)常用詞共56606條,二級(jí)常用詞共36237條。整個(gè)詞表分成7大分庫:普通詞庫、帶字母詞庫、專名庫、常用接續(xù)庫、成語庫、俗語庫(以上均針對(duì)多字詞)以及單字詞庫[14]。

      (5)北京大學(xué)俞士汶等編寫的《現(xiàn)代漢語語法信息詞典》是一部供計(jì)算機(jī)分析與生成漢語句子而使用的機(jī)器詞典。其收詞原則有:①規(guī)范原則,符合國家標(biāo)準(zhǔn)《信息處理用現(xiàn)代漢語分詞規(guī)范》的詞語,都屬于電子詞典的收詞范圍;不符合分詞規(guī)范的詞語,原則上將不予收錄。②高頻原則,為了做到收詞量一定而詞的覆蓋面最大或詞的覆蓋面足夠大而收詞量最少,電子詞典在規(guī)范原則的基礎(chǔ)上,遵守高頻原則,盡可能多地選收那些使用頻率高、適用面廣的詞語,盡量少收低頻詞。③穩(wěn)定原則,電子詞典在選收詞語時(shí),不僅要遵守規(guī)范原則、高頻原則,而且要遵守穩(wěn)定原則,盡可能多地收錄穩(wěn)定性強(qiáng)的詞語,對(duì)那些只通行于過去某一段時(shí)期,而現(xiàn)在已較少使用的詞語,即使統(tǒng)計(jì)頻率較高,一般也不予收錄。④詞部件原則,漢語中詞語數(shù)目無限多,可是構(gòu)成這些詞語的基本部件卻是有限的,語法信息詞典著重收錄可以作為“詞部件”的基本構(gòu)詞成分、詞和固定短語,對(duì)于由這些詞部件構(gòu)成的上級(jí)語言單位,如派生詞、復(fù)合詞、重疊形式、自由短語等,盡可能少收,甚至不收。⑤語法義項(xiàng)原則,具有同一詞形的同形詞語,以及兼類詞語、語法功能有較大差別的多義詞,都看作不同的詞語而列入收錄范圍,這種做法的依據(jù)就是語法義項(xiàng)原則,即根據(jù)詞語的詞類及其它語法功能的異同,來建立相應(yīng)的語法義項(xiàng),同一個(gè)詞形具有幾個(gè)語法義項(xiàng),就作為幾個(gè)詞語收錄。⑥實(shí)用原則,以規(guī)范的現(xiàn)代漢語普通話詞語為主,盡量少收古漢語詞語、方言詞語;增補(bǔ)了少量使用頻率特別高的自由短語,如“一個(gè)、一下子、一會(huì)兒、各種、百分之、全國、這種”等;5字以上詞語暫不收錄,這些詞語在大規(guī)模的語料中出現(xiàn)的幾率非常低;增補(bǔ)了中文標(biāo)點(diǎn)符號(hào)。

      三、圖書情報(bào)的主題詞表

      圖書情報(bào)界的詞表建設(shè)以1980年的《漢語主題詞表》為界,之前是經(jīng)驗(yàn)積累期,之后是收獲期。20世紀(jì)60年代我國只出過一部主題詞表《航空科技資料主題詞表》,這是新中國成立后的第一部詞表,20世紀(jì)70年代的詞表有《科學(xué)技術(shù)用語敘詞表》、《電子技術(shù)漢語主題詞表》、《常規(guī)武器裝備主題詞表》、《國防科學(xué)技術(shù)主題詞表》、《原子能科技資料主題詞表》、《機(jī)械工程主題詞表》,1980年出版了《漢語主題詞表》[15]。

      《漢語主題詞表》是我國第一部大型的綜合性的敘詞表,由中國科技信息研究所和北京圖書館負(fù)責(zé)主持,1975年開始編制,1980年正式出版。分為社會(huì)科學(xué)、自然科學(xué)和附表3卷,共10個(gè)分冊(cè),全表收錄主題詞108568個(gè)。其中正式主題詞91158個(gè),非正式主題詞17410個(gè),詞族數(shù)3707個(gè),一級(jí)范疇數(shù)58個(gè),二級(jí)674個(gè),三級(jí)1080個(gè)[16]。1991年自然科學(xué)部分出增訂本,增補(bǔ)新詞8221條,刪除不適用詞5434條[17]?!稘h語主題詞表》是當(dāng)時(shí)世界上收詞最多的敘詞表,也是世界上少數(shù)幾種綜合性敘詞表之一?!稘h語主題詞表》是一部顯示主題詞與詞間語義關(guān)系的規(guī)范化動(dòng)態(tài)性的檢索語言詞表,以詞和詞組為基本單元,以規(guī)范化的檢索語言來揭示圖書情報(bào)的內(nèi)容;以參照款目來反映主題詞之間的等同關(guān)系、相互關(guān)系和從屬關(guān)系;以主題組配等形式來提高檢全率,該表既適合于機(jī)械檢索也適應(yīng)于手工檢索。從《漢語主題詞表》誕生時(shí)起,我國圖書情報(bào)界就大力推廣和建議使用《漢語主題詞表》,并且對(duì)專業(yè)敘詞表選詞有重要的參考作用。在《漢語主題詞表》出版以后,雖然可以對(duì)各專業(yè)領(lǐng)域進(jìn)行標(biāo)引和檢索,但對(duì)于不同的具體專業(yè),由于相關(guān)概念術(shù)語詞匯量偏少,引發(fā)了對(duì)專業(yè)敘詞表的現(xiàn)實(shí)需求,各專業(yè)的研究人員參考《漢語主題詞表》的選詞規(guī)范和編制技術(shù),編制了各類專業(yè)敘詞表。在選詞方面,各專業(yè)敘詞表的基礎(chǔ)詞匯(多數(shù)來自《漢語主題詞表》)是在《漢語主題詞表》專業(yè)核心概念的基礎(chǔ)上的豐富和擴(kuò)展。各專業(yè)詞表選定的主題詞,主要是各學(xué)科領(lǐng)域文獻(xiàn)中經(jīng)常出現(xiàn)、在情報(bào)檢索中有使用價(jià)值和一定的使用頻率、能作為主題匯集一定量文獻(xiàn)或具有敘詞組配功能的名詞術(shù)語;詞表選定的主題詞,必須詞形簡練、詞義明確、嚴(yán)格遵守一詞一義原則,并且通過概念組配應(yīng)能表達(dá)文獻(xiàn)或用戶查詢的特定主題;詞表選定的主題詞,符合我國科技發(fā)展的實(shí)際需要,盡量與國內(nèi)外主要科技主題詞表相兼容,并注意到主題詞的科學(xué)性與思想性。此后的20世紀(jì)80年代出版了《常規(guī)武器工業(yè)敘詞表》、《農(nóng)業(yè)主題詞表》、《圖書情報(bào)學(xué)主題詞表》、《環(huán)境科學(xué)敘詞表》、《自動(dòng)化科學(xué)技術(shù)主題詞表》等40多種專業(yè)敘詞表。20世紀(jì)90年代出版了《計(jì)算機(jī)科學(xué)技術(shù)漢語敘詞表》、《世界漢語教學(xué)主題詞表》、《數(shù)學(xué)漢語主題詞表》、《中國鐵路敘詞表》、《大氣科學(xué)主題詞表》等30多種專業(yè)敘詞表,進(jìn)入21世紀(jì),還陸陸續(xù)續(xù)有各種專業(yè)敘詞表不斷涌現(xiàn)[18]。

      此外,較有影響的還有《中國分類主題詞表》和《國務(wù)院公文主題詞表》?!吨袊诸愔黝}詞表》(1994)是在《中圖法》第三版和《漢語主題詞表》第一版的基礎(chǔ)上編制的、兩者兼容的一體化情報(bào)檢索語言,是一部大型綜合性的信息文獻(xiàn)標(biāo)引工具。它問世后在圖書館及情報(bào)界得到了廣泛應(yīng)用,2005年9月由北京圖書館出版社出版了第二版,包括印刷版和電子版?!秶鴦?wù)院公文主題詞表》(1997年12月修訂)共由15類1049個(gè)主題詞組成,分為主表和附表兩大部分,主表有13類751個(gè)主題詞,附表有2類298個(gè)主題詞。詞表分為三個(gè)層次。第一層是對(duì)主題詞區(qū)域的分類,如“綜合經(jīng)濟(jì)”、“財(cái)政、金融”類等。第二層是類別詞,即對(duì)主題詞的具體分類,如“工交、能源、郵電”類中的“工業(yè)”、“交通”、“能源”和“郵電”等。第三層是類屬詞,如“體制”、“職能”、“編制”等。第二層和第三層統(tǒng)稱為主題詞,用于文件的標(biāo)引。

      根據(jù)高文飛、趙新力《我國主題詞表的發(fā)展研究》(《圖書情報(bào)工作》2008年第9期)介紹,我國編制出版的主題詞表有130部,可以從年代分布、專業(yè)領(lǐng)域分布、詞表規(guī)模等方面對(duì)這些主題詞表進(jìn)行歸類。從年代分布看,1956年至1965年是我國主題詞表發(fā)展的探索階段。1966年至1975年,我國主題詞表發(fā)展處于停滯狀態(tài)。1976年至1985年是我國主題詞表編制起步階段,這期間共編制主題詞表22部,占所收集全部詞表的16.92%。1986年至1995年是我國主題詞表飛躍發(fā)展時(shí)期,這一階段共編制主題詞表82 部,占所收集全部詞表的63.08%。1996年至2005年,我國主題詞表編制熱潮開始回落,編制主題詞表24部,占所收集全部詞表的18.46%。這一時(shí)期,我國主題詞表發(fā)展由編制新表轉(zhuǎn)為以對(duì)已有詞表進(jìn)行修訂為主。從專業(yè)領(lǐng)域來看,社會(huì)科學(xué)詞表有31部,占23.85%;自然科學(xué)詞表共88部,占67.69%。包容社會(huì)科學(xué)和自然科學(xué)兩個(gè)領(lǐng)域的綜合性詞表有11部,占8.46%。根據(jù)詞表收詞量的多少,將詞表分為大、中、小三類。收詞量在10000條以上的為大型詞表,收詞量在10000 條至1000 條之間的為中型詞表,收詞量在1000條以下的為小型詞表。所收集的130部詞表中有詳細(xì)介紹的89部詞表的詞匯規(guī)模分布如下:中型詞表最多,占55.06%;其次是大型詞表,占35.95%;小型詞表最少,僅有8部,占8.99%。我國大型詞表所占比例相對(duì)較大,34部大型詞表中收詞量在20000條以上的詞表達(dá)14部,其中《漢語主題詞表》收詞量達(dá)108568條,《軍用主題詞表》收錄主題詞52500條。我國編制的小型詞表較少,多為未公開出版的由國家部委或機(jī)構(gòu)團(tuán)體編制供內(nèi)部使用的詞表。

      注釋:

      [1]參見《漢書·藝文志》:“《蒼頡》七章者,秦丞相李斯所作也;《爰?xì)v》六章者,車府令趙高所作也;《博學(xué)》七章者,太史令胡毋敬所作也;文字多取《史籀篇》,而篆體復(fù)頗異,所謂秦篆者也。是時(shí)始造隸書矣,起于官獄多事,茍趨省易,施之于徒隸也。漢興,閭里書師合《蒼頡》、《爰?xì)v》、《博學(xué)》三篇,斷六十字以為一章,凡五十五章,并為《蒼頡篇》。武帝時(shí)司馬相如作《凡將篇》,無復(fù)字。元帝時(shí)黃門令史游作《急就篇》,成帝時(shí)將作大匠李長作《元尚篇》,皆《蒼頡》中正字也?!斗矊ⅰ穭t頗有出矣。至元始中,征天下通小學(xué)者以百數(shù),各令記字于庭中。揚(yáng)雄取其有用者以作《訓(xùn)纂篇》,順續(xù)《蒼頡》,又易《蒼頡》中重復(fù)之字,凡八十九章。”北京:中華書局,1962年,第1721頁。

      [2]參見鄭國民、劉彩祥、王元華、陳雙新:《小學(xué)語文常用讀物的字種與字量研究——“三、百、千”“四書”、古詩80首等六種讀物的用字》,《語言文字應(yīng)用》2003年第4期。

      [3]參見劉英林、宋紹周:《論漢語教學(xué)字詞的統(tǒng)計(jì)與分級(jí)(代序)》,載國家對(duì)外漢語教學(xué)領(lǐng)導(dǎo)小組辦公室漢語水平考試部:《漢語水平詞匯與漢字等級(jí)大綱》,北京:北京語言學(xué)院出版社,1992年。

      [4]參見通用詞研究課題組:《現(xiàn)代漢語通用詞研究的若干原則和方法》,《語文建設(shè)》1994年第4期。

      [5]相同詞形的詞語因意義不同或讀音不同出現(xiàn)在不同位置時(shí),算作不同詞條。

      [6]參見《現(xiàn)代漢語常用詞表》課題組:《現(xiàn)代漢語常用詞表(草案)》,北京:商務(wù)印書館,2008年。

      [7]參見《中國語言生活狀況報(bào)告(2010)》,北京:商務(wù)印書館,2011年。

      [8]參見丁聲樹、李榮:《漢語方言調(diào)查》,載現(xiàn)代漢語規(guī)范問題學(xué)術(shù)會(huì)議秘書處編:《現(xiàn)代漢語規(guī)范問題學(xué)術(shù)會(huì)議文件匯編》,北京:科學(xué)出版社,1956年。

      [9]參見劉慶?。骸冬F(xiàn)代漢語詞典的收詞》,《辭書研究》1982年第1期。

      [10]參見韓敬體:《〈現(xiàn)代漢語詞典〉(修訂本)介紹》,《中國語文》1996年第6期。

      [11]在本文完成之后,商務(wù)印書館于2012年7月出版了《現(xiàn)代漢語詞典》(第六版)。

      [12]參見孫茂松等:《〈信息處理用詞匯研究〉九五項(xiàng)目結(jié)題匯報(bào) 信息處理用現(xiàn)代漢語分詞詞表》,《語言文字應(yīng)用》2001年第4期。

      [13]參見國家技術(shù)監(jiān)督局:《中華人民共和國國家標(biāo)準(zhǔn)GB/T 13715-92信息處理用現(xiàn)代漢語分詞規(guī)范》,北京:中國標(biāo)準(zhǔn)出版社,1993。

      [14]參見孫茂松等:《〈信息處理用詞匯研究〉九五項(xiàng)目結(jié)題匯報(bào) 信息處理用現(xiàn)代漢語分詞詞表》,《語言文字應(yīng)用》2001年第4期。

      [15]參見梁冰、喬曉東:《從維基文化看我國詞表建設(shè)》,《圖書情報(bào)工作》2007年第7期。

      [16]參見中國科學(xué)技術(shù)情報(bào)研究所、北京圖書館:《漢語主題詞表》,北京:科學(xué)技術(shù)文獻(xiàn)出版社,1980年。

      [17]參見中國科學(xué)技術(shù)情報(bào)研究所:《漢語主題詞表:自然科學(xué)》(增訂本),北京:科學(xué)技術(shù)文獻(xiàn)出版社,1991年。

      [18]參見梁冰、喬曉東:《從維基文化看我國詞表建設(shè)》,《圖書情報(bào)工作》2007年第7期。

      猜你喜歡
      常用詞詞表主題詞表
      常用詞“怠”“惰”“懶”的歷時(shí)演變
      《〈漢語主題詞表〉構(gòu)建研究》
      《〈漢語主題詞表〉構(gòu)建研究》
      A Chinese-English List of the Sports Programmes in Winter Olympics 冬奧會(huì)項(xiàng)目名稱漢英對(duì)照詞表
      英語世界(2021年13期)2021-01-12 05:47:51
      《〈漢語主題詞表〉構(gòu)建研究》
      《〈漢語主題詞表〉構(gòu)建研究》
      敘詞表與其他詞表的互操作標(biāo)準(zhǔn)
      常用詞“開、辟”在“開闊”義上的演變替換
      國外敘詞表的應(yīng)用與發(fā)展趨勢(shì)探討*
      常用聯(lián)綿詞表
      秦皇岛市| 大理市| 临猗县| 蓝山县| 香格里拉县| 中超| 庆阳市| 禄丰县| 克山县| 屯昌县| 衢州市| 石景山区| 石首市| 甘孜县| 衢州市| 江川县| 河南省| 鸡泽县| 冷水江市| 卓资县| 德保县| 大石桥市| 新沂市| 赣榆县| 工布江达县| 德化县| 英山县| 秦皇岛市| 杭锦旗| 冕宁县| 历史| 隆昌县| 于田县| 吉林省| 鹿邑县| 湟源县| 无极县| 郎溪县| 菏泽市| 岱山县| 龙州县|