• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于詞頻分布的齊夫定律朝鮮語(yǔ)適用性研究

      2017-03-07 03:36:04
      小說月刊 2017年23期
      關(guān)鍵詞:朝鮮語(yǔ)詞頻對(duì)數(shù)

      王 萌

      (延邊大學(xué) 吉林 延吉 133002)

      1 詞頻的定義與發(fā)展

      (1)表達(dá)意義的基本原子單位是詞。例如house一詞使人腦海里浮現(xiàn)一幅景象:一幢有房頂?shù)拈L(zhǎng)方形建筑。當(dāng)house一詞出現(xiàn)在一篇文本中時(shí),讀者便會(huì)依據(jù)其上下文去聯(lián)想“房子”的意象。所謂詞頻是一種用于情報(bào)檢索與文本挖掘的常用加權(quán)技術(shù),用以評(píng)估一個(gè)詞對(duì)于一個(gè)文件或者一個(gè)語(yǔ)料庫(kù)中的一個(gè)領(lǐng)域文件集的重要程度。字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時(shí)會(huì)隨著它在語(yǔ)料庫(kù)中出現(xiàn)的頻率成反比下降。

      (2)詞語(yǔ)頻次的觀念古已有之。1898年,德國(guó)語(yǔ)言學(xué)家凱定在5000名速記人員和800名合作者的幫助下,手工統(tǒng)計(jì)了以報(bào)刊為主的14個(gè)語(yǔ)料來源的資料,所統(tǒng)計(jì)的總詞匯量達(dá)10,910,777條,而其中頻次在4以上的詞共有79716個(gè)。這些統(tǒng)計(jì)結(jié)果被編纂成了世界上第一部頻率詞典“Haufigkeits Worter buch der Deutschen Sprache”(《德語(yǔ)頻率詞典》),這也被普遍認(rèn)為是第一次現(xiàn)代意義上的以統(tǒng)計(jì)調(diào)查方法完成的詞匯研究工作。美國(guó)教育學(xué)家與心理學(xué)家桑代克先后于1921年和1944年編寫了《教師二萬(wàn)詞詞書》和《教師三萬(wàn)詞詞書》,對(duì)英語(yǔ)的詞匯作了大量的頻率統(tǒng)計(jì)工作①。我國(guó)在1930年王文新對(duì)包括三種版本的國(guó)語(yǔ)教科書等在內(nèi)的共910417字的語(yǔ)料進(jìn)行了統(tǒng)計(jì)和分析,首先把詞語(yǔ)分為單詞單音詞和復(fù)詞復(fù)音詞兩種,并分別統(tǒng)計(jì)了這兩種詞語(yǔ)所出現(xiàn)的頻次及其各自所占的比率。統(tǒng)計(jì)結(jié)果,復(fù)詞出現(xiàn)的詞次為214,558詞次,復(fù)詞總詞數(shù)為6411個(gè),復(fù)詞中頻次最高的詞出現(xiàn)的頻次為3513次,最低的為1次②。

      2 齊夫定律概述

      (1)美國(guó)哈佛大學(xué)教授喬治·金斯利·齊夫通過研究詞語(yǔ)頻次與詞語(yǔ)等級(jí)之間的關(guān)系,揭示了詞頻現(xiàn)象的內(nèi)在形式化規(guī)律。在1935年齊夫在艾思杜、貢東、朱斯等學(xué)者研究的基礎(chǔ)上通過對(duì)文獻(xiàn)詞頻規(guī)律的研究,認(rèn)為:若把一篇較長(zhǎng)的文章中每個(gè)詞出現(xiàn)的頻次從高到低進(jìn)行遞減排列,即頻率最高的詞序號(hào)為1,頻率次之的詞序號(hào)為2,以此類推。每個(gè)單詞的序號(hào)r與其使用頻次f的乘積接近為一常量c。即r×f=c如果用橫坐標(biāo)表示詞序號(hào)r,縱坐標(biāo)表示相應(yīng)的頻次f,就可以得到一條雙曲線,即齊夫分布曲線;如果公式r×f=c寫成logf=logc-logr,就得到了使用頻次的對(duì)數(shù)和序號(hào)之間的線性關(guān)系,即為齊夫分布對(duì)數(shù)曲線,圖像接近與一條直線。

      (2)英國(guó)語(yǔ)言學(xué)家哈特曼和斯托克對(duì)齊夫定律的解釋則是“齊夫定律是詞的分布和頻率的總描述f×r=c,其中f為頻率,r為序號(hào)。之后齊夫得出了c的值為0.1,因而認(rèn)為是一個(gè)常數(shù)。但后來經(jīng)過驗(yàn)證發(fā)現(xiàn)c值有波動(dòng)的范圍,在0到0.1之間。

      3 齊夫定律的朝鮮語(yǔ)適用性研究

      本文的統(tǒng)計(jì)樣本語(yǔ)料為十九大報(bào)告韓文版中的最前面兩個(gè)段落。統(tǒng)計(jì)手段為人工分詞,輔以計(jì)算機(jī)計(jì)數(shù)。分詞時(shí)所依據(jù)的原則是:根據(jù)朝鮮語(yǔ)自身的語(yǔ)言特點(diǎn),以齊夫定律理論為基礎(chǔ),以保留詞語(yǔ)語(yǔ)義的完整性為前提。此段語(yǔ)料共有2084個(gè)單詞,其中漢字詞有1382個(gè),固有詞有702個(gè)。

      齊夫定律詞頻統(tǒng)計(jì)表

      通過上述的詞頻統(tǒng)計(jì)表和齊夫?qū)?shù)分布曲線可以看出,除了排名5以下的低頻詞外,頻次f與詞級(jí)r的乘積均比較平穩(wěn),基本圍繞著一個(gè)常數(shù)上下波動(dòng),齊夫?qū)?shù)分布曲線也大致呈現(xiàn)出直線的趨勢(shì),可見統(tǒng)計(jì)結(jié)果中的詞頻分布呈現(xiàn)出較為明顯的齊夫分布規(guī)律。結(jié)果表明如果除去少數(shù)出現(xiàn)頻率少的詞語(yǔ),朝鮮語(yǔ)文本完全地符合齊夫定律,齊夫定律同樣適用于朝鮮語(yǔ)。

      注釋:

      ① 馮志偉.齊普夫定律的來龍去脈[J].情報(bào)科學(xué),1983

      ② 王文新.小學(xué)分級(jí)詞匯研究[J].教育研究.國(guó)立中山大學(xué)教育學(xué)研究所,1922,31.

      [1] 許文霞.齊普夫定律的實(shí)踐和理論基礎(chǔ)[J].圖書館建設(shè),1984,(1).

      [2] 鄧洛華.詞頻分析[J].武漢大學(xué)學(xué)報(bào)(人文科學(xué)版),1987,(1).

      [3] 沈關(guān)龍.齊普夫定律與專題文獻(xiàn)標(biāo)題詞頻的研究與應(yīng)用[J].情報(bào)理論與實(shí)踐,1988,(2).

      [4] 十九大報(bào)告全文.延邊日?qǐng)?bào)[N].2017

      猜你喜歡
      朝鮮語(yǔ)詞頻對(duì)數(shù)
      含有對(duì)數(shù)非線性項(xiàng)Kirchhoff方程多解的存在性
      基于詞頻分析法的社區(qū)公園歸屬感營(yíng)建要素研究
      園林科技(2021年3期)2022-01-19 03:17:48
      指數(shù)與對(duì)數(shù)
      朝鮮語(yǔ)專業(yè)實(shí)踐教學(xué)模式改革初探
      指數(shù)與對(duì)數(shù)
      對(duì)數(shù)簡(jiǎn)史
      關(guān)于朝鮮語(yǔ)“-?-”句式和漢語(yǔ)“是”字句的對(duì)比
      如何辦好散居地區(qū)朝鮮語(yǔ)廣播
      新聞傳播(2016年4期)2016-07-18 10:59:20
      詞頻,一部隱秘的歷史
      云存儲(chǔ)中支持詞頻和用戶喜好的密文模糊檢索
      丰县| 焉耆| 祁东县| 永胜县| 滦南县| 双柏县| 塔河县| 佛学| 万安县| 文安县| 句容市| 广平县| 台北县| 奉化市| 鄂州市| 基隆市| 东山县| 洱源县| 绥滨县| 浦县| 堆龙德庆县| 上林县| 手游| 方山县| 遂川县| 沙田区| 梨树县| 郎溪县| 广饶县| 安阳市| 昭通市| 新干县| 自贡市| 康保县| 成安县| 小金县| 桂平市| 饶平县| 孟津县| 浙江省| 山东|