• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      面向語言監(jiān)測的字母詞自動獲取研究

      2016-03-23 05:38:03王秋萍沈陽師范大學(xué)遼寧沈陽110034
      關(guān)鍵詞:待處理詞表詞條

      王秋萍沈陽師范大學(xué),遼寧沈陽110034

      ?

      面向語言監(jiān)測的字母詞自動獲取研究

      王秋萍
      沈陽師范大學(xué),遼寧沈陽110034

      摘要

      近年來,字母詞在漢語中使用廣泛,對字母詞使用情況的調(diào)查、對策分析及規(guī)范探討的研究越來越多。因此,字母詞的自動獲取和數(shù)據(jù)統(tǒng)計(jì)作為一項(xiàng)相關(guān)前期工作,也受到重視。力求在分析字母詞構(gòu)成及形式特征的基礎(chǔ)上,提供一種字母詞自動獲取方法,在字母詞使用情況的調(diào)查實(shí)踐中,證明該方法有效。

      關(guān)鍵詞

      字母詞;自動獲取;方法

      近年來,字母詞在漢語中使用廣泛。為了摸清字母詞在漢語中的使用實(shí)態(tài),基于大規(guī)模真實(shí)文本的字母詞使用情況的調(diào)查、對策分析及規(guī)范探討的研究越來越多。因此,字母詞的自動獲取和數(shù)據(jù)統(tǒng)計(jì)作為一項(xiàng)相關(guān)前期工作,也受到重視。下文將在分析字母詞構(gòu)成及形式特征的基礎(chǔ)上,提供一種字母詞自動獲取方法,在字母詞使用情況的調(diào)查實(shí)踐中,證明該方法有效。

      一、字母詞形式特征分析

      字母詞是由字母單獨(dú)構(gòu)成,或由字母與符號、數(shù)字、漢字組合構(gòu)成的詞語。字母詞在漢語詞匯系統(tǒng)中,是一個形式上具有特殊性的詞集,具體表現(xiàn)在,字母詞一定含有字母,“字母詞”也因而得名。

      從字母詞的構(gòu)成元素看,字母詞一定含有字母,可以含有數(shù)字、符號和漢字。

      (一)字母

      字母指“拼音文字或注音符號的最小書寫單位。”①這里,漢語字母詞中的字母主要由拼音文字的最小書寫單位構(gòu)成,包括拉丁字母、希臘字母、西里爾字母、平假名和片假名等。

      (二)數(shù)字

      數(shù)字指10個阿拉伯?dāng)?shù)字和22個羅馬數(shù)字。包括:0到9的半角、全角形式和“ⅠⅡⅢⅣⅤⅥⅦⅧⅨⅩⅪⅫ?、ⅱ"あアΒБá?。

      (三)符號

      符號指廣義標(biāo)點(diǎn)符號、數(shù)學(xué)運(yùn)算符號、計(jì)量單位符號、數(shù)字序號、貨幣符號和其他標(biāo)記符號的半角、全角形式。

      (四)漢字

      漢字指“記錄漢語的書寫符號系統(tǒng)。”②這里將文本中字符統(tǒng)一為Unicode字符集,指字符編碼在0x4e00到0x9fa5范圍內(nèi)的字符。

      二、字母詞自動獲取方法

      (一)字母詞自動獲取總體流程

      字母詞一定含有字母串,可以含有數(shù)字串、符號串和漢字串。因此,可以將字母串作為特征詞串,對字母詞進(jìn)行自動獲取,總體流程見圖1。

      陜西省西安市雁塔區(qū)高新科技路進(jìn)行全面改善與施工,全長為21.3km,此路段為雙向四車道,這一市政工程開展施工以后會對道路與橋梁、給排水與電力、綠化等都造成影響,需要不斷對相關(guān)市政管線加以完善,確保環(huán)境不受到污染,還要重新改造綠化隔離帶。為了避免環(huán)境受到污染,陜西省西安市雁塔區(qū)高新科技路市政工程采用綠色施工技術(shù),避免對居民生活造成影響,為市政工程提供更優(yōu)質(zhì)的施工環(huán)境,提高施工質(zhì)量。

      圖1 字母詞自動獲取總體流程圖

      (二)獲取含有字母字符串模塊

      字母詞屬于詞匯研究的范疇。考慮到字母詞在語料中散在分布的特點(diǎn),為了提高完善現(xiàn)有字母詞表工作的效率,首先獲取含有字母的字符串作為完善詞表過程的待處理語料。這里,“含有字母的字符串”定義為以字母串為中心,左右各保留10個雙字節(jié)字符,不足10個字符以空格填充,獨(dú)占一個文本行。這樣,批處理的文本規(guī)模會大大地減少,提高提取效率。

      (三)字母詞預(yù)篩選模塊

      提取含有字母字符串模塊希望可以取得提取字母詞的粗語料,并盡可能去掉一些可能含有相同字母詞的語料片段。但是,字母詞是一個從形式上定義的詞匯形式,這里還將引入一些規(guī)則,將符合構(gòu)成形式標(biāo)準(zhǔn),但不符合字母詞定義或者字母詞典型性弱的字母串文本行去掉,例如:網(wǎng)址、郵箱、外文語碼混用,小于詞的單位等。這個模塊的篩選選項(xiàng)可以根據(jù)字母詞監(jiān)測任務(wù)的實(shí)際需要而有選擇地使用。

      (四)完善現(xiàn)有詞表模塊

      這里介紹的字母詞提取算法是一種基于字母詞底表的獲取方法。現(xiàn)有字母詞詞表Letter-words. txt由兩個詞表組成:CUCBst分詞標(biāo)注系統(tǒng)中的字母詞詞典,記作Letter-words1.txt,和中國傳媒大學(xué)國家語言資源監(jiān)測與研究中心有聲媒體語言分中心共同搜集編寫的字母詞詞典中的詞條,記作Let?ter-words2.txt。Letter-words.txt在進(jìn)行字母詞使用監(jiān)測研究時,還可能存在不完備的情況。因此,研究中又試圖利用自動比對和人工甄別、添加相結(jié)合的方法,發(fā)現(xiàn)調(diào)查語料中存在但現(xiàn)有詞表尚未收錄的字母詞,并循環(huán)完善現(xiàn)有的字母詞詞表,以使得監(jiān)測語料中字母詞的提取更加完全。完善詞表的過程分為兩個步驟:

      字母詞的自動獲取采取將“含有漢字字母詞”和“不含有漢字字母詞”分開處理的策略。在對劉涌泉《漢語字母詞詞典》(2009年版)統(tǒng)計(jì)發(fā)現(xiàn),含有漢字字母詞和不含有漢字字母詞近乎各占一半。統(tǒng)計(jì)結(jié)果見表1。

      表1 劉涌泉《漢語字母詞詞典》各類字母詞所占比例

      由此可見,含有漢字字母詞不僅在字母詞中占有一席之地,而且在字母詞成員中占近一半的數(shù)量。但是,含有漢字字母詞的邊界問題是字母詞自動獲取的一個難點(diǎn),單獨(dú)采取有針對性的提取策略十分必要。

      獲取含有漢字的字母詞模塊的目的是找到含有漢字的字母詞的候選文本行,以供后期人工干預(yù)查找和添加含有漢字的字母詞,補(bǔ)充到詞表Letterwords.txt中。

      例如:要把“B族維生素”一詞添加到詞表中。待處理語料的形式如圖2。

      圖2 待處理語料的文本行示例

      第一,查找到每一個文本行中的字母串,并取其左右的各5個字符,形成10種形式。例如:對于第一個文本行,10種形式示例如圖3。相當(dāng)于將待處理語料中的每一個文本行都抽取出10個形式,所有被抽取出來的形式形成一個候選串表。

      圖3 圖2中待處理語料第一個文本行10種統(tǒng)計(jì)形式示例

      第二,對候選串表中的每一個形式在語料中統(tǒng)計(jì)頻次,如果頻次大于經(jīng)驗(yàn)閾值,將候選串表里每組字母串形式中,頻次最高,長度最長的那個字符串所在的文本行,寫入“帶漢字字母詞候選.txt”文件中。

      (六)獲取不含有漢字的字母詞

      獲取不含有漢字的字母詞模塊的目的是查找待處理語料中的每一個文本行(經(jīng)過去掉重復(fù)處理),不能和字母詞表中任何詞條相匹配的,將這樣的文本行,寫入一個文件。

      第一,將字母詞表中詞條按照詞的長短排序,詞長長的在前,目的是先匹配較長詞長的詞條。

      第二,將待處理語料中每一個文本行,依次與字母詞表進(jìn)行比對,如果匹配上字母詞表中的詞條,這個文本行暫不處理;如果沒有匹配到任何詞條,將這個文本行寫入“不帶漢字字母詞候選.txt”文件中。

      三、結(jié)語

      將“含有漢字的字母詞”和“不含有漢字的字母詞”分開處理的目的是:如果直接查字母詞表,會出現(xiàn)兩個問題。第一,現(xiàn)有詞表可能不夠完善,其中純字母的字母詞占大多數(shù),這樣,當(dāng)語料是“QQ號碼”時,詞表中恰好有QQ這個詞條,匹配上“QQ”后,“QQ號碼”這樣一類帶有漢字的字母詞,將不能被發(fā)現(xiàn)和補(bǔ)充到詞表中。因此,有必要對帶有漢字的字母詞預(yù)先處理一下。第二,原來的詞表沒有進(jìn)行詞長排序,這樣當(dāng)語料中的詞是“NBA”,詞表中先出現(xiàn)“N”,實(shí)際并沒有“NBA”這個詞條時,程序卻認(rèn)為匹配成功,而使像“NBA”這樣的詞條不能被發(fā)現(xiàn)并補(bǔ)充到詞表中。所以,采用以上兩個步驟完成。

      利用經(jīng)過反復(fù)完善的字母詞表文件Letterwords.txt,對經(jīng)過全角轉(zhuǎn)換處理的文件夾下所有文件進(jìn)行匹配查找,將經(jīng)過詞長降序排列的詞表文件中的詞條逐一與語料比對,將語料中查找到的字母詞寫入一個文本文件,并相應(yīng)統(tǒng)計(jì)出每個字母詞出現(xiàn)的頻次和文本數(shù)。

      “工欲善其事,必先利其器”。字母詞的自動獲取和數(shù)據(jù)統(tǒng)計(jì)作為字母詞使用情況監(jiān)測的一項(xiàng)前期基礎(chǔ)性工作,可以為監(jiān)測數(shù)據(jù)的大規(guī)模、高效、準(zhǔn)確獲取和統(tǒng)計(jì)提供保證。

      注釋:

      ①GB/T12200.1-90《漢語信息處理詞匯01部分:基本術(shù)語》

      ②GB/T12200.2-94《漢語信息處理詞匯02部分:漢語和漢字》

      [參考文獻(xiàn)]

      [1]侯敏.實(shí)用字母詞詞典[M].北京:商務(wù)印書館,2014.

      [2]胡鳳國.字母詞的全/半角形式對中文分詞的影響及對策初探[J].中國科技術(shù)語,2010(4).

      [3]劉涌泉.關(guān)于漢語字母詞的問題[J].語言文字應(yīng)用,2002(1).

      [4]劉涌泉.漢語字母詞詞典[M].北京:外語教學(xué)與研究出版社,2009.

      [5]王秋萍.近二十年來漢語書面語中字母詞使用狀況調(diào)查[D].北京:中國傳媒大學(xué),2011.

      [6]王秋萍.屬性、隸屬度與字母詞典型性[J].吉林師范大學(xué)學(xué)報(人文社會科學(xué)版),2010(6).

      [7]王秋萍.字母詞使用和詞形整理中的一詞多形問題[J].渤海大學(xué)學(xué)報(哲學(xué)社會科學(xué)版),2015 (6).

      [8]鄭澤芝,張普,楊建國.基于語料庫的字母詞語自動提取研究[J].中文信息學(xué)報,2005(2).

      [9]鄭澤芝.基于動態(tài)流通語料庫(DCC)的漢語字母詞語識別及考察研究[D].北京:北京語言大學(xué),2005.

      [10]鄭澤芝.一種字母詞語自動標(biāo)注算法[J].廈門大學(xué)學(xué)報(哲學(xué)社會科學(xué)版),2007(5).

      (責(zé)任編輯:武亮)

      文獻(xiàn)標(biāo)識碼A

      中圖分類號H0

      收稿日期2015-12-02

      基金項(xiàng)目:本文系遼寧省社會科學(xué)規(guī)劃基金項(xiàng)目“報紙、廣播和電視媒體中字母詞使用調(diào)查”(項(xiàng)目編號L11DYY051);遼寧省教育廳科學(xué)研究一般項(xiàng)目”漢語字母詞語使用穩(wěn)態(tài)與動態(tài)跟蹤研究“(項(xiàng)目編號:W2013148);沈陽師范大學(xué)博士、引進(jìn)人才科研項(xiàng)目啟動基金“報紙、廣播和電視媒體中字母詞使用調(diào)查”的研究成果。

      作者簡介:王秋萍(1982-),女,遼寧沈陽人,沈陽師范大學(xué)國際教育學(xué)院講師,博士。研究方向?yàn)椋赫Z料庫語言學(xué)及語言監(jiān)測。

      猜你喜歡
      待處理詞表詞條
      A Chinese-English List of the Sports Programmes in Winter Olympics 冬奧會項(xiàng)目名稱漢英對照詞表
      英語世界(2021年13期)2021-01-12 05:47:51
      財產(chǎn)清查結(jié)果的賬務(wù)處理
      “待處理”事項(xiàng)在科學(xué)事業(yè)單位的核算探討
      政府會計(jì)核算中待處理財產(chǎn)損溢賬戶應(yīng)用探究
      2016年4月中國直銷網(wǎng)絡(luò)熱門詞條榜
      2016年3月中國直銷網(wǎng)絡(luò)熱門詞條榜
      敘詞表與其他詞表的互操作標(biāo)準(zhǔn)
      2016年9月中國直銷網(wǎng)絡(luò)熱門詞條榜
      大數(shù)據(jù)相關(guān)詞條
      無法收回的房租押金,應(yīng)怎樣進(jìn)行賬務(wù)處理
      和田市| 昭通市| 林芝县| 文安县| 上虞市| 东方市| 临清市| 乡宁县| 合作市| 苍山县| 长垣县| 缙云县| 竹山县| 凤台县| 万州区| 南丹县| 黄冈市| 卢湾区| 务川| 积石山| 察雅县| 陆河县| 壤塘县| 柘荣县| 嘉义市| 宁远县| 溆浦县| 中阳县| 宁海县| 南京市| 萝北县| 宜兴市| 田东县| 台北县| 同心县| 威海市| 聂荣县| 宁南县| 西青区| 利辛县| 鄂州市|