• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      年度新詞語的獲取

      2017-08-13 02:00:22王宗華石彥霞
      現(xiàn)代語文(學(xué)術(shù)綜合) 2017年8期
      關(guān)鍵詞:新義詞形引號

      王宗華+石彥霞

      摘 要:新詞語是語言監(jiān)測的重要內(nèi)容,目前新詞語的監(jiān)測結(jié)果以編年本的形式向社會公布。為獲取年度新詞語,人們采用了全切分的方法,這種方法的統(tǒng)計(jì)計(jì)算量較大。文章在考察新詞語在文本中的表現(xiàn)的基礎(chǔ)上,提出利用新詞語的外在特征來獲取年度新詞語的方法。

      關(guān)鍵詞:年度新詞語 獲取

      一、引言

      語言與社會生活息息相關(guān),它是社會的一面鏡子,社會的發(fā)展變化會引起語言的變化,新詞語(包括舊詞的新義)的大量涌現(xiàn)就是語言對社會發(fā)展變化的一種反映。年度新詞語是語言監(jiān)測與研究的重要內(nèi)容,為了自動提取年度新詞語,國家語言資源監(jiān)測與研究中心有聲媒體分中心采用詞匯時空分布模型,先對語料(本年度和往年)進(jìn)行全切分,根據(jù)年使用率差提取出新詞語候選,再過濾,得到新詞語候選集,以備人工確認(rèn)(何偉,2007;侯敏,2008)。實(shí)踐證明,這種方法可行、有效,缺點(diǎn)是統(tǒng)計(jì)計(jì)算量特別大,耗費(fèi)巨大的計(jì)算資源。在提取新詞語的實(shí)踐中,我們發(fā)現(xiàn)年度新詞語有一定的特點(diǎn),即大部分帶有引號,利用這一特點(diǎn)可以快速地獲取年度新詞語候選集,這種方法可以作為對前一種方法的有效補(bǔ)充。

      二、新詞語與引號

      標(biāo)點(diǎn)符號簡稱標(biāo)點(diǎn),是輔助文字記錄語言的符號,是現(xiàn)代書面語的有機(jī)組成部分。標(biāo)點(diǎn)符號的作用,大體上說有三個方面:1.表示停頓;2.表示語氣,標(biāo)明句子是陳述語氣、疑問語氣、祈使語氣還是感嘆語氣;3.標(biāo)示句子中某些詞句的性質(zhì)。

      國家標(biāo)準(zhǔn)《標(biāo)點(diǎn)符號用法》中常用的標(biāo)點(diǎn)符號共16種,分點(diǎn)號和標(biāo)號兩大類。其中,引號的基本用法:1.行文中直接引用的話,用引號標(biāo)示。例如:要普及現(xiàn)代信息技術(shù)教育,“計(jì)算機(jī)要從娃娃抓起”。2.行文中需要著重說明的詞語,用引號標(biāo)示。例如:“坤包、坤表、坤車”里的“坤”,意思是“女式的,女用的”。3.行文中具有特殊含義的詞語,用引號標(biāo)示。例如:新學(xué)期伊始,上海一些家長加入了流行的“曬一族”,在網(wǎng)絡(luò)上“曬”起子女的寒假作業(yè)。(周麒,2009)

      按照上述引號的用法,新詞語中的新詞形,因其“新”的詞形,行文中需要著重說明,應(yīng)該用引號標(biāo)示;詞語的新義、新用法,因其有特殊的含義,也會使用引號。下面我們來分析年度新詞語與引號的關(guān)聯(lián)性有多大。

      三、年度新詞語使用引號情況考察

      商務(wù)印書館從2006年起,每年出版年度新詞語詞典,其中收錄的新詞語包括新詞形和有新義的詞語。我們選擇其中2006、2007、2008這三年的年度新詞語詞典(周薦,2007;侯敏,2008;侯敏,2009)進(jìn)行考察。

      先看詞語的新義。2006年度新詞語詞典收錄的有新義的詞有:“EMBA、空調(diào)、曬”。另外以附錄形式給出了2003—2005年的新詞語,其中收錄了認(rèn)為有新義的詞:“板磚、空軍、鳥巢”。2007年度新詞語詞典正文沒有收錄新義詞語,但以附錄形式給出了2004—2006年的新詞語,其中收錄了認(rèn)為有新義的詞:“打鐵、水滴、水門”。2008年度新詞語詞典收錄的認(rèn)為有新義的詞有:“AB制、八寶飯、乘電梯、第四公報(bào)、糾結(jié)、控、雷、雷點(diǎn)、裸演、霹靂、人肉、山寨、水軍、淘客、堰塞湖、一滴水、長草、做俯臥撐”。另外以附錄形式給出了2007年的新詞語,其中收錄了認(rèn)為有新義(新用法)的詞“裸考”。

      我們利用有聲媒體語料庫以及網(wǎng)絡(luò),考察了上述詞語新義在產(chǎn)生的當(dāng)年以及后續(xù)若干年度使用引號的情況,發(fā)現(xiàn)除了“EMBA、控”外,其他詞在產(chǎn)生初期都有引號,有的后來仍有引號或者和沒有引號的并存。這種現(xiàn)象表明,按年度監(jiān)測詞語新義,引號是新義剛開始出現(xiàn)時的一個重要外在特征。我們進(jìn)一步考察了搜集的160多個新義詞語(近30年來產(chǎn)生的)的使用情況,看其是否也伴隨有引號。我們發(fā)現(xiàn),這些新義詞在產(chǎn)生初期幾乎都有使用引號的相關(guān)例子,其中有些詞的新義現(xiàn)在都感覺不到它的“新”了,后來就不再使用引號。也就是說,這些詞和上述年度新義詞語在引號上的表現(xiàn)是一樣的。

      再看新詞形。我們考察了2008年新詞語詞典音序索引中A—Q部分的251個新詞形。我們發(fā)現(xiàn),其中217個都有使用引號的用例,占總數(shù)的86.5%。有34個沒有使用引號,如“奧運(yùn)騎警、奧運(yùn)簽注、伴飛小衛(wèi)星、草根管理、常態(tài)包機(jī)、超級用戶名、蟲柑、川震、窗口售票機(jī)、垂直式浴室、代購手、蛋殼族、??汀?,結(jié)合這些詞語出現(xiàn)的上下文,從這些詞語的字面上就能理解其意義,不需要進(jìn)行著重說明,也沒有什么特殊的含義,所以沒有加引號。

      綜上所述,詞語新義絕大部分都使用引號,而新詞形使用引號的大概占總數(shù)的86%,由此我們可以對新詞語與引號的關(guān)系做個簡單的估計(jì):引號內(nèi)的字符串大概覆蓋了86%左右的新詞語。但反過來,帶引號的字符串,不一定就是新詞語,統(tǒng)計(jì)表明,帶引號的字符串大部分不是新詞語。

      四、獲取2009年度語料中新詞語候選集的實(shí)驗(yàn)

      新詞語一般先出現(xiàn)在網(wǎng)絡(luò),然后進(jìn)入平面媒體、有聲媒體(《中國語言生活狀況報(bào)告2008》(下編),2009)。它們在這些媒體上剛出現(xiàn)時,都會使用引號,我們的目的是檢驗(yàn)利用引號提取新詞語的方法,所以,選擇哪種媒體形式的語料進(jìn)行實(shí)驗(yàn)不會影響實(shí)驗(yàn)結(jié)果是關(guān)鍵。我們利用2007、2008年有聲媒體語料,在2009年有聲媒體語料上,提取該年度帶引號的字符串,然后過濾、去重,以獲得該年度的新詞語候選集。

      (一)從新詞語的長度、構(gòu)成方面過濾候選字符串,然后去重

      引號具有引用的功能,其中的字符串可能是引用的文字,從現(xiàn)有新詞語來看,其長度一般不超過4個漢字,為了過濾明顯不是新詞語的字符串,提取時我們限定引號內(nèi)字符串的長度在4個漢字以內(nèi)。在2007年度有聲媒體語言語料庫上提取了63487個含有引號的字符串,其中,4個漢字長度以內(nèi)的字符串有41839個,占總數(shù)的66%。在2008年度有聲媒體語言語料庫上我們提取了38640個含有引號的字符串,其中,4個漢字長度以內(nèi)的字符串有28313個,占總數(shù)的73%。在2009年度有聲媒體語言語料庫上提取到了87818條引號內(nèi)的字符串,其中,4個漢字長度以內(nèi)的字符串有55693個,占總數(shù)的65%。

      包含有字母、數(shù)字、標(biāo)點(diǎn)符號的字符串一般不是新詞語;另外,2009年度有聲媒體語料中帶有引號的部分字符串,在2009年前的語料中以相同形式出現(xiàn)過。2009年語料上提取的4個漢字長度以內(nèi)的字符串共55693個,我們過濾帶有上述符號的1716條,過濾與2007、2008兩年重合的14571條,一共過濾16287條,還剩下39406條,減少約29.2%。

      可以看出,過濾后字符串的數(shù)量還是很多,從中進(jìn)行人工篩選新詞語的話,工作量仍很大。由于新詞語主要在三字以內(nèi),我們可以進(jìn)一步縮小候選詞語的數(shù)量。2009年的39406條候選串中,三字長度以內(nèi)的有19527條,占總數(shù)的49.5%,候選串?dāng)?shù)量縮小了50.5%,篩選范圍縮小了很多。

      經(jīng)對比,我們發(fā)現(xiàn)上述2009候選字符串包含了《2009漢語新詞語》詞典中的絕大部分新詞語,這說明利用這種方法提取的字符串可以很好地覆蓋新詞語。如果進(jìn)一步限制字符串的長度,比如兩個漢字的長度,可以過濾更多的字符串。如2009年39406條候選串中,兩字以內(nèi)的有9309條,只占總數(shù)的23.6%,對這些詞進(jìn)行人工判斷的工作量就小了很多。

      (二)利用頻次進(jìn)行過濾

      我們分別統(tǒng)計(jì)了2007、2008、2009各年語料中帶引號字符串的頻次,發(fā)現(xiàn)各年頻次為1的字符串的數(shù)量占總數(shù)的比例分別為66.9%、65.5和66.8%,而且,頻次為1的字符串一般不是本年度的新詞語。以2009年度有聲媒體語料中的帶引號字符串為例,按頻次的分布見表1:

      我們可以先過濾頻次為1的字符串,然后按前面所說方法再次過濾,候選字符串的數(shù)量就會少很多,可以極大減輕人的工作量。以2009年語料為例,頻次大于1的字符串有27825條,其中,四字以內(nèi)的字符串有21208,占76%,對四字以內(nèi)的21208條字符串與2007、2008比對去重后還剩下12241條,其中三字以內(nèi)的僅6902條,候選集的數(shù)量大為減少,減輕了人排查的工作量??梢?,將以上兩種方法結(jié)合起來,能取得很好的過濾效果。

      五、結(jié)語

      根據(jù)對語料的觀察,我們發(fā)現(xiàn)新詞語(包括新義)與引號有很強(qiáng)的關(guān)聯(lián)。為了印證這個直觀判斷,我們考察了年度新詞語詞典以及我們搜集的詞語新義,發(fā)現(xiàn)86%左右的新詞語使用了引號,即引號內(nèi)的字符串大概覆蓋了86%左右的新詞語。

      但帶引號的字符串絕大部分不是新詞語,需要過濾。我們根據(jù)新詞語在長度、構(gòu)成、頻次方面的特點(diǎn),對候選字符串進(jìn)行了過濾:過濾頻次為1的字符串;過濾包含有數(shù)字、標(biāo)點(diǎn)符號的字符串,這些字符串所占比例較?。贿^濾四個漢字長度以上的詞語,因?yàn)樾略~語以四個漢字以內(nèi)為主;過濾年度語料間重合的部分。在2009年度語料中進(jìn)行提取并過濾帶引號字符串的結(jié)果表明,這種方法簡單而且有效。

      (基金項(xiàng)目:本文系2014年度河北省社會科學(xué)發(fā)展研究課題[項(xiàng)目編號:2014041702]“面向語言監(jiān)測的詞語新義識別研究”。)

      參考文獻(xiàn):

      [1]何偉,侯敏,文采菊.流行語時空監(jiān)測模型研究[A].內(nèi)容計(jì)算的研究與應(yīng)用前沿——第九屆全國計(jì)算語言學(xué)學(xué)術(shù)會議論文集[C].2007.

      [2]侯敏,周薦主編.2007漢語新詞語[M].北京:商務(wù)印書館,2008.

      [3]侯敏,周薦主編.2008漢語新詞語[M].北京:商務(wù)印書館,2009.

      [4]周薦主編.2006漢語新詞語[M].北京:商務(wù)印書館,2007.

      [5]周麒主編.出版校對培訓(xùn)教程[M].北京:商務(wù)印書館,2009:380-382.

      [6]中國語言生活狀況報(bào)告課題組.中國語言生活狀況報(bào)告2008(下編)[M].北京:商務(wù)印書館,2009:289-306.

      (王宗華,石彥霞 天津 河北工業(yè)大學(xué)人文與法律學(xué)院 300401)

      猜你喜歡
      新義詞形引號
      詞形變換解題指導(dǎo)
      引號的用法
      “咕咚”為什么加引號?
      韓國學(xué)校語法中副詞形語尾的變遷
      舊裙新義
      帶前置功能的詞形《 в сопоставлениис 》的結(jié)構(gòu)與搭配
      山東青年(2018年7期)2018-11-06 06:13:12
      從異解看成語新義的形成
      “奇葩”一詞的發(fā)展變化及原因
      引號和書名號
      快樂語文(2017年18期)2017-08-11 13:07:56
      建議來稿統(tǒng)一使用規(guī)范詞形(二)
      涡阳县| 布尔津县| 铜鼓县| 平湖市| 阜新| 梁河县| 福贡县| 酉阳| 廊坊市| 乌鲁木齐市| 昌都县| 惠水县| 郎溪县| 太白县| 杂多县| 浦县| 怀集县| 德兴市| 台前县| 枣庄市| 天气| 东乌珠穆沁旗| 砀山县| 长垣县| 榆树市| 长汀县| 静安区| 裕民县| 伊吾县| 长武县| 漳浦县| 汝阳县| 宽甸| 类乌齐县| 沂水县| 五峰| 祁连县| 平顺县| 桐柏县| 邳州市| 民勤县|