• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于漢語國際教育教材語料的三音節(jié)名詞型動(dòng)態(tài)詞分析

      2018-07-18 03:02:38郭冬冬宋繼華彭煒明張引兵
      中文信息學(xué)報(bào) 2018年6期
      關(guān)鍵詞:詞類語素知識庫

      郭冬冬,宋繼華,彭煒明,張引兵

      (北京師范大學(xué) 信息科學(xué)與技術(shù)學(xué)院,北京 100875)

      0 引言

      漢語是一種缺少發(fā)達(dá)形態(tài)的語言。很多語法現(xiàn)象常常漸變而不會頓變,所以在語法分析上容易遇到各種“中間狀態(tài)”[1]。詞和非詞的界限很難明確地劃分[2-3]。許多語言單位中詞或語素的結(jié)合并非純句法層面的自由組合,它受到意義凝聚程度、音節(jié)韻律特征以及結(jié)構(gòu)穩(wěn)定性質(zhì)等因素的限制。這些組合單位在詞匯學(xué)層面還沒有完全凝固、定型,即使收詞完備的大型詞典也未能收錄它們。動(dòng)態(tài)詞就是指這些一般詞庫中不收錄,而在句法分析時(shí)又不適宜做進(jìn)一步短語結(jié)構(gòu)分析的造句單位。如專有名詞(中國人、鐵路工人)、動(dòng)結(jié)式/動(dòng)趨式動(dòng)詞(看清、舉起)、數(shù)量詞(一只、十多個(gè))、重疊式(看看、聽一聽)等[4-6]。短語結(jié)構(gòu)一般可以自由擴(kuò)展,內(nèi)部成分結(jié)合不是很緊密,而動(dòng)態(tài)詞為具有一定內(nèi)聚性的組合結(jié)構(gòu),意義凝聚、音節(jié)適長、結(jié)構(gòu)相對穩(wěn)定,具有很強(qiáng)的模式性,不能自由擴(kuò)展。

      國際漢語教學(xué)領(lǐng)域中存在大量的動(dòng)態(tài)詞。以新漢語水平考試(HSK)為例,HSK一級到六級5 000詞匯中[7],未被《現(xiàn)代漢語詞典》(第6版)(以下簡稱《現(xiàn)漢》)收錄的達(dá)到119條。利用信息處理技術(shù)對漢語動(dòng)態(tài)詞進(jìn)行的相關(guān)研究[8-9]很有限,更加缺少面向國際漢語教學(xué)的動(dòng)態(tài)詞分析。因此,深入細(xì)致地研究分析國際漢語教材語料中真實(shí)出現(xiàn)的動(dòng)態(tài)詞十分必要。分析基于國際漢語教學(xué)的動(dòng)態(tài)詞,一方面有助于認(rèn)識理解漢語搭配的基本原理,掌握國際漢語教學(xué)領(lǐng)域詞匯的使用與分布特點(diǎn)。幫助漢語作為第二語言學(xué)習(xí)者產(chǎn)生規(guī)范的漢語表達(dá),形成漢語語感,促進(jìn)國際漢語教學(xué)詞匯研究與詞匯教學(xué)的發(fā)展;另一方面對面向國際漢語教學(xué)自動(dòng)詞法與自動(dòng)句法分析[10-11]的實(shí)現(xiàn),面向國際漢語教學(xué)詞典與教材的編撰,國際漢語教學(xué)詞匯等級擴(kuò)展研究以及教學(xué)文本難度評級等都具有重要的作用。

      三音節(jié)名詞是國際漢語教學(xué)中一種常見的詞匯類型,在詞匯教學(xué)中占有重要的位置,而其中三音節(jié)名詞型動(dòng)態(tài)詞又占有較高的比重。三音節(jié)名詞型動(dòng)態(tài)詞是指整體詞類為名詞、音節(jié)數(shù)為3的動(dòng)態(tài)詞。HSK一級到六級5 000詞匯中,三音節(jié)名詞共有94條,其中未被《現(xiàn)漢》收錄的動(dòng)態(tài)詞達(dá)到20條,分別為: 充電器、重陽節(jié)、大使館、登機(jī)牌、端午節(jié)、公安局、國慶節(jié)、火車站、加油站、解說員、救護(hù)車、開幕式、垃圾桶、墨水兒、紐扣兒、青少年、上進(jìn)心、塑料袋、行李箱、羽絨服。

      本文首先介紹三音節(jié)名詞型動(dòng)態(tài)詞結(jié)構(gòu)模式的一種知識表示方法;然后通過標(biāo)注一定規(guī)模的國際漢語教材語料,獲取三音節(jié)名詞型動(dòng)態(tài)詞的所有結(jié)構(gòu)模式類型以及對應(yīng)的動(dòng)態(tài)詞及詞頻信息,構(gòu)建基于國際漢語教學(xué)的三音節(jié)名詞型動(dòng)態(tài)詞結(jié)構(gòu)模式知識庫;最后在結(jié)構(gòu)模式知識庫的基礎(chǔ)上對三音節(jié)名詞型動(dòng)態(tài)詞進(jìn)行分析。

      1 結(jié)構(gòu)模式知識表示

      三音節(jié)名詞型動(dòng)態(tài)詞內(nèi)部詞或語素的結(jié)合同樣受到意義凝聚程度、音節(jié)韻律特征以及結(jié)構(gòu)穩(wěn)定性質(zhì)等因素的限制。三音節(jié)名詞型動(dòng)態(tài)詞的音節(jié)模式包含“2+1”、“1+2”和“1+1+1”三種,其中“1”和“2”對應(yīng)著動(dòng)態(tài)詞內(nèi)部的詞或語素,詞或語素具有不同的類別。另外,詞或語素的結(jié)合方式也不盡相同。上述特點(diǎn)體現(xiàn)了三音節(jié)名詞型動(dòng)態(tài)詞結(jié)構(gòu)模式的多樣性,為了有效描述三音節(jié)名詞型動(dòng)態(tài)詞不同類別的結(jié)構(gòu)模式,采用下面四項(xiàng)信息對結(jié)構(gòu)模式進(jìn)行知識表示: 三音節(jié)名詞型動(dòng)態(tài)詞整體詞類、內(nèi)部成分詞類或語素類、內(nèi)部成分音節(jié)數(shù)以及內(nèi)部成分之間的結(jié)構(gòu)關(guān)系。

      1.1 準(zhǔn)備工作

      1.1.1 語素類別信息

      《現(xiàn)漢》所收詞語相當(dāng)穩(wěn)定,本文選擇《現(xiàn)漢》中詞、語素及詞類標(biāo)記作為標(biāo)注基礎(chǔ)來標(biāo)注動(dòng)態(tài)詞及其結(jié)構(gòu)模式信息。動(dòng)態(tài)詞內(nèi)部成分常常包含不成詞語素,而《現(xiàn)漢》中只有成詞語素給出詞類信息[12]。根據(jù)語素組合成詞時(shí)的功能可以把不成詞語素分為名詞性語素、動(dòng)詞性語素、形容詞性語素、副詞性語素等類別,這有利于說明語素與其所構(gòu)成的詞的功能之間的關(guān)系以及詞的內(nèi)部結(jié)構(gòu)關(guān)系[13]。因此,有必要首先根據(jù)《現(xiàn)漢》中不成詞語素在詞典中的義項(xiàng)及其構(gòu)詞功能為它們添加類別信息。

      《現(xiàn)漢》中的詞類具體包括名詞、時(shí)間詞、方位詞、數(shù)詞、量詞、代詞、動(dòng)詞、形容詞、副詞、介詞、連詞、助詞、嘆詞以及擬聲詞等十幾種類型。為《現(xiàn)漢》添加的不成詞語素類別主要包括名詞性語素、動(dòng)詞性語素、形容詞性語素、副詞性語素與意義虛化的詞綴語素,如“-兒、-子、老-、阿-”等。其他類型語素?cái)?shù)量較少且不常見,用統(tǒng)一的語素符號Xg表示,不再加以區(qū)分?!冬F(xiàn)漢》中詞類和語素類對應(yīng)的符號標(biāo)記如表1所示。

      表1 《現(xiàn)漢》詞類/語素類標(biāo)記集

      1.1.2結(jié)構(gòu)關(guān)系符號

      用類似句法的手段依據(jù)一定的語義關(guān)系對已知語素進(jìn)行組合,這是最常見的造詞方式[13]。構(gòu)成動(dòng)態(tài)詞的詞或語素的結(jié)合方式也與句法關(guān)系類似。所以,在描寫動(dòng)態(tài)詞的內(nèi)部結(jié)構(gòu)關(guān)系時(shí),首先參考句法關(guān)系,外加重疊結(jié)構(gòu)、方位結(jié)構(gòu)、數(shù)量結(jié)構(gòu)、詞綴/助詞結(jié)構(gòu)以及其他虛詞格式等,確定如表2所示的動(dòng)態(tài)詞結(jié)構(gòu)關(guān)系符號集。具體包括并列、定中、狀中、述補(bǔ)、動(dòng)賓、主謂、重疊和其他共八種結(jié)構(gòu)關(guān)系。采用統(tǒng)一的“-”符號表示方位結(jié)構(gòu)、數(shù)量結(jié)構(gòu)、詞綴/助詞結(jié)構(gòu)和其他虛詞格式,是因?yàn)閺钠鋬?nèi)部成分及對應(yīng)詞類或語素類信息即可將它們區(qū)分開來。

      表2 動(dòng)態(tài)詞結(jié)構(gòu)關(guān)系符號集

      1.2 結(jié)構(gòu)模式

      三音節(jié)名詞型動(dòng)態(tài)詞結(jié)構(gòu)模式的知識表示如下:

      ? <結(jié)構(gòu)模式>∷=<整體詞類>: <內(nèi)部成分詞類或語素類><內(nèi)部成分音節(jié)數(shù)>[<結(jié)構(gòu)關(guān)系符號><內(nèi)部成分詞類或語素類><內(nèi)部成分音節(jié)數(shù)>]{1,2}

      ? <整體詞類>∷=n

      ? <內(nèi)部成分詞類或語素類>∷=n|t|f|m|q|r|v|a|d|p|c|u|e|o|Ng|Vg|Ag|Dg|Ug|Xg

      ? <內(nèi)部成分音節(jié)數(shù)>∷=<空>|2(音節(jié)數(shù)為空表示默認(rèn)值1)

      部分三音節(jié)名詞型動(dòng)態(tài)詞的結(jié)構(gòu)模式如表3所示。其中,“閱讀課”的結(jié)構(gòu)模式為“n: v2n”,冒號前的n表示“閱讀課”整體詞類為名詞;v2代表內(nèi)部成分“閱讀”的詞類是v,音節(jié)數(shù)為2;最后的n代表內(nèi)部成分“課”是名詞,音節(jié)數(shù)為默認(rèn)值1;“”表示內(nèi)部成分“閱讀”和“課”之間的結(jié)構(gòu)關(guān)系為定中關(guān)系。

      表3 三音節(jié)名詞型動(dòng)態(tài)詞結(jié)構(gòu)模式

      1.3 相關(guān)說明

      1.3.1詞庫問題

      《現(xiàn)漢》收詞十分嚴(yán)謹(jǐn)。它不會收錄像“中國”、“北京”、“淘寶”這樣的雙音節(jié)專有名詞。在分析三音節(jié)名詞型動(dòng)態(tài)詞時(shí),如果其內(nèi)部成分出現(xiàn)上述雙音節(jié)專有名詞,不適宜對這類雙音節(jié)專有名詞作進(jìn)一步的內(nèi)部分析,故遇到這類詞時(shí)將其直接補(bǔ)充到基礎(chǔ)詞庫《現(xiàn)漢》中。

      1.3.2切分問題

      分析三音節(jié)名詞型動(dòng)態(tài)詞的結(jié)構(gòu)模式需先將其內(nèi)部成分隔開,切分標(biāo)準(zhǔn)是在結(jié)構(gòu)與意義相統(tǒng)一的前提下直到每一成分能夠在《現(xiàn)漢》中找到相應(yīng)的義項(xiàng)以及詞類或語素類為止。例如,對于動(dòng)態(tài)詞“足球迷”,由于《現(xiàn)漢》中收錄了“足球”和“迷”,所以正確的切分結(jié)果應(yīng)該是“足球”與“迷”。雖《現(xiàn)漢》中同樣收錄了“足”和“球迷”,但切分成“足”與“球迷”顯然不正確,這種組合結(jié)構(gòu)與詞的意義不統(tǒng)一。

      1.3.3 層次問題

      三音節(jié)名詞型動(dòng)態(tài)詞內(nèi)部成分為3個(gè)時(shí),從理論上說會存在組合的先后順序,即層次問題。部分動(dòng)態(tài)詞在整體詞類、內(nèi)部成分詞類或語素類、內(nèi)部成分音節(jié)數(shù)及內(nèi)部成分之間結(jié)構(gòu)關(guān)系四者確定的情況下,層次歧義性并不大。例如,“制藥廠”對應(yīng)模式為“n: v|nn”,可以確定其組合層次為“(v|n)n”。因?yàn)?,若為“v|(nn)”,第一層內(nèi)部關(guān)系就成為動(dòng)賓關(guān)系。而參考句法關(guān)系,動(dòng)賓關(guān)系一般為動(dòng)詞性結(jié)構(gòu)而非名詞性結(jié)構(gòu)。

      有些動(dòng)態(tài)詞僅僅依靠上述四項(xiàng)信息還不能明確組合層次。如表3中的動(dòng)態(tài)詞“副組長”和“單人間”,結(jié)構(gòu)模式都為“n: anNg”,但前者的組合層次為“a(nNg)”,而后者的組合層次為“(an)Ng”。為了使動(dòng)態(tài)詞結(jié)構(gòu)模式能明確反映動(dòng)態(tài)詞的組合層次,將這類有組合歧義的結(jié)構(gòu)模式分為兩種情形。以“n: anNg”為例,將其分為“n: a(nNg)”與“n: (an)Ng”。

      2 結(jié)構(gòu)模式知識庫構(gòu)建

      組織語言學(xué)背景的研究生對國際漢語教材語料庫(包括《新實(shí)用漢語課本》《快樂漢語》《長城漢語》《跟我學(xué)漢語》《漢語教學(xué)直通車》《當(dāng)代中文》《漢語樂園》等國際漢語教材)中的三音節(jié)名詞型動(dòng)態(tài)詞進(jìn)行人工標(biāo)注。標(biāo)注內(nèi)容含動(dòng)態(tài)詞的結(jié)構(gòu)模式以及動(dòng)態(tài)詞內(nèi)部詞或語素在基礎(chǔ)詞庫《現(xiàn)漢》中對應(yīng)的義項(xiàng)。標(biāo)注結(jié)果如圖1所示?!冬F(xiàn)漢》中詞或語素的每條義項(xiàng)由義項(xiàng)碼(三位數(shù)字)唯一地標(biāo)識。

      圖1 三音節(jié)名詞型動(dòng)態(tài)詞“中文歌”標(biāo)注結(jié)果

      為了保證標(biāo)注結(jié)果的準(zhǔn)確性與一致性,同一段語料文本至少由兩位同學(xué)進(jìn)行標(biāo)注,并由專家對標(biāo)注結(jié)果進(jìn)行審核。標(biāo)注結(jié)果一致且通過審核的數(shù)據(jù)視為有效數(shù)據(jù)。如果標(biāo)注結(jié)果不一致或未通過審核,則需要標(biāo)注者和審核者討論研究決定。在實(shí)際標(biāo)注過程中,許多組合是動(dòng)態(tài)詞還是短語結(jié)構(gòu)很難界定。對于這類組合結(jié)構(gòu),標(biāo)注時(shí)先按照動(dòng)態(tài)詞處理。一方面,這種組合滿足動(dòng)態(tài)詞的某種結(jié)構(gòu)模式,像動(dòng)態(tài)詞一樣作為詞匯整體教授給漢語二語學(xué)習(xí)者很容易被接受。另一方面,將這種組合作為一個(gè)整體有助于面向國際漢語教學(xué)自動(dòng)句法分析的實(shí)現(xiàn),通過避免對組合內(nèi)部的細(xì)節(jié)進(jìn)行處理從而減輕自動(dòng)句法分析的負(fù)擔(dān)。

      本文一共獲得29 465句(498 965字)標(biāo)注三音節(jié)名詞型動(dòng)態(tài)詞結(jié)構(gòu)模式信息的國際漢語教材語料數(shù)據(jù)。利用正則表達(dá)式匹配與提取標(biāo)注語料中的三音節(jié)名詞型動(dòng)態(tài)詞及其結(jié)構(gòu)模式信息。正則表達(dá)式是用某種模式去匹配一類字符串的一種公式,由若干普通字符和特殊字符(元字符)構(gòu)成。普通字符包括大小寫字母、數(shù)字和漢字等,元字符指一些具有特殊含義的專用字符。語料中的三音節(jié)名詞型動(dòng)態(tài)詞及其結(jié)構(gòu)模式信息規(guī)則明確,利用正則表達(dá)式“.{3}【.+?】【.+?】”可將所有待提取信息準(zhǔn)確地匹配出來。對提取出的信息進(jìn)行統(tǒng)計(jì)分析,最終建立具有75種結(jié)構(gòu)模式的三音節(jié)名詞型動(dòng)態(tài)詞結(jié)構(gòu)模式知識庫。構(gòu)建的知識庫的結(jié)構(gòu)如表4所示。75種結(jié)構(gòu)模式按與之對應(yīng)的動(dòng)態(tài)詞頻次由高到低排序如表5所示。

      表4 三音節(jié)名詞型動(dòng)態(tài)詞結(jié)構(gòu)模式知識庫結(jié)構(gòu)

      三音節(jié)名詞型動(dòng)態(tài)詞結(jié)構(gòu)模式知識庫中的75種結(jié)構(gòu)模式對應(yīng)的動(dòng)態(tài)詞總數(shù)為4 678條,對應(yīng)的動(dòng)態(tài)詞總類別數(shù)達(dá)到1 712種。知識庫中結(jié)構(gòu)模式“n: v|Ngn”對應(yīng)的內(nèi)容如表6所示。

      表5 三音節(jié)名詞型動(dòng)態(tài)詞結(jié)構(gòu)模式類型

      表6 知識庫中結(jié)構(gòu)模式“n: v|Ngn”

      表6 知識庫中結(jié)構(gòu)模式“n: v|Ngn”

      idmodePOSsyllablefrequencyclassdetail16n: v|Ng↗nn32610【洗[001]發(fā)[101]水[004]】 10【登[001]機(jī)[002]牌[002]】 4【洗[001]衣[001]店[002]】 2【含[002]金[001]量[103]】 2【購[001]物[001]袋[001]】 2【藏[001]趣[001]園[001]】 2【撲[001]爐[001]蛾[001]】 1【登[001]機(jī)[002]口[006]】 1【有[001]情[001]人[001]】 1【收[005]件[003]人[001]】 1

      3 三音節(jié)名詞型動(dòng)態(tài)詞分析

      結(jié)構(gòu)模式知識庫中對應(yīng)動(dòng)態(tài)詞頻次排在前十的結(jié)構(gòu)模式如表7所示。由表7可知,除“n: n2-Ug”外,其他結(jié)構(gòu)模式的內(nèi)部結(jié)構(gòu)關(guān)系都為定中關(guān)系。由此可知,國際漢語教學(xué)中三音節(jié)名詞型動(dòng)態(tài)詞內(nèi)部成分的主要結(jié)合方式是定中結(jié)構(gòu)關(guān)系。最常見的是雙音節(jié)名詞、動(dòng)詞、形容詞與單音節(jié)名詞或名詞性語素(不成詞語素)的結(jié)合及單音節(jié)形容詞、名詞、數(shù)詞與雙音節(jié)名詞的結(jié)合。

      表7 頻次排在前十的結(jié)構(gòu)模式

      結(jié)構(gòu)模式知識庫中包含前綴和后綴標(biāo)記的結(jié)構(gòu)模式共有八種,分別為“n: n2-Ug”、“n: an-Ug”、“n: v2-Ug”、“n: a2-Ug”、“n: nn-Ug”、“n: f2-Ug”、“n: Ug-n2”和“n: nNg-Ug”。標(biāo)注的國際漢語教材語料中三音節(jié)名詞型動(dòng)態(tài)詞出現(xiàn)前綴和后綴的詳細(xì)情況如表8所示。表8中“詳細(xì)信息”字段包含具體的前綴/后綴、對應(yīng)的義項(xiàng)碼以及出現(xiàn)頻次等信息。

      表8 三音節(jié)名詞型動(dòng)態(tài)詞出現(xiàn)前綴和后綴情況

      從國際漢語教材語料庫中獲取的1 712種動(dòng)態(tài)詞中,內(nèi)部詞或語素的類別(考慮義項(xiàng)差別)共有1 713種。其中,出現(xiàn)頻次最高的15種詞或語素如圖2所示。在國際漢語教學(xué)領(lǐng)域中,人[n][001]、小[a][001]、大[a][001]、們[Ug][101]、者[u][001]、新[a][001]、好[a][001]、兒[Ug][101]、性[Ug][003]、課[n][002]等詞或語素構(gòu)成三音節(jié)名詞型動(dòng)態(tài)詞能力較強(qiáng)。

      本節(jié)以構(gòu)建的三音節(jié)名詞型動(dòng)態(tài)詞結(jié)構(gòu)模式知識庫為基礎(chǔ),初步分析了國際漢語教學(xué)中三音節(jié)名詞型動(dòng)態(tài)詞內(nèi)部成分的主要結(jié)合方式、出現(xiàn)前綴/后綴情況以及構(gòu)成三音節(jié)名詞型動(dòng)態(tài)詞能力較強(qiáng)的詞或語素。三音節(jié)名詞型動(dòng)態(tài)詞結(jié)構(gòu)模式知識庫蘊(yùn)含大量有價(jià)值的信息,如果進(jìn)一步挖掘,可以對國際漢語教學(xué)中的三音節(jié)名詞型動(dòng)態(tài)詞產(chǎn)生更加全面深入的理解與認(rèn)識。

      圖2 三音節(jié)名詞型動(dòng)態(tài)詞內(nèi)部頻次最高的詞或語素

      4 結(jié)語

      本文利用知識工程的方法對國際漢語教學(xué)中的三音節(jié)名詞型動(dòng)態(tài)詞進(jìn)行研究分析,初步構(gòu)建了面向國際漢語教學(xué)的三音節(jié)名詞型動(dòng)態(tài)詞結(jié)構(gòu)模式知識庫,通過分析結(jié)構(gòu)模式知識庫取得了部分重要成果。本文的研究方法可以進(jìn)一步推廣到國際漢語教學(xué)中其他音節(jié)的名詞型動(dòng)態(tài)詞以及其他詞類的動(dòng)態(tài)詞研究中,以便更好地服務(wù)于國際漢語教學(xué)的詞匯研究與詞匯教學(xué)以及面向國際漢語教學(xué)的信息處理。

      猜你喜歡
      詞類語素知識庫
      《最低入門等級音節(jié)、漢字、詞匯表》語素和語素義分析
      多義語素識別及教學(xué)探討
      ——針對對外漢語語素教學(xué)構(gòu)想
      長江叢刊(2020年30期)2020-11-19 09:48:13
      用詞類活用法擴(kuò)充詞匯量
      語素的判定、分類及語法單位關(guān)系研究述評
      基于TRIZ與知識庫的創(chuàng)新模型構(gòu)建及在注塑機(jī)設(shè)計(jì)中的應(yīng)用
      基于語料庫“隱秘”的詞類標(biāo)注初步探究
      從成語中學(xué)習(xí)詞類活用
      因果復(fù)合詞
      高速公路信息系統(tǒng)維護(hù)知識庫的建立和應(yīng)用
      基于“字本位”理論再談漢語詞類問題
      汉寿县| 江门市| 高淳县| 西丰县| 化隆| 太康县| 桦甸市| 连江县| 宽城| 贵定县| 上犹县| 大田县| 永和县| 资溪县| 桃江县| 巴南区| 栖霞市| 高青县| 阜平县| 怀柔区| 台安县| 固原市| 西乌珠穆沁旗| 沁水县| 罗城| 大洼县| 乌鲁木齐市| 井陉县| 富川| 依兰县| 凤城市| 独山县| 城固县| 南投县| 溧阳市| 甘德县| 尤溪县| 分宜县| 乡宁县| 保定市| 高阳县|