• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于《現(xiàn)代漢語語義詞典》的未登錄詞語義預(yù)測研究

      2016-10-13 02:25:12尚芬芬顧彥慧戴茹冰李斌周俊生曲維光
      關(guān)鍵詞:語料詞典正確率

      尚芬芬 顧彥慧,? 戴茹冰 李斌 周俊生 曲維光

      ?

      基于《現(xiàn)代漢語語義詞典》的未登錄詞語義預(yù)測研究

      尚芬芬1,2顧彥慧1,2,?戴茹冰3李斌3周俊生1,2曲維光1,2

      1. 南京師范大學(xué)計算機科學(xué)與技術(shù)學(xué)院, 南京 210023; 2. 江蘇省信息安全保密技術(shù)工程研究中心, 南京 210023; 3. 南京師范大學(xué)文學(xué)院, 南京 210097; ? 通信作者, E-mail: gu@njnu.edu.cn

      基于《現(xiàn)代漢語語義詞典》, 首先建立不同語義層次的詞典, 根據(jù)詞典分別構(gòu)建模型并進(jìn)行語義預(yù)測, 然后將各個模型進(jìn)行集成, 通過集成模型再對未登錄詞進(jìn)行語義預(yù)測, 得到較好的預(yù)測性能。利用預(yù)測模型對2000年《人民日報》語料進(jìn)行未登錄詞語義預(yù)測和標(biāo)注, 最終得到帶有未登錄詞語義義項標(biāo)注的語料資源。

      漢語未登錄詞; 語義預(yù)測; 語義標(biāo)注; 集成學(xué)習(xí)

      語義問題一直是自然語言處理領(lǐng)域的研究熱點。文本內(nèi)容的理解必須建立在對文本中每一個詞語的語義理解基礎(chǔ)之上。然而, 由于大量未登錄詞的存在, 其語義未知, 文本中沒有標(biāo)注未登錄詞的句法和語義類別標(biāo)記, 因此很難做到獲取所有詞語的語義, 這對很多自然語言處理(natural language processing, NLP)技術(shù)和其他以語義為基礎(chǔ)的研究是一個挑戰(zhàn)。漢語未登錄詞的語義預(yù)測研究可以為未登錄詞提供語義預(yù)測, 從而為研究者提供語義參考, 對許多NLP應(yīng)用, 如機器翻譯、信息檢索、語義分析、詞典編纂等有重要意義。

      漢語未登錄詞語義預(yù)測的研究難度較大, 因此相關(guān)研究工作較少, 除使用基于知識的模型和基于語料的模型及其混合模型外, 很少有新的模型提出。在已有的研究中使用的詞典資源也比較有限, 使用較多的是《同義詞詞林》(Cilin)。本文通過構(gòu)建多種語義預(yù)測模型, 利用《現(xiàn)代漢語語義詞典》進(jìn)行未登錄詞語義預(yù)測, 并對2000年《人民日報》語料中的未登錄詞進(jìn)行語義預(yù)測和標(biāo)注。

      1 相關(guān)研究

      在對漢語未登錄詞的語義預(yù)測研究中, 學(xué)者們先后提出不同的模型方法, Chen等[1-3]、Lu[4-5]、Tseng等[6-7]以及Qiu等[8-9]等都為漢語未登錄詞語義預(yù)測的研究做出了貢獻(xiàn)。有研究指出, 對于一個8萬詞的詞典而言, 大約有3.51%的未登錄詞存 在[1]。這些未登錄詞中包含復(fù)合名詞51%, 復(fù)合動詞34%, 專業(yè)名詞只占15%[3]。目前對專業(yè)名詞已有大量的研究來確定其語義類別。與只占15% 的專業(yè)名詞相比, 占85% 的復(fù)合詞語的語義類別預(yù)測研究顯得更為重要[10-13]。因此, 近期的研究更多傾向于未登錄詞中復(fù)合詞語的語義猜測, 比如Chen等[3]和Lua[14]的研究。

      關(guān)于漢語未登錄詞語義預(yù)測, 現(xiàn)有研究大多采用基于詞語結(jié)構(gòu)信息和基于規(guī)則的方法, 也有利用未登錄詞上下文信息, 通過計算與已知詞類詞語上下文的相似度來進(jìn)行預(yù)測。依據(jù)模型和算法的不同, 歸納為以下3種方法。

      1) 基于知識的方法。大部分學(xué)者對未登錄詞語義預(yù)測的研究是基于知識的模型, 最早使用該方法的研究者之一是Lua[14], 目的是把雙音節(jié)中文詞分類到同義詞詞林中的大類或者中類, 使用三層反向傳播神經(jīng)網(wǎng)絡(luò), 模擬雙音節(jié)詞的語義類別與其兩個組成字的語義類別之間的依賴性。此后, 又發(fā)展出基于實例的方法[3]以及基于相似度的方法[2]; 文獻(xiàn)[4-5]的研究涉及重疊字模型、字-類別關(guān)聯(lián)模型以及基于規(guī)則的模型。此外, 還有基于《知網(wǎng)》的模型[15-16]。

      2) 基于語料的方法。Lu[4-5]提出的基于語料的模型是根據(jù)未登錄詞出現(xiàn)的上下文預(yù)測其語義類別, 從語料中抽取出《同義詞詞林》中每個語義類別的廣義上下文, 再計算未登錄詞的上下文與每個候選語義類別的廣義上下文之間的相似度, 通過相似度的大小來確定未登錄詞的語義類別。

      3) 基于知識和基于語料的混合方法。Lu[4-5]提出基于知識和基于語料的混合模型, 使用基于知識的模型為每個未登錄詞提供候選語義類別, 然后從語料中抽取《同義詞詞林》中每個語義類別的廣義上下文, 再計算出未登錄詞的上下文與每個候選語義類別的廣義上下文之間的相似度。

      早期的研究主要集中在基于知識的模型, 隨后出現(xiàn)加入上下文信息的模型研究, 但效果不是很好, 接著使用基于知識的模型與基于上下文信息松散結(jié)合的混合模型, 效果也不理想。近期的研究將未登錄詞的知識與上下文信息更緊密地結(jié)合成混合模型, 取得較好的預(yù)測效果。

      2 語義資源及詞典構(gòu)建

      漢語未登錄詞語義預(yù)測研究使用較多的語義資源是《同義詞詞林》, 少部分研究使用《知網(wǎng)》(HowNet), 幾乎沒有相關(guān)研究使用《現(xiàn)代漢語語義詞典》(The Semantic Knowledge-base of Contem-porary Chinese, SKCC)[17-18]?!冬F(xiàn)代漢語語義詞典》擁有豐富的語義義項分類, 并且各個義項下有充分的成員詞語, 因此, 本文利用該詞典進(jìn)行未登錄詞語義預(yù)測的研究。

      2.1 語義資源介紹

      本文未登錄詞語義預(yù)測研究使用的語義資源是《現(xiàn)代漢語語義詞典》,這是一部面向NLP的語義知識庫,收錄6.5萬余條漢語實詞。作為綜合型語言知識庫(Comprehensive Language Knowledge Base, CLKB)的一部分, SKCC廣泛應(yīng)用于計算詞匯語義學(xué)的基礎(chǔ)研究和應(yīng)用研究中。SKCC采用Microsoft Access數(shù)據(jù)庫實現(xiàn), 其中包含全部詞語的總庫1個, 每類詞語(實詞)各建一庫, 每個庫文件中都包含詞語與其語義的關(guān)系。由于名詞庫的分類較為詳細(xì), 因此本文主要研究名詞庫的詞語。

      根據(jù)SKCC名詞庫的語義分類, 可以分五級對語義詞典SKCC名詞庫中不同語義層次的詞語數(shù)目進(jìn)行統(tǒng)計, 如表1所示。

      表1 語義詞典SKCC名詞庫中不同語義層次的詞語數(shù)目

      2.2 詞典構(gòu)建

      利用SKCC進(jìn)行未登錄詞語義預(yù)測, 屬于基于詞典的方法, 是根據(jù)詞典中詞語的信息構(gòu)造預(yù)測模型, 需要詞典中詞語位于詞典樹型結(jié)構(gòu)的同一語 義層次, 便于統(tǒng)計每個語義類別中的詞語信息。SKCC的語義體系呈現(xiàn)樹型結(jié)構(gòu), 但是語義詞典SKCC名詞庫中的詞語并不是全都劃分到樹型結(jié)構(gòu)的最底層, 而是劃分到不同的語義層次(如圖1所示), 這樣不便于語義分類。因此, 先構(gòu)造出語義類別的樹型結(jié)構(gòu), 再將所有詞語都?xì)w為第一級來構(gòu)造詞典。由于劃分到第一級語義類別粒度較大, 因此再將詞語盡量(當(dāng)詞語無法向下級語義劃分時, 則將該詞去除)歸為第二級和第三級, 由第二級和第三級詞語信息構(gòu)造詞典。本文分別構(gòu)建3個SKCC詞典。

      2.2.1 第一級語義類別SKCC1

      將SKCC中所有詞語都?xì)w為第一級語義類別匯總, 記為SKCC1。第一級的各個語義類別所包含的詞語數(shù)目如表2所示。

      表2 SKCC1的各個語義類別詞語數(shù)目

      2.2.2 第二級語義類別SKCC2

      語義詞典SKCC的詞語劃分到第二級語義類 別中所構(gòu)造的詞典, 記為SKCC2。構(gòu)造語義詞典SKCC2時, 語義詞典SKCC的詞語語義類別向上劃分, 可以全部劃分到父節(jié)點(也就是第一級語義類別中), 但是如果劃分到第二級語義類別中時, 所有歸屬于第一級語義類別的詞語就無法向下劃分到第二級的語義類別中。因此, 基于SKCC2詞典的研究只包含屬于二級及以下類別的詞語, 并且將這些詞語都向上劃分到第二級父節(jié)點上的詞語。

      第二級語義類別分為16個。SKCC名詞庫劃到第二級的16個語義類別的詞語數(shù)目如表3所示。

      表3 SKCC2的各個語義類別及類別下詞語數(shù)目

      2.2.3 第三級語義類別SKCC3

      語義詞典SKCC的詞語劃分到第三級語義類別中所構(gòu)造的詞典, 記為SKCC3。將詞語劃歸到第三級語義層次時, 所有歸屬于第一級和第二級語義類別的詞語由于所屬語義節(jié)點層次高, 難以向下劃分到第三級的語義類別中。因此, 基于SKCC3詞典的研究只包含屬于三級及以下類別的詞語, 并且把這些詞語都向上劃分到第三級父節(jié)點上。

      第三級語義類別分為17個, 具體語義類別和詞語數(shù)目如表4所示。其中, 語義類別“非生物構(gòu)件”的詞數(shù)為0, 原因是詞語劃分到其祖先類別中, 該類別沒有詞語和子類別。

      表2 SKCC3的各個語義類別及類別下詞語數(shù)目

      3 模型構(gòu)建

      根據(jù)詞典詞語信息, 分別構(gòu)建基于重疊字的模型、基于字-類別關(guān)聯(lián)的模型(Character-Category Association Model)和基于規(guī)則的模型。

      3.1 基于重疊字的模型

      根據(jù)現(xiàn)代漢語的構(gòu)詞規(guī)則, 大多數(shù)新詞的語義都與其組成詞素相關(guān), 兩者之間有著相同或者相近的語義, 不同詞語共享相同的組成詞素極為常見, 因此利用詞語組成詞素相重疊的知識可以更好地預(yù)測新構(gòu)成詞語的語義義項。重疊字模型通過計算未登錄詞與每個語義類別成員詞的重疊字個數(shù)來預(yù)測未登錄詞的語義類別。

      對于Cilin中的每個語義類別, 抽取其成員詞的所有不重復(fù)的字, 并且統(tǒng)計每個字現(xiàn)在詞頭、詞中、詞尾的總頻數(shù)。根據(jù)這些信息, 提出3對變式。在每一對變式中, 變式a通過計算類別和未登錄詞的重疊字的數(shù)目, 計算出未登錄詞的一個類別的得分。相應(yīng)地, 變式b計算上述分?jǐn)?shù)的一個帶權(quán)值的或歸一化的副本。這些變式中, Score(Cat,)表示分配類別Cat為未登錄詞類別的得分;代表未 登錄詞的長度;c代表未登錄詞的第個字;P表示第個字c在詞中的位置, 包括{詞頭, 詞中, 詞尾};(c)表示類別Cat中第個字的全部頻率;(c,p)表示在Cat中位于pc的頻率;表示在Cat中的字的總數(shù);N表示在類別Cat中, 位于位置p的字的總數(shù);N表示在類別Cat中詞的總數(shù)。

      變式1: 變式1a中, 類別的得分是這個類別中未登錄詞的每個組成字出現(xiàn)次數(shù)的總和; 變式1b中, 每個次數(shù)都由類別中字的總數(shù)加權(quán)得到。

      變式2: 變式2a中, 類別的得分是這個類別中未登錄詞的每個組成字在未登錄詞的相應(yīng)位置出現(xiàn)次數(shù)的總和; 變式2b中, 每個次數(shù)由類別中字在未登錄詞相應(yīng)位置出現(xiàn)的總數(shù)加權(quán)得到。

      變式3: 變式3a中, 類別的得分是這個類別中未登錄詞的尾字c在未登錄詞的詞尾p出現(xiàn)的數(shù)的總和; 變式3b中, 得分是由類別中所有詞總數(shù)加權(quán)得到。

      變式1用最直接的方法得到重疊字語義的預(yù)測, 變式2與每個組成字在未登錄詞和類別的成員詞中出現(xiàn)的位置相關(guān), 變式3只考慮未登錄詞的最后一個字和每個類別成員詞的最后一個字。每一個變式, 得分最高的類別被推薦為未登錄詞的類別。

      3.2 基于字-類別關(guān)聯(lián)的模型

      字-類別關(guān)聯(lián)模型采用多種復(fù)雜的信息理論模型來估算詞語組成字與語義類別之間的關(guān)聯(lián), 再估算詞語與語義類別之間的關(guān)聯(lián), 為未登錄詞預(yù)測合適的語義。字-類別關(guān)聯(lián)模型計算字與語義類別之間的關(guān)聯(lián)值, 使用的統(tǒng)計量包括互信息和2, 如式(7)~(9)所示:

      其中, Asso(Char, Cat)表示字符Char與語義類別Cat的關(guān)聯(lián),()和()分別表示的概率和頻率。

      計算出字-類關(guān)聯(lián)后, 詞-類關(guān)聯(lián)就可以通過對類別和詞的每個組成字的關(guān)聯(lián)加權(quán)求和計算出來, 如式(10)所示:

      其中, Char表示詞的第個字符, ||表示詞的長度,表示Char與Cat之間關(guān)聯(lián)的權(quán)重,的和為1。

      3.3 基于規(guī)則的模型

      基于規(guī)則模型的原理是觀察未登錄詞的組成結(jié)構(gòu)信息, 對之進(jìn)行歸納總結(jié), 獲得可以匹配到更多未登錄詞詞語結(jié)構(gòu)的規(guī)則。通過設(shè)定的規(guī)則模式進(jìn)行未登錄詞語義的預(yù)測, 實際上是依據(jù)未登錄詞組成字的句法和語義類別來預(yù)測未登錄詞子集的語義類別?;谝?guī)則的方法是對不同長度的未登錄詞分別設(shè)計不同的規(guī)則集。例如: 對于三字長的未登錄詞ABC, 如果BC與“學(xué)家”相同, 猜測ABC為SKCC1的類別“具體事物”, 如表5所示。

      表5 三字詞ABC規(guī)則A+“學(xué)家”舉例

      4 模型實驗

      4.1 實驗語料與預(yù)處理

      實驗中使用1998年1月的《人民日報》語料, 該語料主要用于抽選測試詞。測試詞抽取條件是: 分別從構(gòu)造的語義詞典中隨機抽取; 存在于1998年1月的《人民日報》語料中; 詞語長度為2~4個字; 詞語詞性為名詞。對1998年1月的《人民日報》語料做如下的預(yù)處理: 1) 處理為包含詞語、詞性標(biāo)記和詞頻信息的格式; 2) 過濾掉停用詞和命名實體; 3) 抽取出詞性標(biāo)記為n的詞語。

      4.2 實驗與分析

      從SKCC1中隨機抽取3000個測試詞, 這些是已知語義類別的詞語, 再從SKCC1中去除這3000個詞語。然后, 基于去除測試詞的SKCC1, 利用構(gòu)建的模型進(jìn)行語義預(yù)測, 并對比其正確的語義類別, 計算語義分類的正確率。

      實驗1 基于重疊字模型的6個變式的未登錄 詞語義預(yù)測正確數(shù)和正確率。抽取未登錄詞的總數(shù)為3000, 實驗結(jié)果如表6所示。結(jié)果顯示, 這些模型的正確率都較高, 其中最高值是變式2a得到的77.0%。

      表6 基于SKCC1詞典的重疊字模型預(yù)測結(jié)果

      實驗 2 基于字-類別關(guān)聯(lián)模型不同統(tǒng)計量的未登錄詞語義預(yù)測正確數(shù)和正確率。抽取未登錄詞的總數(shù)為3000, 實驗結(jié)果如表7所示。結(jié)果顯示, 統(tǒng)計量MI與2相比,2得到更高的語義預(yù)測正確率, 為74.3%。

      表7 基于SKCC1詞典的字-類別關(guān)聯(lián)模型預(yù)測結(jié)果

      實驗3 基于規(guī)則模型的未登錄詞語義預(yù)測正確數(shù)和正確率。所抽取的未登錄詞總數(shù)為861, 即在3000個測試詞語中, 模型預(yù)測出語義的詞語共 有861個, 實驗結(jié)果如表8所示。可以看出, 正確 率很高, 但是召回率很低。

      表8 基于SKCC1詞典的規(guī)則模型的未登錄詞語義預(yù)測結(jié)果

      實驗4 多模型的集成。由于基于規(guī)則的模型得到的預(yù)測正確率較高, 但召回率較低, 因此本實驗設(shè)計基于規(guī)則的模型與其他模型的集成。集成模型的預(yù)測語義由以下兩條確定。

      1) 如果能夠由基于規(guī)則的模型預(yù)測出語義, 則將這個語義作為混合模型預(yù)測語義。

      2) 如果基于規(guī)則的模型不能夠給出預(yù)測語義, 那么對基于重疊字模型和基于字-類別關(guān)聯(lián)模型的語義預(yù)測進(jìn)行投票, 并對投票結(jié)果進(jìn)行排序, 取票數(shù)最高的語義類別作為該未登錄詞的混合模型預(yù)測語義。

      集成模型對所抽取出的3000個未登錄詞進(jìn)行語義預(yù)測, 得到的正確數(shù)和正確率如表9所示??梢娂赡P偷玫捷^高的正確率(77.9%), 同時也克服了基于規(guī)則模型召回率較低的問題, 獲得較好的未登錄詞語義預(yù)測性能。

      表9 基于SKCC1詞典的集成模型語義預(yù)測結(jié)果

      5 漢語未登錄詞語義預(yù)測應(yīng)用

      在基于不同詞典和不同模型對2000年《人民日報》語料的未登錄詞標(biāo)注中, 基于規(guī)則的模型得到的預(yù)測正確率較高, 但是其覆蓋率較低。比如詞語“股東會”, 在基于規(guī)則模型中, 基于SKCC3得到預(yù)測語義“人”; 該詞在字-類別關(guān)聯(lián)模型的預(yù)測結(jié)果為SKCC3 “人, 人”; 在重疊字模型中, 該詞語的預(yù)測結(jié)果為SKCC3 “人”。預(yù)測語義都與對應(yīng)人工標(biāo)注相同。集成模型結(jié)合了基于規(guī)則的模型與其他模型, 得到較高的正確率, 可見集成模型對基于SKCC3的語義預(yù)測性能較好。本文根據(jù)基于SKCC3的集成模型所獲得的未登錄詞預(yù)測語義標(biāo)注到2000年《人民日報》語料中, 所得到的語料示例如表10所示。

      表10 基于SKCC3標(biāo)注未登錄詞語義語料示例

      表10的語料示例中共有3個未登錄名詞, 分別是“主景”、“凹版”、“凹凸感”。其中, 詞語“凹凸感”語義預(yù)測有誤, 正確語義應(yīng)該為“意識”而不是“情感”, 其余兩個詞語語義預(yù)測正確。

      在基于SKCC對2000年《人民日報》語料的研究中, 未登錄詞的語義可以劃分到SKCC第二級和第三級。但是, 由于尚無對2000年《人民日報》語料未登錄詞語義標(biāo)注的標(biāo)準(zhǔn)語料, 無法確定未登錄詞預(yù)測語義的正確性。針對這個問題, 本文取基于SKCC已標(biāo)注的第二級語義和第三級語義進(jìn)行分析。

      假設(shè)未登錄詞預(yù)測出的第三級語義為GuessThirdCat(), GuessThirdCat()在SKCC樹型語義結(jié)構(gòu)的上一級語義為SecondCat(), 預(yù)測出的在SKCC中第二級的語義為GuessSecondCat(), 如果GuessSecondCat() = SecondCat(), 那么認(rèn)為該未登錄詞所預(yù)測的二級語義為正確的。使用該評估方法可以判定2000年《人民日報》語料中12162個未登錄詞的預(yù)測語義正確, 正確率為72.2%。

      6 總結(jié)與展望

      本文首次使用《現(xiàn)代漢語語義詞典》進(jìn)行漢語未登錄詞語義預(yù)測的研究, 通過構(gòu)建的模型對2000年《人民日報》語料的未登錄詞進(jìn)行語義預(yù)測和標(biāo)注, 得到具有未登錄詞語義標(biāo)注的語料。在未來的工作中, 我們將探索改進(jìn)語義預(yù)測方法, 并嘗試將未登錄詞語義預(yù)測拓展到實際應(yīng)用中。

      [1]Chen H, Lin C. Sense-tagging Chinese corpus // Proceedings of ACL-2000 Workshop on Chinese Language. Hong Kong, 2000: 7?14

      [2]Chen C. Character-sense association and compoun-ding template similarity: automatic semantic classifica-tion of Chinese compounds // Proceedings of the 3rd SIGHAN Workshop on Chinese Language Processing. Barcelona, 2004: 33?40

      [3]Chen K, Chen C. Automatic semantic classification for Chinese unknown compound nouns // Proceedings of the 18th International Conference on Computa-tional Linguistics (COLING). Saarbrücken, 2000: 173?179

      [4]Lu Xiaofei. Hybrid model for Chinese unknown word resolution [D]. Ohio: The Ohio State University, 2006

      [5]Lu Xiaofei. Hybrid model for semantic classification of Chinese unknown words // Proceedings of North American Chapter of the Association for Computa-tional Linguistics: Human Language Technologies. Rochester, 2007: 188?195

      [6]Tseng H. Semantic classification of Chinese unknown words // Proceedings of the Student Research Work-shop at the 41st Annual Meeting of the Association for Computational Linguistics (ACL). Sapporo, 2003: 72?79

      [7]Tseng H, Chen K J. Design of Chinese morphological analyzer // Proceedings of the First SIGHAN Work-shop on Chinese Language Processing. Stroudsburg, 2002: 1?7

      [8]Qiu Likun, Wu Yunfang, Shao Yanqiu. Combining contextual and structural information for supersense tagging of Chinese unknown words // Proceedings of CICLing, PartⅠ, LNCS 6608. Tokyo, 2011: 15?28

      [9]Qiu Likun, Zhao Kai, Hu Changjian. A hybrid model for sense guessing of Chinese unknown words // Proceedings of 23rd Pacific Asia Conference on Language, Information and Computation (PACLIC). Hong Kong, 2009: 464?473

      [10]Cucerzan S. Large-scale named entity disambiguation based on wikipedia data // Procedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Lan-guage Learning. Prague, 2007: 708?716

      [11]周俊生, 戴新宇, 尹存燕, 等. 基于層疊條件隨機場模型的中文機構(gòu)名自動識別. 電子學(xué)報, 2006, 34(5): 804?809

      [12]陳鈺楓, 宗成慶, 蘇克毅. 漢英雙語命名實體識別與對齊的交互式方法. 計算機學(xué)報, 2011, 34(9): 1688?1696

      [13]馮元勇, 孫樂, 張大鯤, 等. 基于小規(guī)模尾字特征的中文命名實體識別研究. 電子學(xué)報, 2008, 36(9): 1833?1837

      [14]Lua K T. Prediction of meaning of bi-syllabic Chinese compound words using back propagation neural net-work. Computational Processing of Oriental Langua- ges, 1997, 11(2): 133?144

      [15]張瑞霞, 肖漢. 基于《知網(wǎng)》的詞圖構(gòu)造. 華北水利水電學(xué)院學(xué)報, 2008, 29(3): 53?56

      [16]張瑞霞, 楊國增, 閆新慶. 基于《知網(wǎng)》的漢語普通未登錄詞語義分析模型. 計算機應(yīng)用與軟件, 2012, 29(8): 126?130

      [17]王惠, 詹衛(wèi)東, 俞士汶. 現(xiàn)代漢語語義詞典規(guī)格說明書. 漢語語言與計算學(xué)報, 2003, 13(2): 159?176

      [18]Bai M H, Hsieh Y M, Chen K J, et al. Translating Chinese unknown words by automatically acquired templates // Proceedings of the Sixth International Joint Conference on Natural Language Processing (IJCNLP). Nagoya, 2013: 839?843

      Research on the Sense Guessing of Chinese Unknown Words Based on “Semantic Knowledge-base of Modern Chinese”

      SHANG Fenfen1,2, GU Yanhui1,2,?, DAI Rubing3, LI Bin3, ZHOU Junsheng1,2, QU Weiguang1,2

      1. School of Computer Science and Technology, Nanjing Normal University, Nanjing 210023; 2. Jiangsu Research Center of Information Security & Privacy Technology, Nanjing 210023; 3. School of Chinese Language and Culture, Nanjing 210097; ? Corresponding author, E-mail: gu@njnu.edu.cn

      Based on the research issue of sense guessing of Chinese unknown words, different levels of semantic dictionary were introduced by applying “Semantic Knowledge-base of Modern Chinese”. Models have constructed for sense guessing by using these dictionary. Each model was intergrated to predict the unknown words and obtained better performance. Based on each model, semantic prediction and annotation of the unknown words in People’s Daily which published in 2000 were evaluated. Finally, corpus resources with the sense annotation of unknown words were obtained.

      Chinese unknown words; sense guessing; semantic annotation; ensemble learning

      10.13209/j.0479-8023.2016.009

      TP391

      2015-06-19;

      2015-09-03; 網(wǎng)絡(luò)出版日期: 2015-09-30

      國家自然科學(xué)基金(61272221, 61472191)、國家社會科學(xué)基金(11CYY030, 10CYY021)、江蘇省社會科學(xué)基金(12YYA002)和江蘇省高校自然科學(xué)基金(14KJB520022)資助

      猜你喜歡
      語料詞典正確率
      門診分診服務(wù)態(tài)度與正確率對護患關(guān)系的影響
      米沃什詞典
      文苑(2019年24期)2020-01-06 12:06:50
      評《現(xiàn)代漢語詞典》(第6版)
      詞典例證翻譯標(biāo)準(zhǔn)探索
      基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
      生意
      品管圈活動在提高介入手術(shù)安全核查正確率中的應(yīng)用
      天津護理(2016年3期)2016-12-01 05:40:01
      生意
      故事會(2016年15期)2016-08-23 13:48:41
      華語電影作為真實語料在翻譯教學(xué)中的應(yīng)用
      《苗防備覽》中的湘西語料
      澳门| 焦作市| 四会市| 理塘县| 青浦区| 吴堡县| 敦化市| 喀喇沁旗| 华亭县| 永吉县| 南召县| 普安县| 奇台县| 克什克腾旗| 武邑县| 利川市| 霸州市| 长顺县| 桑植县| 太和县| 建阳市| 麻城市| 博乐市| 农安县| 鸡东县| 海南省| 博客| 永善县| 宝清县| 宝坻区| 新邵县| 邳州市| 鹤山市| 天长市| 彰化县| 台中县| 正蓝旗| 迁安市| 江源县| 平塘县| 双牌县|