• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于MMSeg分詞的多部主題詞表聯(lián)合標(biāo)注研究與實(shí)現(xiàn)

      2015-06-07 05:56:54陳曉燕
      關(guān)鍵詞:詞表主題詞表詞條

      陳曉燕

      (紹興職業(yè)技術(shù)學(xué)院,浙江 紹興312000)

      基于MMSeg分詞的多部主題詞表聯(lián)合標(biāo)注研究與實(shí)現(xiàn)

      陳曉燕

      (紹興職業(yè)技術(shù)學(xué)院,浙江 紹興312000)

      為了解決多部主題詞表聯(lián)合標(biāo)注中標(biāo)注詞條數(shù)量大、子串較多等問題,本文提出了基于MMSeg分詞的標(biāo)注方法.采用MMSeg分詞算法將待標(biāo)注文本先切分形成詞串再進(jìn)行標(biāo)注,并改進(jìn)了分詞詞典從而支持子串的標(biāo)注,保證了較高的召回率.還就相關(guān)內(nèi)容進(jìn)行了研究并給出了具體實(shí)現(xiàn).運(yùn)行結(jié)果表明基于MMSeg分詞的多部主題詞表聯(lián)合標(biāo)注在標(biāo)注速度、召回率和精確率方面均達(dá)到了實(shí)用要求.

      分詞詞典;MMSeg算法;標(biāo)注;消歧;主題詞表

      基于主題詞表的標(biāo)注研究中,閆瑩瑩[1]等利用漢語科技詞系統(tǒng)對文獻(xiàn)自動(dòng)賦詞標(biāo)引進(jìn)行了應(yīng)用研究,其將人工標(biāo)引的文獻(xiàn)主題詞作為訓(xùn)練集,采用貝葉斯分類算法,將符合人工標(biāo)引結(jié)果作為正集,不符合的作為反集,形成訓(xùn)練模型,對新文獻(xiàn)計(jì)算候選詞權(quán)值作為人工標(biāo)引的輔助.李鵬[2]等提出了敘詞表多表聯(lián)合標(biāo)注系統(tǒng)的設(shè)計(jì)方案,采用自動(dòng)標(biāo)注與手工標(biāo)注相結(jié)合的方式進(jìn)行標(biāo)注,并以皮膚病領(lǐng)域?yàn)槔M(jìn)行總結(jié)了多表聯(lián)合標(biāo)注可能的應(yīng)用場景.

      利用多部主題詞表進(jìn)行聯(lián)合標(biāo)注,存在以下幾個(gè)難點(diǎn):(1)詞表多,詞表之間詞條的包含關(guān)系較常見.最大匹配存在問題,在詞表內(nèi)部可以最大匹配,但多個(gè)詞條之間有詞條之間的包含關(guān)系.(2)系統(tǒng)基于BS結(jié)構(gòu),存在多個(gè)用戶,每個(gè)用戶存在多個(gè)詞表.多用戶多詞表出現(xiàn)詞條數(shù)量大、效率要求高.筆者測試對當(dāng)詞條達(dá)到30萬條時(shí),對單篇200字的文檔,耗時(shí)約46秒,嚴(yán)重影響用戶體驗(yàn).(3)詞條中存在一些特殊符號(hào).例如醫(yī)學(xué)類,連接符,數(shù)字等比較常見.本文就以上問題進(jìn)行了研究.

      1 基于MMSeg分詞的多部主題詞表聯(lián)合標(biāo)注研究

      1.1 MMSeg分詞算法

      MMseg分詞算法[3]是利于詞典進(jìn)行分詞基于正向最大匹配的算法,是將待切分詞組從詞典中找到最長的字符串的一種匹配算法,其又可以分為簡單最大匹配和復(fù)雜最大匹配兩種方法.若S1,S2,…Sn代表一個(gè)字符串中的漢字,其基本算法是:(1)從字符串的第一個(gè)字符開始,判斷S1是否為詞典中的單詞,(2)如果是,繼續(xù)判斷S1S2來看是否為詞典中的詞組,(3)直至S1S2…Sn+1字典中無法匹配時(shí),則S1S2…Sn

      相應(yīng)的算法規(guī)則如下,優(yōu)先秩序分別為:規(guī)則1>規(guī)則2>規(guī)則3>規(guī)則4,從而選擇最合理的分詞組合.

      規(guī)則1:優(yōu)先取最大匹配的詞長詞組;

      規(guī)則2:取Ax最大的詞長詞組;

      規(guī)則3:取Sx最小的詞長詞組;

      規(guī)則4:取Dx最大的詞長詞組.

      1.2 分詞詞典的改進(jìn)

      MMseg的分詞效果與詞典關(guān)系較大,專業(yè)領(lǐng)域等細(xì)分詞典能夠?qū)崿F(xiàn)更好的分詞效果[4].主題詞表具有典型的專業(yè)領(lǐng)域特色,因此非常適合使用MMseg等詞典分詞算法.將計(jì)算機(jī)專業(yè)主題詞表、醫(yī)學(xué)專業(yè)主題詞表以及各種定制專業(yè)主題詞表,轉(zhuǎn)化為相應(yīng)的專業(yè)詞典來進(jìn)行分詞,能夠產(chǎn)生較高的分詞效果.

      利用多部主題詞條進(jìn)行聯(lián)合標(biāo)注時(shí),由于涉及多部主題詞表,而且標(biāo)注的主題詞表一般涉及交叉領(lǐng)域,因此存在詞條重復(fù)或者包含關(guān)系等問題,導(dǎo)致普通的MMseg的分詞算法難以勝任.因此,必須對MM-seg進(jìn)行相關(guān)的改進(jìn).本文相應(yīng)的改進(jìn)包括特殊詞條處理以及詞典文件更新等.本文使用jcseg中文分詞器對應(yīng)的詞典文件說明詞典文件的更新.jcseg是使用Java開發(fā)的一款基于MMseg算法的開源的中文分詞器.

      原分詞詞典內(nèi)容比較簡單,一個(gè)詞條對應(yīng)的詞典內(nèi)容主要包括詞條名稱、詞性、漢詞拼音,以及備注等信息.改進(jìn)的分詞詞典,在原有的內(nèi)容基礎(chǔ)上,增加了每個(gè)詞條對應(yīng)的主題詞表、包含子詞條等信息.原詞典文件與改進(jìn)后的詞典如圖1所示.就是最可能的單詞,也是最長的匹配.(4)取這個(gè)單詞,待切分詞組去掉相關(guān)詞條,依據(jù)同樣的方法,直至待切分詞條為0,即所有單詞都被切分完成.

      最大匹配算法不涉及語法和語義知識(shí),其優(yōu)勢是切分速度快,不足之處在于無法解決切分歧義的問題,因此切分精度不夠.歧義的產(chǎn)生,是因?yàn)榭赡墚a(chǎn)生多種不同的切分結(jié)果,每一種切分結(jié)果對應(yīng)不同的理解,但是根據(jù)待處理文本所在的上下語境只有一種符合作者要闡述的意思.歧義消解就是要尋找最符合原文闡述的切分方法.MMseg在基本算法的基礎(chǔ)上,充分考慮了平均長度,標(biāo)準(zhǔn)差以及自由語素度三個(gè)因素,并對應(yīng)形成四個(gè)規(guī)則.規(guī)則1考慮的基本算法的最大匹配長度;規(guī)則2考慮的因素為平均長度;規(guī)則3考慮的因素為標(biāo)準(zhǔn)差;規(guī)則4考慮的因素為自由語素度.四個(gè)規(guī)則的應(yīng)用,較好地解決了歧義切分的問題.

      假設(shè)單詞條集合為L,對應(yīng)的詞頻為fx,令L為待切分詞組字?jǐn)?shù),Ix為詞組中各詞的長度和,則可計(jì)算平均長度Ax,標(biāo)準(zhǔn)差Sx,以及自由語素度Dx.相應(yīng)計(jì)算公式如下:

      圖1 原分詞詞典與改進(jìn)后的分詞詞典

      其中kos代表系統(tǒng)使用的知識(shí)組織系統(tǒng)代碼,3對應(yīng)相應(yīng)的主題詞表ID,100對應(yīng)的詞表中詞條ID.示例中詞條“中華人民共和國”包含了“中華”“人民”兩個(gè)子詞條,而“中華民國”,只包含了“中華”一個(gè)字詞條.在詞典文件中添加詞表ID目的是分詞后,可根據(jù)需要標(biāo)注的文檔庫的詞表進(jìn)行過濾,不是當(dāng)前文檔典設(shè)置的標(biāo)注詞表,直接在結(jié)果中刪除.在詞典文件中添加詞條ID目的是分詞后,可以直接根據(jù)數(shù)字類型為整型的詞條ID到數(shù)據(jù)庫中查詢對應(yīng)的信息,從而增加處理速度.

      原處理方式的弊端:長詞條覆蓋短詞條.只能標(biāo)注長詞條,不能標(biāo)注單獨(dú)出現(xiàn)的長詞條所包含的短詞條.詞表A中有:中華人民共和國、人民.詞表B中有:中華、共和國.用戶選擇A、B兩個(gè)詞表標(biāo)注“我們是中華人民共和國的國民”.只能分出“中華人民共和國”,“中華”分不出來.改進(jìn)后的詞典,能夠按照系統(tǒng)的需要,將各主題詞表中的詞條均標(biāo)注出來.

      改進(jìn)后的分詞詞典,處理了每個(gè)詞條對應(yīng)的子詞條信息,因此維護(hù)詞條之間的關(guān)系表是一項(xiàng)非常重要的工作.

      1.3 特殊詞條處理

      特殊詞條分為兩類,一種是存在一些特殊符號(hào)如醫(yī)學(xué)類,連接符,數(shù)字等比較常見的詞條,另一種是超長詞條.對于特殊詞條,采用直接采用字符串匹配查找文檔中是否存在.

      在根據(jù)詞條進(jìn)行分詞時(shí),受分詞算法中詞典的限制,詞條中不能包含特殊字符,如果包含特殊字符,則分詞算法在加載詞典時(shí)失敗.標(biāo)注系統(tǒng)可能出現(xiàn)的一些特殊符號(hào)如表1所示.這些符號(hào)禁止出現(xiàn)在詞典文件中.

      表1 特殊符號(hào)列表

      具體來說,本文基于MMSeg分詞的多部主題詞表聯(lián)合標(biāo)注流程如圖2所示.

      1.4 標(biāo)注

      基于多部主題詞表進(jìn)行聯(lián)合標(biāo)注的目的是盡可能將主題詞表中出現(xiàn)的詞條在待標(biāo)注文本中標(biāo)引出來,即盡可能標(biāo)全.標(biāo)注為一項(xiàng)基本工作,為其后的知識(shí)庫的建立和詞條及其關(guān)系的挖掘提供基礎(chǔ).基于多部主題詞表聯(lián)合進(jìn)行標(biāo)注時(shí),由于詞典中詞條數(shù)目較大,采用逐條取詞表中的所有詞條一一與原文匹配看是否存在原文中的方式,耗時(shí)太長.因此,本文采用從待標(biāo)注文本入手先分詞形成詞串,然后去數(shù)據(jù)庫中匹配該詞串是否在所屬詞表的詞條中,這樣匹配的速度更快,能夠大幅度節(jié)省時(shí)間.由于只需要對切分詞表中存在的詞,因此分詞速度大大提高.利用詞典分詞有利于自動(dòng)標(biāo)注,能夠?qū)崿F(xiàn)大批量與自動(dòng)化標(biāo)注,是手工標(biāo)注的前提和工程化應(yīng)用的基礎(chǔ).基于MMseg分詞的多表聯(lián)合標(biāo)注包含三個(gè)步驟:分詞、標(biāo)注及著色.對文獻(xiàn)進(jìn)行標(biāo)注時(shí),要判斷文獻(xiàn)內(nèi)容是否包含詞典中的詞條.標(biāo)注功能需要考慮的因素如下:

      (1)支持多次標(biāo)注,不影響以前的標(biāo)注.

      (2)每次標(biāo)注后,用戶選擇的文本及位置信息記錄在數(shù)據(jù)庫中.

      1.5 著色

      要實(shí)現(xiàn)對標(biāo)注文本的著色,需要知道標(biāo)注文本對應(yīng)在全文中的位置,著色能夠讓用戶看到標(biāo)注的效果.可以使用不同的顏色,分別對應(yīng)不同的主題詞表.由于標(biāo)注時(shí),已經(jīng)在數(shù)據(jù)庫中存儲(chǔ)了標(biāo)注文本對應(yīng)的位置信息,因此著色相對比較簡單.著色可以直接在待標(biāo)注文本前添加IE等瀏覽器支持的標(biāo)簽,實(shí)現(xiàn)在瀏覽器中顯示相關(guān)的顏色.為將原文中標(biāo)簽同標(biāo)注的標(biāo)簽區(qū)分開,同時(shí)為了網(wǎng)頁上顯示效果,著色代碼均遵照特定的格式:

      2 基于MMSeg分詞的多部主題詞表聯(lián)合標(biāo)注實(shí)現(xiàn)

      2.1 數(shù)據(jù)預(yù)處理

      數(shù)據(jù)預(yù)處理工作的目的主要是將原主題詞表的詞條轉(zhuǎn)換成詞典文件,為將來的詞條切分做好準(zhǔn)備工作.利用詞典分詞的方式,需要建立用戶自己的詞典.但是,當(dāng)出現(xiàn)用戶詞典時(shí),多用戶多純種服務(wù)器壓力較大,因此,建立統(tǒng)一的詞典進(jìn)行分詞.

      數(shù)據(jù)預(yù)處理的另外一項(xiàng)內(nèi)容是主題詞表中如果出現(xiàn)詞典文件避免的特殊字符時(shí),應(yīng)該將其標(biāo)志設(shè)為特殊詞條,方便標(biāo)注時(shí)專門按特殊詞條處理方式進(jìn)行處理.

      2.2 建立詞條關(guān)系表

      詞條關(guān)系表是為了維護(hù)詞條之間的包含關(guān)系而建立的表.

      表2 詞條關(guān)系表s_Relation

      計(jì)算一個(gè)詞條的關(guān)系時(shí)步驟:查找本詞條包含的詞條信息,寫入關(guān)系表.一個(gè)詞條可能包括多個(gè)詞條.如“人民共和國”可能包括的詞條有“人民”“共和國”.如一個(gè)詞條不包含任何子詞條,則需在關(guān)系表中添加一條數(shù)據(jù)(其中:ChildtheasurusID,ChildID,ChildTermName等列為空).

      #-是否詞庫更新自動(dòng)加載(1開啟,0關(guān)閉)

      lexicon.autoload=1

      #-詞庫更新輪詢時(shí)間(單位:秒)

      lexicon.polltime=120

      建立詞條關(guān)系表后,定時(shí)將關(guān)系表數(shù)據(jù)按照固定格式寫入詞典文件中.

      2.3 建立詞典文件

      為保證詞表中詞條信息同詞典中詞條信息保持一致,每天晚上重新生成詞庫文件.根據(jù)測試30萬條數(shù)據(jù)寫入詞庫文件需要8min.

      2.4 詞條的更新

      為保證詞典文件的準(zhǔn)確性,需在詞條內(nèi)容發(fā)生變更后記錄詞條的變動(dòng)信息,以便及時(shí)更新詞典文件.引起詞條內(nèi)容變動(dòng)的原因包括:新增詞條、修改詞條、導(dǎo)入詞條、刪除詞條.詞典文件更新策略如圖3所示.在刪除一個(gè)詞條時(shí),需要將本詞條包含的詞條關(guān)系刪除,還需將包含本詞條的詞條關(guān)系刪除.例如刪除詞表ID為2,詞條ID為300的詞條,刪除關(guān)系語句為:

      Delete from Relation

      Where(ThesaurusID=2 and Term ID=300)or(ChildtheasurusID=2 and Child ID=300)

      3 運(yùn)行結(jié)果

      基于MMSeg分詞的多部主題詞表聯(lián)合標(biāo)注系統(tǒng)較好地達(dá)到了系統(tǒng)預(yù)計(jì)的要求,本文從標(biāo)注速度、標(biāo)注召回率、標(biāo)注準(zhǔn)確率三個(gè)指標(biāo)進(jìn)行了評(píng)價(jià)和驗(yàn)證.

      分詞速度對于分詞系統(tǒng)是一項(xiàng)重要指標(biāo),通常分詞系統(tǒng)對于分詞速度要求十分嚴(yán)格[5].準(zhǔn)確性作為核心指標(biāo),是指在進(jìn)行分詞處理后分得的正確的詞或者短語的個(gè)數(shù)與分得的所有的詞的個(gè)數(shù)之間的比值,分詞系統(tǒng)的準(zhǔn)確率應(yīng)用達(dá)到99.9%以上才能基本滿足其他領(lǐng)域的使用要求.分詞準(zhǔn)確率與分詞速度兩者相矛盾,在設(shè)計(jì)系統(tǒng)時(shí)要充分考慮兩者的關(guān)系.召回率是檢索出的相關(guān)文檔數(shù)和文檔庫中所有的相關(guān)文檔數(shù)的比率,衡量的是檢索系統(tǒng)的查全率.

      標(biāo)注速度=文本長度/分詞時(shí)間?100%(單位:字/秒)

      標(biāo)注準(zhǔn)確率=正確切分詞數(shù)/文本總詞數(shù)?100%

      標(biāo)注召回率R=標(biāo)注的詞條/應(yīng)該標(biāo)注的全部詞條

      使用MMSeg分詞后再進(jìn)行標(biāo)注,標(biāo)注的性能達(dá)到了質(zhì)的變化,前后兩者對比如表3所示.運(yùn)行硬件環(huán)境:CPU:AMD 3.2G;內(nèi)存4G.

      表3 標(biāo)注速度對比表

      標(biāo)注的準(zhǔn)確率,未分詞標(biāo)注時(shí),直接采用待切分詞條去數(shù)據(jù)庫中匹配該詞條是否出現(xiàn)在主題詞表中,因此準(zhǔn)確率為100%,采用分詞標(biāo)注后,由于涉及部分特殊字符,準(zhǔn)確率稍有下降,但仍然完全滿足系統(tǒng)的需要.表4為標(biāo)注的準(zhǔn)確率對比.

      表4 標(biāo)注準(zhǔn)確率對比表

      標(biāo)注的召回率,由于改進(jìn)了分詞詞典,相當(dāng)于犧牲了部分分詞的效率,保證了標(biāo)注的召回率.標(biāo)注召回率取得了大幅度的提升.標(biāo)注的召回率對比如表5所示.

      表5 標(biāo)注召回率對比表

      4 結(jié)束語

      多部主題詞表詞條較多,同時(shí)由于存在交叉領(lǐng)域,因此詞條之間存在包含或者重復(fù)等較復(fù)雜的關(guān)系,但是盡可能地標(biāo)全是系統(tǒng)作為一項(xiàng)基礎(chǔ)研究的條件,因此給實(shí)際工作帶來了困難.本文將MMSeg分詞引入到標(biāo)注中,實(shí)現(xiàn)基于多部主題詞表的聯(lián)合標(biāo)注,能夠大大提高標(biāo)注的速度和精度.但是由于MMSeg分詞無法解決召回率的問題,本文改進(jìn)了分詞詞典,將詞表及其詞條和子詞條關(guān)系引入至詞典中,從而保證了標(biāo)注的召回率.多部主題詞表聯(lián)合標(biāo)注作為一項(xiàng)基礎(chǔ)性工作,使其后的專業(yè)知識(shí)庫的構(gòu)建以及深度數(shù)據(jù)挖掘成為可能.

      [1]閆瑩瑩,許德山.漢語科技詞系統(tǒng)在文獻(xiàn)自動(dòng)賦詞標(biāo)引中的應(yīng)用研究[J].數(shù)字圖書館論壇,2013, (11):2-8.

      [2]李鵬,朱禮軍.敘詞表多表聯(lián)合標(biāo)注系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].數(shù)字圖書館論壇,2013,(11):21-26.

      [3]MMSEG:AWord Identification System for Mandarin Chinese Text Based on Two Variants of the Maximum Matching Algorithm[EB/OL].(2000-03-12)[2014-12-08],http://technology.chtsai.org/mmseg/.

      [4]蔣建洪,趙嵩正,羅玫.詞典與統(tǒng)計(jì)方法結(jié)合的中文分詞模型研究及應(yīng)用[J].計(jì)算機(jī)工程與設(shè)計(jì), 2012,33(1):387-391.

      [5]劉延吉.基于詞典的中文分詞歧義算法研究[D].吉林:東北師范大學(xué),2009.

      Research and Implementation of Multi-Thesaurus Joint Labeling System Based on MMSeg Algorithm

      Chen Xiaoyan

      (Shaoxing Vocational and Technical College,Shaoxing,Zhejiang 312000)

      In order to solve the problems that there are a greatnumber of terms and substrings in the Multi-Thesaurus joint labeling system,this paper presents the annotation method based on the MMSeg algorithm.The paper proposes adopting the MMSeg segmentation algorithm to cut text strings for annotating and improve the dictionary for substring annotation,thus ensuring a higher recall rate.The specific implementation of the relevant content and the operation result show that the Multi-Thesaurus joint labeling system based on the MMSeg segmentation algorithm meets the practical requirements in terms of the annotation speed,recall rate and precision rate.

      dictionary;annotation;MMSeg algorithm;ambiguity processing;thesaurus

      TP393

      A

      1008-293X(2015)07-0039-06

      0 引言

      表,又稱敘詞表,由詞與詞之間用代屬分參等關(guān)系組成,是文獻(xiàn)與情報(bào)檢索中用以標(biāo)引主題的一種檢索工具.主題詞表作為一種結(jié)構(gòu)化的概念集合,在信息資源的描述、組織和檢索中發(fā)揮重要的作用.利用主題詞表進(jìn)行標(biāo)注工作,尤其是利用多部主題詞表進(jìn)行聯(lián)合標(biāo)注,能夠進(jìn)一步描述和組織信息資源,從多視角,多角度地揭示文章的內(nèi)容,將非結(jié)構(gòu)化文本進(jìn)行結(jié)構(gòu)化,為信息抽取、深度檢索、智能推理,以及知識(shí)庫的建立提供了基礎(chǔ).

      (責(zé)任編輯 魯越青)

      10.16169/j.issn.1008-293x.k.2015.07.09

      2015-02-06

      陳曉燕(1973-),女,浙江溫州人,講師,主要研究方向:信息處理.

      猜你喜歡
      詞表主題詞表詞條
      《〈漢語主題詞表〉構(gòu)建研究》
      《〈漢語主題詞表〉構(gòu)建研究》
      A Chinese-English List of the Sports Programmes in Winter Olympics 冬奧會(huì)項(xiàng)目名稱漢英對照詞表
      英語世界(2021年13期)2021-01-12 05:47:51
      《〈漢語主題詞表〉構(gòu)建研究》
      《〈漢語主題詞表〉構(gòu)建研究》
      2016年4月中國直銷網(wǎng)絡(luò)熱門詞條榜
      2016年3月中國直銷網(wǎng)絡(luò)熱門詞條榜
      敘詞表與其他詞表的互操作標(biāo)準(zhǔn)
      2016年9月中國直銷網(wǎng)絡(luò)熱門詞條榜
      大數(shù)據(jù)相關(guān)詞條
      临夏市| 兴国县| 罗山县| 商城县| 崇信县| 平和县| 奉化市| 深水埗区| 浏阳市| 河曲县| 屯门区| 永和县| 内黄县| 永州市| 平陆县| 洛阳市| 丰镇市| 东明县| 乌海市| 淅川县| 阳城县| 泽州县| 凤庆县| 河南省| 乐山市| 东光县| 蓬安县| 永年县| 德昌县| 阜宁县| 双牌县| 瑞昌市| 崇左市| 同德县| 昭苏县| 承德县| 东乌珠穆沁旗| 新营市| 威海市| 邻水| 株洲县|