• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      異源語料融合研究

      2016-05-04 02:54:41呂學(xué)強(qiáng)仵永栩
      中文信息學(xué)報(bào) 2016年5期
      關(guān)鍵詞:置信度語料語料庫(kù)

      呂學(xué)強(qiáng),仵永栩,,周 強(qiáng),劉 殷,

      (1. 北京信息科技大學(xué) 網(wǎng)絡(luò)文化與數(shù)字傳播北京市重點(diǎn)實(shí)驗(yàn)室,北京 100101;2. 清華信息科學(xué)與技術(shù)國(guó)家實(shí)驗(yàn)室(籌),清華大學(xué)信息技術(shù)研究院語音與語言技術(shù)中心, 北京 100084)

      異源語料融合研究

      呂學(xué)強(qiáng)1,仵永栩1,2,周 強(qiáng)2,劉 殷1,2

      (1. 北京信息科技大學(xué) 網(wǎng)絡(luò)文化與數(shù)字傳播北京市重點(diǎn)實(shí)驗(yàn)室,北京 100101;
      2. 清華信息科學(xué)與技術(shù)國(guó)家實(shí)驗(yàn)室(籌),清華大學(xué)信息技術(shù)研究院語音與語言技術(shù)中心, 北京 100084)

      語料資源與自然語言處理領(lǐng)域的各項(xiàng)研究息息相關(guān),具有很大的應(yīng)用價(jià)值。由于不同的研究機(jī)構(gòu)對(duì)于語料標(biāo)注的規(guī)則和標(biāo)記的類型不盡相同,使得不同的語料庫(kù)很難組合為一個(gè)更大的語料庫(kù)來進(jìn)行使用。針對(duì)該問題,該文從不同標(biāo)注庫(kù)及詞類映射層面考慮,對(duì)其產(chǎn)生的詞性歧義問題進(jìn)行了研究,提出了一種將異源語料融合到一種體系下的方法,對(duì)詞類信息進(jìn)行映射和消歧,并進(jìn)行了實(shí)驗(yàn)驗(yàn)證,融合后的詞性信息準(zhǔn)確率可達(dá)87%,實(shí)驗(yàn)結(jié)果表明該方法具有一定的有效性和可擴(kuò)展性。

      語料建設(shè);語料融合;詞類映射;詞性消歧;

      1 引言

      自然語言處理領(lǐng)域的分析技術(shù)可以分為兩個(gè)方面,一個(gè)是淺層分析,如詞法分析;另一個(gè)是深層分析,如句法分析。目前針對(duì)詞法分析的語料庫(kù)已有很多高質(zhì)量的、大規(guī)模的語料庫(kù)存在,在基于語料庫(kù)語言學(xué)的研究方面,已發(fā)揮了比較好的效用。而針對(duì)一個(gè)漢語句子進(jìn)行深層次的、全局的分析與處理的語料庫(kù)還很少,且標(biāo)準(zhǔn)不統(tǒng)一、規(guī)模不大,這也制約了句法分析研究應(yīng)用的發(fā)展。

      由于漢語句子不像英語語句那樣有天然的空格分割,需要對(duì)漢語句子進(jìn)行詞法層面的分析,對(duì)其進(jìn)行詞語切分和詞性標(biāo)注。對(duì)于同一個(gè)自然語言處理任務(wù),往往存在多個(gè)不同風(fēng)格的人工標(biāo)注語料庫(kù)[1]。不同風(fēng)格的標(biāo)注庫(kù)在資源層面存在標(biāo)注不一致的問題,在語料標(biāo)注中沒有一個(gè)統(tǒng)一的標(biāo)準(zhǔn),不能保證在詞性標(biāo)注以及人工標(biāo)注的一致性。在構(gòu)建大規(guī)模的漢語樹庫(kù)的過程中,需要有比較大規(guī)模的已分詞和標(biāo)注完善的基礎(chǔ)語料庫(kù),再對(duì)這些基礎(chǔ)語料庫(kù)進(jìn)行自動(dòng)分析和人工標(biāo)注,最終形成漢語樹庫(kù)。由于現(xiàn)有的語料庫(kù)的規(guī)模并不是很大,而且不同研究機(jī)構(gòu)對(duì)于詞性的標(biāo)注規(guī)范不同,不能直接組合為一個(gè)大規(guī)?;A(chǔ)語料庫(kù)。這也限制了語料的多領(lǐng)域適應(yīng)性,限制了語料庫(kù)發(fā)展的規(guī)模,阻礙了基于語料庫(kù)語言學(xué)的發(fā)展。因此,需要采用一定的方式,將語料的標(biāo)注標(biāo)準(zhǔn)進(jìn)行統(tǒng)一化,使得異源的語料庫(kù)可以融合起來利用,發(fā)揮多語料綜合利用的效用。

      在語料融合方面,國(guó)內(nèi)也已有相關(guān)研究,Meng 等[2]提出了一種異種語料的自動(dòng)融合策略。將源語料的分詞和詞性標(biāo)注標(biāo)準(zhǔn)進(jìn)行轉(zhuǎn)化,使其與目標(biāo)語料一致,再將轉(zhuǎn)化后的語料與目標(biāo)語料融合,訓(xùn)練一個(gè)新詞法分析器,利用這個(gè)新的詞法分析器進(jìn)行解碼。Jiang 等[3]實(shí)現(xiàn)了一種轉(zhuǎn)換分類器,以原標(biāo)注信息作為指導(dǎo)、目標(biāo)標(biāo)注作為學(xué)習(xí)目標(biāo)來自動(dòng)地構(gòu)建一個(gè)有噪聲的平行標(biāo)注語料,并用此分類器處理另一個(gè)語料庫(kù)。但是以上方法在測(cè)試集大于訓(xùn)練集的情況下,在轉(zhuǎn)化過程中會(huì)因訓(xùn)練數(shù)據(jù)限制而出現(xiàn)分類錯(cuò)誤。

      針對(duì)以上方法的不完備性以及異源語料標(biāo)注信息不一致問題,本文提出了一種異種語料自動(dòng)融合方法,將不同體系的語料融合到一個(gè)體系下,以此來擴(kuò)展語料庫(kù)的規(guī)模,統(tǒng)一標(biāo)注標(biāo)準(zhǔn)。經(jīng)過多語料的融合,擴(kuò)充了語料資源建設(shè)過程中的語料規(guī)模,擴(kuò)大漢語樹庫(kù)建設(shè)過程中用到的基礎(chǔ)語料庫(kù)規(guī)模,提高后續(xù)基于語料庫(kù)語言學(xué)的研究分析的準(zhǔn)確性。本方法的思想是: ①手工建立一套映射標(biāo)準(zhǔn),將不同來源、不同領(lǐng)域的語料的詞性標(biāo)記進(jìn)行映射,使其與目標(biāo)語料一致; ②將轉(zhuǎn)化后的語料的標(biāo)記進(jìn)行錯(cuò)誤糾正。在最大程度地保留原詞性信息的基礎(chǔ)上,將不同的標(biāo)記進(jìn)行歸一化處理; ③將詞性標(biāo)記信息結(jié)果還原到原語料中,生成融合后的語料。

      針對(duì)上述問題,將屬于同一個(gè)類別、標(biāo)注不同的標(biāo)記建立一個(gè)映射表,再將同詞類的詞性標(biāo)記映射到同一個(gè)標(biāo)準(zhǔn)下,并對(duì)其映射結(jié)果進(jìn)行置信度評(píng)定,確定屬于同一個(gè)類別、標(biāo)記不同的詞語的預(yù)測(cè)標(biāo)記。具有多詞性標(biāo)記的詞語,要利用上下文信息確定該詞語在句子中的詞性類別,將推測(cè)結(jié)果屬于不同類別的概率值進(jìn)行擬合,選取與當(dāng)前上下文最相關(guān)的詞性標(biāo)記作為初步的預(yù)測(cè)標(biāo)記,然后對(duì)預(yù)測(cè)標(biāo)記進(jìn)行置信度評(píng)定,確定該詞的最終預(yù)測(cè)標(biāo)記結(jié)果,最后根據(jù)映射規(guī)則,將結(jié)果映射到同一個(gè)標(biāo)準(zhǔn)下。

      本文在第二部分提出了語料自動(dòng)融合的方法;第三部分是實(shí)驗(yàn)結(jié)果與分析,詳細(xì)闡述了語料融合過程中所做的工作以及對(duì)融合后的效果進(jìn)行評(píng)定;第四部分是總結(jié)與展望。

      2 語料融合方法

      2.1 語料體系

      將需要融合的語料稱為源體系,融合生成的語料稱為目標(biāo)體系[2]。實(shí)驗(yàn)中采用的語料體系包括: TCT體系、PKU體系和XD973體系。其中,TCT語料體系是從大規(guī)模的經(jīng)過基本信息標(biāo)注的漢語平衡語料庫(kù)中提取出100萬漢字規(guī)模的文本為語料,經(jīng)過自動(dòng)句法分析和人工校對(duì),形成高質(zhì)量的漢語句法樹庫(kù)語料;PKU語料是北京大學(xué)對(duì)人民日?qǐng)?bào)語料進(jìn)行詞語切分和詞性標(biāo)注形成的語料體系;XD973語料是山西大學(xué)按照其制定的漢語文本語料庫(kù)分詞、詞性標(biāo)注加工規(guī)范進(jìn)行加工形成的語料體系。在語料融合之前,需要將源體系的標(biāo)注進(jìn)行歸一化處理,形成歸一化詞類映射表UNP,UNP是根據(jù)不同詞類體系對(duì)應(yīng)表: TCT、PKU、YWGB、XD等,在盡可能保留功能類詞性的基礎(chǔ)上,共保留了58個(gè)歸一化詞類標(biāo)記,UNP中的部分標(biāo)記如表1所示。

      表1 UNP映射詞表

      2.2 融合思想解析

      在語料的融合過程中,需要解決兩個(gè)問題: 一、轉(zhuǎn)化前的標(biāo)注問題。對(duì)于原語料標(biāo)注不符合當(dāng)前要融合的體系的語料,要對(duì)其標(biāo)記進(jìn)行修正; 二、轉(zhuǎn)化后的問題。在融合的過程中,由于體系的差異,某些詞在不同庫(kù)中的標(biāo)記有所不同,使得在融合過程中,詞性產(chǎn)生歧義。在每個(gè)庫(kù)中,都存在單類詞和多類詞情況。融合后出現(xiàn)的新問題是: 某些詞在各個(gè)體系中是單類詞,但融合后變成了多類詞,其形成原因是不同庫(kù)中對(duì)詞類標(biāo)記分布特定的不同界定標(biāo)準(zhǔn)。研究的重點(diǎn)是為這些融合多類詞選擇確定一個(gè)合適的單詞類標(biāo)記。

      例如,詞“黨支部”、“北邊”、“門邊”和“夜半”,在不同的體系下的標(biāo)注信息不同。如表2所示。

      表2 不同體系的詞類標(biāo)記

      在PKU體系以及XD體系中,黨支部標(biāo)記為名詞n,在TCT體系中,標(biāo)記為機(jī)構(gòu)團(tuán)體詞nO;在PKU體系以及XD體系中,北邊標(biāo)記為方位詞f,在TCT體系中,標(biāo)記為處所詞s;“夜半”在PKU和TCT體系中,標(biāo)記為時(shí)間詞t,在XD體系中,標(biāo)記為時(shí)間名詞nT。這在幾個(gè)例子中,可以看到,同一個(gè)詞在不同的標(biāo)記體系下的詞性標(biāo)記有所不同,這些差異會(huì)導(dǎo)致語料融合過程中的詞性標(biāo)記的不一致。

      又例如,在某體系下,有句子序列“貫徹/v 江澤民/nr 同志/n “/wkz 三/m 個(gè)/qN 代表/v ”/wky 重要/a 思想/n”,根據(jù)映射表的內(nèi)容,需要將人名的nr標(biāo)記修正為nP,將左引號(hào)wkz標(biāo)記修正為wLB,將右引號(hào)wky標(biāo)記修正為wRB。經(jīng)過映射表,可以將其中的一些專屬標(biāo)記規(guī)范化,融合后不會(huì)產(chǎn)生無關(guān)標(biāo)記。

      映射示意圖如圖1所示。

      在某體系下,有句子序列“為/p 奪取/v 現(xiàn)代化/vN 建設(shè)/vN 的/uJDE 勝利/vN”、“以/p 經(jīng)濟(jì)/n 建設(shè)/vN 為/v 中心/n”。句子描述如圖2所示。

      圖1 UNP映射實(shí)例

      圖2 UNP映射實(shí)例

      在這兩個(gè)句子序列中,詞語“為”呈現(xiàn)出不同的詞性,在句子序列1中是動(dòng)詞詞性,在小句中作謂語成分。在句子序列2中是介詞詞性,介詞修飾的部分做后續(xù)成分的狀語。

      對(duì)于該問題,實(shí)際上要做的就是確定在語料融合的過程中產(chǎn)生歧義的詞的詞性。詞的詞性是由一個(gè)詞在一句話中所起的作用決定的,與它所在的上下文相關(guān)。實(shí)驗(yàn)中,由詞性標(biāo)記聯(lián)系到詞在上下文中的詞義,再由詞義聯(lián)系到該詞的概念。一個(gè)詞所能體現(xiàn)的不同詞義也是由其本身所擁有的不同概念決定的。利用知網(wǎng)[4]中的詞語的概念定義,對(duì)語料體系中詞的詞義進(jìn)行評(píng)判,進(jìn)而確定詞的詞性標(biāo)記。對(duì)于不同的語料體系,將其中需要進(jìn)行詞性排歧的詞抽取出來。首先,明確幾個(gè)定義。

      2.3 語料組織形式

      語料在融合的過程中,主要就是對(duì)這些多類詞和單類詞進(jìn)行處理。在融合的過程中要考慮的主要問題就是詞性的歧義[5-6]。確定一個(gè)詞的詞性標(biāo)記,屬于分類問題,基于一種遷移學(xué)習(xí)的思想,一般認(rèn)為一個(gè)詞的詞性與其上下文窗口有關(guān)聯(lián),可以將部分詞及其上下文信息作為特征,訓(xùn)練出一個(gè)模板,來對(duì)其他的詞進(jìn)行分類。

      語料形式如下示:

      1) 開創(chuàng)/v 思想/n 政治/n 工作/vN 的/uJDE 新/a 局面/n

      2) 今天/t 是/v 中國(guó)/nS 共產(chǎn)黨/n 成立/v 79/m 周年/qT 紀(jì)念日/nT 。/wE

      3) 企業(yè)/n 轉(zhuǎn)賬/v 結(jié)算/v 中/f 的/uJDE 大部分/m 支出/n

      語料的標(biāo)注規(guī)范是不同的語料體系經(jīng)過詞性映射之后的標(biāo)注規(guī)范。在本實(shí)驗(yàn)使用機(jī)器學(xué)習(xí)模型進(jìn)行分類時(shí),采用的特征模板是當(dāng)前詞在知網(wǎng)中的概念的義原,及其左右四個(gè)詞的詞條及其詞性作為特征。特征輸入模板如表3所示。

      表3 特征輸入模板

      其中,n表示某個(gè)詞的概念中的義原總數(shù)。根據(jù)上述輸入模板,上述3)語料句子中的詞“結(jié)算/v”在知網(wǎng)中的概念為“V calculate|計(jì)算, commercial|商”,對(duì)應(yīng)的特征輸入為:

      1) calculate|計(jì)算 企業(yè) n 轉(zhuǎn)賬 v 結(jié)算 中 f 的 uJDE

      2) commercial|商 企業(yè) n 轉(zhuǎn)賬 v 結(jié)算 中 f 的 uJDE

      使用該特征模板對(duì)目標(biāo)詞匯集合中的單類詞進(jìn)行訓(xùn)練,然后用該模板對(duì)多類詞進(jìn)行預(yù)測(cè),預(yù)測(cè)的結(jié)果輸出為概率分布。對(duì)輸出的概率值的分布曲線進(jìn)行擬合,選擇合適數(shù)量義原組合為一個(gè)概念。

      2.4 曲線擬合

      詞的概念是由不同的義原構(gòu)成,代表了該詞所具有的某些屬性,也標(biāo)示出詞可以承擔(dān)的詞類屬性,將模型預(yù)測(cè)的義原結(jié)果,通過曲線擬合的方式,選取合適的義原項(xiàng)作為該詞的屬性,從而確定該詞的概念和充當(dāng)?shù)脑~類屬性。曲線擬合[7]的過程描述為: 根據(jù)義原的概率比值,對(duì)于不同的比值,選取不同的義原組合為一個(gè)概念作為對(duì)該詞的初步預(yù)測(cè)概念。擬合值的公式描述為式(1)。

      (1)

      式(1)中,Tf表示輸出的概率分布中的最大概率值,Ts表示輸出的概率分布中次最大概率值。對(duì)取值的描述如下述式(2)。

      (2)

      通過程序統(tǒng)計(jì),當(dāng)數(shù)值大小排序在第一的概率值與排序在第二的概率值的比值在區(qū)間[1,1.5]時(shí)選取三個(gè)義原,比值落在區(qū)間(1.5,2)時(shí)選取兩個(gè)義原,當(dāng)比值大于2時(shí)選取一個(gè)義原時(shí),可以獲得較好的實(shí)驗(yàn)效果。

      2.5 置信度

      由以上描述所得,對(duì)于一個(gè)預(yù)測(cè)的結(jié)果,首先根據(jù)曲線擬合生成的閾值空間,選取不同數(shù)目的義原組合為一個(gè)概念,然后將組合形成的概念與該詞在知網(wǎng)下的各個(gè)概念進(jìn)行相似度比較,選擇知網(wǎng)中相似度最大的概念作為當(dāng)前多類詞的推薦結(jié)果,并使用推薦結(jié)果的詞性標(biāo)記作為該多類詞的推薦標(biāo)記。在得出預(yù)測(cè)的結(jié)果之后,需要對(duì)預(yù)測(cè)的結(jié)果進(jìn)行置信度評(píng)價(jià),以此來提高預(yù)測(cè)結(jié)果的準(zhǔn)確性。

      置信度概念定義如下:

      定義3 置信度 針對(duì)知網(wǎng)對(duì)于某個(gè)詞的推薦詞性,在結(jié)果評(píng)定時(shí),認(rèn)為其為正確的可靠度。

      對(duì)于一個(gè)詞w標(biāo)注為c的置信度得分需要考慮如下幾個(gè)方面的因素:

      (1) 該標(biāo)注詞本身標(biāo)記因素Pmark

      Pmark表示在以往的標(biāo)記中,該詞被標(biāo)注為c的數(shù)量與該詞的所有數(shù)目的一個(gè)比值。

      (2) 該詞的上下文環(huán)境因素Fcontext

      Fcontext=(1+CL)×(1+CR)

      (3)

      習(xí)近平強(qiáng)調(diào):“人類只有遵循自然規(guī)律才能有效防止在開發(fā)利用自然上走彎路,人類對(duì)大自然的傷害最終會(huì)傷及人類自身,這是無法抗拒的規(guī)律[1]”。伴隨社會(huì)經(jīng)濟(jì)的發(fā)展,生態(tài)環(huán)境對(duì)于人類發(fā)展的重要性日益凸顯。馬克思的眾多著作中閃爍著生態(tài)思想的光芒,相關(guān)生態(tài)思想對(duì)生態(tài)旅游建設(shè)有著重要的現(xiàn)實(shí)啟示。馬克思的生態(tài)實(shí)踐理論是解決當(dāng)前生態(tài)問題和遵循現(xiàn)代實(shí)踐方法論的當(dāng)代轉(zhuǎn)向,是在保證生態(tài)系統(tǒng)整體性的前提下對(duì)人的行為的內(nèi)在制約,是強(qiáng)調(diào)人與自然和諧發(fā)展的物質(zhì)性實(shí)踐思想。馬克思的生態(tài)實(shí)踐理論對(duì)當(dāng)前如何正確處理人與自然的關(guān)系以及如何在“美麗中國(guó)”新時(shí)代背景下促進(jìn)中俄界江生態(tài)旅游價(jià)值的實(shí)現(xiàn)具有重要的指引意義。

      對(duì)經(jīng)過置信度評(píng)價(jià)后獲得的結(jié)果,選取特定的幾個(gè)詞類進(jìn)行正確性驗(yàn)證,例如,助詞、系動(dòng)詞、動(dòng)詞、介詞等。對(duì)標(biāo)注后的詞及詞性信息還原到原始語料中,此時(shí)的各個(gè)體系下的語料庫(kù)即可直接融合為一個(gè)更大規(guī)模的語料庫(kù)。

      上述語料融合方法的流程圖描述如圖3所示。

      圖3 實(shí)驗(yàn)過程流程圖

      3 實(shí)驗(yàn)結(jié)果與分析

      3.1 實(shí)驗(yàn)語料

      實(shí)驗(yàn)中,使用到的三個(gè)不同的體系下的語料分別是山西大學(xué)XD973語料標(biāo)注體系、北京大學(xué)PKU語料標(biāo)注體系以及清華大學(xué)TCT語料標(biāo)注體系。經(jīng)統(tǒng)計(jì)所得,除去只在一個(gè)體系下出現(xiàn)的詞后,剩余的詞在這三個(gè)體系下的需要處理的單類詞和多類詞總數(shù),即目標(biāo)詞匯集合為19 110。目標(biāo)詞匯集合中的單類詞數(shù)目為9 604,多類詞的數(shù)目為3 774。利用建立的UNP映射表,可以確定單類詞的詞性。

      將單類詞的概念中的各個(gè)義原作為這個(gè)詞的特征,并取該詞在所在的上下文信息作為模板來訓(xùn)練出一個(gè)模型,充分利用單類詞的上下文信息對(duì)多類詞的上下文進(jìn)行分類。訓(xùn)練以及測(cè)試模塊的步驟如下。

      1) 根據(jù)第四部分介紹的模板,從三個(gè)語料體系中,抽取出9 604個(gè)單類詞的上下文窗口作為訓(xùn)練語料,一共有4 230 439條訓(xùn)練輸入,記為train_simple。

      2) 從三個(gè)語料體系中,抽取出3 774個(gè)多類詞的上下文窗口,一共有4 599 546條測(cè)試輸入,記為test_multi。

      3) 使用最大熵工具進(jìn)行分類,對(duì)train_simple訓(xùn)練后得到模型文件train_simple.model,使用這個(gè)模型對(duì)test_multi進(jìn)行預(yù)測(cè),預(yù)測(cè)結(jié)果輸出為所有義原及其預(yù)測(cè)概率值,將該文件記為multi_rate。

      3.2 概率擬合

      對(duì)測(cè)試結(jié)果multi_rate進(jìn)行分析,該文件的每一行是某個(gè)多類詞的所有義原及其對(duì)應(yīng)的預(yù)測(cè)概率值,試驗(yàn)中抽取前十個(gè)預(yù)測(cè)概率最大的義原進(jìn)行分析,將其中的概率分布進(jìn)行統(tǒng)計(jì)得出如圖4的分布狀況。

      圖4中表示的是概率最大的前兩個(gè)義原的分布曲線。由圖4可知,在絕大多數(shù)結(jié)果中,第一概率與第二概率的間距比較大,可通過第三部分介紹的曲線擬合方法,將輸出的概率進(jìn)行擬合,選取合適數(shù)目的義原組合為一個(gè)概念作為對(duì)多類詞的初步預(yù)測(cè)結(jié)果。

      得到對(duì)多類詞的初步預(yù)測(cè)結(jié)果后,將預(yù)測(cè)的概念與多類詞在知網(wǎng)中的所有概念進(jìn)行相似度比較,選取相似度比最大的概念作為對(duì)多類詞的最終預(yù)測(cè)結(jié)果,并選取最終概念的詞性標(biāo)記作為多類詞的預(yù)測(cè)標(biāo)記。

      相似度[13]是被定義為一個(gè)0到1之間的實(shí)數(shù)。將預(yù)測(cè)的概念與該詞的所有概念進(jìn)行相似度值計(jì)算,得到一個(gè)在0到1的相似度數(shù)值,根據(jù)該數(shù)值選取相似度最大的概念作為最終概念。實(shí)驗(yàn)中使用的是知網(wǎng)中的語義相似度計(jì)算工具WordSimilarity來對(duì)數(shù)據(jù)進(jìn)行相似度計(jì)算。

      3.3 實(shí)驗(yàn)結(jié)果與分析

      根據(jù)詞類信息在語料標(biāo)注過程中對(duì)標(biāo)注結(jié)構(gòu)和標(biāo)注層次的影響程度,對(duì)經(jīng)過試驗(yàn)處理后的結(jié)果進(jìn)行分 析,試 驗(yàn) 中 抽 取 動(dòng) 詞v、系動(dòng)詞vM、助詞u、以及介詞p這四個(gè)對(duì)標(biāo)注工作影響因子較大的詞類來進(jìn)行評(píng)價(jià)。評(píng)價(jià)的標(biāo)準(zhǔn)采用的是實(shí)際正確率,實(shí)際正確率的概念定義如下。

      圖4 義原概率分布圖

      定義4 實(shí)際正確率 正確條目Rc與結(jié)果總數(shù)Rall的比值Rc/Rall,用來反映實(shí)驗(yàn)結(jié)果的準(zhǔn)確度表示為式(5)。

      (5)

      在標(biāo)注結(jié)果中,各類詞性所含的詞的規(guī)模如表4所示。

      表4 采用的數(shù)據(jù)

      經(jīng)過統(tǒng)計(jì),未加入置信度概念評(píng)定的標(biāo)注結(jié)果的實(shí)際正確率如圖5所示。

      由圖5可知,對(duì)于最大熵預(yù)測(cè)的概念,在經(jīng)過選取與知網(wǎng)中相似度最大的概念的步驟后,對(duì)多類詞的消歧效果平均值可達(dá)到77%。這樣的準(zhǔn)確度在語料建設(shè)中還是不夠的,需要采取一定的策略對(duì)消歧效果進(jìn)行提升。

      抽取部分實(shí)驗(yàn)結(jié)果數(shù)據(jù)進(jìn)行觀察,結(jié)果如表5所示。

      圖5 未加入置信度概念的實(shí)際正確率分布

      詞 類預(yù)測(cè)結(jié)果原標(biāo)記當(dāng)前詞助詞auJDE的duJDE的介詞vp對(duì)cp與助動(dòng)詞avM難dvM能動(dòng)詞av如uv禁止

      由表6可知,在助詞的預(yù)測(cè)標(biāo)記中,將屬于助詞uJDE的標(biāo)記預(yù)測(cè)為a或d,這是由于在選取的窗口中,存在相同或相似的上下文環(huán)境,而在該上下文中,有多種不同的標(biāo)記,造成預(yù)測(cè)標(biāo)記不準(zhǔn)確。在系動(dòng)詞的預(yù)測(cè)標(biāo)記中可以看出,將屬于系動(dòng)詞vM的詞標(biāo)記預(yù)測(cè)為v,出現(xiàn)這種狀況是由于系動(dòng)詞緊鄰動(dòng)詞做狀語,在類似的窗口下,預(yù)測(cè)為動(dòng)詞標(biāo)簽。動(dòng)詞的情況與助詞基本類似。而在介詞的預(yù)測(cè)結(jié)果中,“對(duì)”和“與”在語料中分別擁有動(dòng)詞v以及連詞c的屬性,導(dǎo)致分類結(jié)果不夠準(zhǔn)確。

      實(shí)驗(yàn)引入置信度的概念對(duì)結(jié)果進(jìn)行評(píng)定,先對(duì)置信度劃分為十個(gè)區(qū)間,然后統(tǒng)計(jì)每個(gè)區(qū)間的詞的數(shù)目。實(shí)驗(yàn)選取223 833條輸出結(jié)果并對(duì)其置信度值進(jìn)行統(tǒng)計(jì),結(jié)果如圖6所示。

      圖6 置信度值數(shù)據(jù)統(tǒng)計(jì)結(jié)果

      統(tǒng)計(jì)得出所有的詞的在置信度值均落在區(qū)間[0,0.1]和[0.3,0.4],對(duì)于落在區(qū)間[0.3,0.4]的標(biāo)記結(jié)果進(jìn)行觀測(cè),評(píng)判落在該區(qū)間的詞的詞性標(biāo)記的正確性,得出在該區(qū)間的標(biāo)記結(jié)果具有較好的正確性,而對(duì)于落在區(qū)間[0,0.1]的標(biāo)記結(jié)果進(jìn)行統(tǒng)計(jì)分析時(shí)發(fā)現(xiàn),當(dāng)采用原標(biāo)記時(shí),會(huì)得到較好的標(biāo)注結(jié)果。對(duì)經(jīng)過置信度評(píng)定后的結(jié)果進(jìn)行統(tǒng)計(jì),選取實(shí)驗(yàn)結(jié)果中的幾個(gè)詞類進(jìn)行正確性評(píng)測(cè),得出的實(shí)際正確率如圖7所示。

      從實(shí)驗(yàn)結(jié)果來看,經(jīng)過置信度評(píng)定后,選取的四個(gè)詞性類別的實(shí)際正確率均有提升,對(duì)初步的標(biāo)記結(jié)果進(jìn)行了錯(cuò)誤排查,降低了模型預(yù)測(cè)結(jié)果的錯(cuò)誤率,同時(shí)也說明了置信度評(píng)定設(shè)計(jì)的合理性。對(duì)加入置信度評(píng)定的實(shí)驗(yàn)結(jié)果數(shù)據(jù)結(jié)果抽樣,數(shù)據(jù)結(jié)果如表6所示。

      表6 加入置信度后的結(jié)果及其置信度DC值

      由表6可知,對(duì)預(yù)測(cè)的結(jié)果加入置信度值評(píng)定后,可以將那些置信度值比較低的預(yù)測(cè)結(jié)果進(jìn)行過濾,置信度低表明該預(yù)測(cè)標(biāo)記的正確性就略低,對(duì)過濾掉的預(yù)測(cè)條目選取原標(biāo)記作為其輸出結(jié)果。

      實(shí)驗(yàn)最后對(duì)所有的單類詞和多類詞的所有類別詞類的平均標(biāo)記正確率進(jìn)行統(tǒng)計(jì),得到如圖8的實(shí)驗(yàn)結(jié)果。

      圖8 單類詞與多類詞最終正確率的對(duì)比

      從結(jié)果可知,通過本實(shí)驗(yàn)的語料融合的方法,先對(duì)詞法分析階段的標(biāo)注進(jìn)行歸一化,并根據(jù)詞的概念及其在上下文中所體現(xiàn)的語義進(jìn)行來推測(cè)具有歧義性的詞語的標(biāo)記,可以獲得較好的實(shí)驗(yàn)結(jié)果,在一定程度上解決了語料庫(kù)標(biāo)注規(guī)范不統(tǒng)一的問題,擴(kuò)展了語料庫(kù)的規(guī)模,使得多領(lǐng)域的語料可以融合到一個(gè)標(biāo)準(zhǔn)下來使用。

      4 總結(jié)與展望

      語料庫(kù)資源的建設(shè)在自然語言處理領(lǐng)域是非常重要的,大規(guī)模、高質(zhì)量的語料庫(kù)資源的稀少,也使得語料融合的工作變得非常有意義。本文提出了一種異源語料庫(kù)的融合方法,初步解決了語料庫(kù)規(guī)范不同、標(biāo)注不同的問題。在一定程度上擴(kuò)充了語料庫(kù)的規(guī)模,為后期語料庫(kù)資源的建設(shè)做好準(zhǔn)備工作。最終實(shí)驗(yàn)結(jié)果表明,該方法在一定程度上解決了語料庫(kù)建設(shè)中標(biāo)注規(guī)范不同的問題,最終的標(biāo)注正確率可以達(dá)到87%以上,獲得了較好的效果。在本文研究的基礎(chǔ)上,可以借助知網(wǎng)對(duì)詞語語義的描述,對(duì)詞在句子中的語義進(jìn)行具體評(píng)判,提升初步標(biāo)注結(jié)果的實(shí)際準(zhǔn)確率,使得語料融合的方法變得更準(zhǔn)確、高效、通用,來更好地解決建設(shè)語料庫(kù)中遇到的問題,為以后基于語料庫(kù)的研究工作打好基礎(chǔ)。

      [1] 宗成慶. 統(tǒng)計(jì)自然語言處理[M]. 清華大學(xué)出版社, 2008.

      [2] 孟凡東, 徐金安, 姜文斌, 等. 異種語料融合方法: 基于統(tǒng)計(jì)的中文詞法分析應(yīng)用[J]. 中文信息學(xué)報(bào), 2012, 26(2): 3-7.

      [3] Jiang W, Huang L, Liu Q. Automatic adaptation of annotation standards: Chinese word segmentation and POS tagging: a case study[C]//Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP,2009: 522-530.

      [4] 劉群, 李素建. 基于《知網(wǎng)》 的詞匯語義相似度計(jì)算[C].第三屆漢語詞匯語義學(xué)研討會(huì), 2002.

      [5] 盧志茂, 劉挺, 李生. 統(tǒng)計(jì)詞義消歧的研究進(jìn)展[J]. 電子學(xué)報(bào), 2006, 34(2): 333-343.

      [6] 何徑舟, 王厚峰. 基于特征選擇和最大熵模型的漢語詞義消歧[J]. 軟件學(xué)報(bào), 2010, 21(6): 1287-1295.

      [7] 喬立山, 王玉蘭, 曾錦光. 實(shí)驗(yàn)數(shù)據(jù)處理中曲線擬合方法探討[J]. 成都理工大學(xué)學(xué)報(bào): 自然科學(xué)版, 2004, 31(1): 91-95.

      [8] 劉群. 漢語詞法分析和句法分析技術(shù)綜述[J]. 第一屆學(xué)生計(jì)算語言學(xué)研討會(huì) (SWCL2002) 專題講座, 2002.

      [9] 周強(qiáng). 漢語基本塊描述體系[J]. 中文信息學(xué)報(bào), 2007, 21(3): 21-27.

      [10] 周強(qiáng),漢語語篇標(biāo)注庫(kù)的初始語料準(zhǔn)備[R].清華大學(xué)信息技術(shù)研究院語音和語言技術(shù)中心,技術(shù)報(bào)告 TH-RIIT-CSLT-TR-20131205.

      [11] 馬金山. 基于統(tǒng)計(jì)方法的漢語依存句法分析研究[D]. 哈爾濱工業(yè)大學(xué)博士畢業(yè)論文, 2007.

      [12] 葛斌, 李芳芳, 郭絲路, 等. 基于知網(wǎng)的詞匯語義相似度計(jì)算方法研究[J]. 計(jì)算機(jī)應(yīng)用研究, 2010 (9): 3329-3333.

      [13] 李峰, 李芳. 中文詞語語義相似度計(jì)算——基于《知網(wǎng)》 2000[J]. 中文信息學(xué)報(bào), 2007, 21(3): 99-105.

      [14] 吳瑞紅, 呂學(xué)強(qiáng). 基于互聯(lián)網(wǎng)的術(shù)語定義辨析[J]. 北京大學(xué)學(xué)報(bào),自然科學(xué)版, 2014, 50(1): 33-40.

      [15] 錢揖麗, 鄭家恒. 漢語語料詞性標(biāo)注自動(dòng)校對(duì)方法的研究[J]. 中文信息學(xué)報(bào), 2004, 18(2): 30-35.

      A Research on the Fusion of Heterologous Corpus

      LV Xueqiang1,WU Yongxu1,2, ZHOU Qiang2,LIU Yin1,2

      (1. Beijing Key Laboratory of Internet Culture and Digital Dissemination Research, Beijing Information Science and Technology University, Beijing 100101, China; 2. Tsinghua National Laboratory for Information Science and Technology(TNList) Center for Speech and Language Technologies, Research Institute of Information Technology, Tsinghua University, Beijing 100084, China)

      Corpus resources are closely related to Natural Language Processing. However, different research institutions have different rules and tags when constructing the copus, which prevents a unified big corpus. This paper investigates the different annotation scheme and presents a method for heterogeneous corpus integration. The experiments on part-of -speech mapping and and disambiguation indicate anaccuracy of 87% after the integration, showing the validness of this method.

      corpus construction; data fusion; word mapping; POS disambiguation;

      呂學(xué)強(qiáng)(1970—),博士,教授,主要研究領(lǐng)域?yàn)橹形呐c多媒體信息處理。E?mail:lvxueqiang@aliyun.com仵永栩(1989—),碩士研究生,主要研究領(lǐng)域?yàn)樽匀徽Z言處理。E?mail:372281543@qq.com周強(qiáng)(1967—),博士,研究員,主要研究領(lǐng)域?yàn)樽匀徽Z言理解。E?mail:zq?lxd@mail.tsinghua.edu.cn

      1003-0077(2016)05-0160-09

      2015-10-08 定稿日期: 2016-05-25

      國(guó)家自然科學(xué)基金(61271304,61671070);北京成像技術(shù)高精尖創(chuàng)新中心項(xiàng)目(BAICIT-2016003);國(guó)家社會(huì)科學(xué)基金(14@ZH036)

      TP391

      A

      猜你喜歡
      置信度語料語料庫(kù)
      硼鋁復(fù)合材料硼含量置信度臨界安全分析研究
      《語料庫(kù)翻譯文體學(xué)》評(píng)介
      正負(fù)關(guān)聯(lián)規(guī)則兩級(jí)置信度閾值設(shè)置方法
      把課文的優(yōu)美表達(dá)存進(jìn)語料庫(kù)
      基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
      華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
      置信度條件下軸承壽命的可靠度分析
      軸承(2015年2期)2015-07-25 03:51:04
      基于JAVAEE的維吾爾中介語語料庫(kù)開發(fā)與實(shí)現(xiàn)
      語言與翻譯(2015年4期)2015-07-18 11:07:45
      《苗防備覽》中的湘西語料
      國(guó)內(nèi)外語用學(xué)實(shí)證研究比較:語料類型與收集方法
      淄博市| 岳普湖县| 海城市| 宣城市| 湖口县| 阿拉善右旗| 栾川县| 巴东县| 富顺县| 新野县| 连城县| 娱乐| 湘阴县| 梁山县| 曲沃县| 白玉县| 南丰县| 河西区| 措美县| 岱山县| 尉犁县| 荥阳市| 凤城市| 巴青县| 抚远县| 万源市| 玉树县| 汝州市| 望都县| 电白县| 延边| 苏尼特右旗| 皮山县| 秭归县| 扶绥县| 当雄县| 莎车县| 江川县| 三明市| 澄江县| 左云县|