• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      中文模糊限制信息范圍語料庫的研究與構(gòu)建

      2017-07-18 10:53:42周惠巍徐俊利亢世勇
      中文信息學(xué)報(bào) 2017年3期
      關(guān)鍵詞:語料語料庫短語

      周惠巍,楊 歡,徐俊利,張 靜,亢世勇

      (1. 大連理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,遼寧 大連 116024;2. 魯東大學(xué) 文學(xué)院,山東 煙臺 264025)

      中文模糊限制信息范圍語料庫的研究與構(gòu)建

      周惠巍1,楊 歡1,徐俊利1,張 靜2,亢世勇2

      (1. 大連理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,遼寧 大連 116024;2. 魯東大學(xué) 文學(xué)院,山東 煙臺 264025)

      模糊限制語用于表示不確定性的觀點(diǎn)。由模糊限制語所引導(dǎo)的信息為模糊限制信息,開展中文模糊限制信息檢測研究,對事實(shí)信息抽取意義重大。模糊限制信息檢測包含模糊限制性句子識別和模糊限制信息范圍檢測兩個(gè)子任務(wù)。中文模糊限制信息范圍語料庫的缺乏,影響了中文模糊限制信息檢測的研究。該文研究制定了基于短語結(jié)構(gòu)的中文模糊限制信息范圍標(biāo)注規(guī)則,構(gòu)建了中文模糊限制信息范圍語料庫。最后對標(biāo)注的語料庫進(jìn)行了統(tǒng)計(jì)和分析。該文語料庫的構(gòu)建為中文模糊限制信息檢測研究提供了資源支持。

      中文模糊限制信息范圍;標(biāo)注規(guī)則;語料庫

      1 引言

      模糊性是人類語言的一種屬性,由于各種局限性,在語言交流和寫作中,常常借助模糊限制語(hedges)表達(dá)不確定性的含義[1]。由模糊限制語所引導(dǎo)的信息為模糊限制信息(hedge information)。開展模糊限制信息檢測研究,對事實(shí)信息抽取具有重要意義。英文模糊限制語研究開始較早,Prince等[2]從語用功能上將模糊限制語分為變動(dòng)型和緩和型。近年來,模糊限制信息檢測研究引起了國內(nèi)外研究人員的廣泛關(guān)注。2010年計(jì)算自然語言學(xué)會(huì)議(Conference on Natural Language Learning, CoNLL)提出了模糊限制語識別及其范圍(scope)檢測共享任務(wù)(share task)[3]。其中模糊限制語識別包含生物醫(yī)學(xué)和維基百科兩個(gè)領(lǐng)域。生物醫(yī)學(xué)領(lǐng)域語料源自BioScope語料庫[4],維基百科語料源自WikiWeasel語料庫[3],各兩萬句。模糊限制信息范圍檢測只采用了生物醫(yī)學(xué)領(lǐng)域的BioScope語料庫[4]。該語料庫按模糊限制語的詞性制定了范圍標(biāo)注規(guī)則。公開發(fā)表的英文模糊限制信息語料庫還有新聞?lì)I(lǐng)域的FactBank語料庫[5]。模糊限制信息語料庫的構(gòu)建促進(jìn)了英文模糊限制信息檢測的研究[6]。

      近年來,模糊限制信息檢測研究引起了國內(nèi)研究人員的廣泛關(guān)注[7-8]。鄒博偉等[7]詳細(xì)闡述了CoNLL-2010共享任務(wù)及不確定信息研究現(xiàn)狀,并指出語料庫的構(gòu)建是中文模糊限制信息研究的重要基礎(chǔ)。周惠巍等[8]基于句法結(jié)構(gòu)約束檢測模糊限制信息范圍,在CoNLL-2010共享任務(wù)數(shù)據(jù)集上取得了較好的檢測性能。

      中文模糊限制語也廣泛地用于生物醫(yī)學(xué)等各個(gè)領(lǐng)域[9-10]。如例(1)源自生物醫(yī)學(xué)領(lǐng)域文獻(xiàn),作者使用模糊限制語“可能”,表明命題“這是由于增加了AKT,ERK磷酸化而引起的”的不確定性。而例(1)前半部分“在C6細(xì)胞中,血清的存在正調(diào)控內(nèi)源受體的激活,使細(xì)胞凋亡率降低”為事實(shí)信息。因此在檢測模糊限制信息中,模糊限制語識別及其范圍檢測同樣重要。

      例1在C6細(xì)胞中,血清的存在正調(diào)控內(nèi)源受體的激活,使細(xì)胞凋亡率降低,(這可能是由于增加了AKT,ERK磷酸化而引起的)scope。

      與英文相比,中文模糊限制信息檢測研究開始較晚。何自然[9]在Prince等人[2]的研究基礎(chǔ)上,將變動(dòng)型模糊限制語分為程度變動(dòng)型和范圍變動(dòng)型,將緩和型模糊限制語分為直接緩和型和間接緩和型,但是沒有研究語料庫的構(gòu)建。Chen等人[11]構(gòu)建了一個(gè)中文模糊限制語及其范圍語料庫,包含《計(jì)算機(jī)學(xué)報(bào)》論文4 842句,然而文中僅指出了副詞和動(dòng)詞性模糊限制語的限制范圍標(biāo)注規(guī)則。曹媛等[12]在ACE2005中文事件抽取語料庫上,根據(jù)事件選擇謂詞的語義,標(biāo)注了事件的事實(shí)性程度,包括“確定”、“可能”和“不確定”三種取值。該語料可以用于事件的事實(shí)性研究。計(jì)峰等人[13]在新聞?lì)I(lǐng)域標(biāo)注了一萬句語料,進(jìn)行中文不確定句子識別研究,該語料僅標(biāo)注了模糊限制語,沒有標(biāo)注其限制范圍。Zou等人[14]在科技文獻(xiàn)、股市和產(chǎn)品評論三個(gè)領(lǐng)域,構(gòu)建了16 841句模糊限制語及其范圍語料,根據(jù)上下文語義,標(biāo)注模糊限制語,基于完整性和連續(xù)性原則標(biāo)注模糊限制信息范圍,沒有闡述具體的標(biāo)注規(guī)則。

      中文醫(yī)學(xué)文獻(xiàn)包含大量模糊限制語[15]。除醫(yī)學(xué)文獻(xiàn)外,維基百科作為一個(gè)用戶協(xié)作編輯的知識系統(tǒng),其中蘊(yùn)涵了豐富的信息,成為信息抽取的重要語料資源。但是當(dāng)撰寫者不能提供完全準(zhǔn)確的信息時(shí),往往使用模糊限制語,使自己的陳述更客觀。本文在生物醫(yī)學(xué)和維基百科兩個(gè)領(lǐng)域,根據(jù)模糊限制語的類型、詞性及句子的短語結(jié)構(gòu),制定了詳細(xì)的中文模糊限制信息范圍標(biāo)注規(guī)則,并構(gòu)建了模糊限制信息范圍語料庫。

      本文組織結(jié)構(gòu)如下: 第二節(jié)闡述了中文模糊限制語的分類和及其范圍標(biāo)注規(guī)則,并描述了標(biāo)注的過程;第三節(jié)對標(biāo)注完成的語料進(jìn)行了統(tǒng)計(jì)和分析;第四節(jié)是結(jié)論與展望。

      2 中文模糊限制信息范圍語料庫的設(shè)計(jì)與構(gòu)建

      2.1 中文模糊限制語分類

      根據(jù)Prince等人[2]和何自然[9]的分類方法,模糊限制語可分為變動(dòng)型和緩和型兩類。在此基礎(chǔ)上,本文根據(jù)模糊限制語的語義和語用功能,對這兩大類模糊限制語進(jìn)行了更細(xì)致的劃分。

      (1) 變動(dòng)型模糊限制語。

      變動(dòng)型模糊限制語是對話題本身進(jìn)行某種程度的限制,它能修改話題原來的真值。根據(jù)話題變動(dòng)的類型,此類模糊限制語可細(xì)分為數(shù)量變動(dòng)、程度變動(dòng)、范圍變動(dòng)和頻率變動(dòng)四個(gè)類型。

      ? 數(shù)量變動(dòng)型: 當(dāng)說話人不能明確地說出具體的數(shù)字,但是能估計(jì)出一個(gè)大概的數(shù)量時(shí),使用到數(shù)量變動(dòng)模糊限制語。如: “少數(shù)”、“大部分”等。

      ? 程度變動(dòng)型: 將一些接近正確但不敢肯定完全正確的話題,表述得與實(shí)際情況更接近,避免過于武斷,表明話題與真實(shí)情況的接近程度。如: “有點(diǎn)”、“稍微”等。

      ? 范圍變動(dòng)型: 可以在一定的范圍內(nèi)理解話題的意義,而不必考慮具體情況與所說的話題的接近程度。如: “大約”、“在一定范圍內(nèi)”“將近”等。

      ? 頻率變動(dòng)型: 用于反映一個(gè)事件發(fā)生的頻率。如: “常?!?、“偶爾”等。

      (2) 緩和型模糊限制語。

      當(dāng)說話人提出某一個(gè)論斷時(shí),緩和型模糊限制語可以緩和說話人的語氣,減輕說話人為此論斷所負(fù)的責(zé)任,這類模糊限制語不改變話題的真值。根據(jù)緩和型模糊限制語的語用功能將其細(xì)分為主觀見解型、客觀依據(jù)型、探知結(jié)論型和條件假設(shè)型四類。

      ? 主觀見解型: 用來表示說話人闡述的話題只是個(gè)人的主觀見解。使用這類模糊限制語可以在一定程度上削弱說話人對話題所承擔(dān)的責(zé)任。如: “我認(rèn)為”、“就我所知”等。

      ? 客觀依據(jù)型: 借助第三方或大家普遍認(rèn)同的觀點(diǎn),表達(dá)說話人對某事所持有的態(tài)度。說話人在一定程度上同意第三方的觀點(diǎn),只是他對此觀點(diǎn)究竟有多大程度的贊同,在話語中看不出來,只能另作推斷。例如,“據(jù)說”、“有人說”等。

      ? 探知結(jié)論型: 用來表示對某個(gè)結(jié)論的推測,根據(jù)存在的現(xiàn)象推知未來可能會(huì)發(fā)生的事情或有待證明的結(jié)論。如: “表明”、“可能”和“仍不清楚”等。

      ? 條件假設(shè)型: 通過給出假定的前提條件表明說話人的意愿,但現(xiàn)在事實(shí)是怎樣的并不知曉。如: “如果”、“假定”等。

      2.2 標(biāo)注過程

      為了保證標(biāo)注的準(zhǔn)確性,首先由規(guī)則制定者給兩名獨(dú)立標(biāo)注人員講解標(biāo)注規(guī)則,并共同討論、修正規(guī)則。然后由兩名獨(dú)立標(biāo)注人員根據(jù)規(guī)則,分別標(biāo)注模糊限制語及其范圍。最后規(guī)則制定者統(tǒng)一兩份標(biāo)注語料中不一致的標(biāo)注,形成最終的中文模糊限制信息范圍語料庫。具體的標(biāo)注過程如圖1所示。

      2.3 基本標(biāo)注規(guī)則

      模糊限制語的標(biāo)注遵循“最小原則”: 標(biāo)注能表明模糊限制性的最小單元為模糊限制語,多個(gè)模糊限制語組合起來表示模糊限制性時(shí),分別標(biāo)注每個(gè)模糊限制語。中文模糊限制范圍標(biāo)注遵循以下基本原則:

      (1) 連續(xù)性和完整性原則。

      中文模糊限制信息范圍標(biāo)注遵循“連續(xù)原則”,即模糊限制語的作用范圍為包含該模糊限制語的一段連續(xù)字符串。同時(shí)保持“完整性”,即為包含該模糊限制語的具有完整語義的最大句法單元。模糊限制信息雖具有不確定性,但也是有價(jià)值的信息,可用于知識發(fā)現(xiàn)等[16]。所以應(yīng)該盡量完整地標(biāo)記出來。這與英文BioScope語料庫[4]的標(biāo)注原則不同,BioScope標(biāo)注了每個(gè)模糊限制語的語法修飾范圍。

      (2) 當(dāng)模糊限制語為動(dòng)詞的被動(dòng)語態(tài)時(shí),模糊限制信息范圍應(yīng)該包含主語。

      例句(2)中的模糊限制語“被認(rèn)為”是動(dòng)詞的被動(dòng)語態(tài),如果其模糊限制信息范圍僅為其修飾的“被認(rèn)為能透露出受測者是否說謊”,不包含動(dòng)詞的主語“說謊而引起此類生理反應(yīng)的變化”,則無法表示完整語義。所以應(yīng)該包含動(dòng)詞的主語,這也符合“完整性”。

      例2由于此類生理反應(yīng)是不由自主地產(chǎn)生的,說謊而引起此類生理反應(yīng)的變化能透露出受測者是否說謊。

      我們還規(guī)定,如果模糊限制信息范圍結(jié)束于句尾,則不包含句尾的標(biāo)點(diǎn)符號。如果一個(gè)句子中有多個(gè)模糊限制語,各個(gè)模糊限制信息范圍可以并列,也可以嵌套,但不能存在交叉。

      2.4 具體標(biāo)注規(guī)則

      不論是中文還是英文,模糊限制信息范圍的界定都具有依賴于句法結(jié)構(gòu)的特點(diǎn)[17-18]。根據(jù)模糊限制語的類型、詞性及句子短語結(jié)構(gòu),制定模糊限制信息范圍標(biāo)注規(guī)則。模糊限制語可以分為變動(dòng)型和緩和型兩大類。緩和型模糊限制語中,探知結(jié)論型與客觀依據(jù)型居多,并且,探知結(jié)論型模糊限制語大多是動(dòng)詞和副詞。變動(dòng)型的模糊限制語大多是形容詞及副詞。下面介紹這些常見類型的模糊限制語的范圍標(biāo)注規(guī)則,并采用斯坦福句法解析器(Stanford parser)*http://nlp.stanford.edu/software/lex-parser.shtml,獲得例句的短語結(jié)構(gòu)樹,輔助對規(guī)則的理解。

      (1) 緩和型模糊限制語的限制范圍標(biāo)注規(guī)則。

      ? 動(dòng)詞性探知結(jié)論型模糊限制語: 其范圍為距離模糊限制語最近的祖先動(dòng)詞短語(verb phrase, VP)。

      例3蘇聯(lián)的科學(xué)家Bukasov(1935)和Vavilov(1935)歐洲的馬鈴薯的起源就是智利的馬鈴薯。

      例3中使用動(dòng)詞性探知結(jié)論型模糊限制語“推斷”,說明命題“歐洲的馬鈴薯的起源就是智利的馬鈴薯”是一個(gè)不確定的、待證明的命題,而前面的“蘇聯(lián)的科學(xué)家Bukasov(1935)和Vavilov(1935)”是一個(gè)確定的信息。并且不加入這一確定的信息,“推斷”所引導(dǎo)的動(dòng)詞短語“推斷歐洲的馬鈴薯的起源就是智利的馬鈴薯”即可表示完整的語義。這與例2的被動(dòng)語態(tài)不同。

      例3的短語結(jié)構(gòu)樹如圖2所示。VP1是距離模糊限制語“推斷”最近的祖先VP類型節(jié)點(diǎn)。模糊限制信息范圍為該VP1結(jié)構(gòu),即VP1的第一個(gè)詞“推斷”為范圍左邊界,VP1的最后一個(gè)詞“馬鈴薯”為范圍右邊界。

      圖2 例3的短語結(jié)構(gòu)樹

      ? 副詞性探知結(jié)論型模糊限制語: 其范圍包括距離模糊限制語最近的祖先VP,以及與該VP類型節(jié)點(diǎn)同層次的左邊相鄰的名詞短語(noun phrase, NP)。

      例4結(jié)論: TLR通過抑制p38MAPK-FN通路對糖尿病腎病大鼠的腎臟產(chǎn)生保護(hù)作用。

      例4中,使用“可能”,使得命題“TLR通過抑制p38MAPK-FN通路對糖尿病腎病大鼠的腎臟產(chǎn)生保護(hù)作用”具有不確定性。因?yàn)椤癟LR”是“可能”的主語,為標(biāo)注完整的語義信息,“TLR”應(yīng)該包含在模糊限制信息范圍內(nèi)。

      例4的短語結(jié)構(gòu)樹如圖3所示。VP1是距離“可能”最近的祖先VP類型節(jié)點(diǎn),NP1是與VP1同層次的左邊相鄰的NP結(jié)構(gòu)。所以NP1的第一個(gè)詞“TRL”為范圍左邊界,VP1的最后一個(gè)詞“作用”為范圍右邊界。

      圖3 例4的短語結(jié)構(gòu)樹

      ? 客觀依據(jù)型模糊限制語: 其范圍包含離模糊限制語最接近的祖先介詞短語(preposition phrase, PP),以及與該P(yáng)P類型節(jié)點(diǎn)同層次的右側(cè)最接近的VP結(jié)構(gòu)。

      例5胎兒源性成人疾病學(xué)說,IUGR會(huì)明顯增加成人后患心血管疾病的概率。

      例5中,作者使用“根據(jù)”,減輕對命題“IUGR會(huì)明顯增加成人后患心血管疾病的概率”真假性所負(fù)的責(zé)任。所以該命題應(yīng)該包含在模糊限制信息范圍內(nèi)?;凇斑B續(xù)性原則”、“根據(jù)”和命題之間的“胎兒源性成人疾病學(xué)說”也應(yīng)該包含在模糊限制信息范圍內(nèi)。

      (2) 變動(dòng)型模糊限制語的限制范圍標(biāo)注規(guī)則。

      ? 形容詞性變動(dòng)型模糊限制語: 當(dāng)模糊限制語為形容詞時(shí),它通常在一個(gè)NP結(jié)構(gòu)中。如果距離模糊限制語最近的祖先NP類型節(jié)點(diǎn)的父親節(jié)點(diǎn)是VP類型,則模糊限制信息范圍為包含模糊限制語的連續(xù)最上層祖先VP結(jié)構(gòu),以及與該VP類型節(jié)點(diǎn)同層次的左邊相鄰的NP結(jié)構(gòu),如例6。如果距離模糊限制語最近的祖先NP類型節(jié)點(diǎn)的父親節(jié)點(diǎn)不是VP類型,則模糊限制信息范圍包含該NP結(jié)構(gòu),以及與該NP類型節(jié)點(diǎn)同層次的右側(cè)最接近的VP結(jié)構(gòu),如例7。這與英文BioScope語料庫[4]的標(biāo)注原則不同,BioScope認(rèn)為形容詞性模糊限制語的范圍為其所修飾的名詞短語。本文強(qiáng)調(diào)具有模糊性的完整命題。

      例6總之,Toll信號通路對中樞神經(jīng)系統(tǒng)疾病有調(diào)控作用。

      例6的短語結(jié)構(gòu)樹如圖4所示。其中,NP2是距離“一定的”最近的祖先NP類型節(jié)點(diǎn),VP1是“一定的”連續(xù)的最上層祖先VP類型節(jié)點(diǎn)。連續(xù)的最上層祖先VP類型節(jié)點(diǎn)是指: 如果離模糊限制語最近的祖先VP類型節(jié)點(diǎn)的父親節(jié)點(diǎn)屬性也是VP,則繼續(xù)沿著祖先節(jié)點(diǎn)路徑向上尋找,直到找到父親節(jié)點(diǎn)不是VP類型的最上層VP類型節(jié)點(diǎn)。此句中,距離模糊限制語“一定的”最近的祖先VP類型節(jié)點(diǎn)是VP2,沿著虛線向上尋找,找到VP1,沿著虛線繼續(xù)向上尋找,發(fā)現(xiàn)VP1的父親節(jié)點(diǎn)類型為IP,返回到VP1。NP1是與VP1同層次的左側(cè)相鄰的NP結(jié)構(gòu)。所以NP1的第一個(gè)詞“Toll”為范圍左邊界,VP1的最后一個(gè)詞“作用”為右邊界。

      圖4 例6的短語結(jié)構(gòu)樹

      例7修憲后國大的職責(zé)已經(jīng)轉(zhuǎn)交立法院,其中也包括了彈劾總統(tǒng)的權(quán)力。

      例7的短語結(jié)構(gòu)樹如圖5所示。其中,NP1是距離“大部分”最近的祖先NP類型節(jié)點(diǎn),而NP1的父親節(jié)點(diǎn)IP不是VP類型節(jié)點(diǎn)。所以模糊限制信息范圍包含NP1結(jié)構(gòu),以及與該NP1類型節(jié)點(diǎn)同層次的右邊最接近的VP1結(jié)構(gòu)。

      ? 副詞性變動(dòng)型模糊限制語: 模糊限制信息范圍為包含模糊限制語的連續(xù)的最上層祖先VP結(jié)構(gòu),以及與該VP類型節(jié)點(diǎn)同層次的左邊相鄰的NP結(jié)構(gòu)。

      圖5 例7的短語結(jié)構(gòu)樹

      例81919年1月5日,紅軍進(jìn)入明斯克, 沒有遭遇抵抗,短命的白俄羅斯人民共和國垮臺。

      例8中,“幾乎”使得“沒有遭遇抵抗”的程度不確定,所以“沒有遭遇抵抗”要包含在范圍內(nèi),而“沒有遭遇抵抗”的主語是“紅軍進(jìn)入明斯克”這一動(dòng)作,如果缺少該主語則命題不完整,所以“紅軍進(jìn)入明斯克”也要包含在范圍內(nèi)。

      中文使用千變?nèi)f化,不是所有的句子都能基于規(guī)則進(jìn)行標(biāo)注。在實(shí)際標(biāo)注過程中,需要根據(jù)模糊限制語的上下文和句子的語義標(biāo)注模糊限制信息范圍。另外,斯坦福句法解析錯(cuò)誤較多,需要人工修正錯(cuò)誤的句法解析結(jié)果。

      3 數(shù)據(jù)統(tǒng)計(jì)及一致性分析

      3.1 語料庫的統(tǒng)計(jì)數(shù)據(jù)

      在生物醫(yī)學(xué)和維基百科兩個(gè)領(lǐng)域共標(biāo)注語料24 000余句。中文模糊限制語的統(tǒng)計(jì)信息如表1所示。生物醫(yī)學(xué)文獻(xiàn)中,33.30%的句子包含模糊限制信息。其中,48.03%的模糊限制語為變動(dòng)型,51.97%為緩和型。維基百科中,33.10%的句子包含模糊限制信息。其中,71.99%的模糊限制語為變動(dòng)型,28.01%為緩和型。可見兩種類型的模糊限制語廣泛地用于中文文獻(xiàn)。而英文生物醫(yī)學(xué)領(lǐng)域的BioScope語料庫[4]僅標(biāo)注了緩和型模糊限制語,WikiWeasel語料庫[3]僅標(biāo)注了變動(dòng)型模糊限制語。

      表1 中文模糊限制語的統(tǒng)計(jì)信息

      中文模糊限制信息范圍標(biāo)注的統(tǒng)計(jì)信息如表2所示。從表2可以看出,模糊限制信息范圍“不開始于模糊限制語”的數(shù)量多于“開始于模糊限制語”的數(shù)量。這主要是因?yàn)榛谕暾?,常常將主語也包含在范圍內(nèi)?!安唤Y(jié)束于句尾”的數(shù)量多于“結(jié)束于句尾”的數(shù)量。然而,“開始于模糊限制語”和“結(jié)束于句尾”還是占有較大比例。

      3.2 一致性分析

      對每個(gè)模糊限制語都標(biāo)記了唯一的范圍開始和結(jié)束標(biāo)記,所以召回率為百分之百。采用準(zhǔn)確率作為一致率,分析標(biāo)注一致性。中文模糊限制信息范圍語料庫的一致率如表3所示。Left-Scope為左邊界匹配的一致率,Right-Scope為右邊界匹配的一致率,F(xiàn)ull-Scope為左、右邊界同時(shí)匹配的一致率。各單元格中的第一項(xiàng)表示兩份獨(dú)立標(biāo)注的語料間的一致率,第二項(xiàng)和第三項(xiàng)分別表示兩份獨(dú)立標(biāo)注語料與最終語料間的一致率。

      表2 中文模糊限制信息范圍的統(tǒng)計(jì)信息

      表3 中文模糊限制信息范圍語料標(biāo)注的一致率

      由表3可見,各單元格中的第一項(xiàng)均低于第二項(xiàng)和第三項(xiàng),這是因?yàn)樽罱K語料是規(guī)則的制定者對兩份獨(dú)立標(biāo)注語料的不同之處進(jìn)行統(tǒng)一后獲得的,所以有可能和二者之一相同。Right-Scope和Left-Scope的一致率十分接近,且Right-Scope的一致率略高于Left-Scope,說明在標(biāo)注過程中,界定中文模糊限制信息范圍的左邊界略難于中文模糊限制信息范圍的右邊界。Full-Scope的一致率明顯低于Left-Scope和Right-Scope的一致率。

      表4是兩份獨(dú)立標(biāo)注語料的Full-Scope一致率。本文對客觀依據(jù)型和探知結(jié)論型模糊限制語制定了清楚的標(biāo)注規(guī)則,從表4可以看出,每份語料中這兩個(gè)類型的一致率都較高??梢娭贫?zhǔn)確的規(guī)則有助于中文模糊限制信息范圍的標(biāo)注?!皩?shí)驗(yàn)結(jié)果”語料中的主觀見解型模糊限制語的一致率為0,這是因?yàn)樵撜Z料中只有兩個(gè)主觀見解型模糊限制語,而兩名獨(dú)立標(biāo)注人員對這兩個(gè)模糊限制語的范圍標(biāo)注都不一致。

      表4 兩份獨(dú)立標(biāo)注語料的Full-Scope一致率

      雖然制定了清晰的標(biāo)注規(guī)則,但仍存在標(biāo)注分歧,說明標(biāo)注存在一定的主觀性,且中文語言豐富多彩,規(guī)則不能涵蓋所有的情況。部分分歧如下:

      (1) 連接詞是否要包含在模糊限制信息范圍內(nèi)。

      標(biāo)注(1): 陸地邊界現(xiàn)在已清楚劃定,并依據(jù)地理特征來界定,例如: 玻璃市河(PerlisRiver)、哥樂河(GolokRiver)與PagalayanCanal。

      標(biāo)注(2): 陸地邊界現(xiàn)在已清楚劃定,并依據(jù)地理特征來界定,例如,玻璃市河(PerlisRiver)、哥樂河(GolokRiver)與PagalayanCanal。

      最終,我們按標(biāo)注(1)進(jìn)行統(tǒng)一,認(rèn)為“并”和前面的句子有關(guān)系,對后面的句子沒有影響,所以不將它包含在模糊限制信息范圍內(nèi)。

      (2) 當(dāng)一個(gè)句子中出現(xiàn)多個(gè)模糊限制語時(shí),易出現(xiàn)標(biāo)注分歧。

      標(biāo)注(1): 不會(huì)疼痛且沒有感染的臉部腫脹也算是一種類型的腮腺炎,有可能急性慢性的。

      標(biāo)注(2): 不會(huì)疼痛且沒有感染的臉部腫脹也算是一種類型的腮腺炎,有可能是急性慢性的。

      這個(gè)例句中有兩個(gè)模糊限制語,第二個(gè)模糊限制語“或”的限制信息范圍標(biāo)注出現(xiàn)了不一致。這種情況下,為使兩個(gè)模糊限制語的范圍不重復(fù),將標(biāo)注(1)作為正確的標(biāo)注。

      3.3 與相關(guān)研究的比較

      何自然[9]研究了模糊限制語的定義和分類,但沒有進(jìn)行語料庫的構(gòu)建研究。Chen等人[11]構(gòu)建了一個(gè)中文模糊限制語及其范圍語料庫,然而僅包含科學(xué)文獻(xiàn)一個(gè)領(lǐng)域;指出了副詞和動(dòng)詞的模糊限制范圍應(yīng)該擴(kuò)展到從句或整個(gè)句子,但是沒有闡明其他詞性模糊限制語的范圍標(biāo)注規(guī)則。曹媛等人[12]在已有的中文事件抽取語料庫上,根據(jù)謂詞的語義,將事件劃分為“確定”、“可能”和“不確定”三種。該語料可以用于事實(shí)性事件的抽取研究。計(jì)峰等人[13]為進(jìn)行中文不確定句子識別研究,對1萬句新聞?lì)I(lǐng)域語料進(jìn)行了確定性和非確定性標(biāo)注,但是沒有標(biāo)注模糊限制信息范圍。Zou等人[14]在科技文獻(xiàn)、金融報(bào)道和產(chǎn)品評論三個(gè)領(lǐng)域,構(gòu)建了模糊限制語及其范圍語料;指出了模糊限制語及其范圍標(biāo)注的總原則,即根據(jù)上下文語義標(biāo)注模糊限制語;基于完整性和連續(xù)性原則標(biāo)注模糊限制信息范圍。

      本文根據(jù)模糊限制語的語義和語用功能,對模糊限制語進(jìn)行了更細(xì)致的劃分,使得模糊限制語的概念更加明確。且針對不同類型、不同詞性的模糊限制語,詳細(xì)闡述了其范圍標(biāo)注規(guī)則。詳盡的標(biāo)注規(guī)則,不但保證了標(biāo)注語料的質(zhì)量,對模糊限制信息范圍檢測研究,也具有指導(dǎo)意義。此外,本文在生物醫(yī)學(xué)和維基百科兩個(gè)領(lǐng)域,構(gòu)建了模糊限制語及其范圍語料,為模糊限制信息檢測提供了充足的資源。

      4 總結(jié)與展望

      本文研究構(gòu)建了生物醫(yī)學(xué)和維基百科兩個(gè)領(lǐng)域的中文模糊限制信息范圍語料庫。根據(jù)中文模糊限制語的類型、詞性及句子的短語結(jié)構(gòu),制定了中文模糊限制信息范圍標(biāo)注規(guī)則。實(shí)驗(yàn)從語料的領(lǐng)域和模糊限制語的類別兩個(gè)方面,統(tǒng)計(jì)了范圍標(biāo)注的一致性?;谠敱M的標(biāo)注規(guī)則和嚴(yán)格的標(biāo)注過程,語料標(biāo)注取得了較高的一致率。標(biāo)注完成的語料庫包含 10 534個(gè)模糊限制語及其作用范圍。語料規(guī)模足以用于中文模糊限制信息檢測的研究。下一步我們將推出一個(gè)語料庫的在線版本,為中文模糊限制語的研究提供共享資源。并根據(jù)使用者的反饋意見,繼續(xù)完善標(biāo)注規(guī)范,改進(jìn)標(biāo)注質(zhì)量,擴(kuò)大語料規(guī)模。

      [1] Lakoff G. Hedges: a study in meaning criteria and the logic of fuzzy concepts [J]. Journal of Philosophical Logic, 1973, 2(4): 458-508.

      [2] Prince E F,Frader J, Bosk C. On hedging in physician-physician discourse [J]. Linguistics and the Professions, 1982: 83-97.

      [3] Farkas R, Vincze V, Móra G, et al. The CoNLL 2010 Shared Task: Learning to detect hedges and their scope in natural language text [C]//Proceedings of the CoNLL, Uppsala, Sweden, 2010: 1-12.

      [4] Vincze V, Szarvas G, Farkas R, et al. The BioScope corpus: biomedical texts annotated for uncertainty, negation and their scopes [J]. BMC Bioinformatics, 2008, 9(11): S9.

      [5] Saurí R and Pustejovsky J. FactBank: A corpus annotated with event factuality [J]. Language Resources and Evaluation, 2009, 43(3): 227-268.

      [6] Tang B Z, Wang X L, Wang X, et al. A cascade method for detecting hedges and their scope in natural language text [C]//Proceedings of the CoNLL, Uppsala, Sweden, 2010: 25-29.

      [7] 鄒博偉, 周國棟, 朱巧明. 否定與不確定信息抽取研究綜述[J]. 中文信息學(xué)報(bào),2015, 29(4): 16-24.

      [8] 周惠巍, 楊歡, 黃德根, 等. 基于句法結(jié)構(gòu)約束的模糊限制信息范圍檢測[J]. 中文信息學(xué)報(bào),2013, 27(5): 137-143.

      [9] 何自然. 模糊限制語與言語交際[J]. 外國語(上海外國語學(xué)院學(xué)報(bào)), 1985, (5): 27-31.

      [10] 賈曉凡, 蔣躍. 基于小型語料庫的模糊限制語分類方法的對比研究[J]. 外語藝術(shù)教育研究, 2011, (3): 10-14.

      [11] Chen Z C, Zou B W, Zhu Q M, et al. The scientific literature corpus for chinese negation and uncertainty identification[M]. Chinese Lexical Semantics. Springer Berlin Heidelberg, 2013: 657-667.

      [12] 曹媛,朱巧明,李培峰. 中文事件事實(shí)性信息語料庫的構(gòu)建方法[J]. 中文信息學(xué)報(bào),2013, 27(6): 38-44.

      [13] 計(jì)峰, 邱錫鵬, 黃萱菁. 中文不確定性句子的識別研究[C]. 全國信息檢索學(xué)術(shù)會(huì)議,2010: 594-601.

      [14] Zou B W, Zhu Q M, Zhou G D. Negation and Speculation Identification in Chinese Language [C]//Proceedings of the ACL-2015, Beijing, 2015: 656-665.

      [15] 陳萍, 蔣躍. 中英醫(yī)學(xué)論文摘要中模糊限制語的對比研究[J]. 外語藝術(shù)教育研究, 2009, 3(1): 15-20.

      [16] Velldal E, Ovrelid L, Read J, et al. Speculation and negation: rules, rankers, and the role of syntax[J]. Association for Computational Linguistics, 2012, 38(2): 369-410.

      [17] Cheng L X, Lin H F, Zhou F, et al. Enhancing the accuracy of knowledge discovery: a supervised learning method [J]. BMC Bioinformatics, 2014, 15(Suppl 12): S9.

      [18] Moncecchi G, Minel J, Wonsever D. The Influence of Syntactic Information on Hedge Scope Detection[C]//Proceedings of the 14th Ibero-American Conference on AI.Berlin: Springer, 2014:83-94.

      ConstructionofChineseHedgeScopeCorpus

      ZHOU Huiwei1,YANG Huan1,XU Junli1, ZHANG Jing2,KANG Shiyong2

      (1. School of Computer Science and Technology, Dalian University of Technology, Dalian, Liaoning 116024,China;2. School of Liberal Arts, Ludong University, Yantai, Shandong 264025,China)

      Hedge is usually used to express uncertainty. Hedge information indicates that authors do not backup their statements with facts. Chinese hedge information detection is of great significance for Chinese factual information extraction. Hedge information detection contains two subtasks: identifying hedges and detecting the in-sentence scopes of hedge cues. The lack of Chinese hedge scope corpus has limited the research of Chinese hedge scope information detection. This paper first manually crafted the syntactic rules for Chinese hedge scope annotation, and then constructs a Chinese hedge scope corpus. Finally, we statistically analyzed the corpus. The construction of the corpus provides a great support for Chinese uncertainty detection.

      Chinese hedge scope; annotation rules; corpus

      周惠巍(1969—),博士,副教授,主要研究領(lǐng)域?yàn)樯镝t(yī)學(xué)信息挖掘、機(jī)器學(xué)習(xí)和自然語言處理。

      楊歡(1988—),碩士研究生,主要研究領(lǐng)域?yàn)樯镝t(yī)學(xué)信息挖掘、機(jī)器學(xué)習(xí)和自然語言處理。

      徐俊利(1990—),碩士研究生,主要研究領(lǐng)域?yàn)樯镝t(yī)學(xué)信息挖掘、機(jī)器學(xué)習(xí)和自然語言處理。

      1003-0077(2017)03-0077-09

      2015-09-28定稿日期: 2016-02-03

      國家自然科學(xué)基金(61272375)

      TP391

      :A

      猜你喜歡
      語料語料庫短語
      《語料庫翻譯文體學(xué)》評介
      把課文的優(yōu)美表達(dá)存進(jìn)語料庫
      基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
      華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
      基于JAVAEE的維吾爾中介語語料庫開發(fā)與實(shí)現(xiàn)
      語言與翻譯(2015年4期)2015-07-18 11:07:45
      《苗防備覽》中的湘西語料
      國內(nèi)外語用學(xué)實(shí)證研究比較:語料類型與收集方法
      語料庫語言學(xué)未來發(fā)展趨勢
      双峰县| 巴彦县| 金沙县| 镇宁| 两当县| 潞城市| 教育| 互助| 南雄市| 兴宁市| 安岳县| 安西县| 汉阴县| 延安市| 北宁市| 南安市| 西华县| 鄢陵县| 万州区| 武宁县| 鄂伦春自治旗| 五常市| 榕江县| 娄底市| 南投市| 黑龙江省| 铜山县| 西藏| 隆回县| 双鸭山市| 藁城市| 绥德县| 永春县| 获嘉县| 涿鹿县| 治县。| 磴口县| 昭平县| 平泉县| 株洲市| 甘泉县|