• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      話題型微博中第三人稱代詞消解

      2014-06-08 07:17:10
      關(guān)鍵詞:第三人稱指代微博

      張 瑛

      (中國傳媒大學(xué)文學(xué)院,北京100024)

      引 言

      話題型微博是指“圍繞某一話題即標(biāo)簽(hashtag)闡發(fā)意見、進(jìn)行討論的微博形式”[1],見例1。標(biāo)簽的形式化特征為雙“#”號(hào),即例1中的“#笑傲江湖#”。話題型微博正文則是針對(duì)該標(biāo)簽發(fā)表的言論,即例1中“雖然令狐沖最后娶的是任盈盈,其實(shí)他心里真正愛的是東方不敗”。人稱代詞消解是指將文本中具有指代性質(zhì)的人稱代詞消解為其指代的對(duì)象,例如:將例1中“他”消解為“令狐沖”。

      例1:#笑傲江湖#雖然令狐沖最后娶的是任盈盈,其實(shí)他心里真正愛的是東方不敗。

      隨著大數(shù)據(jù)時(shí)代的來臨,話題型微博已經(jīng)成為重要的數(shù)據(jù)資源,而針對(duì)話題型微博的信息挖掘也備受人們關(guān)注。

      話題型微博的特點(diǎn)在于微博主就標(biāo)簽進(jìn)行集中討論,于是微博主常使用第三人稱代詞指稱與標(biāo)簽相關(guān)的信息。這雖然使得語言經(jīng)濟(jì)明了,但為話題型微博信息處理增加了難度。因此,對(duì)話題型微博中第三人稱代詞進(jìn)行消解成為話題型微博信息挖掘(例如:微博評(píng)價(jià)對(duì)象提取、微博熱點(diǎn)話題追蹤、微博情感語義分析等等)的一個(gè)基礎(chǔ)任務(wù)。

      一 相關(guān)文獻(xiàn)

      目前,已有較多學(xué)者對(duì)漢語第三人稱代詞消解進(jìn)行了研究,例如:王厚峰、梅錚提出基于魯棒性的人稱代詞消解方法,其第三人稱代詞(他/他們/她)消解的平均正確率達(dá)到了84%[2]。龐寧、蘇尚宏等采用了最大熵和決策樹兩種算法對(duì)中文人稱代詞進(jìn)行消解,第三人稱消解結(jié)果F-值分別達(dá)到70.1%和68.1%[3]。宋巍、秦兵等基于依存句法與語義相結(jié)合方法對(duì)中文代詞進(jìn)行了消解,整體正確率達(dá)到84.38%[4]。然而,這些消解算法主要針對(duì)常規(guī)書面語料,對(duì)語篇長度、文本語言的規(guī)范性都有較高要求。話題型微博屬于短文本,人稱代詞語篇信息少,并且文本口語化程度較高,其第三人稱代詞使用也與其他常規(guī)文本有所不同。因此,分析話題型微博人稱代詞使用特點(diǎn)之后,我們提出了基于多層面語言信息的消解算法。

      二 話題型微博第三人稱代詞使用特點(diǎn)

      在不同語域中,第三人稱代詞的使用也會(huì)有相應(yīng)變化。話題型微博雖然單獨(dú)成篇,但是其他圍繞同一話題的微博與之可形成一個(gè)話題型微博群。一個(gè)話題型微博群可視為眾多微博博主就一個(gè)主要話題(體現(xiàn)為微博中的標(biāo)簽)進(jìn)行的多人會(huì)話。這一特征導(dǎo)致單篇話題型微博中人稱代詞使用具有其自身特點(diǎn),我們分析了中國計(jì)算機(jī)學(xué)會(huì)(CCF)2013年第二屆中文微博情感分析評(píng)測(cè)語料,發(fā)現(xiàn)話題型微博中第三人稱代詞用法不合語法現(xiàn)象較多,常出現(xiàn)外指,還存在一定數(shù)量的非指稱性人稱代詞。

      (一)不合語法現(xiàn)象

      話題型微博其實(shí)是微博主在話題型微博群這一多人會(huì)話中的發(fā)言,是一種口語轉(zhuǎn)換文本。因此,話題型微博口語特征較強(qiáng),常出現(xiàn)大量不符合語法規(guī)范的語言現(xiàn)象,包括第三人稱的使用,見例2。

      例2:#新版笑傲江湖 #任盈盈回想起東方和令狐沖在一起的時(shí)候,他告訴他爹東方在靈柩寺。(“他”用于指代男性,而此處卻指代女性)

      在進(jìn)行第三人稱代詞消解時(shí),“性別一致”、“范疇一致”是機(jī)器篩選潛在指稱對(duì)象的一個(gè)重要判斷標(biāo)準(zhǔn)。例2中第三人稱的不規(guī)范使用雖然不會(huì)對(duì)人們理解微博語義造成干擾,但卻為機(jī)器進(jìn)行第三人稱自動(dòng)消解增添了難度。

      (二)外指較多

      在話題型微博中,第三人稱代詞經(jīng)常出現(xiàn)外指現(xiàn)象。這是由于微博主已經(jīng)就所討論話題形成了共識(shí),會(huì)直接在單篇話題型微博中使用第三人稱代詞指稱與話題型相關(guān)的信息,見例3。

      例3:#王語嫣#不知道這版的王語嫣還會(huì)是龍姑娘么,如果是她或者袁珊珊,那我就無力坑爹了(外指王語嫣扮演者張檬)。

      外指一直是指代消解中的難點(diǎn)。對(duì)其進(jìn)行消解往往需要更多語境信息和世界知識(shí)。因此,對(duì)話題型微博進(jìn)行第三人稱代詞消解時(shí),我們需要對(duì)文本進(jìn)行更深層次的預(yù)處理,以保障消解的正確率。

      (三)非指稱性第三人稱代詞

      話題型微博屬于特殊的多人會(huì)話,其文本口語特征較強(qiáng),會(huì)出現(xiàn)很多口語詞匯。其中,有些口語詞匯雖然具有第三人稱代詞的詞型,但卻不具備任何指稱功能,我們稱之為非指稱性第三人稱代詞,見例4。

      例4:#曼聯(lián)V.S.皇馬#他娘的,這場(chǎng)比賽全被那二貨裁判給毀了。

      如果系統(tǒng)無法識(shí)別這些非指稱性第三人稱代詞,將會(huì)得出錯(cuò)誤消解結(jié)果,降低消解系統(tǒng)的性能。值得慶幸的是,這類非指稱性人稱代詞用法相對(duì)固定,我們可建構(gòu)一個(gè)非指稱性第三人稱代詞詞表將其排除。

      三 消解策略

      話題型微博第三人稱代詞的消解要難于傳統(tǒng)的消解。難點(diǎn)首先體現(xiàn)在語料上,話題型微博文本口語化程度高,句子不規(guī)范,篇幅短。這說明話題型微博不但難以預(yù)處理,還缺乏一些第三人稱代詞消解中常用到的語言信息,例如:語篇信息、短語或依存句法結(jié)構(gòu)信息(口語語句不流暢所致)。難點(diǎn)其次體現(xiàn)在待消解項(xiàng)上,上文中指出話題型微博中第三人稱代詞語境依賴性強(qiáng),不符合語法現(xiàn)象較多。這意味著“性別一致”、“范疇一致”等語言原則在消解算法中的權(quán)重需要降低,而語用信息權(quán)重需要增加。鑒于已有的第三人稱代詞消解算法無法完全適用于話題型微博,我們提出基于多層面語言信息的消解策略。

      (一)句法層面語言信息

      話題型微博句子較短。侯敏等對(duì)20篇話題型微博進(jìn)行句長統(tǒng)計(jì),得出話題型微博的句長僅20個(gè)字[1]。同時(shí),話題型微博句子口語化程度較高。這就造成話題型微博句子自動(dòng)短語或依存句法分析的結(jié)果準(zhǔn)確率很低。因此,我們對(duì)文本僅進(jìn)行淺層的句法標(biāo)注,包括句首/句尾標(biāo)注,主語/賓語標(biāo)注。

      句首和句尾標(biāo)注是指為每一個(gè)句子的句首和句尾添加形式標(biāo)記。我們可以通過判斷第三人稱代詞是否位于句首或句尾進(jìn)行相應(yīng)的規(guī)則匹配。通常位于句首的第三人稱代詞其指稱對(duì)象首先排除句內(nèi)命名實(shí)體,采用跨句消解,而位于句尾的第三人稱代詞指稱則可通過逆向匹配尋找最近的潛在指稱對(duì)象。

      主語/賓語標(biāo)注是指以句中動(dòng)詞為錨點(diǎn),對(duì)句中的主語和賓語進(jìn)行區(qū)分并標(biāo)注?;贕rosz&Sidner的中心理論[5]以及趙鳴、劉濤對(duì)語言回指加工的ERP實(shí)驗(yàn)[6],我們認(rèn)為區(qū)分主語和賓語將提高消解規(guī)則的準(zhǔn)確性,例如,出于主語位置的名詞性短語優(yōu)先成為下一句中第三人稱代詞的回指對(duì)象;在相鄰的兩個(gè)句子中,與第三人稱處于同等句法位置的名詞性短語優(yōu)先成為回指對(duì)象。

      (二)語義層面語言信息

      鑒于話題型微博中第三人稱代詞常出現(xiàn)違背“性別一致”、“范疇一致”等語義原則現(xiàn)象,我們將減少這類語義約束在消解規(guī)則中的權(quán)重。同時(shí),我們?cè)黾恿恕坝猩?無生命”,“集體/個(gè)體”等語義范疇,以便于對(duì)潛在先行語進(jìn)行篩選。

      由于話題型微博較短,導(dǎo)致人稱代詞上下文信息較少。為提供篇章信息,我們?yōu)樵~語添加了“提示話題”、“話題轉(zhuǎn)折”、“對(duì)比”、“排除”等語義信息,這些語義信息能夠有效提示第三人稱的上下文結(jié)構(gòu)。

      (三)語用層面語言信息

      話題型微博群是微博主圍繞同一話題進(jìn)行討論而形成的多人會(huì)話。與話題相關(guān)的知識(shí)常常被微博主們視為共有的語境信息,許多單篇話題型微博中第三人稱代詞都需要依據(jù)這些語境信息才能得到消解,見例5。

      例5:#王語嫣#丑死了,老子最討厭她了,演個(gè)戲作的要死!

      #王語嫣#長得很一般,沒有特點(diǎn)……感覺她長得像個(gè)男人!

      #王語嫣#我更喜歡她的“海蘭珠”。

      在例5中,三條話題型微博都以“王語嫣”為話題進(jìn)行評(píng)論,單篇話題型微博中第三人稱均是外指,可依據(jù)話題的語境信息被消解為“張檬”(王語嫣的扮演者)。我們認(rèn)為一個(gè)話題型微博群中高頻名詞性詞匯體現(xiàn)了話題的相關(guān)熱點(diǎn),極有可能是第三人稱潛在的外指對(duì)象。因此,我們以話題型微博群中的高頻名詞性詞匯為內(nèi)容,構(gòu)建了話題熱點(diǎn)表單。當(dāng)判定話題型微博中第三人稱代詞為外指時(shí),匹配規(guī)則將調(diào)用話題熱點(diǎn)表單對(duì)其進(jìn)行消解。

      四 實(shí)驗(yàn)及結(jié)果分析

      (一)系統(tǒng)流程及實(shí)驗(yàn)語料

      基于上述策略,我們構(gòu)建了一個(gè)第三人稱代詞消解系統(tǒng)。系統(tǒng)包含三個(gè)部分:文本預(yù)處理;待消解項(xiàng)定位及類別判斷;待消解項(xiàng)消解。系統(tǒng)流程如圖。

      在輸入待消解微博之后,文本去噪模塊將針對(duì)話題型微博出現(xiàn)的網(wǎng)址、表情符號(hào)和圖片鏈接等信息噪音進(jìn)行清洗。經(jīng)過去噪處理的文本會(huì)依據(jù)分詞詞典及分詞規(guī)則庫進(jìn)行分詞;依據(jù)非指稱性第三人稱代詞底表剔除不具備指稱功能的第三人稱代詞;同時(shí),利用語義信息詞典以及語用信息統(tǒng)計(jì)結(jié)果進(jìn)行多層面語言信息標(biāo)注。隨后,系統(tǒng)將會(huì)自動(dòng)識(shí)別文本中第三人稱代詞,并列為待消解項(xiàng)。待消解項(xiàng)將依據(jù)規(guī)則判斷為外指或內(nèi)指。內(nèi)指第三人稱代詞將依據(jù)內(nèi)指消解規(guī)則進(jìn)行消解,而外指第三人稱代詞將會(huì)調(diào)用話題熱點(diǎn)表單,并基于外指消解規(guī)則進(jìn)行消解,最后輸出消解結(jié)果。

      本次實(shí)驗(yàn)語料選用了中國計(jì)算機(jī)學(xué)會(huì)(CCF)2013年第二屆中文微博情感分析評(píng)測(cè)語料,共10組話題型微博群,1000篇話題型微博,2135個(gè)句子。其中,第三人稱代詞共有223處。

      (二)評(píng)測(cè)標(biāo)準(zhǔn)及實(shí)驗(yàn)結(jié)果

      本文依據(jù)國際信息理解大會(huì)(MUC,Message Understanding Conference)對(duì)指代消解的評(píng)測(cè)標(biāo)準(zhǔn)來判斷系統(tǒng)性能,包括準(zhǔn)確率(precision)、召回率(recall)和F指數(shù)(F-measure),公式如下:

      我們使用消解系統(tǒng)對(duì)語料進(jìn)行第三人稱代詞消解,得出實(shí)驗(yàn)結(jié)果如下表:

      表3 :第三人稱代詞消解結(jié)果

      結(jié)果顯示,第三人稱代詞總體消解F指數(shù)為85.83%。其中,“他”消解結(jié)果F指數(shù)最高,達(dá)到了94.60;“他們”消解結(jié)果 F指數(shù)最低,僅41.67%;“她”、“它”、“其”的結(jié)果較為相近,分別是80.77%、76.92%和 76.19%。在話題型微博中,“他”的指代對(duì)象較為簡(jiǎn)單,多為篇章內(nèi)指或與話題相關(guān)外指,話題熱點(diǎn)表單較好地提高了“他”的消解正確率?!八麄儭钡闹复鷮?duì)象相對(duì)而言較為復(fù)雜,其指稱對(duì)象常常為多個(gè)命名實(shí)體。我們對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行了回查,發(fā)現(xiàn)錯(cuò)誤原因主要有以下幾點(diǎn):

      (1)文本預(yù)處理錯(cuò)誤,導(dǎo)致某些命名實(shí)體未能被正確識(shí)別,影響了進(jìn)一步消解。

      (2)第三人稱代詞類別判斷模塊將外指錯(cuò)判為內(nèi)指,錯(cuò)誤地匹配了內(nèi)指消解規(guī)則。

      (3)第三人稱代詞與其指稱對(duì)象距離較遠(yuǎn),通常跨2個(gè)以上的句子或多個(gè)命名實(shí)體,導(dǎo)致消解規(guī)則匹配錯(cuò)誤。

      (4)第三人稱復(fù)數(shù)“他們”指代對(duì)象為間隔分布的多個(gè)命名實(shí)體,匹配規(guī)則未能完整提取所有指稱對(duì)象。

      上述分析表明,提高文本預(yù)處理正確率將有助于第三人稱代詞消解規(guī)則匹配。同時(shí),對(duì)第三人稱代詞的指稱類別進(jìn)行區(qū)分也可提高消解系統(tǒng)性能。第三人稱復(fù)數(shù)“他們”的消解規(guī)則有待進(jìn)一步改進(jìn)。

      結(jié) 語

      針對(duì)話題型微博這一特殊語域,我們提出了基于多層面語言信息的第三人稱消解策略,實(shí)驗(yàn)結(jié)果F指數(shù)達(dá)到了85.83%。這說明這一策略在話題型微博語域是行之有效的。然而,策略中所提及的話題熱點(diǎn)表單具有一定局限性,需要隨著語料話題的更換而更新。如何將這一策略應(yīng)用于其他語域有待進(jìn)一步研究。

      [1]侯敏,滕永林,李雪燕等.話題型微博語言特點(diǎn)及其情感分析策略研究[J].語言文字應(yīng)用,2013(2).

      [2]王厚峰.魯棒性的漢語人稱代詞消解[J].軟件學(xué)報(bào),2005(5).

      [3]龐寧,蘇尚宏,賴振丹.中文人稱代詞消解研究[J].太原科技大學(xué)學(xué)報(bào),2008(3).

      [4]宋巍,秦兵,郎君等.句法與詞義相結(jié)合的中文代詞消解[J].中文信息學(xué)報(bào),2008(6).

      [5]S.Gupta,M.Purver and D.Jurafsky.Disambiguating Between Generic and Referential"you"in Dialogue[A].Proceedings of the 45th Annual Meeting of the Association for Computational Linguistics(ACL)[C].Madison:Omnipress,2007.

      [6]趙鳴,劉濤.語言回指加工的ERP研究述評(píng)[J].心理科學(xué)進(jìn)展,2011(3).

      猜你喜歡
      第三人稱指代微博
      青少年數(shù)字素養(yǎng)的社會(huì)與文化內(nèi)涵及其教育啟示
      Let’s Save Food To Fight Hunger
      奧卡姆和布列丹對(duì)指代劃分的比較
      談?wù)動(dòng)⒄Z教學(xué)中 第三人稱單數(shù)及其后面動(dòng)詞的用法
      用第三人稱和自己說話能減壓
      It’s Your Turn, Roger! (I)
      事實(shí)與流言的博弈
      人間(2016年26期)2016-11-03 18:19:04
      “不一而足”話討論
      自然語言中的指代技術(shù)的研究
      河南科技(2014年10期)2014-02-27 14:09:37
      神回復(fù)
      意林(2013年15期)2013-05-14 16:49:23
      新丰县| 喀喇沁旗| 姜堰市| 乐昌市| 东丽区| 繁峙县| 肇庆市| 南投市| 邵阳市| 巴里| 仙桃市| 清水河县| 彰化县| 蛟河市| 三原县| 铜川市| 蒙阴县| 双鸭山市| 上蔡县| 威宁| 汉川市| 岳阳县| 盐山县| 通河县| 湖州市| 龙泉市| 肇州县| 嵊泗县| 赣州市| 上杭县| 平原县| 绍兴县| 弋阳县| 通辽市| 吉木乃县| 平顺县| 渭源县| 乐至县| 扶余县| 台湾省| 惠东县|