• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      觀點(diǎn)句中評(píng)價(jià)對(duì)象/屬性的缺省項(xiàng)識(shí)別方法研究

      2014-02-28 00:45:07劉慧慧王素格趙策力
      中文信息學(xué)報(bào) 2014年6期
      關(guān)鍵詞:缺省指代句法

      劉慧慧,王素格,2,趙策力

      (1. 山西大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,山西 太原 030006;2. 山西大學(xué) 計(jì)算智能與中文信息處理教育部重點(diǎn)實(shí)驗(yàn)室,山西 太原 030006;3. 山西大學(xué) 數(shù)學(xué)科學(xué)學(xué)院,山西 太原 030006)

      1 引言

      微博以其短小精悍的語言特點(diǎn)從眾多社交平臺(tái)中脫穎而出,歸因于它不僅是一個(gè)信息傳播平臺(tái),而且是一個(gè)內(nèi)容自創(chuàng)的平臺(tái),讓人人都成為內(nèi)容的制造者、見證者、傳播者以及評(píng)論者。用戶不僅可以發(fā)表文字內(nèi)容,而且可以通過超鏈接、圖片和視頻分享資源,使得微博具有豐富的延伸性,給予用戶簡便的閱讀體驗(yàn)和自由度,它要求用戶發(fā)表的文字內(nèi)容僅限在140個(gè)字?jǐn)?shù)之內(nèi),因此,人們通常會(huì)使用言簡意賅的語言表述對(duì)某一事物或者某一產(chǎn)品的看法和觀點(diǎn),但這導(dǎo)致了不規(guī)范的、口語化的文本數(shù)據(jù)日益劇增,如何從這類文本數(shù)據(jù)中挖掘所蘊(yùn)含的有價(jià)值的觀點(diǎn),已經(jīng)成為自然語言處理領(lǐng)域的一個(gè)熱點(diǎn)研究課題[1]。

      在語言表達(dá)中,人們通常省略某些語言成分,即句子存在缺省項(xiàng),在相關(guān)文獻(xiàn)中也稱它為零指代[2]。它是句子中的一個(gè)缺口,指代前文中出現(xiàn)一個(gè)語言單位。相比于其他語言而言,漢語表達(dá)更加靈活,缺省使用也較頻繁。據(jù)Kim[3]進(jìn)行調(diào)查,發(fā)現(xiàn)在英文文本中顯式主語的使用率高達(dá)96%,而在中文文本中顯式主語的使用率只有64%,這就意味著在中文文本中零指代的現(xiàn)象較為普遍。在情感觀點(diǎn)句中,人們?cè)诓挥绊懕磉_(dá)的前提下,往往使用指示性代詞代替前文中所出現(xiàn)的某個(gè)評(píng)價(jià)對(duì)象和評(píng)價(jià)屬性,或者直接將評(píng)價(jià)對(duì)象和評(píng)價(jià)屬性省略。我們稱前者為評(píng)價(jià)要素指代,后者為評(píng)價(jià)要素缺省。在觀點(diǎn)要素抽取時(shí),如果不能正確地處理評(píng)價(jià)對(duì)象與評(píng)價(jià)屬性的對(duì)應(yīng)關(guān)系,將導(dǎo)致評(píng)價(jià)對(duì)象與評(píng)價(jià)屬性之間張冠李戴。例如,“蘋果過于封閉,更新速度相對(duì)較慢且價(jià)格昂貴,而三星等品牌系統(tǒng)開放,硬件技術(shù)日益完善,手機(jī)更新速度快,受眾群涵蓋上、中、下三層?!痹摼渲性u(píng)價(jià)屬性“價(jià)格”、“硬件技術(shù)”對(duì)應(yīng)的評(píng)價(jià)對(duì)象分別為“蘋果”、“三星等品牌”。

      對(duì)于評(píng)價(jià)要素指代,可以借鑒文獻(xiàn)[4-6]中的指代消解技術(shù)。而對(duì)于評(píng)價(jià)要素缺省識(shí)別,評(píng)價(jià)對(duì)象和評(píng)價(jià)屬性的缺省問題還鮮有研究。為了尋找評(píng)價(jià)對(duì)象與評(píng)價(jià)屬性的關(guān)聯(lián)對(duì),需要準(zhǔn)確識(shí)別觀點(diǎn)句中評(píng)價(jià)對(duì)象和評(píng)價(jià)屬性的對(duì)應(yīng)關(guān)系,而確定缺省項(xiàng)的位置是其至關(guān)重要的環(huán)節(jié)。本文首先分析了觀點(diǎn)句中評(píng)價(jià)對(duì)象和評(píng)價(jià)屬性缺省項(xiàng)句法特點(diǎn),構(gòu)造候選缺省項(xiàng)識(shí)別規(guī)則集,在此基礎(chǔ)上,利用句子的詞性序列和候選缺省項(xiàng)識(shí)別規(guī)則集,獲取觀點(diǎn)句中待識(shí)別的缺省項(xiàng)侯選集。為了準(zhǔn)確判定缺省項(xiàng)在句子中的位置,將其看作一個(gè)二分類問題。利用缺省項(xiàng)的上下文詞性信息和依存句法信息構(gòu)建分類特征集。在訓(xùn)練集上使用決策樹C4.5算法,訓(xùn)練分類模型,對(duì)測(cè)試集進(jìn)行缺省項(xiàng)識(shí)別,最終獲得情感觀點(diǎn)句中評(píng)價(jià)對(duì)象或評(píng)價(jià)屬性缺省項(xiàng)所在的位置,為實(shí)現(xiàn)評(píng)價(jià)對(duì)象或評(píng)價(jià)屬性缺省項(xiàng)的恢復(fù)奠定了基礎(chǔ)。

      2 相關(guān)工作

      目前,零指代識(shí)別與消解的相關(guān)研究在國內(nèi)外得到了廣泛的關(guān)注[2],主要表現(xiàn)在以下兩個(gè)方面。

      基于規(guī)則方面,Kong等[7]提出了一種基于規(guī)則探測(cè)零指代詞的方法,該方法通過對(duì)一個(gè)句子進(jìn)行完全句法分析,獲取覆蓋當(dāng)前預(yù)測(cè)節(jié)點(diǎn)的最小子樹。在此基礎(chǔ)上,構(gòu)造規(guī)則,用于確定該句子是否含有零指代詞。實(shí)驗(yàn)結(jié)果表明,在正確的句法分析樹上,F(xiàn)值可達(dá)82.45%,但在自動(dòng)句法分析樹上,F(xiàn)值下降了近20%。Yeh和Chen[8]提出了一種基于詞性標(biāo)注的零指代消解方法,利用一個(gè)分割程序?qū)⒕渥觿澐譃閹г~性標(biāo)注的序列,在此基礎(chǔ)上,使用短語級(jí)解析樹將其分割為更小的成分,例如名詞短語和動(dòng)詞短語。每一個(gè)短語作為詞序列,被轉(zhuǎn)化為一個(gè)完整的三元組T=[S,P,O]。利用零指代三元組,挖掘零指代候選集,通過約束規(guī)則最終確定零指代詞。實(shí)驗(yàn)結(jié)果表明,僅使用三元組識(shí)別零指代的精確率達(dá)到65.2%,加上約束規(guī)則后,精確率可達(dá)到80.5%。

      基于機(jī)器學(xué)習(xí)方面,大都沿用了Soon等[9]提出的框架,其基本思想是將零指代消解看成二元分類問題。Ng等[1]將零指代消解劃分為零指代識(shí)別和零指代消解兩個(gè)階段,分別使用零指代詞識(shí)別特征集和零指代詞先行語確定特征集。在候選詞選取時(shí),他們采用了簡單的啟發(fā)式規(guī)則,獲得大部分的零指代詞,但同時(shí)也引入了太多噪音,導(dǎo)致前照應(yīng)零指代詞識(shí)別的精確率較低。Xue等[10]給出了一種基于機(jī)器學(xué)習(xí)的空語類識(shí)別方法。該方法在完全正確的句法樹上,獲得了很好的結(jié)果,但在自動(dòng)標(biāo)注的句法樹上,性能有所下降,說明句法信息對(duì)空語類識(shí)別有一定的作用。Kong和Zhou[11]提出了一種基于樹核方法的統(tǒng)一框架,用于解決零指代消解問題。在零指代識(shí)別階段,他們使用有效的句法樹片段代替以往的平面特征,雖然保留了必要的上下文信息,在一定程度上提高了識(shí)別的性能,但是若句子越長,解析樹越可能出現(xiàn)錯(cuò)誤,并且時(shí)間復(fù)雜度也將隨之增高。

      對(duì)于評(píng)價(jià)對(duì)象和評(píng)價(jià)屬性識(shí)別,Santosh[12]等人針對(duì)屬性詞抽取提出了一種無監(jiān)督和領(lǐng)域無關(guān)的方法,整個(gè)實(shí)驗(yàn)過程分為三個(gè)步驟,第一步從輸入的文本中識(shí)別出相關(guān)的名詞短語;第二步將描述同一個(gè)屬性的名詞短語聚成一類;第三步定義了屬性得分函數(shù),得分最高的侯選集即為屬性詞。通過在不同規(guī)模的數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),證明了他們的算法具有較好的魯棒性。Katharina[13]等人利用半監(jiān)督學(xué)習(xí)技術(shù)抽取屬性值-評(píng)價(jià)詞關(guān)系對(duì),首先自動(dòng)地從未標(biāo)注的數(shù)據(jù)中抽取一個(gè)初始化種子列表,將其作為半監(jiān)督分類算法的訓(xùn)練集,最后使用依存信息和co-location得分建立了屬性詞和評(píng)價(jià)詞之間的關(guān)系。

      本文的研究目標(biāo)是對(duì)情感觀點(diǎn)句中缺省的評(píng)價(jià)對(duì)象和屬性進(jìn)行識(shí)別,通過挖掘缺省項(xiàng)識(shí)別規(guī)則集,選取缺省項(xiàng)侯選集,最后通過機(jī)器學(xué)習(xí)方法對(duì)缺省項(xiàng)進(jìn)行識(shí)別。

      3 缺省項(xiàng)類型

      根據(jù)文獻(xiàn)[14],一個(gè)中文句子一般包括一個(gè)或者幾個(gè)分句。依據(jù)中心理論,一個(gè)句子中,主語最可能被指代,其次是賓語,最后是其它名詞。在以往的零指代研究中,側(cè)重于處理前照應(yīng)零指代,即零指代詞出現(xiàn)在先行語之后,并且零指代詞在句子中作主要的句法成分。與零指代識(shí)別研究不同,在多對(duì)象評(píng)論文本中,一個(gè)觀點(diǎn)句可能涉及多個(gè)對(duì)象/方面。如圖1所示。

      圖1 觀點(diǎn)句—評(píng)價(jià)對(duì)象—評(píng)價(jià)屬性關(guān)系對(duì)應(yīng)圖

      圖1中,觀點(diǎn)句i可能涉及n個(gè)評(píng)價(jià)對(duì)象,每個(gè)評(píng)價(jià)對(duì)象可能涉及m個(gè)屬性。

      通過對(duì)大量情感觀點(diǎn)句考察,將評(píng)價(jià)要素缺省項(xiàng)分為以下兩種情況。

      (1) 缺省項(xiàng)作為句子的主要成分

      例1三星太她媽難用了,還是iphone好,任何手機(jī)都比不上。

      在例1中,第3個(gè)子句缺省了評(píng)價(jià)對(duì)象“iphone”,它作為句子的賓語。

      例2三星手機(jī)質(zhì)量太差,一進(jìn)水就不好用,而且不禁摔。懷念諾基亞。

      在例2中,第2和第3個(gè)子句中缺省了評(píng)價(jià)對(duì)象“三星手機(jī)”,它作為句子的主語。

      (2) 缺省項(xiàng)不作為句子的主要成分

      例3新機(jī)nexus 4入手,外觀比我想像中還要大氣。手機(jī)的速度不是我吹水,真的比三星的9300快多了。

      在例3中,第2個(gè)子句缺省了評(píng)價(jià)屬性“外觀”的評(píng)價(jià)對(duì)象“新機(jī)nexus 4”。在第4個(gè)子句中缺省了評(píng)價(jià)對(duì)象“三星的9300”的評(píng)價(jià)屬性“手機(jī)的速度”。

      4 缺省項(xiàng)識(shí)別框架

      根據(jù)第3節(jié)介紹的缺省項(xiàng)類型,本文提出一種缺省項(xiàng)識(shí)別方法,框架如圖2所示。

      根據(jù)圖2,首先,初始文本經(jīng)過分詞和詞性標(biāo)注預(yù)處理,利用情感詞典識(shí)別情感觀點(diǎn)句。在此基礎(chǔ)上,構(gòu)造缺省項(xiàng)識(shí)別規(guī)則集獲取待識(shí)別的缺省項(xiàng)侯選集。在訓(xùn)練階段和測(cè)試階段分別提取特征,使用決策樹C4.5算法訓(xùn)練分類器模型,將其用于測(cè)試集,最后得到觀點(diǎn)句的缺省項(xiàng)識(shí)別結(jié)果。

      圖2 缺省項(xiàng)識(shí)別框架

      5 缺省項(xiàng)識(shí)別規(guī)則挖掘算法

      為了獲取缺省項(xiàng)候選集,人們通常依據(jù)語言現(xiàn)象總結(jié)啟發(fā)式規(guī)則,但在開放的網(wǎng)絡(luò)平臺(tái)和文本大數(shù)據(jù)中,僅僅依靠人工無法將所有的情況包括其中。為了減少人為因素,我們使用缺省規(guī)則挖掘算法以期獲取一個(gè)全面、科學(xué)的規(guī)則集。

      定義1: 根據(jù)文獻(xiàn)[14],設(shè)A是一個(gè)由規(guī)則構(gòu)成的集合,則稱A為項(xiàng)集。若A中包含k個(gè)規(guī)則,則稱其為k項(xiàng)集。

      定義2: 設(shè)S={s1,s2,…,st}為所有句子的集合,項(xiàng)集A在句子集S中出現(xiàn)的次數(shù)占S中總句子數(shù)的百分比稱為項(xiàng)集A的支持度(support)。

      定義3: 如果項(xiàng)集的支持度超過用戶給定的最小支持度閾值(Min-support),則稱該項(xiàng)集為頻繁項(xiàng)集(或大項(xiàng)集)。

      形如規(guī)則X→Y,X是規(guī)則的前件,Y是結(jié)果。只有當(dāng)X→Y的支持度和置信度分別大于最小支持度和最小置信度時(shí),X與Y之間存在關(guān)聯(lián)關(guān)系。X→Y支持度和置信度計(jì)算公式如式(1)~(2)所示:

      為了獲得選取缺省項(xiàng)侯選集的規(guī)則集,本文利用缺省項(xiàng)識(shí)別規(guī)則挖掘算法獲取規(guī)則集,算法流程圖如圖3所示。

      圖3 缺省項(xiàng)識(shí)別規(guī)則挖掘算法流程圖

      根據(jù)圖3的算法流程圖,缺省項(xiàng)識(shí)別規(guī)則挖掘算法描述如下:

      算法說明:Li、Ci分別為頻繁i項(xiàng)集和i項(xiàng)集侯選集(i=1,2,…,m);DR為啟發(fā)式缺省項(xiàng)識(shí)別規(guī)則集,它是通過對(duì)觀點(diǎn)句缺省位置的考察,利用該位置的上下文信息,總結(jié)得到的規(guī)則集;DF為DR中規(guī)則的頻度集;DAR、UDAR分別為確定性關(guān)聯(lián)規(guī)則集和非確定性關(guān)聯(lián)規(guī)則集。frequence(x)為x出現(xiàn)的次數(shù),本文最小置信度Min-confidence設(shè)置為0.6-1.0,窗口大小Window_size=i+1,i=1,2,3。

      輸入: 序列化之后的句子集S={s1,s2,…,st},DR,Min-confidence,DAR=?,UDAR=?,C1=?,C2=?,L1=?,L2=?。

      輸出: 缺省項(xiàng)識(shí)別規(guī)則集UDR。

      Step1: 設(shè)置最小支持度Min-support

      設(shè)DR={r1k}(k=1,2,3,…,n),DF={f(r1k)},Min-support=min{x∈DF}。

      Step2: 獲取規(guī)則集R

      從句子si中截取Window_size長度的規(guī)則集,記為Ri+1(i=1,2,3)。

      Step3: 選取候選規(guī)則集C1

      Step4: 產(chǎn)生頻繁1項(xiàng)集L1//頻度大于最小支持度閾值的規(guī)則組成的集合。

      Step5: 連接,即L1與自身連接

      將L1的非空真子集與自身連接,產(chǎn)生候選2項(xiàng)集的集合,記為C2。

      Step6: 產(chǎn)生頻繁2項(xiàng)集L2

      Step7: 由頻繁項(xiàng)集產(chǎn)生關(guān)聯(lián)規(guī)則

      對(duì)于L2中每個(gè)非空真子集a,如果frequence(L2)/frequence(a)≥Min-confidence,則a→(L2-a)是一個(gè)關(guān)聯(lián)規(guī)則,UDAR=UDAR∪{a→(L2-a)}。

      Step8:DAR生成

      遍歷DR和L1,取DR中的元素dri,L1中的元素l1j,構(gòu)造dri→{l1j},i=1,2,…,|DR|;j=1,2,…,|L1|的關(guān)聯(lián)規(guī)則。如果frequence(dri∧{l1j})/frequence(dri)≥Min-confidence,則DAR=DAR∪{dri→{l1j}}。

      Step9: 剪枝,將UDAR中無關(guān)的規(guī)則剔除。

      遍歷UDAR中每個(gè)元素x,如果x前件不包含在DAR中元素的后件組成的集合中,則將其從UDAR中剔除。

      Step10: 生成缺省規(guī)則集UDR

      UDAR中元素的前件和后件逐一加入U(xiǎn)DR中。

      Step11: 算法結(jié)束。

      6 特征選擇與分類器構(gòu)造

      6.1 特征選擇

      本文將缺省項(xiàng)識(shí)別的過程看作一個(gè)二元分類問題,通過引入詞法特征和依存句法特征,建立一個(gè)缺省項(xiàng)識(shí)別分類器。

      (1) 詞法特征

      缺省項(xiàng)位置上前后詞語的詞性決定了它在句子中的句法成分,而一個(gè)句子的句法成分是否完整,對(duì)缺省項(xiàng)識(shí)別非常關(guān)鍵,因此本文使用缺省項(xiàng)φ位置上前后詞語的詞性用于刻畫缺省項(xiàng)的特征。

      例4φ 真心/d 是/v 我/r 買/v 過/u 最/d 好/a 的/u 手機(jī)/n 。/w

      從例4中可以看出,φ之后是副詞,之前沒有任

      何詞,那么這個(gè)位置存在缺省。由此可見,詞法特征可以確定缺省項(xiàng)的位置。

      根據(jù)語料中的語言現(xiàn)象,詞法特征描述見表1所示。

      表1 詞法特征集的描述

      利用表1的描述,例4的詞性特征即為After_adv,其值為Y。

      (2) 依存句法特征

      雖然詞法特征在一定程度上反應(yīng)了缺省項(xiàng)的特點(diǎn),但是這種平面特征只考慮了缺省項(xiàng)前后詞的詞性,往往忽略了缺省項(xiàng)與上下文之間的關(guān)系。為了彌補(bǔ)這種缺陷,我們利用依存句法分析樹建立句子中詞語與詞語之間的聯(lián)系,以其刻畫詞語之間的關(guān)系。

      本文直接利用哈工大的依存句法樹自動(dòng)獲取依存信息,例4的依存句法分析結(jié)果,如圖4所示。

      圖4 依存句法分析結(jié)果圖

      從圖4中可以看出,缺省項(xiàng)φ與“是”之間形成了主謂關(guān)系(SBV),而且只作為從屬詞(箭尾),不做支配詞(箭頭)。

      根據(jù)缺省項(xiàng)的上下文依存句法信息,本文構(gòu)造了5個(gè)依存句法特征,特征集描述見表2所示。

      依據(jù)表2的描述,例4的依存句法特征即為SBV。

      6.2 決策樹分類器

      決策樹學(xué)習(xí)是一種臨近離散值目標(biāo)函數(shù)的方法,它對(duì)錯(cuò)誤有很好的健壯性,而且適用于屬性值較

      表2 依存句法特征集的描述

      少的情況。本文采用決策樹C4.5作為分類器。在訓(xùn)練階段,將缺省項(xiàng)侯選集的每個(gè)實(shí)例通過上述表1和表2的特征集表示,對(duì)每個(gè)實(shí)例打上類標(biāo)簽,使用weka中的決策樹J48訓(xùn)練分類器模型。在測(cè)試階段,同樣地,向量化每個(gè)實(shí)例,然后使用訓(xùn)練好的分類模型預(yù)測(cè)每個(gè)實(shí)例所屬類別。

      7 實(shí)驗(yàn)結(jié)果與分析

      7.1 實(shí)驗(yàn)語料

      本文選自2014年中文文本傾向性分析評(píng)測(cè)(COAE 2014)中手機(jī)領(lǐng)域的292篇微博作為實(shí)驗(yàn)數(shù)據(jù),使用山西大學(xué)情感詞典(共計(jì)17 445個(gè)情感詞)識(shí)別觀點(diǎn)句,將包含情感詞的句子當(dāng)作情感觀點(diǎn)句,并在情感觀點(diǎn)句(共計(jì)1 077個(gè)子句)上標(biāo)注了缺省項(xiàng)的位置以及類型,如表3所示。該語料中共包含848個(gè)缺省項(xiàng),其中,零指代缺省(φZ)占45.7%,非零指代缺省(φN)占24.3%,其他類型占30%。

      為了進(jìn)一步說明僅使用情感詞典判斷情感句對(duì)最終實(shí)驗(yàn)帶來的影響,本文在所有的句子(共計(jì)1 337個(gè)子句)上標(biāo)注缺省項(xiàng),實(shí)驗(yàn)結(jié)果見表3。

      表3 缺省項(xiàng)類型統(tǒng)計(jì)結(jié)果

      由表3可知,僅使用情感詞典判斷情感句,必然會(huì)造成部分φZ和φN缺失,但相比所有句子的φZ和φN,它們?cè)谇楦芯渲械谋壤愿?,而第三種類型的缺省卻有所上升。本文只針對(duì)前兩種缺省進(jìn)行處理,而使用情感詞典判斷情感句可以有效地減少噪音(第三種類型缺省)數(shù)據(jù)的引入。

      7.2 語料校對(duì)

      在手機(jī)領(lǐng)域中,新功能、新型號(hào)以及新別稱層出不窮,由于分詞軟件詞庫未能將全部的新詞收錄,從而造成錯(cuò)分、錯(cuò)標(biāo)等問題。為了減少預(yù)處理階段對(duì)本文方法產(chǎn)生不良影響,我們對(duì)自動(dòng)分詞與詞性標(biāo)注后的評(píng)價(jià)對(duì)象和評(píng)價(jià)屬性進(jìn)行了校對(duì)。

      (1) 分詞錯(cuò)誤

      例5三星/nz 這/r 款/q 手機(jī)/n 之所以/c 讓/v 我/r 滿意/v ,/w 是因?yàn)?c 自/a 拍/j 是/a 200萬/m 像/d 素/a 的/b 。/w

      例5中的“自/a 拍/j”、“像/d 素/a”是手機(jī)的屬性,應(yīng)進(jìn)行合并,并標(biāo)注詞性為“n”。

      (2) 詞性標(biāo)注錯(cuò)誤

      例6“9300/m 好/a 了/y ,/w 原來/d 是/v 頹廢/a 的/u 包/n 的/u 問題/n ”

      這里“9300/m”是三星手機(jī)的一個(gè)型號(hào),經(jīng)過校對(duì)標(biāo)注為“nz”。

      7.3 實(shí)驗(yàn)結(jié)果與分析

      根據(jù)第4節(jié)缺省項(xiàng)識(shí)別框架和第7.2小節(jié)語料校對(duì),設(shè)計(jì)如下實(shí)驗(yàn)。

      (1) 語料校對(duì)對(duì)缺省項(xiàng)侯選集選取的影響

      為了說明語料校對(duì)前后對(duì)實(shí)驗(yàn)結(jié)果的影響,我們針對(duì)缺省項(xiàng)侯選集DR方法設(shè)置了對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果見表4。

      表4 語料校對(duì)前后對(duì)缺省項(xiàng)侯選集選取的影響

      由表4可知: 使用相同的規(guī)則集DR,在語料校對(duì)前后得到的缺省項(xiàng)的個(gè)數(shù)幾乎沒有發(fā)生變化,但缺省項(xiàng)侯選集選取的召回率有明顯地改變,說明語料經(jīng)過校對(duì)后在一定程度上可尋找出更多的缺省項(xiàng)。

      (2) 規(guī)則的置信度對(duì)缺省項(xiàng)侯選集的影響

      由于規(guī)則集的大小受規(guī)則置信度高低的制約,為了識(shí)別盡可能多的缺省項(xiàng),以建立較完備的缺省項(xiàng)侯選集,本實(shí)驗(yàn)選取置信度為0.6~1.0的規(guī)則,用于獲取缺省項(xiàng)侯選集,實(shí)驗(yàn)結(jié)果見表5所示。

      由表5可以看出:

      ① 規(guī)則挖掘算法中的置信度大小對(duì)擴(kuò)充啟發(fā)式缺省項(xiàng)識(shí)別規(guī)則集有一定的影響,規(guī)則置信度越低,擴(kuò)充的規(guī)則集合就越大。

      ② 隨著置信度增大,規(guī)則集的規(guī)模、缺省項(xiàng)個(gè)數(shù)

      表5 規(guī)則的置信度對(duì)缺省項(xiàng)侯選集的影響

      以及規(guī)則的召回率均減小,而缺省項(xiàng)識(shí)別的精確率和F值均有增長。

      (3) 特征對(duì)缺省項(xiàng)識(shí)別的影響

      為了驗(yàn)證本文構(gòu)造各類特征集對(duì)缺省項(xiàng)識(shí)別的影響,分別考察了使用不同特征集的分類效果。與此同時(shí),使用Zhao[2]提出的啟發(fā)式規(guī)則作為本文的baseline。最終的實(shí)驗(yàn)結(jié)果采用五倍交叉驗(yàn)證,實(shí)驗(yàn)結(jié)果見表6。

      表6 缺省項(xiàng)識(shí)別結(jié)果

      從表6可以得知:

      ① 當(dāng)使用依存句法特征對(duì)缺省項(xiàng)識(shí)別時(shí),召回率和F值均略高于詞法特征,從而說明依存句法涵蓋的缺省項(xiàng)上下文信息更為豐富。

      ② 將詞法特征和依存句法特征融合之后,精確率要遠(yuǎn)遠(yuǎn)優(yōu)于任一單類特征,而融合的特征集在召回率和F值也有較為明顯的提高,說明詞法特征和依存句法特征之間具有互補(bǔ)性。

      (4) 錯(cuò)誤分析

      通過對(duì)情感觀點(diǎn)句的評(píng)價(jià)對(duì)象和評(píng)價(jià)屬性缺省項(xiàng)識(shí)別結(jié)果的分析,得出識(shí)別錯(cuò)誤的主要原因有以下三個(gè)方面:

      ① 缺省項(xiàng)φ的詞性錯(cuò)標(biāo): 由于在利用依存句法工具之前,人工已標(biāo)記了句子的缺省項(xiàng)符號(hào),導(dǎo)致依存句法工具對(duì)個(gè)別句子進(jìn)行句法分析時(shí),產(chǎn)生缺省項(xiàng)φ的詞性錯(cuò)標(biāo)。

      例如,“φ1 感覺φ2 真不錯(cuò)”的依存句法圖如圖5所示:

      圖5 依存句法分析圖

      其中,“感覺”是一個(gè)動(dòng)詞,卻被誤標(biāo)成了名詞,導(dǎo)致與缺省項(xiàng)φ1之間的關(guān)系發(fā)生錯(cuò)誤,“φ2”的詞性應(yīng)該是名詞,卻被誤標(biāo)成副詞,使形成的依存關(guān)系也出現(xiàn)錯(cuò)誤。

      ② 詞性標(biāo)注錯(cuò)誤: 微博中的表情符號(hào)有著重要的意義,但是在分詞時(shí),往往會(huì)被冠以某一種詞性,例如,“屏幕/n 大/a 又/d 4核/n ~/n φ3 太/d 爽/a 了/v”,其中“~”被標(biāo)注為名詞,使用詞法特征分類時(shí),“φ3 ”被認(rèn)為不是缺省項(xiàng),又因?yàn)椤唉? ”之前是名詞,之后是完整的謂語,故機(jī)器誤認(rèn)為這個(gè)句子不存在缺省。

      ③ 結(jié)構(gòu)化信息過少: 本文主要針對(duì)兩種類型的缺省項(xiàng)識(shí)別,一類是在句子中作主要成分的零指代缺省項(xiàng),另一類是不作主要成分的非零指代缺省項(xiàng)。從實(shí)驗(yàn)結(jié)果中,可以看出句法特征SBV、VOB、ADV對(duì)于零指代缺省項(xiàng)的識(shí)別效果較好,但是對(duì)于非零指代缺省項(xiàng)的識(shí)別,效果不太理想,例如,“φ質(zhì)量很差”,φ與“質(zhì)量”之間形成ATT的關(guān)系,經(jīng)常被錯(cuò)標(biāo)成其他關(guān)系類型,導(dǎo)致非零指代的缺省項(xiàng)識(shí)別結(jié)果較差。

      8 結(jié)束語

      針對(duì)評(píng)價(jià)要素缺省項(xiàng)識(shí)別的問題,本文提出了一種有效的解決方法。首先使用山西大學(xué)情感詞典,將包含情感詞的句子作為情感句。在以往的零指代識(shí)別中,通常利用啟發(fā)式規(guī)則獲取侯選集,雖然簡單,但也引入了過多的噪音數(shù)據(jù),為了避免噪音數(shù)據(jù)帶來的影響,本文在情感觀點(diǎn)句上,采用缺省項(xiàng)識(shí)別規(guī)則挖掘算法得到規(guī)則集,用于獲取缺省項(xiàng)侯選集。從實(shí)驗(yàn)結(jié)果中可以得知,使用規(guī)則挖掘算法得到的規(guī)則集優(yōu)于簡單啟發(fā)式規(guī)則。最后,本文在缺省項(xiàng)候選集的基礎(chǔ)上,構(gòu)造了兩類特征集用于缺省項(xiàng)識(shí)別的分類器,從實(shí)驗(yàn)結(jié)果可知,兩類特征的融合要優(yōu)于單類特征,從而也證明了本文方法的有效性。

      本文方法的不足是整體召回率還偏低,說明構(gòu)造的特征集還不夠完善。未來工作中,將尋找更好的特征方法以利于缺省項(xiàng)識(shí)別,在此基礎(chǔ)上,開展缺省項(xiàng)消解方面的研究工作。

      致謝本文使用的依存句法工具來自哈爾濱工業(yè)大學(xué)信息檢索研究中心的中文依存句法分析工具,在此我們特別誠摯地感謝哈爾濱工業(yè)大學(xué)提供的語言技術(shù)平臺(tái)。

      [1] C L Yeh, Y C Chen. Using zero anaphora resolution to improve text categorization[C]//Proceedings of the 17th Pacific Asia Conference, 2003: 423-430.

      [2] S H Zhao, H T Ng. Identification and resolution of Chinese zero pronoun: a machine learning approach[C]//Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, 2007: 541-550.

      [3] Young-Joo Kim. Subject/Object drop in the acquisition of Korean: A Cross-linguistic Comparison[J]. Journal of East Asian Linguistics, 2000: 325-351.

      [4] R Mitkov. Robust pronoun resolution with limited knowledge[C]//Proceedings of the 18th International Conference on Computation Linguistics,1998: 869-875.

      [5] S Converse. Pronominal anaphora resolution in Chinese[D]. Ph.D. Thesis, University of Pennsylvania. http://www.researchgate.net/Publication,2006.

      [6] G D Zhou, F Kong, Q M Zhu. Context-sensitive convolution tree kernel for pronoun resolution[C]//IJCNLP’2008: 25-31.

      [7] K W Qin, F Kong, P F Li, et al. Chinese zero anaphor detection: rule-based approach[J]. Advances in Intelligent and Soft Computing, 2011: 403-407.

      [8] C L Yeh, Y C Chen. Zero anaphora resolution in Chinese with shallow parsing[J]. Journal of Chinese Language and Computing, 2007: 41-56.

      [9] W Soon, H Ng, D Lim. A machine learning approach to coreference resolution of noun phrase[J]. Computational Linguistics, 2001: 521-544.

      [10] Y Q Yang, N W Xue. Chasing the ghost recovering empty categories in the Chinese Tree -bank[C]//Proceedings of the Coling’10 Beijing, 2010: 1382-1390.

      [11] F Kong, G D Zhou. A tree kernel-based unified framework for Chinese zero anaphora resolution[C]//Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing, 2010: 882-891.

      [12] R Santosh, P Prasad, V Vasudeva. An Unsupervised Approach to Product Attribute Extraction[C]//Proceedings of the 31st European Conference on IR Research. Toulouse, France:[s.n.], 2009: 796-800.

      [13] P Katharina, G Rayid, K Marko, et al. Semi-supervised Learning of Attribute-value Pairs from Product Descriptions[C]//Proceedings of the 20th International Joint Conference on Artificial Intelligence.[S.I.]: IEEE Press, 2007: 2838-2843.

      [14] Y Huang. Anaphora: A cross-linguistic study[M]. Oxford, England: Oxford University Press.

      猜你喜歡
      缺省指代句法
      Let’s Save Food To Fight Hunger
      奧卡姆和布列丹對(duì)指代劃分的比較
      句法與句意(外一篇)
      中華詩詞(2021年3期)2021-12-31 08:07:22
      述謂結(jié)構(gòu)與英語句法配置
      基于“缺省模式”設(shè)計(jì)平臺(tái)的控制系統(tǒng)研發(fā)模式重塑
      句法二題
      中華詩詞(2018年3期)2018-08-01 06:40:40
      詩詞聯(lián)句句法梳理
      中華詩詞(2018年11期)2018-03-26 06:41:32
      文學(xué)翻譯中的文化缺省補(bǔ)償分析
      牡丹(2017年15期)2017-07-06 18:27:53
      缺省語義模式下話語交際意義研究
      關(guān)聯(lián)期待與缺省推理下缺省語境的生成模式
      外國語文(2015年4期)2015-11-14 01:57:56
      五华县| 广丰县| 平原县| 渭源县| 滕州市| 连平县| 化德县| 陈巴尔虎旗| 金乡县| 泾阳县| 凌云县| 贡嘎县| 河池市| 嘉祥县| 综艺| 木兰县| 天柱县| 师宗县| 乐亭县| 宁河县| 若尔盖县| 久治县| 竹溪县| 满洲里市| 饶河县| 石泉县| 亳州市| 无锡市| 额济纳旗| 台东县| 临高县| 浙江省| 牙克石市| 万盛区| 永胜县| 简阳市| 广德县| 灵山县| 渝中区| 文成县| 建昌县|