• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      面向網(wǎng)絡文本的漢語反諷修辭識別方法研究

      2015-10-23 09:21:24邢竹天徐揚
      山西大學學報(自然科學版) 2015年3期
      關鍵詞:字面焦點語料

      邢竹天,徐揚

      (北京大學 信息管理系,北京 100871)

      0 引言

      研究表明,不同的語言和語境中反諷的特征表現(xiàn)并不一致。網(wǎng)絡的半虛擬性使得反諷成為網(wǎng)絡語言中的重要特點,因此對于反諷修辭特征的識別在語篇的風格分析和網(wǎng)絡輿論的探知過程中有重要的意義。利用計算機理解文本語義時,一個重要問題是解析文本的修辭。語境與修辭的存在使得語句或者篇章的真實含義偏離其字面本意,從而導致了單純的單詞(字)翻譯算法并不能滿意地從語料中準確抽取語義?;ヂ?lián)網(wǎng)語料具有動態(tài)多變的特性,比報刊文件等正式出版物更接近自然的漢語,本文試圖探討一種能夠在特定的語境中識別互聯(lián)網(wǎng)上漢語反諷修辭的算法,并構建模型。

      根據(jù)日常經(jīng)驗,人們往往把“反諷(irony)”、“諷刺(sarcasm)”、“含沙射影(innuendo)”等相近的修辭格混為一談。但在修辭學的體系中,這些修辭格間的差異都有明顯區(qū)分。實際上,西方學者對于反諷的定義和理解是漸進且多維的,修辭學領域?qū)Ψ粗S的討論從古希臘就開始了。柏拉圖認為,在蘇格拉底之前,反諷表示說大話或輕蔑,“含有狡猾、嘲笑、偽裝和欺騙之意”;蘇格拉底之后,其定義主要與“意義與所說的相反”相聯(lián)系[1]。Liddell和Scott認為,反諷(irony)被理解為“被人覺察的假裝無知”或一種幽默[2]。Burgers等人認為反諷是一種二元性或者模糊性,即使在面對面的交談中,也可能為一些人所不察覺[3]。Partington認為反諷是一種有意的不真實的表達[4]??傊?,關于“反諷是什么”這樣一個問題,很多人給出了答案:反諷中包含著一種不一致。

      1 漢語中的反諷研究與不足

      國內(nèi)學者如馮翠華、趙巧紅等人認為,反諷又稱反話﹑倒辭,是故意使用與本來意思相反的詞語或句子,或是言過其實,或是用過于謙虛和禮貌等不真實言語來表達本意的一種修辭手段;而諷刺則是指用尖酸刻薄的譏諷話,甚至是嚴厲的叱責,也可用直敘法對個人的缺點、過失或社會上的丑惡現(xiàn)象及黑暗面進行諷刺、挖苦;含沙射影常以暗示或兜圈子、拐彎兒的方法來表達對敘述對象的輕蔑或貶損,以避免引起對象的傷感與不快[5-6]。這樣一些描述性的定義,并不能很好地區(qū)分反諷、諷刺、含沙射影等語言現(xiàn)象。因為這些描述有其含糊性,并不能真正用來判斷具體一段話語是否是“反諷”。不過,一個基本和西方學者一致的結(jié)論是,反諷是言語的所指(實際意義)和意指(字面意義)存在著矛盾沖突的詞或者句子。

      修辭學將反諷分為言語反諷(verbal irony)、情景反諷(situational irony)和戲劇反諷(dramatical irony)三類[7]。言語反諷是指“語言外殼與真實意指之間的對照與矛盾”;情景反諷是文本的主題立意、情節(jié)編撰、敘事結(jié)構等文體要素共同孕育的一種內(nèi)在張力;戲劇反諷則是觀眾(讀者)的全知全能與劇中人的無知之間的張力。在這三類反諷中,言語反諷最簡單而易于識別。趙毅衡分析了網(wǎng)絡時代的反諷特征,即各種網(wǎng)絡社群使得人與人空間隔斷,一個非社群化的社群不必強求一致也能找到必要的共識,其半虛擬性使得反諷成為網(wǎng)絡語言的重要特點[8]。這些文學意義上所界定的反諷普遍比較寬泛,不能作為識別反諷的依據(jù),例如所謂隱蔽性反諷只在交際時引起聽話對象的注意,只可期待不可預測,否則就失去意義。

      語用學對反諷的研究一方面承認“反諷應該隱含著與字面義相反的含義”,另一方面強調(diào)過去的知識在理解反諷中的作用,反諷話語都提述先前或未來交際雙方共有過的事件、思想?,F(xiàn)代語義學對反諷的研究方法主要是分析孤立語句的語義結(jié)構特征。Clift提出,語義焦點的存在性是反諷語句的必要不充分條件[8]。由此可以認定,反諷的第三個特征是反諷言語必須包含語義焦點。在計算語言學中,一種常見的發(fā)現(xiàn)語義焦點的方法是尋找焦點敏感算子。在中文環(huán)境下,語義焦點除依靠音調(diào)的標識外還通過焦點敏感算子(大多是一些副詞,如:“只”、“甚至”、“居然”、“真”、“都”、“最”等)所標識。曾衍桃指出,反諷主要出現(xiàn)在表達斷言性言語行為的命題中[6]。據(jù)此,反諷存在的另一個特征是反諷出現(xiàn)的言語是斷言性的或者評價性的,這依然是一個必要不充分條件。

      綜上所述,反諷作為一種修辭其特征得以大致概括。但是每一個特征都不是具有強相關性的判據(jù)。因此我們希望綜合利用這些特征構造一個判別模型。筆者將這些特征分別歸納為字面義與實際意的矛盾、語言張力、語義焦點的存在以及斷言性或評價性的言語情境。

      2 反諷特征的計算模型

      2.1 基本定義

      為了方便描述特征計算的模型,對一些基本概念作如下定義。

      定義1 言語是指一段表達一定觀點或情感的話語。它表達觀點或情感的對象是一段稱為討論主題的文字。

      定義2 對應一段討論主題Ti的言語是

      依照前文對反諷特征的總結(jié),反諷修辭可以具有以下幾個特征用以計算機識別。

      從定義可以看出,反諷修辭中存在實際意義和字面意義有矛盾沖突的詞或者句子。假定一段言語的字面意義可以通過其關鍵詞表征。一種直觀的反諷判別方法是利用關鍵詞來捕捉該段言語的字面意義,再結(jié)合語境去分析出實際意義,最后測量二者的矛盾沖突。這一方法的難點在于計算機無法通過文本本身解析出其實際意義。

      本文采用一種特殊的方法解決該問題。對于一段討論主題T與言語S,分別用其關鍵詞作為向量代表它們的字面義。即定義待判別言語的“討論主題”,把“討論主題”的字面義看作其對應言語的實際意義的估計量。用討論主題的關鍵詞和言語的關鍵詞的偏移量的反面——相關度(記為Re)來反映這種意指義和字面義的差別。顯然,根據(jù)我們之前的討論,相關度越大表示意指義和字面義的差別越小。Re應該和這段言語包含反諷的概率呈負相關。

      定義3 對于Ti和,都有含權關鍵詞向量,其中是對i的第j個關鍵詞,wj是的歸一化權重。

      其中,

      自然語言里詞語的數(shù)目是非常大的,所以計算時k的下角標延伸到很大,把自然語言假設為平穩(wěn)隨機過程時|αYTiY|是遠大于|α()|的常數(shù),不妨令其為1。則:

      此外,反諷言語中存在張力。由于反諷常出現(xiàn)在斥責、壓抑等環(huán)境中,反諷言語帶有一種緊張感,言語的情感表現(xiàn)飄忽不定,讓人困惑。定義情感張力E來描述一段言語中情感的起伏程度。

      反諷言語一般還應該包含語義焦點,而語義焦點可以通過焦點敏感算子來發(fā)現(xiàn)。所以焦點敏感算子的缺失支持了反諷可能不存在。命名文中常見的可能成為焦點敏感算子的詞為“特征詞”,用特征詞累積分數(shù)F來推斷反諷的出現(xiàn)概率。

      Holdcrof提出評價性和斷言性作為反諷出現(xiàn)概率的指標[10]。在設計算法時,將言語是否具有評價性定義為評價性因子P。評價性因子本文用言語的形容詞密度來測量。而言語是否具有斷言性定義斷言因子A,用以判斷言語是否為斷言性的0-1二值函數(shù)表示。

      定義7

      Fig.1 System structure of irony detection圖1 反諷識別系統(tǒng)架構

      根據(jù)圖1,算法構建步驟如下:

      1)從QQ新聞、新浪財經(jīng)、天涯論壇等新聞網(wǎng)站的網(wǎng)頁上隨機選取15篇財經(jīng)方面的報道T1到T15。選取財經(jīng)報道的考慮是基于主題的相似性可以減小情感詞典的規(guī)模,同時使得反諷的特征在一定的領域內(nèi)更加突出。

      2)使用Lucene軟件包中加載mmseg4j的中文分詞器對隨機抽取的屬于T1到T15的2795條言語作為訓練文檔切分。使用TextRank[10]算法計算一段文本i的第j個關鍵詞和權重wj,利用FudanNLP[11]工具包進行詞性標注。

      3)情感詞典的收錄詞同時參考清華大學自然語言處理與社會人文計算實驗室的中文褒貶義詞典V1.0和切分Sji產(chǎn)生的詞匯,并標記為強烈正向(E =1),正向(E =0.5),中性(E =0),負向(E = -0.5),強(E = -1)5。 ,, ,烈負向 類 根據(jù)經(jīng)驗 假設中的ρ= 且為了簡化計算 假定?i,fi=1,取5個焦點敏感算子。

      這樣就可以計算所有的言語特征:如對題為“星巴克:售價高因中國客人一待就是幾小時”的一篇新聞報道,有α(T)= (1×中國,0.44×星巴克,0.41×美國,0.25×咖啡,0.23×咖啡館,…,0.1×電視臺,0.1×相當,0.1×主張,0.1×原材料),而屬于T的某條言語=“星巴克本來就是美國垃圾文化的代表?!庇笑粒剑?×代表,1×星巴克,0.1×垃圾,0.1×文化)。且Re(T,)=(0.44×1)/(2 &1+1+1+1),E()=1,再查詢情感詞典則有ε()=(0,0,0,0,-1,0,0,0)。又P()=0/8=0(注意其實此處“垃圾”為形容詞化的名詞,但由于詞典和算法的粗糙性誤判為名詞)。通過含不含有疑問詞和問號判斷A()=1。

      2.2 識別與驗證

      為了確定該算法的效率與效果,實驗中將算法的識別結(jié)果和人工標注的數(shù)據(jù)進行對比。由于因變量為言語是否存在反諷的二值函數(shù),采用IBM SPSS Statistics 20中運行的Logistic回歸擬合2602條言語的人工標注數(shù)據(jù),結(jié)果如表1所示。本文剔除了F),P()是因為它們和模型結(jié)果的相關性沒有通過F檢驗,而從回歸結(jié)果來看,A)亦沒有通過t檢驗,在95%的置信水平下影響反諷識別的證據(jù)并不充足。

      由于反諷在自然語言條件下的存在是稀疏的,為了得到較寬泛而準確的識別,需要對分類閾值做出調(diào)整。(事實上在篩選數(shù)據(jù)集的時候已經(jīng)人為將反諷出現(xiàn)的概率設定在20%左右)。用從困惑矩陣中計算出的準確率P,召回率R,F(xiàn)值(F=,β取1和0.5)三個指標來衡量不同的分類閾值,步距取0.05,如表2所示。

      表1 獨立變量和控制變量的相關性Table 1 Relationship of independent variables and control variables

      表2 不同β和分類閾值對應的F值Table 2 F-measure with different beta and cut-off threshold

      根據(jù)表2,在偏重召回率的情況下,為了準確率的不明顯提高需要付出極大的召回率代價。因此,為了保證F值的穩(wěn)健性,仍令β取1,閾值取0.25,這時模型如表3所示。

      表3 回歸系數(shù)和顯著水平Table 3 Regression coefficients and their significance

      為了檢驗反諷修辭識別的Logistic模型是否有效,另從互聯(lián)網(wǎng)以相同的方式抓取了來自三篇新聞報道的50條言語作為測試文檔,此三篇報道在主題內(nèi)容上和上述用以訓練模型的報道是相互獨立的。用問卷方式搜集了10個人對測試文檔的反諷特征標注結(jié)果,以計分的方式選取了普遍認可度高的11條反諷言語。結(jié)果按0.25閾值計算,識別結(jié)果42條,命中9條;按0.5閾值計算,識別結(jié)果25條,命中7條。驗證結(jié)果表明閾值的絕對數(shù)值波動較大,最好根據(jù)實際情況如反諷在語料中所占的比例來確定閾值。但無論在哪種情況下召回率都較高,即必須對被評估的言語中反諷出現(xiàn)的頻率有先驗的知識,才能又準確又全面地識別出結(jié)果。同時通過特征參數(shù)計分的模型來識別互聯(lián)網(wǎng)上的反諷修辭的方法是有效的。在IBM SPSS Statistics 20中運行C4.5算法決策樹和BP神經(jīng)網(wǎng)絡的結(jié)果均不好于Logistic模型,如表4所示的困惑矩陣比較了不同模型的預測能力。

      在大規(guī)模試驗中我們比較了三種不同模型下的指標和在英語、巴西葡萄牙語等其他語言上進行諷刺識別的結(jié)果[12-15],如圖2所示。需要指出的是這些結(jié)果并不具有完全的可比性,因為語料的質(zhì)量,反諷言語所占的比例等參數(shù)都不相同,但可以粗略的看到,英語語境中的諷刺識別是研究的最為完整透徹的一個問題,準確率,召回率和精確度都達到70%,巴西葡萄牙語的高準確率是語料的反諷言語所占的比例高達50%的結(jié)果。如果不考慮這一點,意大利語和巴西葡萄牙語的模型指標略低于英語,而在中文組中,召回率近乎達到當前最好的水平,但是準確度偏低是一個值得重視和進一步研究的問題。

      表4 不同模型之間的預測能力比較Table 4 Confusion matrices of prediction results with different models

      Fig.2 Comparison of precision,recall and accuracy of irony detection in different languages圖2 不同語言反諷識別的準確率,召回率和精確度對比

      3 小結(jié)

      反諷等一系列修辭特征的識別在語篇的風格分析和網(wǎng)絡輿論的探知過程中有重要的意義,通過系統(tǒng)的識別過濾,可以提高人工識別的效率。本文對反諷修辭的識別雖然是基于特征規(guī)則,但在每一項具體特征的抽取中帶有濃厚的統(tǒng)計色彩,所以語料的規(guī)模和算法的精細程度對特征數(shù)據(jù)的質(zhì)量有非常大的影響。例如,在中文切詞中出現(xiàn)的錯誤,詞性標注的錯誤,包括詞典的同義詞不對應(如切分出的“中央”、“電視臺”不能和“央視”匹配)都使實際數(shù)據(jù)偏離特征的真實反映。因此要達到較高準確度,人工的輔助仍是必不可少的。

      本文的主要貢獻包括提供了一種看待修辭的新思路:將修辭看作是在具體某種語言中的現(xiàn)象,并捕捉其特征,這加深了我們對這種語言的認識。同時,本文提供了一種計算機識別修辭現(xiàn)象的方法,為計算機更加正確的理解文本語義提供了基礎。

      影響識別效果的另一個因素是網(wǎng)絡語言的不規(guī)范性,包括錯別字、標點符號的缺失和不符合標準漢語習慣。例如,如果一部分語料帶有西南官話才有的特征詞,而另一部分語料使用粵語語法,那么這將給詞典的編制、進一步的反諷語法特征提取造成困難。在現(xiàn)有的分詞技術和語言模型下,進一步優(yōu)化系統(tǒng)應該更多地從細化情感詞典的粒度和如何更好地刻畫意指義和字面義的偏離程度等方面考慮,特別是如何判斷一段言語是否含有“弦外之音”,這些問題還有待進一步研究。

      [1]Welldon J E C.The Rhetoric of Aristotle[M].Whitefish:Nabu Press,2010.

      [2]Liddell H G.An Intermediate Greek-English Lexicon-Founded Upon the Seventh Edition of Liddell and Scott’s Greek-English Lexicon[M].Oxford:Benediction Classics,2010.

      [3]Burgers C M,van Mulken M,Schellens P J.Type of Evaluation and Marking of Irony:The Role of Perceived Complexity and Comprehension[J].Journal of Pragmatics,2012,44:231-42.

      [4]Partington A.Phrasal irony:Its form,F(xiàn)unction and Exploitation[J].Journal of Pragmatics,2011,43(6):1786-1800.

      [5]馮翠華.英語修辭大全[M].北京:外語教學與研究出版社,2005.

      [6]趙巧紅.《高級英語》中的Irony、Innuendo、Ridicule、Sarcasm之辨析[J].楚雄師范學院學報,2011(7):84-87.

      [7]趙毅衡.反諷:表意形式的演化與新生[J].文藝研究,2011(1):18-27.

      [8]Clift R.Irony in Conversation[J].Language In Society,1999,28(4):523-553.

      [9]Holdcroft D.Irony as Trope,and Irony as Discourse[J].Poetics Today,1983,4(3):493-511.

      [10]Xu L,Zhang Q,Wang DD,et al.Research of Chinese Segmentation Based on MMSeg and Double Array TRIE[J].Advanced Research on Automation,Communication,Architectonics and Materials,2011,225-226(1-2):945-948.

      [11]Cruz F,Troyano J A,Enriquez F.Supervised TextRank[J].Advances in Natural Language Processing,2006,4139:632-639.

      [12]de Freitas,Larissa A,Hogetop D.Pathways for Irony Detection in Tweets[C]∥Proceedings of the 29thAnnual ACM Symposium on Applied Computing,2014.

      [13]Reyes A,Rosso P,Veale T.A Multidimensional Approach for Detecting Irony in Twitter[J].Language Resources and E-valuation,2013,47:239-68.

      [14]Li R,Shi S,Huang H.A Mothod of Polarity Computation of Chinese Sentiment Words Based on Gaussian Distribution[C]∥Computational Linguistics and Intelligent Text Processing CICLing2014,Part II:53-61.

      [15]Hao Y F,Veale T.An Ironic Fist in a Velvet Glove:Creative Misrepresentation in the Construction of Ironic Similes[J].Minds and Machines,2010,20(4):635-650.

      猜你喜歡
      字面焦點語料
      Dog-tired·“累成狗”
      焦點
      金縷衣
      別誤會這些英語
      “兩會”焦點
      南方周末(2018-03-08)2018-03-08 08:34:56
      本期焦點
      基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
      焦點
      攝影之友(2016年8期)2016-05-14 11:30:04
      華語電影作為真實語料在翻譯教學中的應用
      數(shù)字在法語俚語中的使用
      法語學習(2015年2期)2015-04-17 09:05:31
      苗栗市| 凌云县| 丰台区| 泽普县| 桓台县| 沿河| 江都市| 庐江县| 绿春县| 永嘉县| 海南省| 北票市| 厦门市| 郧西县| 神木县| 栾川县| 中牟县| 杭锦旗| 股票| 公安县| 卢湾区| 阿克| 丹东市| 上饶县| 始兴县| 澎湖县| 广灵县| 安丘市| 东源县| 玛多县| 宕昌县| 贵德县| 会理县| 江口县| 新巴尔虎右旗| 宁武县| 调兵山市| 商水县| 轮台县| 勐海县| 淮南市|