• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      中文短幽默文本的識(shí)別研究*

      2021-10-26 12:01:56譚紅葉陳浩然
      山西電子技術(shù) 2021年5期
      關(guān)鍵詞:樣例結(jié)構(gòu)特征貝葉斯

      何 苑,譚紅葉,陳浩然

      (1.長治學(xué)院計(jì)算機(jī)系,山西 長治 046011;2. 山西大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院,山西 太原 030006)

      0 引言

      幽默在自然語言理解領(lǐng)域一直是一項(xiàng)充滿趣味但又棘手的研究。近幾年,計(jì)算機(jī)所扮演的角色不斷地轉(zhuǎn)換,從只能執(zhí)行指定任務(wù)的自動(dòng)機(jī),慢慢轉(zhuǎn)變?yōu)榭梢耘c人動(dòng)態(tài)交互、理解用戶的智能機(jī)器。幽默識(shí)別是指給定一段文本,判斷該文本在一定程度上是否產(chǎn)生幽默的效果[1]。幽默識(shí)別在自然語言領(lǐng)域中是一項(xiàng)困難的任務(wù)。第一,對(duì)于幽默我們很難得到一個(gè)統(tǒng)一的定義。第二,幽默效果的產(chǎn)生往往需要依賴一些外部知識(shí)。例如,“海鷗飛到巴黎都不叫了,因?yàn)榘屠楮t來啞?!?。如果我們不知道諧音梗的話,我們就會(huì)認(rèn)為沒有產(chǎn)生幽默。

      1 相關(guān)工作

      現(xiàn)在大多數(shù)研究將幽默識(shí)別問題看做是一個(gè)二分類問題,通過一系列語言上的特征來實(shí)現(xiàn)幽默識(shí)別[2]。除了語言上的特征,其他方面的研究包括口語的聲韻律以及多模態(tài)特征等。與幽默識(shí)別相比,幽默生成的大多數(shù)研究工作都是基于幽默理論去解釋產(chǎn)生幽默的因素,然后運(yùn)用模板去生成笑話[3]。借鑒關(guān)于幽默錨點(diǎn)的工作[4],我們基于中文短文本的特點(diǎn),收集了大量的正樣例和負(fù)樣例來訓(xùn)練分類器,并挑選出一部分作為測試集,檢驗(yàn)分類模型的效果。我們基于兩種特征構(gòu)建分類模型:1)基于幽默錨點(diǎn)的結(jié)構(gòu)特征,2)基于文本內(nèi)容特征。

      2 數(shù)據(jù)準(zhǔn)備

      為了能夠?qū)崿F(xiàn)幽默識(shí)別,我們構(gòu)建了包含幽默和非幽默樣例的正負(fù)樣例數(shù)據(jù)集,訓(xùn)練幽默識(shí)別模型和檢測模型的識(shí)別效果。

      2.1 正樣例數(shù)據(jù)

      我們借鑒了Mihalcea提出的策略[4],基于Web的自舉算法在中關(guān)村論壇上進(jìn)行幽默文本收集,并過濾掉質(zhì)量不高的文本,收集到17646條幽默文本,樣例如表1所示。

      表1 幽默文本樣例

      2.2 負(fù)樣例數(shù)據(jù)

      對(duì)于幽默識(shí)別任務(wù)的負(fù)樣例數(shù)據(jù),我們從以下資源中抽取樣例:1)人民日?qǐng)?bào)。2)諺語格言。3)BCC常用詞例句。選擇滿足以下特點(diǎn)的樣例來作為負(fù)樣例:1)詞全部包含在正樣例詞典中。2)長度與正樣例的長度接近。表2提供了負(fù)樣例數(shù)據(jù)的詳細(xì)統(tǒng)計(jì)信息。

      表2 負(fù)樣例數(shù)據(jù)統(tǒng)計(jì)信息

      3 幽默識(shí)別模型

      3.1 基于幽默結(jié)構(gòu)特征的模型

      我們借鑒Yang提出的策略[3],從以下4個(gè)方面探索幽默背后潛在的語義結(jié)構(gòu)。

      3.1.1 不一致性

      幽默的產(chǎn)生往往依賴于一些不協(xié)調(diào)、反對(duì)或者矛盾的組合,即一個(gè)詞與其他詞間無法建立直接的關(guān)聯(lián)。利用Word2Vec將句子中的詞向量化,通過計(jì)算詞向量之間的距離來估計(jì)詞對(duì)之間的語義距離。設(shè)置兩種特征:1) 語義斷開:句子中詞對(duì)的語義距離最大。2) 語義重復(fù):句子中詞對(duì)的語義距離最小。

      3.1.2 模糊性

      模糊性是指一個(gè)詞在特定的語境下產(chǎn)生了多個(gè)意思,在許多幽默文本中它是一項(xiàng)極其重要的特征。設(shè)置語義組合作為識(shí)別特征。首先給句子中的詞標(biāo)注詞性,選擇詞性為名詞,動(dòng)詞,形容詞,副詞的詞語,最后得到這樣的詞語集合{w1,w2...wK},然后根據(jù)以下公式計(jì)算句子的語義組合。

      上式中nwi表示詞語Wi具有的詞義總數(shù)。

      3.1.3 人際效應(yīng)

      幽默文本中的人際關(guān)系效應(yīng)是幽默識(shí)別的重要部分,句子中包含一些表達(dá)強(qiáng)烈情感的詞,往往會(huì)產(chǎn)生幽默效果。可以用情感字典對(duì)句中的詞語表示的情感傾向進(jìn)行分析,判斷其傾向性,進(jìn)而界定句子的主觀性,來識(shí)別文本的幽默現(xiàn)象。為此我們?cè)O(shè)置了兩種特征:1) 正向(負(fù)向)極性:句子中所有表達(dá)正向(負(fù)向)情感的詞的總數(shù)。2) 強(qiáng)(弱)主觀性:句子中所有可以表達(dá)強(qiáng)(弱)主觀性的詞的總數(shù)。

      3.1.4 發(fā)音類型

      許多幽默的文字都會(huì)伴隨著聲音播放,造成不協(xié)調(diào)的聲音或文字。捕捉這種因素導(dǎo)致的幽默,給每個(gè)詞語標(biāo)注上拼音,同時(shí)設(shè)置了一種特征:詞語諧音。如果一句話中兩個(gè)不同的詞語有相似的發(fā)音,那么我們就認(rèn)為產(chǎn)生了諧音效果。

      3.1.5 基于幽默結(jié)構(gòu)特征的模型框架

      基于上述對(duì)幽默背后4種結(jié)構(gòu)特征的分析,可以構(gòu)建如圖1所示的基于幽默結(jié)構(gòu)特征的模型框架,并采用樸素貝葉斯分類算法進(jìn)行分類。

      圖1 基于幽默結(jié)構(gòu)特征的模型框架

      3.2 基于幽默內(nèi)容特征的模型

      除了考慮結(jié)構(gòu)特征,我們也考慮了內(nèi)容特征。當(dāng)考慮幽默文本的內(nèi)容特征時(shí),我們可以將幽默識(shí)別任務(wù)看成一個(gè)文本分類問題。我們選擇了樸素貝葉斯模型進(jìn)行分類。樸素貝葉斯算法是一種常用的文本分類算法,它是一種有監(jiān)督的學(xué)習(xí)方法,根據(jù)訓(xùn)練數(shù)據(jù)學(xué)習(xí)到分類函數(shù)f,接著在測試數(shù)據(jù)上運(yùn)用分類函數(shù)f,則可得到測試數(shù)據(jù)的類別信息[5]。

      4 實(shí)驗(yàn)結(jié)果

      通過多次實(shí)驗(yàn),對(duì)幽默識(shí)別任務(wù)相關(guān)的各個(gè)方面:分類效果,學(xué)習(xí)速率,負(fù)數(shù)據(jù)類型等,對(duì)分類方法的影響進(jìn)行了分析。所有測試均使用了交叉驗(yàn)證,以確保估計(jì)的準(zhǔn)確性。

      4.1 基于幽默結(jié)構(gòu)特征的模型

      在第一組實(shí)驗(yàn)中,我們?cè)u(píng)估了采用樸素貝葉斯算法基于幽默文本結(jié)構(gòu)特征模型的分類效果:不一致性,模糊性,人際效應(yīng)和發(fā)音類型。這些特征是啟發(fā)式的,并且該模型所需的唯一參數(shù)是閾值。這些閾值是通過訓(xùn)練大量的幽默/非幽默數(shù)據(jù)集自動(dòng)學(xué)習(xí)得到的。表3顯示了在測試集上模型取得的結(jié)果。

      表3 基于幽默結(jié)構(gòu)特征模型的分類效果

      由于這些特征反映了文本的結(jié)構(gòu),我們可以得出新聞的結(jié)構(gòu)風(fēng)格相對(duì)于幽默文本來說最為不同,而與諺語格言的結(jié)構(gòu)風(fēng)格最為相似。

      4.2 基于幽默內(nèi)容特征的模型

      第二組實(shí)驗(yàn)是對(duì)基于幽默文本內(nèi)容特征模型分類效果的評(píng)估。表4顯示了使用樸素貝葉斯文本分類器在三組不同的樣例數(shù)據(jù)集上獲得的結(jié)果。學(xué)習(xí)曲線繪制在圖2中。

      表4 基于幽默文本內(nèi)容特征的分類效果

      圖2 學(xué)習(xí)曲線

      新聞?wù)Z料的內(nèi)容似乎與幽默文本差異最大,而BCC語料中的句子與幽默文本最相似。這表明,笑話內(nèi)容往往與普通文本非常相似,但是使用文本分類技術(shù)仍然可以進(jìn)行粗略的區(qū)分?;趦?nèi)容的特征可以將諺語格言和幽默文本區(qū)分開來,如表3所示,盡管他們的文體結(jié)構(gòu)相似,但諺語和幽默文本具有不同的主題。

      5 總結(jié)與展望

      針對(duì)幽默識(shí)別的任務(wù),在借鑒前人工作的基礎(chǔ)上,基于幽默背后的四種語義結(jié)構(gòu)設(shè)計(jì)了結(jié)構(gòu)特征模型的幽默識(shí)別方法。同時(shí)我們也利用文本的內(nèi)容特征采用樸素貝葉斯算法對(duì)幽默進(jìn)行了識(shí)別,發(fā)掘出了幽默文本一些特性。在較大的數(shù)據(jù)集上獲得的實(shí)驗(yàn)結(jié)果表明,該方法可以有效地用于區(qū)分幽默和非幽默文本。學(xué)習(xí)過程結(jié)束時(shí)曲線的扁平形狀表明,將來的工作應(yīng)該集中于發(fā)掘更復(fù)雜且識(shí)別度更高的幽默特征,進(jìn)一步挖掘和理解這四種結(jié)構(gòu)。

      猜你喜歡
      樣例結(jié)構(gòu)特征貝葉斯
      樣例復(fù)雜度與學(xué)習(xí)形式對(duì)不同數(shù)量樣例學(xué)習(xí)的影響
      樣例呈現(xiàn)方式對(duì)概念訓(xùn)練類別表征的影響
      “樣例教學(xué)”在小學(xué)高年級(jí)數(shù)學(xué)中的應(yīng)用
      貝葉斯公式及其應(yīng)用
      基于貝葉斯估計(jì)的軌道占用識(shí)別方法
      特殊環(huán)境下雙駝峰的肺組織結(jié)構(gòu)特征
      一種基于貝葉斯壓縮感知的說話人識(shí)別方法
      電子器件(2015年5期)2015-12-29 08:43:15
      2012年冬季南海西北部營養(yǎng)鹽分布及結(jié)構(gòu)特征
      樣例教學(xué)法回歸課堂教學(xué)之新認(rèn)識(shí)
      IIRCT下負(fù)二項(xiàng)分布參數(shù)多變點(diǎn)的貝葉斯估計(jì)
      阳原县| 宁都县| 扬州市| 女性| 巴中市| 绥化市| 新沂市| 山阳县| 博白县| 县级市| 巴中市| 高邮市| 涪陵区| 平江县| 葵青区| 阿合奇县| 吉安市| 象州县| 恩施市| 阿拉尔市| 若羌县| 遂昌县| 巴林左旗| 卓资县| 鸡西市| 五大连池市| 灵璧县| 新野县| 惠来县| 乌什县| 东乌| 沙坪坝区| 钟祥市| 肥西县| 门源| 卓尼县| 万源市| 阳曲县| 浑源县| 华坪县| 简阳市|