• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于情感挖掘的圖書評(píng)價(jià)方法

      2015-03-07 08:10:04裴錦隆石家莊第二醫(yī)院050051
      學(xué)周刊 2015年34期
      關(guān)鍵詞:分詞評(píng)語(yǔ)詞典

      裴錦隆(石家莊第二醫(yī)院050051)

      張利寬(北京交通部科學(xué)研究院100000)

      基于情感挖掘的圖書評(píng)價(jià)方法

      裴錦隆(石家莊第二醫(yī)院050051)

      張利寬(北京交通部科學(xué)研究院100000)

      本文通過(guò)抓取某電子商務(wù)網(wǎng)站醫(yī)學(xué)圖書客戶評(píng)價(jià)和某醫(yī)院圖書館讀者評(píng)語(yǔ),然后構(gòu)建了基于投票機(jī)制的情感挖掘模型,并對(duì)此模型進(jìn)行實(shí)驗(yàn)驗(yàn)證,使用此模型對(duì)讀者評(píng)語(yǔ)進(jìn)行了評(píng)價(jià)分析,為圖書館圖書評(píng)價(jià),圖書選擇提供了客觀的支持。

      情感挖掘圖書模型

      一、引言

      用戶評(píng)價(jià)在產(chǎn)品體驗(yàn)中扮演著越來(lái)越重要的角色,隨著大數(shù)據(jù)時(shí)代的到來(lái),人們逐漸地認(rèn)識(shí)到,通過(guò)對(duì)用戶評(píng)語(yǔ)的分析,進(jìn)而能夠判斷消費(fèi)者對(duì)產(chǎn)品的認(rèn)可度。在醫(yī)院圖書管理方面也不例外,如今許多醫(yī)院都建立了在線圖書館,并提供讀者對(duì)數(shù)據(jù)的評(píng)論平臺(tái),這樣為通過(guò)分析讀者評(píng)語(yǔ)而挖掘讀者喜好,客觀判斷圖書的受歡迎程度提供了可能。本文試圖通過(guò)構(gòu)建讀者評(píng)語(yǔ)的情感挖掘模型,判斷讀者對(duì)圖書的喜好,進(jìn)而對(duì)醫(yī)院圖書館所購(gòu)圖書的受歡迎度進(jìn)行衡量。

      二、情感挖掘模型

      (一)情感挖掘研究現(xiàn)狀

      情感挖掘是指通過(guò)分析挖掘文本所隱含的語(yǔ)義和情感信息,將文本劃分為支持和反對(duì)(正性情感和負(fù)性情感)的兩類[1]。情感挖掘是一種特殊的文本分類,作為自然語(yǔ)言處理的一個(gè)重要部分,由于在商務(wù)智能、公眾意見(jiàn)分析中的實(shí)用性,情感挖掘已經(jīng)成為自然語(yǔ)言處理領(lǐng)域的一個(gè)熱點(diǎn),得到了眾多學(xué)者的重視。

      現(xiàn)有情感挖掘的研究方法主要有兩種,基于情感詞典的方法和基于機(jī)器學(xué)習(xí)的方法?;谇楦性~典的方法主要是通過(guò)已經(jīng)標(biāo)注好的情感詞的詞庫(kù),依照情感詞庫(kù)中詞語(yǔ)的情感等級(jí),通過(guò)比對(duì)的方式對(duì)文本進(jìn)行情感分類。

      (二)情感挖掘模型構(gòu)建

      情感挖掘的中文文本處理過(guò)程主要包括分詞、特征選擇、分類模型設(shè)計(jì)實(shí)驗(yàn)驗(yàn)證等步驟。圖2-1展示了情感挖掘的主要步驟。(見(jiàn)附圖)

      (三)文本預(yù)處理

      由于漢語(yǔ)語(yǔ)言的復(fù)雜性,需要對(duì)初始數(shù)據(jù)進(jìn)行去停用詞、中文分詞等操作。本文采用的分詞工具是中科院計(jì)算所推出的ICTCLAS[2,ICTCLAS是一個(gè)基于隱馬爾科夫模型的一個(gè)漢語(yǔ)分詞系統(tǒng)。在歧義詞識(shí)別和新詞識(shí)別上都得到了很大的提升,分詞精度達(dá)到98.45%。

      (四)特征選擇及權(quán)重計(jì)算

      特征抽取分為兩個(gè)步驟:一是特征詞的選??;二是已選特征詞的權(quán)重確定。

      特征詞的選取采用情感詞典與測(cè)試語(yǔ)料集匹配選取的方法。即選擇一個(gè)已有情感詞典,逐個(gè)情感詞典中的特征詞,將其與已經(jīng)分好詞的中文語(yǔ)料集進(jìn)行字符匹配,若匹配成功,則該特征詞入選。為盡可能擴(kuò)大情感詞典的詞庫(kù)規(guī)模,本文將漢語(yǔ)自然語(yǔ)言處理最優(yōu)秀的兩個(gè)情感詞典進(jìn)行聯(lián)合,得到一個(gè)聯(lián)合情感詞典。本文選擇的情感詞典是中國(guó)知網(wǎng)整理的“情感分析用詞語(yǔ)集[3]”和臺(tái)灣大學(xué)整理的中文通用情感詞典NTUSD[4]。

      設(shè)D為情感詞庫(kù),且D={t1,t2,...tn},正向情感的文檔子集為D1,負(fù)向情感文檔子集為D2。另設(shè)有一個(gè)文檔dj=(w1j,w2j,…,wnj),其中wij為情感詞的權(quán)重。在本文中wij定義為:

      wij=wtd(ti,dj)×wts(ti)(2-1)

      其中,Wtd(ti,dj)為詞項(xiàng)ti在文檔dj中的重要性,Wts(ti)為詞項(xiàng)ti表達(dá)情感上的重要性。

      對(duì)于詞項(xiàng)在文檔中的重要性Wtd(ti,dj)的計(jì)算本文采用詞頻的兩倍歸一化方法,將權(quán)重控制在0.5到1之間。

      W↓td(t↓i,d↓j)=0.5+(0.5×f↓ij)/max|m|f↓kj|(2-2)

      式中fij是是詞項(xiàng)fi在文檔dj中的出現(xiàn)頻率。

      在完成特性選擇和權(quán)重計(jì)算后,我們對(duì)分類模型進(jìn)行了設(shè)計(jì)。在前人的研究中,最常用的三種機(jī)器學(xué)習(xí)的分類模型有支持向量機(jī)SVM、樸素貝葉斯NB、和最近鄰KNN三種分類方法[5]。為達(dá)到更好的分類準(zhǔn)確性,本文在利用三種最常用的分類器基礎(chǔ)上,設(shè)計(jì)了基于投票機(jī)制的集成分類方法。即將分類輸入分別用三種常用分類器進(jìn)行分類,最后將輸出結(jié)果按照投票的機(jī)制決定。實(shí)踐證明這種分類方法取得了較好的效果。

      三、實(shí)驗(yàn)驗(yàn)證

      我們分別使用了兩個(gè)預(yù)處理好的語(yǔ)料集對(duì)情感挖掘模型進(jìn)行實(shí)驗(yàn)驗(yàn)證,第一個(gè)數(shù)據(jù)集是從某著名的在線圖書電子商務(wù)網(wǎng)站抓取的醫(yī)學(xué)類書籍的顧客評(píng)語(yǔ)。第二個(gè)是從醫(yī)院圖書館網(wǎng)站搜集的院內(nèi)讀者的圖書評(píng)語(yǔ)數(shù)據(jù)集。

      實(shí)驗(yàn)驗(yàn)證過(guò)程本文將支持向量機(jī)、樸素貝葉斯和最近鄰三種算法的分類結(jié)果與本文設(shè)計(jì)的集成模型分類結(jié)果進(jìn)行比較。

      評(píng)價(jià)指標(biāo)采用文本分類常用的評(píng)價(jià)指標(biāo)查準(zhǔn)率,查全率和F-measure。

      圖3-1和圖3-2為本文推薦方法與其他數(shù)據(jù)挖掘方法在不同數(shù)據(jù)集上的分析結(jié)果。(見(jiàn)附圖)

      結(jié)果證明,通過(guò)在兩種不同測(cè)試集上分別使用四種不同的分類器進(jìn)行實(shí)驗(yàn)驗(yàn)證,最終從實(shí)驗(yàn)結(jié)果我們可以分析出,兩種測(cè)試結(jié)果中,最低值高于0.8,說(shuō)明四種分類模型對(duì)文本情感挖掘都具有較好的分析效果,兩個(gè)數(shù)據(jù)集中,投票集成模型F-measure值均取得最高值。這說(shuō)明投票集成模型有效性明顯高于其他三種模型。

      [1]宗成慶.統(tǒng)計(jì)自然語(yǔ)言處理(第二版).北京:清華大學(xué)出版社,2013.

      [2]張華平.ICTCLAS中文分詞系統(tǒng).http:// www.nlpir.org/. [3]HowNet,http://www.keenage.com/. [4]NTUSD,http://nlg18.csie.ntu.edu.tw:

      8080/opinion/pub1.html.

      [5]胡澤文,王效岳,白如江.國(guó)內(nèi)外文本分類研究計(jì)量分析與綜述.圖書情報(bào)工作,2011: 78-81.

      (責(zé)編張敬亞)

      圖2 -1 圖書評(píng)語(yǔ)情感挖掘數(shù)據(jù)處理框架圖

      圖3 1某電子商務(wù)網(wǎng)站數(shù)據(jù)集分析結(jié)果

      圖3 2醫(yī)院圖書館數(shù)據(jù)集分析結(jié)果

      猜你喜歡
      分詞評(píng)語(yǔ)詞典
      流沙河語(yǔ)錄及諸家評(píng)語(yǔ)
      米沃什詞典
      文苑(2019年24期)2020-01-06 12:06:50
      結(jié)巴分詞在詞云中的應(yīng)用
      評(píng)《現(xiàn)代漢語(yǔ)詞典》(第6版)
      詞典例證翻譯標(biāo)準(zhǔn)探索
      值得重視的分詞的特殊用法
      怎樣為作文寫評(píng)語(yǔ)
      散文百家(2014年11期)2014-08-21 07:16:36
      高考分詞作狀語(yǔ)考點(diǎn)歸納與疑難解析
      《胡言詞典》(合集版)刊行
      論英語(yǔ)不定式和-ing分詞的語(yǔ)義傳承
      大庆市| 娱乐| 来凤县| 郎溪县| 名山县| 武汉市| 玉山县| 龙州县| 淳化县| 巴林左旗| 中江县| 金阳县| 库伦旗| 贺州市| 湛江市| 周宁县| 同江市| 社会| 陆良县| 安化县| 靖远县| 九寨沟县| 化德县| 金川县| 依兰县| 稷山县| 德惠市| 花垣县| 利川市| 北海市| 南阳市| 松阳县| 漳平市| 霍城县| 泸溪县| 宜良县| 天门市| 沈阳市| 临高县| 浙江省| 丹江口市|