• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      面向微博博主的評(píng)論質(zhì)量評(píng)估

      2018-03-28 06:51:35劉利軍馮旭鵬黃青松
      關(guān)鍵詞:評(píng)論者特征選擇博主

      欒 杰,劉利軍,馮旭鵬,黃青松,3

      1(昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院,昆明 650500) 2(昆明理工大學(xué) 教育技術(shù)與網(wǎng)絡(luò)中心,昆明 650500) 3(云南省計(jì)算機(jī)技術(shù)應(yīng)用重點(diǎn)實(shí)驗(yàn)室,昆明 650500)

      1 引 言

      隨著微博的流行,使用微博的人也越來越多,大量的評(píng)論數(shù)據(jù)也隨之產(chǎn)生.然而,由于新浪微博的信息發(fā)布門欄較低、平臺(tái)管理松散,使得這些評(píng)論的質(zhì)量良莠不齊,既影響了通過評(píng)論對(duì)博主進(jìn)行需求挖掘的準(zhǔn)確性和可信性[1],也加大博主獲取高質(zhì)量評(píng)論信息的難度.由此可見對(duì)微博評(píng)論進(jìn)行質(zhì)量評(píng)估找出博主關(guān)注的高質(zhì)量評(píng)論至關(guān)重要.

      目前國(guó)內(nèi)外對(duì)于評(píng)論質(zhì)量評(píng)估的研究主要集中在商品評(píng)論上,Mudambi等[2]使用回歸分析對(duì)商品評(píng)論進(jìn)行質(zhì)量評(píng)估.使用評(píng)論所獲得的投票的歸一化值作為商品評(píng)論質(zhì)量的固有值.吳等[3]則使用分類的方法將商品評(píng)論分為“有用”和“無用”兩類,以人工標(biāo)注的數(shù)據(jù)來驗(yàn)證分類的準(zhǔn)確性,將分類的結(jié)果作為評(píng)論質(zhì)量的評(píng)估.而李等[4,5]則在此基礎(chǔ)上加入了評(píng)論者的社交網(wǎng)絡(luò)信息,以此來提高評(píng)估的準(zhǔn)確度.

      然而上述研究忽略了兩個(gè)重要的問題.

      1)在評(píng)論質(zhì)量評(píng)估過程中未考慮到個(gè)體的差異性.因?yàn)樵u(píng)論質(zhì)量是一個(gè)主觀的概念,不同的人對(duì)評(píng)論質(zhì)量高低的衡量標(biāo)準(zhǔn)也不一樣[6].(有的人認(rèn)為飽含情感的評(píng)論是高質(zhì)量的評(píng)論[7,8],而有的人則更注重評(píng)論的語法特征[9,10])所以在對(duì)評(píng)論進(jìn)行質(zhì)量評(píng)估時(shí)應(yīng)該定量的分析.選取某一個(gè)人作為評(píng)估人,以評(píng)估人的角度的來考慮其對(duì)評(píng)論質(zhì)量的衡量標(biāo)準(zhǔn),而不是簡(jiǎn)單的以全局的角度考慮所有人對(duì)評(píng)論質(zhì)量的衡量標(biāo)準(zhǔn).

      2)以投票作為參照物(無論是將投票的歸一化值作為回歸參照物還是將投票按高低劃分作為分類的參照物)存在誤差性.因?yàn)椴煌脑u(píng)論所獲得的投票不僅僅只受評(píng)論質(zhì)量的影響,還受一些其他因素影響.例如研究表明,得到投票多的評(píng)論更容易得到更多的投票,發(fā)布早的評(píng)論容易得到更多的投票[6].所以在選取參照物時(shí)應(yīng)盡量避免這種誤差[11].

      綜上所述,考慮微博評(píng)論.對(duì)于問題1,每條微博只可能有一個(gè)博主,但是其評(píng)論者卻可以有很多,而且不同的微博可能有相同的評(píng)論者.因此選取評(píng)論者作為評(píng)估人可能會(huì)導(dǎo)致重復(fù)工作.另一方面由于本文是為了找出博主關(guān)注的評(píng)論,所以本文選取博主作為評(píng)論質(zhì)量的評(píng)估人.對(duì)于問題2,評(píng)估人確定之后,參照物的選取應(yīng)盡量避免誤差.一方面,在微博中如果一個(gè)評(píng)論獲得了博主的回復(fù),那么無論這個(gè)評(píng)論的字?jǐn)?shù)還是情感極性,這個(gè)評(píng)論在博主眼中必定是值得回復(fù)的.與那些沒有被回復(fù)的評(píng)論相比,這個(gè)評(píng)論在博主眼中是更重要的,是其更為關(guān)注的評(píng)論.另一方面,回復(fù)行為與博主直接相關(guān),是博主關(guān)于評(píng)論質(zhì)量衡量標(biāo)準(zhǔn)的一個(gè)直接體現(xiàn),能有效避免誤差.所以本文選取被博主回復(fù)的評(píng)論作為高質(zhì)量評(píng)論的參照物.

      基于上述分析,本文提出了一種基于最大熵的評(píng)論質(zhì)量評(píng)估模型.首先對(duì)博主進(jìn)行分析和研究定義特征,使用爬蟲和詞向量抽取評(píng)論特征,以被博主回復(fù)的評(píng)論作為高質(zhì)量評(píng)論的參照物.采用監(jiān)督學(xué)習(xí)的方式訓(xùn)練出符合博主衡量標(biāo)準(zhǔn)的最大熵分類模型(通過不同博主的不同回復(fù)習(xí)慣訓(xùn)練出不一樣的特征組合)并通過測(cè)試數(shù)據(jù)驗(yàn)證所提模型分類的準(zhǔn)確性,最后將分類概率值(這里該文選取分類為回復(fù)評(píng)論的概率值)作為微博評(píng)論的質(zhì)量評(píng)估值.

      2 相關(guān)技術(shù)

      為提高提取性能[12-14],盡可能降低隱藏特征(特征定義中未發(fā)現(xiàn)的分類特征)對(duì)分類模型效果的影響,該文使用最大熵模型對(duì)微博評(píng)論進(jìn)行分類,將微博評(píng)論分為回復(fù)評(píng)論類和未回復(fù)評(píng)論類.最大熵模型的主要思想是在給定約束條件下,對(duì)未知情況不做任何假設(shè).在這種情況下,概率分布越均勻,概率模型的熵越大,預(yù)測(cè)的風(fēng)險(xiǎn)也越小[15].

      最大熵模型的計(jì)算公式如下:

      (1)

      (2)

      其中y為分類結(jié)果,x為評(píng)論特征,Zw(x)稱為規(guī)范化因子,wi是特征的權(quán)重,f(x,y)是特征函數(shù),其定義為:

      (3)

      式中x0表示某一評(píng)論特征值,y0表示某一分類值.

      3 特征定義與抽取

      特征定義是分類的關(guān)鍵步驟,不同的博主其關(guān)注的評(píng)論特征點(diǎn)(在博主眼中認(rèn)為哪些評(píng)論特征是重要的)也不同,所以在定義特征時(shí)應(yīng)盡可能全的考慮所有博主可能會(huì)關(guān)注的評(píng)論特征,然后再通過監(jiān)督學(xué)習(xí)的方式訓(xùn)練出不同博主對(duì)應(yīng)的特征組合.對(duì)此該文依據(jù)自然人的兩面性(共性和個(gè)性)定義兩類特征,將博主作為自然人集體中的一員考慮,他具有集體共有特性即與集體有著共有的評(píng)論特征關(guān)注點(diǎn)定義其為共性特征.將博主作為一個(gè)單獨(dú)的自然人考慮,他相比于集體中的其他自然人有一些私有特性即一些個(gè)性的評(píng)論特征關(guān)注點(diǎn)定義其為個(gè)性特征.

      3.1 共性特征

      先前的研究結(jié)果表明,表1中的評(píng)論特征在評(píng)論質(zhì)量評(píng)估時(shí)是重要的即都是集體的評(píng)論特征關(guān)注點(diǎn).因此本文將這些特征歸入共性特征.

      表1 共性特征匯總
      Table 1 Summary of common features

      特 征描 述研究論文相似特征評(píng)論與產(chǎn)品描述之間的相似度.(在微博中為評(píng)論與博文的相似度)Lin[6]情感特征評(píng)論的正負(fù)情感傾向.或者是通過評(píng)論正負(fù)情感詞的數(shù)量來表示評(píng)論的情感強(qiáng)度.Hao[7]元數(shù)據(jù)特征評(píng)論所獲得的投票數(shù),評(píng)論發(fā)布的時(shí)間.Lin[6]統(tǒng)計(jì)特征評(píng)論的句子長(zhǎng)度,詞數(shù)量等.Lu[16,17]評(píng)論者特征評(píng)論者是否是活躍用戶(即活躍度).Lin[6]

      3.2 個(gè)性特征

      個(gè)性特征的提出是基于一系列的假設(shè),具體假設(shè)的成立與否要通過實(shí)驗(yàn)來驗(yàn)證,見表2.

      表2 個(gè)性特征匯總
      Table 2 Summary of specific characteristics

      特 征描 述假 設(shè)關(guān)系特征博主與評(píng)論者的關(guān)系(關(guān)注,無).博主關(guān)注的人中可能有博主的同學(xué)朋友等,相比于一些其他的評(píng)論者,親朋好友的評(píng)論更有可能引起博主的關(guān)注.提醒特征評(píng)論者在評(píng)論中是否@了博主.微博中,當(dāng)評(píng)論者在評(píng)論中@博主時(shí),該評(píng)論會(huì)在博主登陸微博時(shí)以一個(gè)醒目的方式提醒博主.與其他評(píng)論相比,該評(píng)論獲得博主關(guān)注的概率更大.回復(fù)特征評(píng)論是否是回復(fù)博主的評(píng)論.回復(fù)博主的評(píng)論表明評(píng)論者很有可能是在與博主進(jìn)行對(duì)話.此類評(píng)論獲得博主關(guān)注的概率更大.

      3.3 特征抽取

      有些特征的抽取可直接通過爬蟲或統(tǒng)計(jì)量化完成,有些則需要經(jīng)過一系列模型運(yùn)算.在此對(duì)于能直接量化的特征以表格的方式匯總?cè)绫?.

      表3 量化特征表
      Table 3 Quantitative characteristic table

      特 征描 述表 示元數(shù)據(jù)特征投票數(shù)F1評(píng)論發(fā)布時(shí)間與博文發(fā)布時(shí)間的差值F2統(tǒng)計(jì)特征單詞數(shù)F4句子長(zhǎng)度F5提醒特征是否@博主,是:1,否:0F6回復(fù)特征是否是回復(fù)博主的評(píng)論,是:1,否:0F7關(guān)系特征互關(guān)注:2,粉絲:1,無:0F8

      對(duì)于不能直接量化的特征描述如下:

      1)相似特征

      相似度計(jì)算一直以來都是學(xué)術(shù)界研究的熱點(diǎn),但是微博的評(píng)論動(dòng)輒上萬以上,考慮到評(píng)估模型的實(shí)用性.該文的相似度特征(F3)抽取使用簡(jiǎn)單高效的word2vec[18-20]進(jìn)行計(jì)算,計(jì)算方法.公式如下:

      (4)

      (5)

      F3=cos(v(blog),v(review))

      (6)

      其中word2vec表示詞向量,i為該詞標(biāo)記,n為博文或評(píng)論的詞數(shù),v(blog)表示博文所對(duì)應(yīng)的句向量,v(review)表示評(píng)論所對(duì)應(yīng)的句向量.

      2)情感特征

      情感特征(F9)使用評(píng)論的情感傾向來表示,正面:1,負(fù)面:0.通過工具包構(gòu)建情感分析模型,將模型分析出來的值作為評(píng)論的情感特征值.

      3)評(píng)論者特征

      評(píng)論者特征中評(píng)論者的活躍度(F10)的計(jì)算方法使用孫[21]的研究中表現(xiàn)良好的AHP層次分析法,通過觀察研究評(píng)論者在微博上的信息.構(gòu)建活躍度評(píng)分指標(biāo)體系,其結(jié)構(gòu)如圖1.

      圖1 活躍度評(píng)分指標(biāo)體系結(jié)構(gòu)Fig.1 Index system structure of active degree

      依據(jù)上述結(jié)構(gòu),得出其活躍度計(jì)算公式如下:

      (7)

      其中wi,vi分別表示第i個(gè)評(píng)分指標(biāo)(如圖1所示i為1表示的是微博數(shù)這個(gè)評(píng)分指標(biāo))的組合權(quán)重(通過AHP計(jì)算出來的組合權(quán)重)和歸一化值.

      4 實(shí) 驗(yàn)

      4.1 實(shí)驗(yàn)數(shù)據(jù)

      實(shí)驗(yàn)數(shù)據(jù)主要包括兩個(gè)數(shù)據(jù)集(DA,DB),DA是通過對(duì)COAE2013中傾向性分析評(píng)測(cè)數(shù)據(jù)文本進(jìn)行預(yù)處理獲得的數(shù)據(jù),DB是在新浪微博上隨機(jī)抽取三個(gè)博主進(jìn)行爬蟲獲得的數(shù)據(jù).(為使實(shí)驗(yàn)簡(jiǎn)潔明了,現(xiàn)將博主作如下標(biāo)記博主1:iG電子競(jìng)技俱樂部、博主2:安徽省教育廳、博主3:樂蜂網(wǎng))詳情如表4所示.

      表4 數(shù)據(jù)詳情表
      Table 4 Data details

      數(shù)據(jù)集類別數(shù)目DA正面1000負(fù)面1000數(shù)據(jù)集博主抓取微博抓取評(píng)論回復(fù)評(píng)論未回復(fù)評(píng)論DB博主1博主2博主3397313275278811129317221360498854275211079516367

      其中回復(fù)評(píng)論即是獲得博主回復(fù)的評(píng)論,反之則是未回復(fù)評(píng)論.

      4.2 特征抽取實(shí)驗(yàn)

      特征抽取實(shí)驗(yàn)主要分為三個(gè)部分,針對(duì)的是不能直接量化的特征,通過實(shí)驗(yàn)驗(yàn)證抽取方法的有效性.實(shí)驗(yàn)結(jié)果如表5所示.

      表5 相似度特征抽取實(shí)驗(yàn)
      Table 5 Similarity feature extraction experiment

      博 主博 文 內(nèi) 容 評(píng)論內(nèi)容相似度博主1#i?趣事#小軒在不在,我是態(tài)妹啊[doge][doge]rookie在不在,我是zz態(tài).對(duì)對(duì)對(duì)對(duì)我是態(tài)妹.0.9264好可愛?0.1427博主2#2016高考#【普通文理科本科第二批次投檔分?jǐn)?shù)及名次公布】理工:ht?tp://t.cn/RtbFZtA;文史:http://t.cn/Rtbem3l.7月26?28日,本科第二批次高校平行志愿錄取.7月30日10:00?16:00,符合條件的考生填報(bào)征集志愿和降分征集志愿.7月31日,本科第二批次高校征集志愿及降分錄?。甗傻眼]坐等征集志愿出來?。?!0.7231嘿嘿,發(fā)現(xiàn)你對(duì)這方面好了解啊-0.59博主3#高蜂論談#來說說你都被哪些廣告臺(tái)詞洗過腦[哈哈][doge](轉(zhuǎn)發(fā)+評(píng)論@樂蜂網(wǎng)既有機(jī)會(huì)獲得精美禮物一份哦!)#高蜂論談#杯裝奶茶開創(chuàng)者,連續(xù)六年銷量領(lǐng)先.一年賣出七億多杯,連起來可繞地球兩圈!@樂蜂網(wǎng)0.7921么么噠-0.1066

      表5的內(nèi)容為相似度特征抽取實(shí)驗(yàn)的示例(即隨機(jī)抽取每個(gè)博主的一條微博,并找出與該微博相似度最高和最低的評(píng)論展示出來),從示例中可以看出使用詞向量對(duì)評(píng)論與博文的相似度進(jìn)行計(jì)算是有效可行的.

      表6 情感特征抽取實(shí)驗(yàn)
      Table 6 Sentiment feature extraction experiment

      數(shù)據(jù)訓(xùn)練測(cè)試比分類結(jié)果PRFDA1:1正面86.06%93.8%89.76%1:1負(fù)面93.17%84.8%88.79%

      從上頁表6中實(shí)驗(yàn)結(jié)果可以看出情感分析的準(zhǔn)確率在86%以上,召回率在84%以上,達(dá)到了實(shí)驗(yàn)要求的標(biāo)準(zhǔn).

      表7 評(píng)論者特征抽取實(shí)驗(yàn)
      Table 7 Reviewer feature extraction experiment

      微博數(shù)認(rèn)證粉絲數(shù)關(guān)注數(shù)活躍度173275116270926460.870613401118688665340.7675269971396085030.676418439035681160.2451201280.0

      表7展示的是數(shù)據(jù)集DB中部分評(píng)論者的信息,可以看出活躍度的計(jì)算符合基本的客觀認(rèn)知.

      4.3 分類實(shí)驗(yàn)設(shè)置

      考慮到方法的應(yīng)用,最大熵模型的參數(shù)訓(xùn)練使用LBFGS.分類的實(shí)驗(yàn)數(shù)據(jù)包括兩部分,訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù).從1類和2類評(píng)論(將數(shù)據(jù)集DB中回復(fù)評(píng)論作為1類評(píng)論,未回復(fù)的評(píng)論作為2類評(píng)論)中各選出100條作為測(cè)試數(shù)據(jù),將余下的評(píng)論放在一起作為訓(xùn)練數(shù)據(jù).由于訓(xùn)練數(shù)據(jù)中樣本不平衡(1類評(píng)論和2類評(píng)論的數(shù)目存在量級(jí)上的差距),對(duì)此,實(shí)驗(yàn)采用權(quán)重調(diào)整的方式解決樣本不平衡問題.后續(xù)實(shí)驗(yàn)不作特殊說明所使用的數(shù)據(jù)皆通過上述方法處理得到.實(shí)驗(yàn)中為了評(píng)估模型的效果,采用準(zhǔn)確率,召回率,F值(P,R,F)三個(gè)指標(biāo)進(jìn)行評(píng)判.由于該文是通過分類將1類評(píng)論的概率值作為評(píng)論的質(zhì)量評(píng)估值,因此僅展示1類評(píng)論即博主關(guān)注的評(píng)論的P,R,F.

      4.4 特征選擇實(shí)驗(yàn)

      先前的研究表明分類的特征并不是越多越好[22],因此需要對(duì)文中定義的特征進(jìn)行選擇實(shí)驗(yàn),找出分類效果最好的特征組合.考慮到模型分類的效果,本文使用Wrapper方式進(jìn)行特征選擇.首先定義一個(gè)基于文本特征的基礎(chǔ)分類系統(tǒng),隨后在文本特征的基礎(chǔ)上依次引入其他特征,依據(jù)分類結(jié)果篩選特征,再對(duì)篩選出來的特征進(jìn)行組合加入到文本特征分類中,選出分類效果最好的特征組合.

      基礎(chǔ)分類系統(tǒng)使用的文本特征為特征F4和F5[16].為了驗(yàn)證本文提出的個(gè)性特征的有效性,將特征選擇實(shí)驗(yàn)分為兩部進(jìn)行,共性特征選擇實(shí)驗(yàn)和個(gè)性特征選擇實(shí)驗(yàn).共性特征引入實(shí)驗(yàn)結(jié)果如表8所示.

      表8 共性特征引入實(shí)驗(yàn)
      Table 8 Common characteristics of the introduction of the experiment

      特 征博主1博主2博主3PRFPRFPRFF4,F(xiàn)557.6%72%64%53.51%99%69.47%54.6%89%67.68%F4,F(xiàn)5+F152.76%86%65.4%63.36%83%71.86%54.25%83%65.61%F4,F(xiàn)5+F264%80%71.11%72.48%79%75.6%52.17%72%60.5%F4,F(xiàn)5+F357.6%72%64%53.51%99%69.47%54.88%90%68.18%F4,F(xiàn)5+F956.1%69%61.88%56.88%91%70%54.19%84%65.88%F4,F(xiàn)5+F1057.36%74%64.63%53.51%99%69.47%54.88%90%68.18%

      對(duì)于博主1,從實(shí)驗(yàn)結(jié)果可以看出:對(duì)模型有提升效果(根據(jù)F值判斷)的特征有F1,F2和F10,沒有提升效果的有F3,對(duì)模型產(chǎn)生反效果的有F9.因此將F9去除,對(duì)F1,F2,F3,F10進(jìn)行組合加入文本特征分類中進(jìn)行特征選擇實(shí)驗(yàn)(雖然F3在當(dāng)前環(huán)境中沒有產(chǎn)生提升效果,但也沒有產(chǎn)生反效果,不確定其在后續(xù)實(shí)驗(yàn)中是否有作用.因此暫時(shí)保留).依次類推對(duì)于博主2,共性特征選擇實(shí)驗(yàn)是將F1,F2,F3,F9,F10進(jìn)行組合加入文本特征分類中進(jìn)行實(shí)驗(yàn).對(duì)于博主3,共性特征選擇實(shí)驗(yàn)是將F3,F10進(jìn)行組合加入文本特征分類中進(jìn)行實(shí)驗(yàn).共性特征選擇實(shí)驗(yàn)的實(shí)驗(yàn)結(jié)果如表9所示.

      由于博主2的組合數(shù)過多不便展示,只展示效果最好的組合.從實(shí)驗(yàn)結(jié)果可以看出,對(duì)于博主1,效果最好的特征組合為F4,F5,F1,F2和F4,F5,F1,F2,F3.模型的F值為71.62.對(duì)于博主1,對(duì)比表8和表9可以發(fā)現(xiàn)任何特征組合在引入F3之后效果都是沒有提升(對(duì)比F4,F5,F1和F4,F5,F1,F3等),甚至有些特征組合會(huì)有所下降(對(duì)比F4,F5,F10和F4,F5,F3,F10).同樣對(duì)于博主2,也是如此(對(duì)比F4,F5,F1,F2和F4,F5,F1,F2,F3).因此后續(xù)的實(shí)驗(yàn)中當(dāng)出現(xiàn)引入特征之后效果沒有提升則將該特征篩選出去.對(duì)于博主1其共性特征組合為{F4,F5,F1,F2}.對(duì)于博主2其共性特征組合為{F4,F5,F1,F2}.博主3共性特征組合為{F4,F5,F3,F10}.對(duì)每個(gè)博主進(jìn)行個(gè)性特征引入實(shí)驗(yàn).實(shí)驗(yàn)結(jié)果如表10所示.

      表9 共性特征選擇實(shí)驗(yàn)
      Table 9 Common feature selection experiment

      特 征PRF博主1F4,F(xiàn)5+F1,F(xiàn)263.56%82%71.62%F4,F(xiàn)5+F1,F(xiàn)352.76%86%65.4%F4,F(xiàn)5+F1,F(xiàn)1053.37%87%66.16%F4,F(xiàn)5+F2,F(xiàn)364%80%71.11%F4,F(xiàn)5+F2,F(xiàn)1060.87%84%70.59%F4,F(xiàn)5+F3,F(xiàn)1057.03%73%64.04%F4,F(xiàn)5+F1,F(xiàn)2,F(xiàn)363.57%82%71.62%F4,F(xiàn)5+F1,F(xiàn)2,F(xiàn)1058.82%90%71.14%F4,F(xiàn)5+F1,F(xiàn)3,F(xiàn)1053.37%87%66.16%F4,F(xiàn)5+F2,F(xiàn)3,F(xiàn)1060.87%84%70.59%F4,F(xiàn)5+F1,F(xiàn)2,F(xiàn)3,F(xiàn)1058.82%90%71.15%博主2F4,F(xiàn)5+F1,F(xiàn)269.92%86%77.13%F4,F(xiàn)5+F1,F(xiàn)2,F(xiàn)366.92%86%77.13%博主3F4,F(xiàn)5+F3,F(xiàn)1055.15%91%68.68%

      表10 個(gè)性特征引入實(shí)驗(yàn)
      Table 10 Specific characteristics of the introduction of the experiment

      特 征PRF博主1F4,F(xiàn)5,F(xiàn)1,F(xiàn)2+F664.34%83%72.49%F4,F(xiàn)5,F(xiàn)1,F(xiàn)2+F763.57%82%71.62%F4,F(xiàn)5,F(xiàn)1,F(xiàn)2+F863.08%82%71.3%博主2F4,F(xiàn)5,F(xiàn)1,F(xiàn)2+F670.4%88%78.22%F4,F(xiàn)5,F(xiàn)1,F(xiàn)2+F777%77%77%F4,F(xiàn)5,F(xiàn)1,F(xiàn)2+F869.92%86%77.13%博主3F4,F(xiàn)5,F(xiàn)3,F(xiàn)10+F665.19%88%74.89%F4,F(xiàn)5,F(xiàn)3,F(xiàn)10+F751.77%73%60.58%F4,F(xiàn)5,F(xiàn)3,F(xiàn)10+F854.19%84%65.88%

      與表9對(duì)比可發(fā)現(xiàn)引入F7,F8之后三個(gè)博主的模型的F值都沒有提升.只有F6的引入對(duì)模型產(chǎn)生了提升效果.因此將F7和F8篩選出去.得到博主1的特征組合為{F4,F5,F1,F2,F6}、博主2的特征組合為{F4,F5,F1,F2,F6}、博主3的特征組合為{F4,F5,F3,F10,F6}.特征組合確定之后分類的實(shí)驗(yàn)結(jié)果也可確定即該特征組合對(duì)應(yīng)的實(shí)驗(yàn)結(jié)果.

      4.5 分類對(duì)比實(shí)驗(yàn)

      為了驗(yàn)證最大熵分類在微博評(píng)論分類中的有效性,該文使用其他分類方法與之對(duì)比.對(duì)比實(shí)驗(yàn)中由于有些分類方法在實(shí)現(xiàn)時(shí)難以對(duì)模型進(jìn)行權(quán)重調(diào)整,因此將分類對(duì)比實(shí)驗(yàn)分為兩步來做.對(duì)不可以進(jìn)行權(quán)重調(diào)整的方法使用重采樣的方式來解決數(shù)據(jù)不平衡問題.同樣與之對(duì)比的最大熵也使用相同的數(shù)據(jù)進(jìn)行實(shí)驗(yàn),重采樣的特征選擇和權(quán)重調(diào)整的特征選擇使用的方法一致.實(shí)驗(yàn)得出特征組合為博主1:{F4,F5,F2,F9,F8}、博主2:{F4,F5,F1,F2}、博主3:{F4,F5,F1,F9,F6}.對(duì)比試驗(yàn)結(jié)果如表11所示.

      表11 分類對(duì)比實(shí)驗(yàn)
      Table 11 Comparison experiment of classification

      方 法處理方式博主1博主2博主3PRFPRFPRFF平均值最大熵權(quán)重調(diào)整64.34%83%72.49%70.4%88%78.22%65.19%88%74.89%75.2%支持向量機(jī)權(quán)重調(diào)整60.45%81%69.23%65.93%60%62.83%65.35%66%65.67%65.91%最大熵重采樣68.87%73%70.87%69.3%79%73.83%68.81%75%71.77%73.88%AdaBoost重采樣62.6%82%71%68.38%80%73.73%61.07%80%69.26%71.33%迭代決策樹重采樣64.29%72%67.92%64.71%66%65.35%69.16%74%71.5%68.26%

      從F值上可以看出,無論是權(quán)重調(diào)整還是重采樣,與其他分類模型相比,最大熵分類的效果都是高于其他分類方法的(當(dāng)處理方式為重采樣時(shí),雖然AdaBoost方法在博主1上分類效果要高于最大熵,但在博主2和3上最大熵分類效果是高于AdaBoost的,且從F值的平均值上看,最大熵分類的平均值是高于AdaBoost的.所以總的來說,在處理該文分類問題上,最大熵分類是優(yōu)于AdaBoost的).其次,觀察表11可以發(fā)現(xiàn).當(dāng)處理方式為權(quán)重調(diào)整時(shí),對(duì)于不同的博主,最大熵分類的F值均達(dá)到72%以上.證明了最大熵分類對(duì)于不同的博主來說都是有效的.分類的有效性獲得驗(yàn)證之后,微博質(zhì)量的評(píng)估值也可確定即分類中1類評(píng)論的概率值.

      5 結(jié) 語

      該文致力于站在博主角度上對(duì)微博評(píng)論進(jìn)行質(zhì)量評(píng)估,提出一種基于詞向量與最大熵的評(píng)論質(zhì)量評(píng)估方法.以被博主回復(fù)評(píng)論作為高質(zhì)量評(píng)論參照物,通過監(jiān)督學(xué)習(xí)的方式訓(xùn)練分類模型,實(shí)驗(yàn)證明分類模型的平均P、R、F可達(dá)到66.64%、86.33%、75.2%.最后將分類為1類評(píng)論的概率值作為博主眼中微博評(píng)論質(zhì)量的評(píng)估值.計(jì)算出的評(píng)估值,一方面可以為評(píng)論的排序提供依據(jù),將博主最關(guān)心的評(píng)論靠前展示,解決信息過載的問題.另一方面可以通過評(píng)估值將博主不關(guān)注的評(píng)論剔除出去,為基于評(píng)論的博主需求挖掘提供有用的數(shù)據(jù).

      雖然該文所提的評(píng)估模型經(jīng)過實(shí)驗(yàn)證明是有效的,但是由于該文是以被博主回復(fù)評(píng)論作為高質(zhì)量評(píng)論的參照物,針對(duì)沒有回復(fù)習(xí)慣的博主,模型難免會(huì)出現(xiàn)冷啟動(dòng)的問題.所以接下來將考慮將協(xié)同過濾融合進(jìn)評(píng)論質(zhì)量評(píng)估模型中,解決冷啟動(dòng)的問題.

      [1] Jiang Wei,Zhang Li,Dai Yi,et al.Analyzing helpfulness of online reviews for user requirements elicitation[J].Chinese Journal of Computers,2013,36(1):119-131.

      [2] Mudambi S M,Schuff D.What makes a helpful online review? a study of customer reviews on amazon.com[J].Mis Quarterly,2010,34(1):185-200.

      [3] Wu Han-qian,Zhu Yun-jie,Xie Jue.Detection model of effectiveness of Chinese online reviews based on logistic regression[J].Journal of Southeast University,2015,45(3):433-437.

      [4] Li Yu-qiao,Fu Hong-guang.Fake comments recognition based on social network graph model[J].Journal of Computer Applications,2014,34(s2):151-153,158.

      [5] Wu F,Shu J,Huang Y,et al.Social spammer and spam message Co-Detection in microblogging with social context regularization[C].ACM International on Conference on Information and Knowledge Management,ACM,2015:1601-1610.

      [6] Lin Yu-ming,Wang Xiao-ling,Zhu Tao,et al.Survey on quality evaluation and control of online reviews[J].Journal of Software,2014,25(3):506-527.

      [7] Hao Yuan-yuan,Ye Qiang,Li Yi-jun.Research on online impact factors of customer reviews usefulness based on movie reviews data[J].Journal of Management Science in China,2010,13(8):78-88.

      [8] Park D,Sachar S,Diakopoulos N,et al.Supporting comment moderators in identifying high quality online news comments[C].CHI Conference,2016:1114-1125.

      [9] Zhang Z,Varadarajan B.Utility scoring of product reviews[C].ACM CIKM International Conference on Information and Knowledge Management,Arlington,Virginia,Usa,November,2006:51-57.

      [10] Kim S,Chang H,Lee S,et al.Deep semantic frame-based deceptive opinion spam analysis[C].The ACM International on Conference on Information and Knowledge Management,2015:1131-1140.

      [11] Mishra A,Rastogi R.Semi-supervised correction of biased comment ratings[C].International Conference on World Wide Web.ACM,2012:181-190.

      [12] Hu M,Liu B.Mining and summarizing customer reviews[C].Tenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,Seattle,Washington,Usa,August,2004:168-177.

      [13] Popescu,AnaMaria,Etzioni,et al.Extracting product features and opinions from reviews[M].Natural Language Processing and Text Mining,Springer London,2007:9-28.

      [14] Zhuang L,Jing F,Zhu X Y.Movie review mining and summarization[C].Acm International Conference on Information & Knowledge Management,2006:43-50.

      [15] Li Hang.Statistical learning method[M].Beijing:Tsinghua University Press,2012.

      [16] Lu Jun,Hong Yu,Lu Jian-jiang,et al.Automatic reviews quality evaluation based on global user intent[J].Journal of Chinese Information Processing,2012,26(5):79-87.

      [17] Dewang R K,Singh A K.Identification of fake reviews using new set of lexical and syntactic features[J].Sixth International Conference on Computer and Communication Technology,Allahabad,India,September,2015:115-119.

      [18] Mikolov T,Chen K,Corrado G,et al.Efficient estimation of word representations in vector space[J].Computer Science,2013.

      [19] Kusner M J,Sun Y,Kolkin N I,et al.From word embeddings to document distances[J].Journal of Machine Ceurning Research,2015,37:957-966.

      [20] Zhang Jian,Qu Dan,Li Zhen.Recurrent neural network language model based on word vector features[J].Pattern Recognition and Artificial Intelligence,2015,28(4):299-305.

      [21] Sun Nai-li.Design and implementation of personalized advertising system based on micro blog opinion_leader[D].Beijing:Beijing University of Posts and Telecommunications,2012.

      [22] Zhang Yu-xiang,Sun Wan,Yang Jia-hai,et al.Feature importance analysis for spammer detection in SinaWeibo[J].Journal on Communications,2016,37(8):24-33.

      附中文參考文獻(xiàn):

      [1] 姜 巍,張 莉,戴 翼,等.面向用戶需求獲取的在線評(píng)論有用性分析[J].計(jì)算機(jī)學(xué)報(bào),2013,36(1):119-131.

      [3] 吳含前,朱云杰,謝 玨.基于邏輯回歸的中文在線評(píng)論有效性檢測(cè)模型[J].東南大學(xué)學(xué)報(bào)(自然科學(xué)版),2015,45(3):433-437.

      [4] 李雨橋,符紅光.基于社交圖譜模型的虛假評(píng)論識(shí)別[J].計(jì)算機(jī)應(yīng)用,2014,34(s2):151-153,158.

      [6] 林煜明,王曉玲,朱 濤,等.用戶評(píng)論的質(zhì)量檢測(cè)與控制研究綜述[J].軟件學(xué)報(bào),2014,25(3):506-527.

      [7] 郝媛媛,葉 強(qiáng),李一軍.基于影評(píng)數(shù)據(jù)的在線評(píng)論有用性影響因素研究[J].管理科學(xué)學(xué)報(bào),2010,13(8):78-88.

      [15] 李 航.統(tǒng)計(jì)學(xué)習(xí)方法[M].北京:清華大學(xué)出版社,2012.

      [16] 陸 軍,洪 宇,陸劍江,等.基于全局用戶意圖的評(píng)論自動(dòng)估價(jià)方法研究[J].中文信息學(xué)報(bào),2012,26(5):79-87.

      [20] 張 劍,屈 丹,李 真.基于詞向量特征的循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型[J].模式識(shí)別與人工智能,2015,28(4):299-305.

      [21] 孫乃利.基于微博意見領(lǐng)袖的個(gè)性化廣告投放系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].北京:北京郵電大學(xué),2012.

      [22] 張宇翔,孫 菀,楊家海,等.新浪微博反垃圾中特征選擇的重要性分析[J].通信學(xué)報(bào),2016,37(8):24-33.

      猜你喜歡
      評(píng)論者特征選擇博主
      智珠2則
      跟著零食博主買拼多多小吃
      好日子(2022年6期)2022-08-17 07:16:42
      如果孩子想當(dāng)美妝博主
      時(shí)尚博主謝慕梓:分享身邊的美
      金橋(2021年1期)2021-05-21 08:22:04
      基于D-S證據(jù)理論的電子商務(wù)虛假評(píng)論者檢測(cè)
      Kmeans 應(yīng)用與特征選擇
      電子制作(2017年23期)2017-02-02 07:17:06
      基于情感特征和用戶關(guān)系的虛假評(píng)論者的識(shí)別
      聯(lián)合互信息水下目標(biāo)特征選擇算法
      基于評(píng)論關(guān)系圖的垃圾評(píng)論者檢測(cè)研究
      創(chuàng)意折紙小動(dòng)物
      乡宁县| 平谷区| 集贤县| 特克斯县| 桑日县| 漠河县| 库尔勒市| 章丘市| 大荔县| 北宁市| 民县| 镇雄县| 运城市| 闽侯县| 徐州市| 梁山县| 宜昌市| 南充市| 绥阳县| 天峻县| 宾川县| 久治县| 日土县| 徐州市| 府谷县| 苍南县| 丹东市| 广元市| 乳山市| 高青县| 舒城县| 陈巴尔虎旗| 新民市| 那曲县| 营山县| 军事| 普格县| 韶山市| 泾源县| 耒阳市| 兴宁市|