• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      網(wǎng)絡(luò)民航事件虛假評論的識別研究

      2016-09-26 11:28董松月陳潤雨劉西菩趙穎莉馬曉寧
      智能計算機與應(yīng)用 2016年4期
      關(guān)鍵詞:支持向量機特征提取

      董松月 陳潤雨 劉西菩 趙穎莉 馬曉寧

      摘 要:互聯(lián)網(wǎng)的開放性使得當前對于互聯(lián)網(wǎng)上用戶的評論內(nèi)容沒有質(zhì)量控制機制,用戶發(fā)表的內(nèi)容中存在大量虛假評論,如何識別這些虛假評論信息成為重要問題。運用信息增益(Information Gain,IG),支持向量機(Support Vector Machine,SVM)等方法對民航事件的評論進行特征提取和分類,識別虛假評論。通過對比四種不同的核函數(shù),本文選定基于RBF核函數(shù)的SVM分類器進行虛假信息的分類識別,其 F-measure值為90%,具有較優(yōu)的分類效果。

      關(guān)鍵詞:虛假評論;信息增益;支持向量機;特征提?。缓撕瘮?shù)

      Abstract: For the reason of internets openness, users are allowed to comment freely without quality control system, the published content includes many false reviews. How to identify these fake comments become an important issue. Based on Information Gain and SVM, this research identify the false reviews through feature extraction and classification. By comparing four kernel functions, RBF kernel function of SVM classifier is selected for the identification of the false information. The F-measure value is 90%, with qualified classification results.

      Key words: false review; information gain; support vector machine; feature extraction; Kernel Function

      0 引 言

      隨著Web廣泛使用以及用戶深入?yún)⑴c,出現(xiàn)社會熱門事件后,用戶會通過網(wǎng)絡(luò)發(fā)表事件相關(guān)評論,但由于用戶評論時的隨意性,導(dǎo)致其中必然包含不實信息。自2007年起,虛假信息識別這一課題受到關(guān)注。國外研究成果已獲一定進展,而國內(nèi)研究仍處于探索時期,同時虛假信息識別大多數(shù)研究卻只是集中于電子商務(wù)產(chǎn)品、互聯(lián)網(wǎng)銷售等新式專用領(lǐng)域,而關(guān)于民航事件評論中的虛假信息識別研究卻仍亟待起步?;谌缟媳尘靶枨?,針對如何從海量民航事件評論信息中識別出虛假評論,本文將展開詳盡論與闡析。

      本文以民航事件(馬航370事件)評論信息為研究對象,提出評論描述上述特征,并采用信息增益(Information Gain, IG)方法對各個特征計算權(quán)重,再使用支持向量機(Surpport Vector Machine,SVM)的4種核函數(shù)模型分別對訓練集評論進行訓練,得出四種分類器,對比性能后殼優(yōu)選基于RBF函數(shù)的分類器,能夠?qū)φ鎸嵲u論和虛假評論進行更佳分類,從而高效、準確地識別出民航事件評論信息中的虛假評論。

      1 虛假評論識別模型

      虛假評論識別模型中展示了識別虛假評論的步驟及流程。模型構(gòu)建表示如圖1如下。

      模型圖中主要方法介紹如下:

      1.1 虛假特征的確定

      本文通過支持向量機(SVM)模型對貼吧、微博用戶關(guān)于民航事件的評論進行虛假評論識別,在這一過程中,特征的選取會直接影響到模型的識別效果。通過對評論的分析研究,本文分別從評論者、評論本身、評論內(nèi)容3個方面進行虛假評論特征的選擇,特征如下:

      1)以評論者為中心的特征

      評論者是否匿名(F1):本文關(guān)注的事件樣本是受到國內(nèi)乃至國際廣泛關(guān)注的民航重大事件,多數(shù)情況下,非匿名評論比匿名評論真實性強,可信度更高。其中,蓄意誤導(dǎo)價值觀,或具有反社會傾向的評論者,以引導(dǎo)輿論,擾亂社會為目的,通常會隱藏身份,選擇匿名的可能性較大。

      2)以評論本身為中心的特征

      評論是否重復(fù)出現(xiàn)(F2):普通評論者發(fā)表評論目的較為直接,重在表達意見,提出見解。而發(fā)布虛假信息的評論者,其重點在于誤導(dǎo)民眾情感,以達到引導(dǎo)輿論的目的。在這一前提下,通常認為虛假評論者希望盡可能擴大網(wǎng)絡(luò)影響力,在各類貼吧論壇微博中重復(fù)發(fā)表語氣、情感、甚至語句十分相似的評論,尤其是重復(fù)評論。因此本文研究認為,重復(fù)出現(xiàn)的評論可以作為識別虛假評論的重要特征。

      (3)以評論內(nèi)容為中心的特征

      評論中是否出現(xiàn)主要評論對象的名稱(F3):經(jīng)過對大量評論的統(tǒng)計分析可知,虛假評論通常針對國家、政府、政黨組織或非政府機構(gòu),在引導(dǎo)民眾對其產(chǎn)生負面情感的過程中,評論者會忽略評論對象本身。例如馬航事件中,評論者會忽略“馬航”而著重強調(diào)政府詞匯。

      評論中正面情感詞出現(xiàn)次數(shù)/評論中所有情感詞出現(xiàn)次數(shù)(F4),評論中負面情感詞出現(xiàn)次數(shù)/評論中所有情感詞出現(xiàn)次數(shù)(F5):虛假評論制造者擅于使用情感傾向度較大的詞匯,在整體評論中情感傾向十分一致(持中間態(tài)度的虛假評論則較少出現(xiàn))。

      評論中政府部門的出現(xiàn)次數(shù)/評論中所有評論對象的出現(xiàn)次數(shù)(F6):經(jīng)過對大量評論的研究統(tǒng)計可得,在民航重大事件的評論中,大多虛假評論內(nèi)容均圍繞貶低污蔑國家政府,這一特征已成為大多虛假評論的共性。

      本文利用支持向量機識別評論時,每條評論均設(shè)定上述6個特征來構(gòu)成核心表示,并對支持向量機模型分類器進行訓練。

      1.2 信息增益

      在文本分類問題中,信息增益方法用于衡量虛假特征是否出現(xiàn)于某類別文本中、以及對于評論的虛假性預(yù)測能提供多少信息,是一種基于熵的評估方法。具體定義就是虛假特征為整個分類所能提供的信息量,即不考慮該特征時文檔的熵與考慮該特征后的文檔熵的差值。通過對數(shù)據(jù)的開發(fā)訓練,計算出每個特征的信息增益值,按照信息增益從大到小排序,這一排序究其本質(zhì)也代表著不同特征對文本信息影響程度的排序。某個特征的信息增益值越大,表示其貢獻越大,對分類也就更為重要。本次研究中利用信息增益方法,對區(qū)分虛假評論的特征進行影響力大小排序。

      其中, 是虛假評論訓練集的類別, 表示第 類文檔出現(xiàn)的概率, 表示在第 類文檔中特征 的出現(xiàn)的概率。 表示不含 特征的文檔概率, 表示不含有 的文檔在 中的條件概率。 為真實類或虛假類評論文檔。

      1.3 支持向量機

      (1)本實驗使用支持向量機的方法對評論的真假性進行預(yù)測分類。首先通過特征選擇與提取的方法,選用評論是否匿名、評論是否重復(fù)出現(xiàn)、評論中是否出現(xiàn)主要評論對象的名稱、評論中正面情感詞占比、評論中負面情感詞占比、評論中政府部門相關(guān)詞匯占比這 6 項數(shù)據(jù)作為區(qū)別評論真假性的特征,這里用小寫字母 表示,把這 6 個特征表示為向量形式,特征向量具體表示為 。

      (2)接著將 6 維的評論真假性預(yù)測結(jié)果特征向量映射為 6維空間內(nèi)的一個點,分別選取30個真實評論和虛假評論作為訓練集來對應(yīng)配入 6 維空間,同時利用這些數(shù)據(jù)訓練計算機形成 SVM 分類器,通過線性支持向量分類機算法計算出5 維的超平面(將 6 維空間一分為二的超平面比 6維空間少一維)作為分類邊界將 6 維空間進行二分, 二分后的2個空間分別代表真實評論特性向量的集合和虛假評論特征向量的集合。

      (3)對于一個未知真假性的評論,只需通過評論測試,得出測試結(jié)果。提取測試結(jié)果的特征,再將測試結(jié)果特性以向量的形式給出表示,并將數(shù)值代入訓練后的 S V M 分類器超平面的數(shù)學表達式即可分析該評論的真假性性 :結(jié)果為0,則表示該評論為虛假性評論;結(jié)果為1,則表示該評論為真實性評論。評論真假預(yù)測結(jié)果特征向量在 6 維空間內(nèi)對應(yīng)的點距離超平面的距離越遠,則代表其特征越明顯,即虛假性越高或越低。

      1. 實驗結(jié)果與分析

      2.1 實驗分析

      2.1.1 信息增益

      本實驗以馬航370事件為實驗樣本,由于數(shù)據(jù)集會直接影響實驗的準確性與科學性,為使數(shù)據(jù)集更具代表性和真實性,本文從貼吧、微博中隨機選取150條評論。選擇8名實驗者,分別對所有評論進行虛假評論與真實評論的人工標注,選擇結(jié)果中相同的評論作為本部分實驗的數(shù)據(jù)集。最終數(shù)據(jù)集共103條評論,其中虛假評論40條,非虛假評論63條。本實驗中將評論劃分為2類,T:虛假評論,F(xiàn):非虛假評論。其特征計算方法如下:

      F1=n,(n=0,1)(0:匿名評論者;1:非匿名評論者);

      F2=n,(n=0,1)(0:評論出現(xiàn)次數(shù)超過3次;1:評論出現(xiàn)3次以下);

      F3=n,(n=0,1)(0:評論中不存在主要評論對象的名稱;1:評論中存在主要評論對象的名稱);

      F4=評論中正面情感詞的次數(shù)/評論中出現(xiàn)所有情感詞的次數(shù);

      F5=評論中負面情感詞的次數(shù)/評論中出現(xiàn)所有情感詞的次數(shù);

      F6=評論中政府部門出現(xiàn)的次數(shù)/評論中所有評論對象出現(xiàn)的次數(shù)。

      本實驗對6個特征2個類別的100條評論進行了信息增益的特征權(quán)重計算。權(quán)重計算結(jié)果如表1所示。

      計算結(jié)果表明,6個特征為虛假信息識別提供的信息量由大到小依次為:F6, F4,F(xiàn)5,F(xiàn)2,F(xiàn)1,F(xiàn)3。信息增益值越大,表明該特征對識別虛假信息的影響力越強。由實驗結(jié)果可知,評論中是否出現(xiàn)針對政府部門的攻擊性詞匯是評判虛假信息的重要依據(jù)。情感詞匯也成為虛假信息的重要特征,含有濃厚正面或負面感情色彩的評論使虛假信息的可能性顯著提高。評論是否重復(fù)出現(xiàn)的影響力則相對較小。匿名特征權(quán)值小是當今網(wǎng)絡(luò)平臺(例如微博、貼吧等)強制要求必須注冊賬號才能發(fā)表評論等限制因素造成的。由于評論都圍繞特定民航事件發(fā)表觀點,幾乎均存在評論對象名稱,故該特征權(quán)值相對最小。

      2.1.2 SVM的訓練與預(yù)測

      本實驗使用Matlab實現(xiàn)SVM分類,用訓練集對SVM分類器進行訓練,利用所得模型預(yù)測測試機標簽值。實現(xiàn)使用libsvm工具箱。

      首先建立數(shù)據(jù)集和類別集。數(shù)據(jù)集包括上文確定的6個特征,類別集含有虛假、真實2個類別。

      評論屬性矩陣集如圖2所示。

      3 結(jié)束語

      總體而言,互聯(lián)網(wǎng)虛假評論研究是較新領(lǐng)域,具有廣闊的應(yīng)用前景。目前國內(nèi)外虛假評論研究集中在商品垃圾評論,尚未發(fā)現(xiàn)針對貼吧、微博用戶關(guān)于社會熱門事件所發(fā)表的虛假信息的篩選及研究。本文以馬航370事件作為研究對象,從信息的真實性角度對民航輿情評論的特征進行概述,利用信息增益的方法計算特征權(quán)重,基于文本分類的思想,比較驗證SVM機器模型對虛假評論的識別效果。實驗結(jié)果證明,本文實驗所選取的特征及采用的方法能夠?qū)μ摷僭u論與真實評論進行分類,進而識別虛假評論。未來需要在進一步研究虛假評論的特征、深入分析其產(chǎn)生機理的基礎(chǔ)上,研究更有效的分類及檢測方法。

      參考文獻:

      [1] 李霄,丁晟春. 垃圾商品評論信息的識別研究[J]. 現(xiàn)代圖書情報技術(shù),2013(1):63-68.

      [2] 陳曉美. 網(wǎng)絡(luò)評論觀點知識發(fā)現(xiàn)研究[D].長春:吉林大學,2014.

      [3] 莫倩,楊珂. 網(wǎng)絡(luò)水軍識別研究[J]. 軟件學報,2014,25(7):1505-1526.

      [4] 楊風雷,黎建輝. 用戶生成內(nèi)容中的垃圾意見研究綜述[J]. 計算機應(yīng)用研究,2011,28(10):3601-3605.

      [5] 韓曉暉. Web社會媒體中信息的質(zhì)量評價及應(yīng)用研究[D].濟南:山東大學,2012.

      [6] JINDAL N,LIU B.Analyzing and detecting review spam[C]//Proceeding of the 7th IEEE International Conference on Data Min-ing ( ICDM07 ).Omaha,Nebraska, USA:IEEE Computer Society, 2007: 547-552.

      [7] JINDAL N, LIU B. Review spam detection[C]//Proceedings of the 16th International Conference on World Wide Web.Banff, Al-berta, Canada:ACM, 2007: 1189 -1190.

      [8] LIM EP, NGUYEN VA, JINDAL N, et al. Detecting product review spammers using rating behaviors[C]//Proceedings of the 19th ACM International Conference on Information and Knowledge Man-agement( CIKM10).Toronto, ON, Canada:ACM, 2010: 930 -948.

      [9] MUKHERJEE A, LIU B, WANG J, etal. Detecting group review spam[C]//Proceedings of the 28th ACM International Conference on Information andKnowledge Management.Hyderabad, India:ACM, 2011:1123 -1126.

      [10] BHATTARAI A, RUS V, DASGUPTA D. Characterizing comment spam in the blogosphere through content analysis[C]//Proceedings of IEEE Symposium on Computational Intelligence in Cyber Security (CICS). Nashville, TN:IEEE Computer Society, 2009:37 -44.

      [11] WU G, GREENE D, SMYTH B, etal.Distortion as a validation criterion in the identification of suspicious reviews[C]//Proceedings of the 1st Workshop on Social Media Analytics. Washington, DC, USA: ACM, 2010:10 -13.

      猜你喜歡
      支持向量機特征提取
      基于MED—MOMEDA的風電齒輪箱復(fù)合故障特征提取研究
      基于曲率局部二值模式的深度圖像手勢特征提取
      一種針對特定無線電信號的識別方法
      基于改進支持向量機的船舶縱搖預(yù)報模型
      基于模糊K近鄰的語音情感識別
      基于SVM的煙草銷售量預(yù)測
      動態(tài)場景中的視覺目標識別方法分析
      論提高裝備故障預(yù)測準確度的方法途徑
      基于熵技術(shù)的公共事業(yè)費最優(yōu)組合預(yù)測
      基于支持向量機的金融數(shù)據(jù)分析研究
      中西区| 城市| 专栏| 通辽市| 敖汉旗| 鸡西市| 象山县| 海淀区| 喀喇| 大洼县| 金山区| 麟游县| 阳信县| 沂源县| 德清县| 灌南县| 隆子县| 淮滨县| 唐海县| 陵水| 绥滨县| 家居| 龙海市| 三原县| 苏尼特右旗| 鹿泉市| 安西县| 玉门市| 维西| 电白县| 仁寿县| 伊吾县| 仪征市| 镇安县| 香港 | 博罗县| 静宁县| 赣州市| 普安县| 吉林市| 新沂市|