• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      突發(fā)事件前Twitter用戶言語(yǔ)行為研究:基于機(jī)器學(xué)習(xí)的方法

      2020-04-14 04:54:29曹若凡
      電腦知識(shí)與技術(shù) 2020年4期
      關(guān)鍵詞:文本分類言語(yǔ)行為社交媒體

      摘要:針對(duì)現(xiàn)代恐怖組織利用社交媒體,進(jìn)行在線恐怖宣傳來(lái)策動(dòng)突發(fā)事件的情況,本研究使用機(jī)器學(xué)習(xí)的方法,對(duì)Twit-ter中的相關(guān)文本內(nèi)容進(jìn)行了分析。首先對(duì)推文進(jìn)行了多種預(yù)處理,測(cè)試了三種特征提取的優(yōu)劣,并加入了有言語(yǔ)行為相關(guān)特征的詞典,其次比較了四種分類器在識(shí)別Twitter中用戶言語(yǔ)行為效果上的優(yōu)劣,并進(jìn)行了參數(shù)優(yōu)化。最后將訓(xùn)練好的模型對(duì)某爆炸事件前48小時(shí)的相關(guān)推文進(jìn)行了分析,為今后找到相關(guān)突發(fā)事件發(fā)生前的言語(yǔ)行為變化規(guī)律提供了依據(jù)。

      關(guān)鍵詞:社交媒體;突發(fā)事件;文本分類;言語(yǔ)行為;特征提取

      中圖分類號(hào):TP393

      文獻(xiàn)標(biāo)識(shí)碼:A

      文章編號(hào):1009-3044(2020)04-0188-04

      收稿日期:2019-10-15

      作者簡(jiǎn)介:曹若凡(1995—),男,上海人,研究生在讀,管理學(xué)碩士,主要研究方向?yàn)樽匀徽Z(yǔ)言處理,情感分歧。

      Research on Speech Acts of users in Twitter before the emergency:Based on Machine Learning Methods

      CAO Ruo-fan

      (School of Economics and Management,Tongji University,Shanghai 200092,China)

      Abstract:In response to the modern terrorist organizations which combine the online terrorist attack with offline violent attacks,this pa-per focus on the text content in social media Twitter which related to violent terror,use the speech act theory and the method of machine learning,explore the changes of speech acts of users in Twitter.First,this paper pre-process the text data in Twitter,and use several methods of feature extraction and add the speech acts dictionary to vectorize the tweets for training classifier.Then this paper test Sup-port Vector Machine,Decision Tree,Naive Bayes and Random Forest these four kinds of classifier which can best identify the user' s speech acts in Twitter,this paper adopt precision,recall and F-score these three kinds of measure to evaluate the model and optimize its parameters.At last,this paper use the trained model to analyze the tweet which contained “ISIS" within 48 hours before the Brussels terrorist attacks to automatically recognize the user ' s speech acts.This provide a basis to find the pattern about changes of speech acts be-fore the violent terrorist incidents in the future.

      Key words:social media;violent terrorist incidents;text classification;speech act;feature extraction

      1 概述

      近年來(lái)各類突發(fā)事件呈多發(fā)趨勢(shì),尤其是一些綁架、屠殺、襲擊等暴力恐怖事件。這些事件不僅會(huì)嚴(yán)重威脅人們的生命財(cái)產(chǎn)安全、阻礙著社會(huì)和經(jīng)濟(jì)的發(fā)展,還會(huì)引起公眾的大范圍恐慌情緒,進(jìn)一步影響著社會(huì)秩序的維護(hù)[1]。現(xiàn)代的恐怖組織利用社交媒體,在網(wǎng)絡(luò)上宣傳極端主義、蠱惑民眾、招募成員,通過(guò)在線的方式來(lái)傳遞恐怖信息、實(shí)施恐怖行為[2]。基于此,本.文針對(duì)這一類的突發(fā)事件進(jìn)行了研究,以社交媒體Twitter中的相關(guān)文本為研究對(duì)象,分析了某爆炸事件前用戶的言語(yǔ)行為的變化,以期在未來(lái)可以找到其中的規(guī)律,使得預(yù)測(cè)暴恐事件成為可能,這也許在未來(lái)可以成為新的反恐預(yù)警方式。

      2 文獻(xiàn)綜述

      現(xiàn)代的恐怖組織把社交媒體作為了策劃和發(fā)動(dòng)襲擊的指揮部,將網(wǎng)絡(luò)變成了相互溝通聯(lián)系的橋梁,這進(jìn)一步地增大了傳統(tǒng)反恐的難度,也意味著要引入新的反恐思維和理念來(lái)進(jìn)行應(yīng)對(duì)[3]。但反恐情報(bào)機(jī)構(gòu)同樣可以依托于社交媒體來(lái)獲取更多的相關(guān)信息,從而更有準(zhǔn)備的應(yīng)對(duì)恐怖主義的威脅[4]。一旦及時(shí)捕捉到了相關(guān)信息并且進(jìn)行了應(yīng)對(duì)和防范,那么就完全可以降低恐怖主義的負(fù)面效果,從而成功地阻止恐怖組織的活動(dòng)。然而,現(xiàn)如今反恐情報(bào)機(jī)構(gòu)針對(duì)涉恐信息和相關(guān)賬號(hào)的處理方法,往往還是單一的刪除或是封號(hào)處理,大多數(shù)時(shí)候并沒(méi)有對(duì)其中蘊(yùn)含的內(nèi)容信息進(jìn)行挖掘,這也使得相關(guān)部門并沒(méi)有獲得太多的預(yù)警性的情報(bào)[5]。利用機(jī)器學(xué)習(xí)的技術(shù)對(duì)于社交媒體中的涉恐信息進(jìn)行收集和分析是未來(lái)研究恐怖活動(dòng)的趨勢(shì),也為反恐預(yù)警提供了技術(shù)支持[6]。這既有助于實(shí)現(xiàn)對(duì)威脅人民生命財(cái)產(chǎn)安全的暴力恐怖事件的預(yù)警,也有助于完善國(guó)家的反恐情報(bào)分析,使得情報(bào)機(jī)構(gòu)更加成熟[7],從而更有效的預(yù)防和打擊恐怖主義。

      5 模型應(yīng)用

      本文采用Twitter官方的流API爬取到的某爆炸事件前48小時(shí)的包含恐怖組織信息的相關(guān)推文,共1697條,以12小時(shí)為一段共分為4段。對(duì)其進(jìn)行六種預(yù)處理后推文數(shù)量為1209條,各階段數(shù)據(jù)如表3所示。使用前面訓(xùn)練好的分類器模型來(lái)自動(dòng)識(shí)別這些推文的用戶言語(yǔ)行為,并將言語(yǔ)行為分類的結(jié)果運(yùn)用于暴力恐怖事件前的分析中。

      5.1 分類結(jié)果

      由于其他這一類別是很多不同言語(yǔ)行為類型的組合,即是一個(gè)不同成分的合集,且有言語(yǔ)行為特征的提示詞詞典也是針對(duì)其他四類所組成的詞典,并不包括其他這一類,于是在預(yù)測(cè)暴力恐怖事件時(shí)不考慮這一類別,只考慮陳述、疑問(wèn)、建議、評(píng)論這四類。表4為各個(gè)時(shí)間段這四個(gè)類別的分布,圖2-圖5展示了四類數(shù)據(jù)的分布變化趨勢(shì):

      5.2 言語(yǔ)行為分析

      對(duì)暴力恐怖事件發(fā)生前的整段分析中發(fā)現(xiàn),Twitter中用戶的言語(yǔ)行為分布發(fā)生了明顯的變化,這可能是有恐怖分子在Twitter上正在謀劃或組織著這一次的暴力恐怖事件。若今后Twitter上再出現(xiàn)類似的言語(yǔ)行為分布,這也許就是又有恐怖分子在謀劃暴力恐怖事件的信號(hào),這為今后發(fā)現(xiàn)其中的規(guī)律提供了依據(jù),在未來(lái)一旦發(fā)現(xiàn)了變化規(guī)律就足以使得相關(guān)部門引起警惕和警覺(jué),注意預(yù)防類似事件的發(fā)生,從而避免出現(xiàn)人員傷亡和財(cái)產(chǎn)損失。

      如4.1中的圖表中所示的那樣,疑問(wèn)和建議這兩類的推文在事件前12到24小時(shí)明顯增多,達(dá)到了自己這一類在這四個(gè)時(shí)間段中所占百分比的最大值。相應(yīng)的,評(píng)論和陳述這兩類的推文明顯減少,達(dá)到了自己這一類在這四個(gè)時(shí)間段中所占百分比的最小值。這也許是因?yàn)榭植婪肿釉诤退麄兊闹С终哌M(jìn)行溝通,讓他們的支持者對(duì)他們要進(jìn)行的暴力恐怖襲擊提出疑問(wèn)或者建議。

      而在事件前12個(gè)小時(shí)內(nèi),疑問(wèn)和建議這兩類的推文所占比重有所下降,而評(píng)論和陳述這兩類的推文所占比重有所上升。這也許是因?yàn)榭植婪肿右呀?jīng)確定如果去行動(dòng),并已經(jīng)進(jìn)行最后的準(zhǔn)備,在陳述告知支持者具體的行動(dòng),或向恐怖主義的支持者申請(qǐng)籌款,并且使這些支持者們對(duì)這次的行動(dòng)進(jìn)行評(píng)論。

      本文通過(guò)機(jī)器學(xué)習(xí)的方法,為分析暴力恐怖事件提供了新的思路,也為發(fā)現(xiàn)暴力恐怖事件前的用戶言語(yǔ)行為變化提供了理論依據(jù)。

      6 結(jié)束語(yǔ)

      對(duì)于Twitter中用戶的言語(yǔ)行為的識(shí)別既有理論價(jià)值也有實(shí)際意義。它也引入了一個(gè)新的層面來(lái)研究社交媒體內(nèi)容,以及提供真實(shí)生活的數(shù)據(jù)來(lái)驗(yàn)證言語(yǔ)行為理論。而言語(yǔ)行為理論也為研究Twitter用戶提供了一個(gè)好的窗口,將言語(yǔ)行為理論和數(shù)據(jù)挖掘的方法相結(jié)合,可以更好地識(shí)別出社交媒體中用戶行為的變化。

      而近年來(lái)恐怖組織不僅在線下發(fā)動(dòng)著各類慘絕人寰的爆:炸和屠殺,線上還會(huì)通過(guò)社交媒體宣傳蠱惑和進(jìn)行招募,這嚴(yán)重威脅了人民的生命安全和社會(huì)的穩(wěn)定發(fā)展。所以在未來(lái),自動(dòng)識(shí)別出社交媒體中相關(guān)言語(yǔ)行為的變化規(guī)律,從而預(yù)測(cè)出將要發(fā)生的暴力恐怖事件,來(lái)進(jìn)行控制和預(yù)防有著極大的實(shí)際意義,這也是本文所希望看到的。

      參考文獻(xiàn):

      [1]瞿志凱,蘭月新,夏一雪,等.大數(shù)據(jù)背景下突發(fā)事件情報(bào)分析模型構(gòu)建研究[J].現(xiàn)代情報(bào),2017,37(1):45-50.

      [2]李華偉.社交媒體在“伊斯蘭國(guó)”恐怖活動(dòng)中的作用及監(jiān)管困境[J].宗教社會(huì)學(xué),2017(0):224-242.

      [3]李本先,張薇.反恐情報(bào)2.0:互聯(lián)網(wǎng)時(shí)代的反恐情報(bào)體系[J].情報(bào)雜志,2017,36(10):17-21.

      [4]Amble J C.Combating terrorism in the new media environment[J].Studies in Conflict & Terrorism,2012,35(5):339-353.

      [5]楊增光.社交媒體在反恐情報(bào)工作中的應(yīng)用研究[D].北京:中國(guó)人民公安大學(xué),2017.

      [6]倪葉舟,張鵬,扈翔,等.大數(shù)據(jù)背景下涉恐信息挖掘方法綜述[J].中國(guó)公共安全:學(xué)術(shù)版,2018(4):91-95.

      [7]梅建明.論反恐?jǐn)?shù)據(jù)挖掘[J].中國(guó)人民公安大學(xué)學(xué)報(bào),2007,23(2):24-29.

      [8]Contractor D,Chawda B,Mehta S,et al.Tracking political elections on social media:Applications and experience[C]/Proceedings of the Twenty-Fourth International Joint Conference on Artificial Intelligence,IJCAI.2015:25-31.

      [9]胡婧.基于社交媒體信息的中國(guó)股票交易預(yù)測(cè)研究[D].武漢:武漢理工大學(xué),2017.

      [10]Austin J L.How to do things with words[M].Cambridge:Ox-ford University Press,1975.

      [11]Zhang R,Gao D,Li W.What Are Tweeters Doing:Recognizing Speech Acts in Twitter[C]/In Proceedings of AAAI-11W orkshop on Analyzing Microtext.2011:86-91.

      [12]Searle J R.Indirect speech Acts[M]/Speech Acts.New York::BRILL,,1975:.

      [13]Kaufmann M,Kalita J.Syntactic Normalization of Twitter Messages[C//In Proceedings of International conference on natural on Natural Language Processing,Kharagpur,India.2010.

      [14]Han J W,Kamber M,Pei J.Data cube technology[M]/DataMining.Amsterdam:Elsevier,2012:187-242.

      [15]Sokolova M,Szpakowicz S.Machine learning in natural language processing[M]/Handbook of Research on MachineLearning Applications and Trends,ICI Global,2010:302-324.

      [通聯(lián)編輯:唐一東]

      猜你喜歡
      文本分類言語(yǔ)行為社交媒體
      基于組合分類算法的源代碼注釋質(zhì)量評(píng)估方法
      基于貝葉斯分類器的中文文本分類
      淺談文化對(duì)言語(yǔ)行為的影響
      知識(shí)零售變現(xiàn)模式的問(wèn)題與思考
      基于社交媒體的廣告學(xué)專業(yè)教學(xué)改革與實(shí)踐
      大學(xué)生社交媒體的使用特征、傳播趨向及其對(duì)高校傳播生態(tài)的挑戰(zhàn)
      基于蟻群智能算法的研究文本分類
      “雙微時(shí)代”的危機(jī)傳播趨勢(shì)和影響因素研究
      文本分類算法在山東女子學(xué)院檔案管理的應(yīng)用
      科技視界(2016年24期)2016-10-11 09:36:57
      道歉言語(yǔ)行為的功能
      戲劇之家(2016年16期)2016-09-28 18:56:56
      阿城市| 平山县| 金湖县| 永寿县| 临沭县| 同心县| 乌兰县| 农安县| 都安| 方正县| 屏南县| 牟定县| 韩城市| 定兴县| 康乐县| 西昌市| 石狮市| 蒲江县| 龙门县| 三穗县| 泰宁县| 芜湖县| 侯马市| 东台市| 普格县| 额敏县| 张家界市| 富源县| 安平县| 都匀市| 唐山市| 平泉县| 渑池县| 阳山县| 科尔| 台东县| 永福县| 阿拉善左旗| 德保县| 勐海县| 曲麻莱县|