• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于爬蟲的社交平臺輿情用戶追蹤系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)

      2022-03-11 12:30:44陸莉莉
      電腦知識與技術(shù) 2022年1期
      關(guān)鍵詞:爬蟲輿情

      摘要:社交網(wǎng)絡(luò)用戶言論及關(guān)聯(lián)性問題一直是輿情監(jiān)控的一個(gè)重要工作和難點(diǎn)問題,針對用戶不當(dāng)言論及同一言論下不同用戶之間的關(guān)聯(lián)關(guān)系,文中通過爬蟲和深度學(xué)習(xí)方法,以及大數(shù)據(jù)分析平臺實(shí)現(xiàn)了針對用戶不當(dāng)評論信息來進(jìn)行關(guān)聯(lián)挖掘,通過爬取微博社交平臺數(shù)據(jù)驗(yàn)證了論文提出的系統(tǒng)架構(gòu)和方法,并取得了不錯(cuò)的效果。

      關(guān)鍵詞:爬蟲;輿情;用戶追蹤

      中圖分類號:TP393? ? ? 文獻(xiàn)標(biāo)識碼:A

      文章編號:1009-3044(2022)01-0026-03

      1 背景

      隨著互聯(lián)網(wǎng)的迅速發(fā)展,網(wǎng)絡(luò)社交平臺[1]不斷涌現(xiàn),大家可以隨時(shí)隨地在社交平臺上發(fā)表自己對熱點(diǎn)事件的觀點(diǎn)和想法。由于社交平臺的開放性和普及性,部分用戶利用平臺發(fā)表一些不當(dāng)言論,如發(fā)布虛假消息、反動(dòng)言論等。傳統(tǒng)方式下,只能完全依賴人工去發(fā)現(xiàn)和評審這些言論,雖然準(zhǔn)確率有一定的保證,但是時(shí)間成本和人力成本則不可估量。在這樣的情況下需要借助機(jī)器來進(jìn)行追蹤,以便大大節(jié)省時(shí)間和人力成本。需求分析如下:

      1)借助機(jī)器來對這些相關(guān)言論進(jìn)行評審,并加以人工作為輔助決策。

      2)借助機(jī)器對不當(dāng)言論的用戶進(jìn)行平臺信息追蹤,并可潛在挖掘其他可能存在不當(dāng)言論的用戶。

      3)基于機(jī)器獲取到的大數(shù)據(jù)信息,構(gòu)建專用知識圖譜進(jìn)行數(shù)據(jù)處理。

      2 基于爬蟲的社交平臺輿情用戶追蹤系統(tǒng)設(shè)計(jì)

      2.1 系統(tǒng)設(shè)計(jì)步驟

      基于需求分析,系統(tǒng)設(shè)計(jì)分三步進(jìn)行。

      首先基于深度學(xué)習(xí)[2]實(shí)現(xiàn)機(jī)器評審,將機(jī)器評審問題定義為分類問題,從而基于深度學(xué)習(xí)來構(gòu)建分類模型。首先通過語料庫和分詞構(gòu)建大型中文字典,使用字典映射將文本轉(zhuǎn)換為數(shù)值型向量,然后基于Embedding和LSTM構(gòu)建神經(jīng)網(wǎng)絡(luò)架構(gòu),最后人工標(biāo)注訓(xùn)練集進(jìn)行多輪迭代學(xué)習(xí)。

      然后基于Python爬蟲[3]實(shí)現(xiàn)用戶信息追蹤,針對某一特定社交平臺,設(shè)計(jì)爬蟲方案,使用爬蟲來自動(dòng)獲取某話題下的評論信息、用戶個(gè)人信息、用戶關(guān)注的人的信息、用戶粉絲信息和用戶所發(fā)博文信息。

      最后是基于知識圖譜的數(shù)據(jù)處理,將大數(shù)據(jù)[4]信息解析為三元組數(shù)據(jù),從而構(gòu)建專用的知識圖譜,并可基于該圖譜實(shí)現(xiàn)各類應(yīng)用,如預(yù)測、搜索等。

      2.2 系統(tǒng)流程

      根據(jù)以上分析,基于爬蟲的社交平臺輿情[5]用戶追蹤系統(tǒng)流程如圖1所示。

      1)利用爬蟲技術(shù)爬取微博平臺和外網(wǎng)平臺(如Facebook、推特等)的敏感話題評論,并且人工進(jìn)行標(biāo)注生成訓(xùn)練集,其中不當(dāng)言論標(biāo)記為1,不當(dāng)言論標(biāo)記為0。然后基于深度學(xué)習(xí)技術(shù)在訓(xùn)練集上生成二分類模型。

      2)批量爬取微博平臺的評論,將評論集作為算法的輸入,基于已生成的模型對評論進(jìn)行預(yù)測,如果預(yù)測為負(fù)面的評論,則將該評論人加入用戶隊(duì)列,等待被追蹤,反之,則不處理。

      3)實(shí)時(shí)監(jiān)聽用戶隊(duì)列并不斷從中取出用戶進(jìn)行追蹤,利用爬蟲技術(shù)爬取用戶資料并進(jìn)行收集,包括用戶個(gè)人信息、關(guān)注的人、粉絲和博文。

      4)根據(jù)人際關(guān)系和文本信息分別設(shè)計(jì)打分函數(shù),將已收集的用戶資料輸入至打分函數(shù),計(jì)算得出用戶嫌疑值。

      5)設(shè)定閾值將用戶傳入不同的名單,如果用戶被加入嫌疑榜單,則將該用戶的粉絲加入用戶隊(duì)列,等待被追蹤。

      2.3 系統(tǒng)模塊

      2.3.1 神經(jīng)網(wǎng)絡(luò)模型生成模塊

      神經(jīng)網(wǎng)絡(luò)模型生成模塊使用機(jī)器算法實(shí)現(xiàn)社交平臺中言論的情感識別,代替人工識別言論是否為不當(dāng)言論,從而大幅節(jié)省人力和時(shí)間成本。基于深度學(xué)習(xí)技術(shù)構(gòu)建神經(jīng)網(wǎng)絡(luò)模型,該模型在人工標(biāo)注的訓(xùn)練集上進(jìn)行迭代訓(xùn)練,從而生成二分類模型。

      RNN神經(jīng)網(wǎng)絡(luò)在處理文本類數(shù)據(jù)有很好的表現(xiàn),但是考慮到RNN難以記憶長期的文本信息,所以采用LSTM作為架構(gòu)的核心組件。對于文本的編碼,不采用高維稀疏的one-hot編碼,而是基于任務(wù)訓(xùn)練的過程中自訓(xùn)練Embedding層來對文本進(jìn)行編碼,基于RNN神經(jīng)網(wǎng)絡(luò)文本數(shù)據(jù)處理流程如圖2所示,通過輸入序列檢測目標(biāo)文本,在Embedding層分詞后生成對應(yīng)的向量矩陣,在LSTM層矩陣進(jìn)入長期記憶神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,全連接神經(jīng)網(wǎng)絡(luò)層激活函數(shù),最后自定義判別閾值,以二分類形式進(jìn)行輸出。

      考慮到模型任務(wù)的特殊性,構(gòu)建專有的語料庫并基于該語料庫構(gòu)建映射字典。所有文本經(jīng)過字典映射為數(shù)值索引。

      從微博平臺和外網(wǎng)平臺采集相關(guān)的正負(fù)例數(shù)據(jù)并人工進(jìn)行標(biāo)注作為模型的訓(xùn)練集,其中留出部分訓(xùn)練數(shù)據(jù)作為驗(yàn)證集來驗(yàn)證模型在訓(xùn)練過程中每輪的損失值和精度,通過觀察每輪的參數(shù)來判斷模型訓(xùn)練多少輪,這樣可以防止模型過擬合。將訓(xùn)練好的模型保存為HDF5格式,其中包含架構(gòu)中每個(gè)層的權(quán)重和參數(shù)。當(dāng)使用模型進(jìn)行預(yù)測未知文本時(shí),即加載HDF5文件并重新構(gòu)建出模型。

      2.3.2 追蹤模塊

      基于模型預(yù)測將篩選的可疑用戶加入待追蹤隊(duì)列,追蹤模塊將使用爬蟲技術(shù)對這些用戶資料進(jìn)行收集。包括用戶個(gè)人信息、關(guān)注的人、粉絲和博文。

      針對微博平臺的評論信息和用戶主頁信息,設(shè)計(jì)兩種不同的爬蟲方案。

      1)話題下的評論信息爬取,微博平臺實(shí)施了各種反爬措施,如對訪問頻率的監(jiān)控、頁面所有數(shù)據(jù)使用異步加載和使用JS封裝數(shù)據(jù)請求接口等。對這三種反爬措施采用如下解決方案。

      ①訪問頻率的監(jiān)控:由于評論信息爬取需要首先進(jìn)行登錄驗(yàn)證,所以微博平臺會對該用戶和IP進(jìn)行訪問監(jiān)控,若頻率大于一定人工使用頻率,則IP甚至用戶的賬號會被封。出于該問題的考慮,我們使用瀏覽器提前進(jìn)行登錄,獲取到瀏覽器中的cookie信息并封裝到請求頭中。以及使用代理IP的方式進(jìn)行動(dòng)態(tài)更換請求的IP地址。另一方面,通過sleep函數(shù)使程序更像人工訪問頻率。

      ②數(shù)據(jù)使用異步加載:微博平臺的評論信息全部使用ajax異步加載,這樣導(dǎo)致通過requests發(fā)起的請求獲取到的頁面數(shù)據(jù)是靜態(tài)的,并非包含我們所需的數(shù)據(jù)。我們采取selenium的方式進(jìn)行自動(dòng)模擬人工打開瀏覽器進(jìn)行訪問。

      ③JS封裝數(shù)據(jù)請求接口:微博頁面中數(shù)據(jù)請求接口的url都封裝到JS函數(shù)中,通過獲取到該頁面的html代碼是無法取到該url。我們使用瀏覽器網(wǎng)絡(luò)狀態(tài)進(jìn)行人工實(shí)時(shí)追蹤這些請求url。

      2)用戶主頁信息爬取,微博平臺的官網(wǎng)網(wǎng)址根據(jù)智能終端的不同分為三種,即智能手機(jī)端、電腦端、非智能手機(jī)端。三端的數(shù)據(jù)是互通的,并且反爬強(qiáng)度順序?yàn)殡娔X端〉智能手機(jī)端〉非智能手機(jī)端。為了用戶主頁信息爬取的穩(wěn)定性,使用https://weibo.cn/網(wǎng)址進(jìn)行爬取。針對登錄驗(yàn)證和數(shù)據(jù)解析,采取如下設(shè)計(jì)方案。

      ①登錄驗(yàn)證:采取cookie內(nèi)嵌到請求頭信息中的方式來完成登錄驗(yàn)證,為了防止cookie的失效或者賬戶被封,我們自定義了cookie池,當(dāng)某一個(gè)cookie無法驗(yàn)證成功時(shí),請求頭會自動(dòng)從cookie池中獲取cookie進(jìn)行替換。

      ②數(shù)據(jù)解析:驗(yàn)證成功后,使用requests庫獲取包含用戶數(shù)據(jù)的html代碼,采用xpath來解析代碼,精準(zhǔn)獲取到包含數(shù)據(jù)的標(biāo)簽,對于具有分頁的數(shù)據(jù),通過解析和拼接url進(jìn)行多次請求獲取。

      2.3.3 用戶嫌疑值計(jì)算和判定模塊

      將追蹤模塊收集的用戶資料分為人際關(guān)系和文本信息兩個(gè)方面,設(shè)計(jì)不同的打分函數(shù)量化用戶在該方面的嫌疑值,并且為每個(gè)方面分配權(quán)重,進(jìn)而計(jì)算用戶嫌疑值。設(shè)定閾值,判斷用戶嫌疑值和閾值的大小,如果嫌疑值小于閾值,則將該用戶加入人工判定名單,反之,則加入用戶嫌疑榜單并鏈入知識圖譜。

      基于爬蟲的微博嫌疑值評估計(jì)算流程如圖3所示,如果話題下的評論存在不當(dāng)言論,則爬取用戶及粉絲目錄下的所有博文,并把用戶及粉絲加入一級隊(duì)列,如果博文存在負(fù)面影響,則增加嫌疑值,并加入嫌疑人榜單,若嫌疑值大于閾值,需進(jìn)行人工評審。

      3 基于爬蟲的社交平臺輿情用戶追蹤系統(tǒng)實(shí)現(xiàn)

      1) 建立模型,通過爬蟲隨機(jī)爬取微博8000余條評論作為語料庫,基于該語料庫和Jieba分詞構(gòu)建字典。爬蟲爬取微博敏感主題(如國安法、中印等)下的評論,以及人工采集外網(wǎng)社交平臺(推特、Facebook等)的負(fù)面評論。取其中的1700余條作為訓(xùn)練集并人工進(jìn)行標(biāo)記,正面評論和負(fù)面評論大約各占一半。然后基于Embedding和LSTM深度學(xué)習(xí)技術(shù)來構(gòu)建分類模型。取1/5的訓(xùn)練集作為驗(yàn)證集,模型最佳驗(yàn)證精度達(dá)80%左右。

      2) 追蹤爬取,通過爬蟲方式采集微博平臺的評論集,加載已訓(xùn)練好的模型,對評論集進(jìn)行批量預(yù)測,若某條評論的預(yù)測結(jié)果為負(fù)面,則該評論人會以初始嫌疑值k進(jìn)入待追蹤階段。然后爬取該用戶的微博主頁信息,其中包含關(guān)注的人、粉絲、個(gè)人基本信息、所發(fā)的博文以及博文下的評論。爬取效果如圖4所示。

      3.3 嫌疑值計(jì)算,根據(jù)人際關(guān)系和文本信息兩個(gè)維度分別進(jìn)行打分

      人際關(guān)系打分:若用戶A關(guān)注的人中存在嫌疑用戶B,嫌疑用戶B的嫌疑值越高,那么用戶A存在嫌疑的可能性就越大。若用戶A的粉絲C為嫌疑用戶則無法判定用戶A的嫌疑性?;谶@兩條常識,故人際關(guān)系打分僅考察關(guān)注的人。打分規(guī)則是基于嫌疑用戶榜單,逐一排查用戶A關(guān)注的所有人中是否存在榜單中。每存在一人,則用戶A的嫌疑值加2,無上限。

      文本信息打分:對于博文以用戶A所有博文為單位組成一個(gè)批量,加載模型預(yù)測每條博文。對于博文下的評論是將所有評論添加到擴(kuò)充評論集,并寫入文件中,作為后續(xù)算法的輸入。打分規(guī)則是若某條博文被判定為負(fù)面,則用戶A的嫌疑值加5,無上限。

      用戶嫌疑值=用戶初始嫌疑值+用戶主頁信息嫌疑值,其中用戶初始嫌疑值從評論集或粉絲中產(chǎn)生,用戶主頁信息嫌疑值=人際關(guān)系分?jǐn)?shù)×權(quán)重 + 文本信息分?jǐn)?shù)×權(quán)重。

      3.4 判定階段

      1)設(shè)定用戶嫌疑榜單,用于記錄具備一定嫌疑的用戶,榜單存于數(shù)據(jù)庫中。

      2)設(shè)定人工評判名單,用于保存那些被算法過濾掉的可能不具備嫌疑的用戶,該名單中的所有用戶將由人工進(jìn)行最終評判。由于機(jī)器算法存在一定錯(cuò)誤率,該名單將有助于容忍這種錯(cuò)誤。

      3)設(shè)定嫌疑閾值t,令t=k來保證只要有一定嫌疑可能的用戶就會進(jìn)入到嫌疑榜單和知識圖譜中。

      4)當(dāng)用戶A的嫌疑值大于或等于t,則將用戶A加入嫌疑榜單。

      5)當(dāng)用戶A的嫌疑值大于或等于t,則將用戶A的相關(guān)信息鏈入知識圖譜。

      6)對進(jìn)入嫌疑榜單的用戶A的所有粉絲進(jìn)行逐一排查,若粉絲C已經(jīng)在嫌疑榜單中,則不操作,若不在,則將粉絲C以初始嫌疑值0進(jìn)入待追蹤階段進(jìn)行迭代。

      對微博部分?jǐn)?shù)據(jù)進(jìn)行模擬預(yù)測,負(fù)面評論效果如圖5所示。

      4 結(jié)束語

      通過基于爬蟲的社交平臺輿情用戶追蹤系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn),驗(yàn)證了基于需求點(diǎn)的可行性研究,系統(tǒng)全過程大部分不需要人工參與,多個(gè)目標(biāo)可以同步進(jìn)行檢測,相互不影響。在實(shí)時(shí)熱門的評論下,一旦出現(xiàn)不良言論即可開始追蹤,對其微博博文的搜查提高精度。由此證明,借助機(jī)器在很大程度上可以節(jié)省大量的人力和時(shí)間成本。但由于短時(shí)間和人工標(biāo)注,目前代碼的訓(xùn)練集僅有1700余條(正負(fù)例約各一半),屬于小樣本訓(xùn)練。另外,負(fù)例數(shù)據(jù)難以找尋,導(dǎo)致訓(xùn)練集的數(shù)據(jù)規(guī)模難以短時(shí)間擴(kuò)大,所以模型的泛化能力不強(qiáng)。

      參考文獻(xiàn):

      [1] 王建慶.基于深度學(xué)習(xí)的社交平臺評論情感分析研究[D].青島:青島科技大學(xué),2020.

      [2] 蔣彭.基于深度學(xué)習(xí)的情感分類及其在輿情分析中的應(yīng)用[D].南昌:南昌大學(xué),2020.

      [3] 田煜.基于語義情感分析的網(wǎng)絡(luò)熱點(diǎn)爬蟲輿情分析系統(tǒng)[J].軟件,2020,41(8):89-93.

      [4] 劉斌.基于大數(shù)據(jù)的網(wǎng)絡(luò)輿情分析方法研究[J].電腦知識與技術(shù),2020,16(30):25-27.

      [5] 袁志遠(yuǎn),徐懷超,郭金順,等.基于大數(shù)據(jù)的網(wǎng)絡(luò)輿情分析系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].西藏科技,2020(12):76-80.

      【通聯(lián)編輯:謝媛媛】

      收稿日期:2021-09-16

      作者簡介:陸莉莉(1978—),女,江蘇南京人,副教授,碩士,研究方向?yàn)榇髷?shù)據(jù)爬蟲。

      3445500589208

      猜你喜歡
      爬蟲輿情
      利用網(wǎng)絡(luò)爬蟲技術(shù)驗(yàn)證房地產(chǎn)灰犀牛之說
      基于Python的網(wǎng)絡(luò)爬蟲和反爬蟲技術(shù)研究
      利用爬蟲技術(shù)的Geo-Gnutel la VANET流量采集
      電子測試(2018年1期)2018-04-18 11:53:04
      大數(shù)據(jù)背景下校園輿情的爬蟲應(yīng)用研究
      電子制作(2018年2期)2018-04-18 07:13:42
      數(shù)字輿情
      大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲技術(shù)
      電子制作(2017年9期)2017-04-17 03:00:46
      輿情
      中國民政(2016年16期)2016-09-19 02:16:48
      輿情
      中國民政(2016年10期)2016-06-05 09:04:16
      輿情
      中國民政(2016年24期)2016-02-11 03:34:38
      基于Heritrix的主題爬蟲在互聯(lián)網(wǎng)輿情系統(tǒng)中應(yīng)用
      自治县| 玉林市| 景德镇市| 鄄城县| 渭源县| 喀什市| 乌兰浩特市| 赤壁市| 阳山县| 色达县| 温宿县| 镇康县| 金平| 兴海县| 西盟| 甘肃省| 宜川县| 香格里拉县| 延安市| 成都市| 安陆市| 五莲县| 广饶县| 射阳县| 乌海市| 巍山| 石城县| 原平市| 都昌县| 兰坪| 衡阳县| 高安市| 繁昌县| 玉田县| 汉源县| 顺昌县| 河池市| 德惠市| 沛县| 伊川县| 且末县|