• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      網(wǎng)絡(luò)輿情熱點(diǎn)獲取與分析算法研究

      2019-05-24 14:17:58徐建國(guó)藺珍張鵬
      軟件導(dǎo)刊 2019年5期
      關(guān)鍵詞:means聚類網(wǎng)絡(luò)輿情

      徐建國(guó) 藺珍 張鵬

      摘 要:從新聞網(wǎng)頁(yè)中自動(dòng)獲取大量輿情數(shù)據(jù),經(jīng)過(guò)熱點(diǎn)提取算法劃分到不同話題簇中,并獲取網(wǎng)絡(luò)輿情最新熱點(diǎn)。通過(guò)網(wǎng)絡(luò)輿情變動(dòng)周期把握輿情隨時(shí)間發(fā)展情況,利用中文分詞提取每篇新聞關(guān)鍵詞,并對(duì)網(wǎng)頁(yè)集合利用改進(jìn)K-Means算法進(jìn)行分析獲得熱點(diǎn),從而獲取某事件由出現(xiàn)到消亡過(guò)程中的熱點(diǎn)遷移。改進(jìn)的K-Means算法能有效分析獲取的熱點(diǎn),有利于政府通過(guò)網(wǎng)絡(luò)輿情熱點(diǎn)掌握最新輿論動(dòng)態(tài),引導(dǎo)公眾正確看待問(wèn)題,營(yíng)造積極、健康的社會(huì)氛圍。

      關(guān)鍵詞:網(wǎng)絡(luò)輿情;輿情熱點(diǎn);K-means聚類;話題簇

      DOI:10. 11907/rjdk. 182597

      中圖分類號(hào):TP312 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-7800(2019)005-0093-05

      Abstract:This paper automatically obtains a large amount of public opinion data from the news webpages, and divides them into different topic clusters through the hotspot extraction algorithm, and obtains the latest hotspots of the network public opinion. The development of public opinion over time are grasped through the network public opinion change cycle, Chinese word segmentation is used to extract the keywords of each news, and the improved algorithm of K-Means algorithm is used for web page collection to obtain hotspots, so as to obtain an event from appearance to hotspot migration during the demise. The improved algorithm of K-Means algorithm can effectively analyze the hotspots obtained. It is beneficial for the government to grasp the latest public opinion dynamics through online public opinion hotspots, guide the public to correctly treat problems and create a positive and healthy social atmosphere.

      Key Words: network public opinion; public opinion hotspots; K-means clustering; topic cluster

      0 引言

      隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,網(wǎng)絡(luò)媒體已成為人們獲取信息的主要途徑。網(wǎng)絡(luò)輿情是指在互聯(lián)網(wǎng)上流行的對(duì)社會(huì)事件的不同網(wǎng)絡(luò)輿論,公眾可以暢所欲言,行使自己的監(jiān)督權(quán)、知情權(quán)、表達(dá)權(quán)與參與權(quán),從而在一定程度上影響了國(guó)家網(wǎng)絡(luò)安全。因此,需要對(duì)網(wǎng)絡(luò)輿情進(jìn)行分析、監(jiān)控與引導(dǎo),以及時(shí)防范誤導(dǎo)性言論造成社會(huì)危害。

      網(wǎng)絡(luò)輿情是指由于各種事件刺激產(chǎn)生的通過(guò)互聯(lián)網(wǎng)傳播的人們對(duì)于該事件所有認(rèn)知、態(tài)度、情感與行為傾向的集合[1]。網(wǎng)絡(luò)輿情熱點(diǎn)獲取是指“對(duì)廣大網(wǎng)民關(guān)于網(wǎng)絡(luò)輿情的關(guān)注點(diǎn)以及后續(xù)發(fā)展關(guān)注度集合的掌控”。國(guó)內(nèi)外研究者運(yùn)用不同方法與技術(shù)實(shí)現(xiàn)網(wǎng)絡(luò)輿情熱點(diǎn)獲取,并對(duì)獲取過(guò)程中采用的相關(guān)算法進(jìn)行研究。Manquan等[2]利用層次聚類算法,按時(shí)間順序?qū)π侣務(wù)Z料進(jìn)行分組,從而有效避免了將內(nèi)容相似,但實(shí)際上是兩個(gè)完全不同話題的報(bào)道聚合在一起,而且通過(guò)組間聚類可以使時(shí)間跨度較大的話題合并成一個(gè)話題;Makkonen等[3]對(duì)TDT探索過(guò)程中出現(xiàn)的技術(shù)進(jìn)行總結(jié),如正文提取、檢索和過(guò)濾、文本分類等;Yang&Ault等采用K最近鄰算法與Rocchio進(jìn)行話題跟蹤研究;Cui&Kitagawa提出一種基于文本到達(dá)率與文本相關(guān)度的話題活躍程度分析方法;Kleinberg認(rèn)為話題報(bào)道數(shù)量會(huì)在不同水平之間躍遷,增長(zhǎng)率突然升高的詞很可能會(huì)成為熱點(diǎn)話題的表征詞,因此提出突發(fā)檢測(cè)算法;Zheng等[4]利用 Aging Theory對(duì)論壇中的熱點(diǎn)話題進(jìn)行識(shí)別,從而快速挖掘任意時(shí)間段內(nèi)的熱點(diǎn)話題。

      雖然國(guó)內(nèi)在該領(lǐng)域的研究起步較晚,但很多學(xué)者對(duì)其進(jìn)行了大量研究,也取得了較多成果。通過(guò)各種聚類算法對(duì)信息進(jìn)行分類,已有算法包括:K-mean算法、PAM算法、ARHP算法、OPTICS算法、PDDP算法與DBSCAN算法等。黃敏、胡學(xué)鋼以輿情網(wǎng)絡(luò)為節(jié)點(diǎn)、以鏈接關(guān)系為邊搭建網(wǎng)絡(luò)輿情傳播網(wǎng),采用PageRank與 Hits 算法挖掘網(wǎng)絡(luò)輿情熱點(diǎn);韓晨靖[5]在已有聚類算法基礎(chǔ)上創(chuàng)新性地添加可從標(biāo)題提取特征詞并改進(jìn)文檔相似度的算法,以提高網(wǎng)絡(luò)輿情熱點(diǎn)獲取準(zhǔn)確率;王宏偉[6]對(duì)新聞報(bào)道與網(wǎng)民評(píng)論進(jìn)行研究,首先考慮新聞報(bào)道特點(diǎn)和話題的多中心性,對(duì)原有聚類算法進(jìn)行改進(jìn);其次,修改網(wǎng)民發(fā)表評(píng)論的非正式人名,借助頻繁模式算法尋找評(píng)論出現(xiàn)的頻繁模式。專家學(xué)者們通過(guò)對(duì)網(wǎng)絡(luò)輿情的不斷深入研究,相關(guān)思想與技術(shù)日趨成熟,對(duì)于熱點(diǎn)的獲取也更加準(zhǔn)確。

      1 研究設(shè)計(jì)

      1.1 數(shù)據(jù)來(lái)源與采集

      鳳凰網(wǎng)新聞通常是對(duì)多個(gè)新聞網(wǎng)頁(yè)的整合,因此本文以鳳凰網(wǎng)為例進(jìn)行分析,可獲得較為全面的信息。網(wǎng)絡(luò)輿情數(shù)據(jù)主要來(lái)自爬蟲(chóng)采集[7],爬蟲(chóng)采集是指利用種子鏈接向 Web 服務(wù)器發(fā)送 HTTP 請(qǐng)求,以獲取當(dāng)前網(wǎng)頁(yè)內(nèi)容,并分析得出其它所有鏈接,依據(jù)一定篩選標(biāo)準(zhǔn)從中選取某些鏈接加入下載隊(duì)列,重復(fù)以上過(guò)程直至達(dá)到停止條件。

      1.2 數(shù)據(jù)預(yù)處理

      數(shù)據(jù)預(yù)處理主要包括數(shù)據(jù)清理、數(shù)據(jù)集成和數(shù)據(jù)規(guī)約,本文主要進(jìn)行數(shù)據(jù)清洗與數(shù)據(jù)存儲(chǔ)。首先通過(guò)爬蟲(chóng)采集網(wǎng)頁(yè)元數(shù)據(jù),然后進(jìn)行相應(yīng)處理如刪除原始數(shù)據(jù)集中無(wú)關(guān)數(shù)據(jù)、平滑噪聲數(shù)據(jù)等,最后將處理完的數(shù)據(jù)存入數(shù)據(jù)庫(kù)以備后續(xù)查找等[8]。

      從新聞網(wǎng)頁(yè)上爬取的網(wǎng)絡(luò)輿情數(shù)據(jù)長(zhǎng)短不同,如果對(duì)整篇文章進(jìn)行處理會(huì)影響分析效率。但是每篇新聞主旨都能用幾個(gè)簡(jiǎn)單的詞進(jìn)行概括,因此只需提取能真實(shí)反映文章主旨的詞即可,這些詞稱為關(guān)鍵詞。經(jīng)過(guò)中文分詞后,每篇新聞都能得到對(duì)應(yīng)關(guān)鍵詞,然后利用Jieba分詞技術(shù)[9]根據(jù)詞頻對(duì)詞語(yǔ)進(jìn)行排序。候選集特征向量是出現(xiàn)頻次更高的若干詞語(yǔ),計(jì)算出每個(gè)詞語(yǔ)權(quán)重,將上述候選集用文本描述成由不重復(fù)詞組成的表,轉(zhuǎn)換成系統(tǒng)可處理的文本特征向量即轉(zhuǎn)換成功[10]。

      系統(tǒng)構(gòu)建SVM向量模型[11],在具體操作中,將每個(gè)網(wǎng)頁(yè)都采用一個(gè)散列映射表變量與之對(duì)應(yīng),由此形成詞、權(quán)重值的對(duì)應(yīng)關(guān)系,其網(wǎng)頁(yè)i變量定義為:Hashmap< String,Double> page[i]= new Hash-map。

      從去除停用詞的n個(gè)特征詞中選取m個(gè)(m

      根據(jù)抓取的熱點(diǎn)事件[14],對(duì)熱點(diǎn)詞隨時(shí)間的變遷進(jìn)行分析,基本可以確定熱點(diǎn)事件變動(dòng)周期[15]。該變動(dòng)周期形式主要分為梯形、單峰型、波浪形或其組合形式[16]。

      1.3 基于模糊粒度的K-means算法設(shè)計(jì)

      通過(guò)對(duì)K-means聚類算法的分析發(fā)現(xiàn):K值需要事先給定,初始中心點(diǎn)選取對(duì)聚類結(jié)果影響較大,且聚類結(jié)果對(duì)異常點(diǎn)較為敏感。針對(duì)中心點(diǎn)選取對(duì)聚類結(jié)果敏感的缺點(diǎn),本文對(duì)K-means聚類算法進(jìn)行改進(jìn),提出一種基于模糊粒度的K-means聚類算法[17]。

      定義1:普通關(guān)系。設(shè)X、Y是兩個(gè)非空集合,X×Y的每一個(gè)子集R稱為X到Y(jié)的一個(gè)普通關(guān)系。

      定義2:模糊關(guān)系。給定論域U和V,直積U×V={(u,v)|u∈u,v∈V}的每一個(gè)模糊子集R稱為U到V的模糊關(guān)系。

      模糊關(guān)系R由其隸屬函數(shù)μR完全確定,對(duì)任意(μ0, υ0)∈U×V,μR(μ0,υ0)表示(μ0,υ0)具有關(guān)系R的程度。

      模糊關(guān)系R是X×Y中的一個(gè)模糊子集。

      設(shè)R為U上的一個(gè)模糊關(guān)系,若R滿足下列條件:①自反性,即μR(x,x)=1,x∈U;②對(duì)稱性,即μR(x,y)=μR(y,x),x,y∈U;③傳遞性,即R2?R。算法具體步驟如下:

      (1)信息采集與清洗[18]。根據(jù)分制算法將參數(shù)d所在理論區(qū)間劃分為較小區(qū)間,依據(jù)不同的d進(jìn)行聚類,并去掉效果不好的區(qū)間。

      (2)從數(shù)據(jù)集X中隨機(jī)選取k個(gè)數(shù)據(jù)對(duì)象,并將其設(shè)定為初始聚類中心,則形成初始聚類中心點(diǎn)C1,C2,…,Ck,數(shù)據(jù)集即可確定劃分成k類。

      (3)分別計(jì)算數(shù)據(jù)集中剩下每個(gè)數(shù)據(jù)對(duì)象到k個(gè)初始中心點(diǎn)的距離,將每一數(shù)據(jù)對(duì)象根據(jù)距離就近劃分到最相近的類中,從而形成以k個(gè)初始中心點(diǎn)為中心的類。例如,數(shù)據(jù)對(duì)象Xp離中心點(diǎn)[Ci](i≤k)最近,因此將數(shù)據(jù)對(duì)象Xp劃分到[Ci]類中。

      (4)根據(jù)公式[Ci=1nix=wiX],重新計(jì)算每一個(gè)聚類的中心點(diǎn),即得到C*1,C*2,…,C*k。

      (5)重復(fù)步驟(3)、(4),直到重新計(jì)算后的聚類中心點(diǎn)與計(jì)算前的聚類中心點(diǎn)相同,任何變化都未發(fā)生,說(shuō)明聚類結(jié)果已達(dá)到收斂,輸出聚類結(jié)果。

      根據(jù)K-means算法基本原理,下面給出基于模糊粒度的K-means聚類算法簡(jiǎn)易流程,如圖1所示。

      模糊粒度計(jì)算方法即先利用分治算法思想將參數(shù)值d所在理論區(qū)間分解成較小區(qū)間,在每一個(gè)小區(qū)間上選取一個(gè)距離空間數(shù)作為dθ值,依據(jù)不同dθ值分別對(duì)數(shù)據(jù)集進(jìn)行聚類,去掉聚類效果不好的區(qū)間,然后利用連續(xù)屬性離散化思想對(duì)剩余區(qū)間進(jìn)行離散。dθ取遍離散化后的區(qū)間端點(diǎn)值對(duì)數(shù)據(jù)集進(jìn)行聚類,利用95%有序BWP指標(biāo)值的均值衡量聚類結(jié)果,均值越大,說(shuō)明聚類效果越好,最大均值對(duì)應(yīng)最好的聚類結(jié)果。粒度值d由粗變細(xì)的過(guò)程便會(huì)產(chǎn)生動(dòng)態(tài)聚類結(jié)果,粒度越粗,劃分區(qū)間越大,對(duì)異常點(diǎn)敏感問(wèn)題則處理得越好,但同時(shí)數(shù)據(jù)失真度也越大;粒度越細(xì),異常點(diǎn)對(duì)聚類結(jié)果影響越大,但數(shù)據(jù)真實(shí)度高。該改進(jìn)算法解決了K-means聚類算法聚類數(shù)需要事先給定,以及對(duì)初始中心點(diǎn)選取與異常點(diǎn)較敏感的問(wèn)題[19]。

      將互聯(lián)網(wǎng)獲取的新聞網(wǎng)頁(yè)數(shù)據(jù)通過(guò)熱點(diǎn)提取算法劃分到不同話題簇中是網(wǎng)絡(luò)輿情熱點(diǎn)提取的主要模式,并可在需要時(shí)擴(kuò)充新的話題簇[20]。該模式可幫助人們快速發(fā)現(xiàn)有用信息,并了解與監(jiān)督網(wǎng)絡(luò)整體輿論情況。實(shí)驗(yàn)需要準(zhǔn)備的數(shù)據(jù)為包含n個(gè)數(shù)據(jù)對(duì)象的數(shù)據(jù)庫(kù),即通過(guò)網(wǎng)頁(yè)分析獲得的網(wǎng)頁(yè)內(nèi)容,以及滿足方差最小標(biāo)準(zhǔn)的k個(gè)聚類輸出,輸出的k個(gè)聚類即為k個(gè)熱點(diǎn)。

      2 實(shí)驗(yàn)與分析

      本實(shí)驗(yàn)以鳳凰網(wǎng)2016年11月1號(hào)-2017年5月1號(hào)的新聞為例,對(duì)網(wǎng)絡(luò)輿情獲取過(guò)程進(jìn)行完整演示,并對(duì)結(jié)果進(jìn)行分析。

      首先通過(guò)關(guān)鍵詞“樸槿惠”、“崔順實(shí)”獲得所有相關(guān)新聞與帶有關(guān)鍵信息的URL,通過(guò)“查看網(wǎng)頁(yè)源代碼”可以找到網(wǎng)頁(yè)特點(diǎn),標(biāo)題存放在

      中,時(shí)間存放在中,內(nèi)容存放在

      中。

      標(biāo)題:

      李克強(qiáng)一句“煤亮子”鼓勵(lì),礦工們變身“雙創(chuàng)”秀才

      時(shí)間:2016-11-20 20:43:03

      內(nèi)容:

      原標(biāo)題:總理一句;煤亮子;鼓勵(lì),山西官地礦工們變身;雙創(chuàng);秀才

      將每篇新聞的標(biāo)題、時(shí)間、內(nèi)容從標(biāo)記中提取出來(lái)并導(dǎo)入數(shù)據(jù)庫(kù),共獲得456條信息,作為網(wǎng)絡(luò)簇特征詞獲取的測(cè)試樣本,信息格式如圖2所示。

      為了對(duì)數(shù)據(jù)庫(kù)中的網(wǎng)頁(yè)新聞集合特點(diǎn)進(jìn)行分析,統(tǒng)計(jì)在某時(shí)間區(qū)間內(nèi)出現(xiàn)的新聞主題報(bào)道數(shù)量,可以更清晰地看到公眾或媒體對(duì)于該主題的關(guān)注度變化情況,從而了解該主題出現(xiàn)、高潮、消亡的區(qū)間。如圖2所示,以“樸槿惠”、“崔順實(shí)”為主題的新聞從2016年10月26號(hào)開(kāi)始出現(xiàn),到2016年11月2日新聞數(shù)量達(dá)到67篇,其呈現(xiàn)的周期形式為單峰型;2016年11月2日-12月21日新聞數(shù)量有所減少,說(shuō)明該事件沒(méi)有新的進(jìn)展;2016年12月21日-1月11日平均每7天新增47篇報(bào)道,其呈現(xiàn)的周期形式為梯形,說(shuō)明在此期間該事件可能激化了新的矛盾;之后新聞數(shù)量逐漸減少,意味著人們對(duì)該事件關(guān)注度下降,該事件已不能再稱為“熱點(diǎn)”[21]。

      在對(duì)熱點(diǎn)整體發(fā)展情況進(jìn)行預(yù)判之后,采用先整體后局部的方法進(jìn)行分析。為了提高分析效率,在中文分詞之前將每條記錄中的content內(nèi)容導(dǎo)出數(shù)據(jù)庫(kù),用Jieba技術(shù)進(jìn)行分詞并將結(jié)果寫入txt文本中,其中3篇新聞分詞如表2所示。獲得每篇新聞分詞結(jié)果后,需要對(duì)出現(xiàn)的詞語(yǔ)進(jìn)行TF-IDF值計(jì)算[22],并建立向量矩陣[23],例如第一頁(yè)新聞的TF-IDF權(quán)重如表3所示。

      對(duì)每篇網(wǎng)頁(yè)TD-IDF權(quán)重組成的矩陣作K-means聚類分析,為了避免難以選擇K-means聚類簇個(gè)數(shù)的缺陷,將k值從3~7測(cè)試一遍,從而找到最佳測(cè)試結(jié)果,并將結(jié)果進(jìn)行可視化。

      圖4表示未進(jìn)行聚類分析的網(wǎng)絡(luò)輿情熱點(diǎn)情況,圖5、圖6分別顯示的是k=3、k=4的輿情熱點(diǎn)情況。

      根據(jù)以上聚類結(jié)果導(dǎo)出新聞網(wǎng)頁(yè)關(guān)鍵詞如表4所示,這些關(guān)鍵詞TF-IDF的權(quán)重值大于0.4,代表了在討論樸槿惠、崔順實(shí)過(guò)程中公眾關(guān)注的其它熱點(diǎn)。

      根據(jù)文本聚類可以看出,整個(gè)網(wǎng)頁(yè)集合的熱點(diǎn)主要是“樸槿惠、崔順實(shí)之間的親密關(guān)系是否對(duì)韓國(guó)造成影響”,其它小分支熱點(diǎn)是公眾關(guān)注此次事件其它涉案企業(yè)或人員所衍生出的。同時(shí)這些熱點(diǎn)可能朝著新的方向發(fā)展,網(wǎng)絡(luò)輿情也會(huì)隨之變化,如鄭尤拉走后門事件將引發(fā)公眾對(duì)其他富二代不公平入學(xué)事件的關(guān)注、樸槿惠下臺(tái)之后韓國(guó)公眾將重新投票選舉總統(tǒng),以及經(jīng)過(guò)彈劾事件后,公眾選擇標(biāo)準(zhǔn)可能會(huì)更關(guān)注下一任總統(tǒng)的清廉作風(fēng)等。

      3 結(jié)語(yǔ)

      本文從網(wǎng)頁(yè)新聞采集入手,再對(duì)采集的網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行預(yù)處理,得到中文分詞矩陣進(jìn)行降維,以便得到聚類分析需要使用的數(shù)據(jù),最后對(duì)得到的網(wǎng)絡(luò)輿情話題進(jìn)行分析。本文對(duì)該研究過(guò)程不斷改進(jìn),以獲得更加精確的熱點(diǎn),取得了以下研究成果:

      (1)通過(guò)對(duì)鳳凰網(wǎng)網(wǎng)頁(yè)內(nèi)容的分析與凈化,提高了數(shù)據(jù)庫(kù)中導(dǎo)入新聞網(wǎng)頁(yè)的相關(guān)度和純凈度,保證了數(shù)據(jù)的全面性,不需要任何人工干預(yù)。同時(shí),在具體聚類之前將數(shù)據(jù)庫(kù)中所有新聞網(wǎng)頁(yè)按時(shí)間順序進(jìn)行統(tǒng)計(jì),可以看出每個(gè)時(shí)間區(qū)間發(fā)布的新聞數(shù)量,從而對(duì)熱點(diǎn)發(fā)展過(guò)程產(chǎn)生初步了解。

      (2)對(duì)網(wǎng)頁(yè)進(jìn)行中文分詞,將本篇新聞出現(xiàn)次數(shù)較多的詞語(yǔ)作為新聞關(guān)鍵詞,并對(duì)所有新聞集合的關(guān)鍵詞進(jìn)行K-means聚類,從中提取共同關(guān)鍵詞即是其所在簇的中心話題。

      然而,本研究還有待完善,如何更加全面、準(zhǔn)確地獲取輿情熱點(diǎn),并對(duì)輿情情感進(jìn)行分類仍需要未來(lái)作更深入研究。

      參考文獻(xiàn):

      [1] 曾潤(rùn)喜. 網(wǎng)絡(luò)輿情管控工作機(jī)制研究[J]. 圖書情報(bào)工作,2009(18):79-82.

      [2] 王玉珍. 網(wǎng)絡(luò)輿情熱點(diǎn)發(fā)現(xiàn)綜述[J]. 內(nèi)蒙古科技與經(jīng)濟(jì),2015(16):66-67,145.

      [3] 張玉芳,萬(wàn)斌候,熊忠陽(yáng). 文本分類中的特征降維方法研究[J]. 計(jì)算機(jī)應(yīng)用研究,2012(7):2542-2543.

      [4] 柳虹,徐金華. 網(wǎng)絡(luò)輿情熱點(diǎn)發(fā)現(xiàn)研究[J]. 科技通報(bào),2011(3):421-425.

      [5] 陳瑜,韓晨靖. 淺談文本聚類算法對(duì)網(wǎng)絡(luò)熱點(diǎn)發(fā)現(xiàn)精準(zhǔn)度的影響[J]. 中國(guó)管理信息化,2017(17):194-195.

      [6] 陳君. 互聯(lián)網(wǎng)隱式文本特征的提取[J]. 電子技術(shù)與軟件工程,2017(23):155-156.

      [7] 程田. 網(wǎng)絡(luò)信息抓取技術(shù)大揭秘[J]. 課堂內(nèi)外:科學(xué)Fans,2016(7):32-33.

      [8] 于營(yíng). 面向微博的網(wǎng)絡(luò)爬蟲(chóng)數(shù)據(jù)采集[J]. 信息系統(tǒng)工程,2017(12):36-37.

      [9] 徐明磊,趙博文,諸葛福民. 高校網(wǎng)絡(luò)輿情獲取方法研究[J]. 軟件導(dǎo)刊,2018(17):48-50.

      [10] 孫雪凡. 試論新形勢(shì)下網(wǎng)絡(luò)輿情的發(fā)展對(duì)思想政治教育載體的影響[J]. 法制博覽,2013(4):285-286.

      [11] 梁永春,焦文強(qiáng),田立勤. 基于大數(shù)據(jù)新聞網(wǎng)站文本挖掘的網(wǎng)絡(luò)輿情監(jiān)測(cè)設(shè)計(jì)與實(shí)現(xiàn)[J]. 華北科技學(xué)院學(xué)報(bào),2018(4):82-87.

      [12] 鄧先均,楊雅茜,羅昭,等. 網(wǎng)絡(luò)輿情熱點(diǎn)話題檢測(cè)聚類算法研究[J]. 數(shù)字技術(shù)與應(yīng)用,2018(5):146-149.

      [13] 陳珂,藍(lán)鼎棟,柯文德,等. 基于Java的新浪微博爬蟲(chóng)研究與實(shí)現(xiàn)[J]. 計(jì)算機(jī)技術(shù)與發(fā)展,2017(9):191-196.

      [14] 梁喜濤,顧磊. 中文分詞與詞性標(biāo)注研究[J]. 計(jì)算機(jī)技術(shù)與發(fā)展,2015(2):175-180.

      [15] 張世軍,程國(guó)勝,蔡吉花,等. 基于網(wǎng)絡(luò)輿情支持向量機(jī)的股票價(jià)格預(yù)測(cè)研究[J]. 數(shù)學(xué)的實(shí)踐與認(rèn)識(shí),2013(24):33-40.

      [16] 薛可,許桂蘋,趙袁軍. 熱點(diǎn)事件中的網(wǎng)絡(luò)輿論:緣起、產(chǎn)生、內(nèi)涵與層次研究[J]. 情報(bào)雜志,2018(8):78-83.

      [17] 張霞,王素貞,尹怡欣,等. 基于模糊粒度計(jì)算的K-means文本聚類算法研究[J]. 計(jì)算機(jī)科學(xué),2010(2):209-211.

      [18] 康鯤鵬. 基于大數(shù)據(jù)的數(shù)據(jù)清洗研究[J]. 江西科學(xué),2018(4):654-657.

      [19] 費(fèi)賢舉,劉金碩,田國(guó)忠. 基于模糊近似空間組合度量的特征選擇算法[J]. 計(jì)算機(jī)工程與設(shè)計(jì),2018(7):1911-1916.

      [20] 龍志祎,程葳. 基于詞聚類的熱點(diǎn)話題檢測(cè)算法[J]. 計(jì)算機(jī)工程與設(shè)計(jì),2011(6):2214-2217.

      [21] 張一文,齊佳音,方濱興,等. 非常規(guī)突發(fā)事件網(wǎng)絡(luò)輿情熱度評(píng)價(jià)指標(biāo)體系構(gòu)建[J]. 情報(bào)雜志,2010(11): 71-75,117.

      [22] 于韜,王洪巖. 基于TF-IDF算法的文本信息提取[J]. 科技視界,2018(16):117-118.

      [23] 張宸,韓夏. 大數(shù)據(jù)環(huán)境下基于SVM-WNB的網(wǎng)絡(luò)輿情分類研究[J]. 統(tǒng)計(jì)與決策,2017(14):45-48.

      (責(zé)任編輯:黃 ?。?/p>

      猜你喜歡
      means聚類網(wǎng)絡(luò)輿情
      基于“粉絲經(jīng)濟(jì)”的自媒體社群用戶消費(fèi)意愿研究
      網(wǎng)絡(luò)輿情事件的引導(dǎo)策略分析
      數(shù)據(jù)挖掘技術(shù)在網(wǎng)絡(luò)輿情管理中的研究
      “互聯(lián)網(wǎng)+”背景下高校平安校園建設(shè)研究
      淺析網(wǎng)絡(luò)輿情治理
      基于社會(huì)穩(wěn)定視角的網(wǎng)絡(luò)輿情預(yù)警機(jī)制構(gòu)建的思考
      今傳媒(2016年9期)2016-10-15 22:02:52
      人工神經(jīng)網(wǎng)絡(luò)在聚類分析中的運(yùn)用
      突發(fā)事件網(wǎng)絡(luò)輿情的演化規(guī)律與監(jiān)控
      雹云圖像的識(shí)別指標(biāo)設(shè)計(jì)
      基于QPSO聚類算法的圖像分割方法
      科技視界(2016年12期)2016-05-25 11:54:25
      河池市| 新和县| 蓬溪县| 洛扎县| 西和县| 边坝县| 子洲县| 渭南市| 五大连池市| 六安市| 文安县| 从化市| 得荣县| 萨迦县| 天祝| 绥化市| 邓州市| 墨玉县| 咸宁市| 儋州市| 东源县| 高安市| 琼结县| 西青区| 新宾| 江源县| 古浪县| 金昌市| 龙川县| 扎兰屯市| 宜兴市| 米脂县| 正宁县| 关岭| 林西县| 喀什市| 吉木乃县| 石门县| 滨州市| 昭通市| 库车县|