鐘 磊
(新疆財經(jīng)大學(xué) 信息管理學(xué)院,新疆 烏魯木齊 830012)
根據(jù)中國互聯(lián)網(wǎng)絡(luò)信息中心統(tǒng)計,截至2019年6月,中國網(wǎng)民數(shù)量達8.54億,使用手機的網(wǎng)民達8.47億,網(wǎng)民使用手機上網(wǎng)的占99.1%[1]。網(wǎng)絡(luò)已經(jīng)成為人們表達個人想法、交流和共享信息的不可或缺的手段。在網(wǎng)絡(luò)空間中,用戶幾乎每天不間斷地發(fā)布海量信息,比如評論帖子、圖片、視頻等。大量的網(wǎng)絡(luò)用戶由于知識結(jié)構(gòu)、職業(yè)特點、興趣愛好等因素的不同而具有不同的信息偏好。具有共同偏好的用戶往往成為一個群體,有相似偏好的網(wǎng)絡(luò)用戶節(jié)點在網(wǎng)絡(luò)空間中表達相似的觀點和看法。對網(wǎng)絡(luò)用戶的分類研究可以幫助人們更有效地了解用戶的信息需求,研究不同偏好網(wǎng)絡(luò)用戶的行為特征和規(guī)律,幫助人們了解網(wǎng)絡(luò)信息的傳播和演化規(guī)律,識別網(wǎng)絡(luò)熱點信息等。
周楊等[2]依據(jù)微博數(shù)、關(guān)注數(shù)和粉絲數(shù)等信息,把用戶劃分為游離型、信息獲取型、活躍型和名人型4種用戶類型,構(gòu)建了微博用戶偏好模型,并進行了相關(guān)實證研究,提出了輿情用戶分類識別和引導(dǎo)的相關(guān)建議。曾潤喜等[3]采用內(nèi)容分析法對新浪網(wǎng)某新聞樣本的跟帖進行了多維度分析,從網(wǎng)絡(luò)輿情的時間分布情況、網(wǎng)民的使用媒介、網(wǎng)民的態(tài)度和指向類型等行為屬性進行了相關(guān)實證研究,相關(guān)結(jié)論開辟了網(wǎng)絡(luò)輿情傳播規(guī)律研究的新視角。在網(wǎng)絡(luò)熱點發(fā)現(xiàn)和用戶分類方面主要研究集中在采用數(shù)據(jù)挖掘的方法對各種屬性進行分析,多采用聚類算法從距離的角度加以解釋。馬瑞新等[4]使用粒子群算法對網(wǎng)絡(luò)輿情傳播中用戶觀念進行了聚類分析和仿真。根據(jù)觀念的聚類結(jié)果分析事件的演進過程和識別熱點;張思源等[5]通過循環(huán)迭代不斷移除社會網(wǎng)絡(luò)中相異性最高的邊,從而獲得新的社區(qū)結(jié)構(gòu),從社區(qū)發(fā)現(xiàn)的視角進行了用戶群體分類;陳東明等[6]提出了一種密合度指標,在此基礎(chǔ)上,設(shè)計了一種基于凝聚思想的群體劃分算法,通過與其他社區(qū)發(fā)現(xiàn)算法的對比,獲得了較好的劃分效果和較低的時間復(fù)雜度。
本文采用一種基于標注詞向量的用戶聚類方法,該方法使用用戶標注詞組成的向量之間的余弦相似度來度量用戶之間的相似度,在此基礎(chǔ)上使用K-mean聚類得到用戶關(guān)于特定信息傾向的聚類,較之傳統(tǒng)聚類方法其結(jié)果更易解釋且準確度較高。
標注詞能夠反映網(wǎng)絡(luò)輿情用戶對特定信息資源的偏好,首先計算用戶所有標注詞的tf-idf值。Tf值代表詞頻,其計算如式(1)所示,其中分子代表一個詞在一個文本中出現(xiàn)的頻數(shù),分母代表總詞數(shù),用來代表該詞的重要程度。
(1)
idf代表逆向文檔頻率,其計算如式(2)所示,其中分子代表某個語料庫中全部文本的個數(shù),分母代表某個詞在所有文本中的不重復(fù)次數(shù),對商取對數(shù)即得到idf值。
(2)
將tf值與idf值相乘即得到tf-idf值,如式(3)所示:
tfidfi,j=tfi,j×idfi,j
(3)
計算出tfidf值后,生成輿情網(wǎng)絡(luò)用戶特征向量表示為:tfidfVi=(
然后按照式(4)和式(5)計算用戶的相似度。其中tfidfV1代表網(wǎng)絡(luò)用戶節(jié)點V1的標注詞特征向量,tfidfV2代表網(wǎng)絡(luò)用戶節(jié)點V2的標注詞特征向量。通過計算兩個用戶標注詞向量的余弦值來代表用戶節(jié)點間的相似度ss。
(4)
ss(V1,V2)=cos(ifidfv1,tfidfv2)
(5)
輿情文本中的詞匯可能較多,可以取一個輿情文本中詞頻較大的前n個詞組成特征向量,從而使特征向量的維數(shù)降低,方便處理,使用K-means聚類方法完成用戶劃分工作。
從某網(wǎng)站社區(qū)論壇中隨機選取100名用戶,獲取標注詞396個,按前述的過程進行標注詞向量的生成,然后用K-means方法進行聚類,聚類結(jié)果如圖1所示。從圖中可以看出樣本數(shù)據(jù)被聚成了4類,聚類結(jié)果較均勻。按照譜聚類生成的聚類結(jié)果對用戶進行分析。
用戶使用較多的“雜談”“見聞”“意見”“呼吁”4個標注詞進行分析:第一類用戶為興趣廣泛型用戶,對每一類主題都會發(fā)出自己的聲音,各類標注詞均使用較多。第二類用戶興趣主要集中在社會見聞和雜談感受方面,喜歡對社會生活進行自己的思考和評述,所以,“見聞”和“雜談”標注詞使用較多。第三類用戶顯然在論壇中扮演“評論者”或“倡導(dǎo)者”的角色,喜歡提出自己對事物的意見和看法,所以,“意見”和“呼吁”標簽使用較多。第四類用戶屬于“一般瀏覽者”,其特點是發(fā)帖數(shù)量少而且很少進行文檔標注。分析結(jié)果如表1所示。
本文提出了一種基于標注詞的網(wǎng)絡(luò)輿情用戶聚類方法,并對網(wǎng)絡(luò)輿情用戶樣本進行了聚類實驗,聚類效果較好。在一定程度上豐富了網(wǎng)絡(luò)輿情用戶分類的研究視角,下一步可以在此基礎(chǔ)上進行輿情熱點發(fā)現(xiàn)、輿情發(fā)展趨勢分析和預(yù)警等方面的研究工作。