• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于k均值聚類的微博用戶分類的研究

      2012-04-29 18:05:01張國安鐘紹輝
      電腦知識與技術(shù) 2012年26期
      關(guān)鍵詞:微博

      張國安 鐘紹輝

      摘要:文章通過對用戶數(shù)據(jù)的分析,根據(jù)用戶的教育情況,用戶的收入情況,采用k均值算法對用戶進(jìn)行聚類,將具有相同特征的用戶歸為同一類,為微博的個性化營銷和服務(wù)提供依據(jù)。

      關(guān)鍵詞:K均值聚類;微博;用戶分類

      中圖分類號:TP393文獻(xiàn)標(biāo)識碼:A文章編號:1009-3044(2012)26-6273-03

      微博客是博客的一種變體,是一種允許用戶及時更新簡短文本并公開發(fā)布的博客形式,允許任何人閱讀或者只能由用戶選擇的群組閱讀。用戶可通過即時通訊工具、網(wǎng)頁等終端發(fā)布、更新博文。博客雖已成為一種有效的信息溝通與交流方式,但依然具有進(jìn)入門檻,而微博客則將門檻降到最低[1]。微博的使用人群數(shù)量基數(shù)大,狀態(tài)信息更新頻繁、信息傳播迅速。并且微博平臺媒介用戶占有率相對集中,因此基于微博數(shù)據(jù)的分析研究成為了十分值得關(guān)注的研究方向。在廉捷[1]等人就微博數(shù)據(jù)的獲取提出了基于新浪微博API與基于頁面解析的新浪微博數(shù)據(jù)獲取方案。KANG Shulong[2]針對新浪微博研究了其群體結(jié)構(gòu)與度分布特征。目前,微博的應(yīng)用中,沒有根據(jù)用戶的需求,用戶的特征做相應(yīng)的推薦工作,比如根據(jù)用戶的受教育程度,用戶的所從事的工作,推薦相應(yīng)的用戶群體。本文根據(jù)新浪微博提供的API接口,獲得用戶的相關(guān)資料,采用k均值算法對用戶分類,為微博的智能的發(fā)展和微博得營銷提供有力的支持。

      k均值算法的步驟如下:

      初始化。輸入基因表達(dá)矩陣作為對象集X,輸入指定聚類類數(shù)N,并在X中隨機(jī)選取N個對象作為初始聚類中心。設(shè)定迭代中止條件,比如最大循環(huán)次數(shù)或者聚類中心收斂誤差容限。

      進(jìn)行迭代。根據(jù)相似度準(zhǔn)則將數(shù)據(jù)對象分配到最接近的聚類中心,從而形成一類。初始化隸屬度矩陣。

      更新聚類中心。然后以每一類的平均向量作為新的聚類中心,重新分配數(shù)據(jù)對象。

      反復(fù)執(zhí)行第二步和第三步直至滿足中止條件。

      2.1數(shù)據(jù)采集與預(yù)處理

      本文用戶數(shù)據(jù)的來源于新浪微博網(wǎng)站,該網(wǎng)站是國內(nèi)知名的微博社區(qū)。通過利用網(wǎng)絡(luò)爬蟲來實(shí)現(xiàn)數(shù)據(jù)的獲取。具體抓取和處理過程如下:

      1)提取每位用戶基本的數(shù)據(jù)信息,包括用戶的受教育情況,用戶的年齡,用戶從事的行業(yè)情況。

      2)提取表征用戶社區(qū)結(jié)構(gòu)屬性的數(shù)據(jù)資料,包括他關(guān)注的人數(shù)、關(guān)注他的人數(shù)、微博數(shù)、收藏?cái)?shù)四項(xiàng)數(shù)據(jù)。3)為了在網(wǎng)絡(luò)分析時更加高效,對用戶名稱進(jìn)行順序編碼。4)提取每位用戶的關(guān)注對象名單,共得到8257條數(shù)據(jù),以用戶為單位進(jìn)行保存。將所有的非數(shù)值型數(shù)據(jù)采用數(shù)值型來表示,為對用戶進(jìn)行聚類分析做好準(zhǔn)備。

      2.2 K均值聚類法代碼及其對用戶分類的實(shí)現(xiàn)

      本文通過對k-meam聚類算法的分析,將聚類算法首次應(yīng)用在微博中,實(shí)現(xiàn)對用戶的分類,為微博用戶的個性化服務(wù)和個性化營銷提供依據(jù)。本文的創(chuàng)新點(diǎn)在與,實(shí)現(xiàn)了對用戶智能的分類,開拓了微博應(yīng)用的新的領(lǐng)域。

      [1]廉捷,周欣,曹偉,等.新浪微博數(shù)據(jù)挖掘方案[J].清華大學(xué)學(xué)報(bào):自然科學(xué)版,2005,51(10): 1300-1305.

      [2] KANG Shulong,ZHANG Chuang. Complexity research of massively microblogging based on human behaviors[C]//2010 2nd Inter? national Workshop on Database Technology and Applications,DBT A2010) Proceedin gs.Wu han,China:IEEE Comput er S ociety, 2010:1-4.

      猜你喜歡
      微博
      基于社交網(wǎng)絡(luò)的英語互動微平臺建設(shè)
      新浪微博的“語—圖”互文分析
      基于Redis的微博系統(tǒng)基本功能設(shè)計(jì)
      “985工程”高校圖書館閱讀推廣的調(diào)查與分析
      中國市場(2016年38期)2016-11-15 23:47:47
      微信與微博平臺謠言差異分析
      打造醫(yī)院里的“主流媒體”
      事實(shí)與流言的博弈
      人間(2016年26期)2016-11-03 18:19:04
      基于微博營銷的企業(yè)推廣模式研究
      重大突發(fā)事件中微博之力不微
      人民論壇(2016年27期)2016-10-14 13:08:58
      神回復(fù)
      意林(2013年15期)2013-05-14 16:49:23
      鄂托克旗| 浠水县| 仁布县| 安阳县| 蓬溪县| 长宁区| 眉山市| 大化| 建平县| 东乡| 赫章县| 福泉市| 农安县| 娄烦县| 广宁县| 兴海县| 浪卡子县| 通化市| 新邵县| 巴彦县| 庐江县| 怀来县| 将乐县| 阿巴嘎旗| 大悟县| 淳安县| 中方县| 东丰县| 苏尼特左旗| 四川省| 稷山县| 唐山市| 二连浩特市| 阳泉市| 呼和浩特市| 桂东县| 黑河市| 高邑县| 二手房| 南京市| 隆尧县|