• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      微博用戶的個性特征及交互關系分析

      2021-01-13 20:15:41金茂輝湖北民族大學
      環(huán)球首映 2021年6期
      關鍵詞:個性特征特征內容

      金茂輝 湖北民族大學

      一、前言

      微博是繼博客之后出現(xiàn)的一種新型的Web2.0互應用,相比BBS、博客等交流平臺,它獨特的平臺架構、設計理念及便捷的發(fā)布方式使用戶交流更為及時、暢通和廣泛。根據(jù)《第46次中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告》顯示,截止2020年9月29日,微博月活躍用戶達5.23億,同比增長3700萬。每天活躍用戶2.29億,同比增長1800萬。

      媒體、企業(yè)、政府單位等紛紛入駐微博,開始了新媒體的嘗試,與此同時,國內外學者開始了對這一新媒體的研究。但目前的研究主要集中在微博應用價值的探討,如微博在網(wǎng)絡營銷、教育、新聞及重大事件通報等領域的應用,對于微博中理論模型、用戶關系、用戶行為特征、信息交流機制與結構卻少有研究。事實上,建立微博的關系模型和用戶模型,掌握微博用戶的行為特征和相互交流的內在規(guī)律,是探索及開發(fā)微博新應用的基礎。

      因此,本項目將以微博作為研究平臺,對微博的用戶關系、用戶行為、主題傳播建立理論模型,分析微博用戶的發(fā)帖、回帖、轉帖、引用、私信等各種交流方式,利用Web挖掘理論技術,精確挖掘微博用戶的真實身份和個性特征,研究微博中用戶關系網(wǎng)絡特點和度量方法,實現(xiàn)重要用戶和“小團體”的發(fā)現(xiàn)。本項目的研究對劃分微博用戶群體、識別潛在客戶、加強網(wǎng)絡監(jiān)管、真實化虛擬用戶等具有重要的意義。

      二、微博用戶的個性特征及交互關系分析

      (一)微博相關模型分析與建立

      一是微博基礎模型。研究微博中的各種表示方式和組織結構,分析微博中內容關系與傳播規(guī)律,建立微博的基礎理論模型。二是用戶的行為模型。研究微博用戶發(fā)帖、回帖、轉帖、引用、私信、關注等各種行為,建立微博中用戶的行為模型。三是用戶的個性特征模型。基于微博用戶的行為模型,研究如何建立微博中用戶的個性特征模型和興趣模型,描述微博用戶的年齡范圍、性別、學歷、職業(yè)類別、收入范圍、資產、地域、興趣、特長、性格特征等個性特征要素。四是微博用戶關系模型。研究微博中的用戶關系與傳統(tǒng)社交網(wǎng)絡的區(qū)別,研究微博中用戶與用戶之間的交流以構成用戶的關系網(wǎng)絡,通過用戶基本信息特征以及充分挖掘用戶間的各種交流行為,建立微博用戶關系模型來反映用戶關系強度、方向、重要程度等特征。

      (二)微博用戶的關系網(wǎng)絡研究

      ①微博中用戶的交互特征和交流行為。微博中用戶的交互交流主要有兩類,一類是通過圍繞某個微博主題多個用戶進行發(fā)表、評論、轉發(fā)、引用等行為而產生的關系;另一類是用戶間直接進行的信息交流。在用戶關系模型的基礎上,研究用戶間不同關系的行為特征和計算方法。②微博中用戶的關系網(wǎng)絡研究。由于微博中用戶數(shù)量龐大、用戶間的交流行為密切、交流內容信息量較少,傳統(tǒng)的關系計算方法在性能上無法滿足微博的應用。本項目基于微博中用戶的不同的交互行為,在微博用戶關系模型的基礎上,研究如何構造用戶間的關系強度計算方法,最終形成有向的微博用戶關系網(wǎng)絡。③微博中重要用戶的發(fā)現(xiàn)與排序。微博作為越來越有影響力的Web應用,通過挖掘微博中的重要用戶,以實現(xiàn)廣告營銷、輿情疏導等具有重要的意義。本項目將研究如何通過用戶關系網(wǎng)絡分布和影響力模型,來挖掘微博中的重要用戶并對其進行排序。④微博中“小團體”的發(fā)現(xiàn)與分析。微博中“小團體”的發(fā)現(xiàn)和分析,對劃分微博用戶群體、識別潛在客戶、加強輿情監(jiān)管等具有重要的意義。本項目將研究如何根據(jù)“交往親密、互動活躍、興趣相似”的原則,挖掘真正緊密的微博“小團體”。

      (三)微博用戶真實屬性和個性特征挖掘

      ①微博用戶真實屬性和個性特征模型要素與屬性集。研究如何建立微博用戶的真實屬性和個性特征的模型和推導規(guī)則,針對微博用戶的真實屬性和興趣愛好,建立不同的描述算子、取值范圍和特征推導集合。特征屬性集可根據(jù)要求進行動態(tài)增加和調整。②基于文本內容的用戶真實屬性和個性特征挖掘。微博中的文本內容具有長度短、頻率高、缺乏上下文語境等特點,為基于用戶的微博內容挖掘用戶特征屬性帶來了困難。本項目將從快速過濾無效內容、短文本潛在語義擴展挖掘和多文本共性特征挖掘三個方面展開深入的研究。③基于用戶關系的真實屬性和特征挖掘。在現(xiàn)實生活和網(wǎng)絡交互中,那些交往較為親密的朋友似乎具有較多的相似性。但是相似的程度、相似的特征和相似的特點都具有不確定性。本項目將針對大量的微博數(shù)據(jù)進行統(tǒng)計分析,來量化不同的用戶交互關系與特征相似度的相關性,最終推導基于交互行為的個性特征挖掘方法。④基于用戶的時間行為與頻率周期的用戶真實屬性和個性特征挖掘。研究如何根據(jù)時間量、頻度、間歇、日月年時間分布、假期時間分布等時間統(tǒng)計特征,來推斷用戶的用戶真實屬性和個性特征。⑤不確定性的屬性決策與推斷。根據(jù)多種規(guī)則集可以針對特征屬性得出不同的推導結論,相互之間的支持度和結果集會存在不確定問題。本項目將研究如何在多個推導規(guī)則下的用戶個性特征屬性決策和推斷方法。

      本文將深入研究微博中的組織方式、用戶交流機制和行為特征,建立科學、合理、有效、完善的微博理論模型。在此基礎上,對微博中用戶的行為、交互進行大規(guī)模的數(shù)據(jù)分析,研究微博用戶間的關系特征,建立微博用戶的關系網(wǎng)絡模型和計算方法,實現(xiàn)微博用戶的關系分布、重要用戶發(fā)現(xiàn)和“小團體”挖掘。同時基于用戶的行為特征和言論記錄,建立微博用戶真實屬性和個性特征模型,針對微博主題高頻率及短文本的特點,研究通過短文本內容挖掘、關系網(wǎng)絡挖掘和行為挖掘三種發(fā)現(xiàn),實現(xiàn)對微博用戶真實屬性和個性特征的挖掘和提取,最終開發(fā)微博用戶關系網(wǎng)絡分析系統(tǒng)和微博用戶個性特征挖掘系統(tǒng),為微博營銷、知識挖掘、微博輿情和宏觀管理提供理論工具和應用平臺。

      三、微博用戶真實屬性和個性特征挖掘系統(tǒng)分析

      (一)微博用戶真實屬性和個性特征挖掘

      (1)微博用戶真實屬性和個性特征模型要素與屬性集。在本項目中,首先對微博用戶的基本屬性進行分析和挖掘,定義用戶的特征屬性集合(包含年齡、性別、職業(yè)、地域、學歷、興趣、性格等)的描述算子和取值范圍。特征屬性集可根據(jù)要求進行動態(tài)增加和調整。微博用戶的興趣愛好屬性用興趣空間來表示,用戶的興趣取值用興趣集來表示,興趣集為興趣空間的子集。取值概率反映了興趣愛好存在性和興趣程度。

      (2)基于文本內容的用戶真實屬性和個性特征挖掘。微博內容的文本長度一般在140字以內,且相關的評論數(shù)量大、文本短,傳統(tǒng)的關鍵詞模型和概率模型不適用于微博內容的特征挖掘。針對微博內容的特點,本項目將基于微博內容采用3個步驟實現(xiàn)真實屬性和個性特征的挖掘。

      一是微博內容過濾。因為微博內容具有數(shù)量大、速度快等特點,為基于內容的特征語義挖掘帶來了效率上的困擾,所以本項目在進行微博真實屬性和個性特征挖掘時,先利用改進的相似度模型,快速地過濾無效的微博內容。

      二是基于多文本組合的共性特征挖掘。為了克服傳統(tǒng)主題詞抽取算法中的主題漂移與主題誤判等問題,本項目利用關鍵特征的共現(xiàn)信息來進行特征挖掘。根據(jù)詞匯與文本中的上下文環(huán)境詞匯的共現(xiàn)關系來調節(jié)詞的權重評分,對該用戶在多篇微博中多次提到的類似關鍵特征進行重點分析。

      三是微博內容的短文本潛在語義分析。本項目將改進潛在語義模型來實現(xiàn)微博中短文本的語義分析,將微博文本、微博評論和相關轉發(fā)進行綜合分析,首先建立評論內容或轉發(fā)內容對正文內容的對應關系,挖掘評論或轉發(fā)中對正文的補充描述,實現(xiàn)正文的特征擴展。其次建立用戶真實屬性與個性特征的各個特征屬性的規(guī)則集和推導集,以及基于半監(jiān)督的規(guī)則集和推導集的構造方法。最后對正文進行語義擴展,挖掘正文中的詞法和句法,對關鍵詞進行相關擴展,基于本體的規(guī)則匹配來與規(guī)則集和推導集進行投影比較,最終構造特征屬性上的結論集。

      Thompson(1996:65)指出:“任何對語篇人際意義的分析,都必須涉及其中的評價。”Martin&White(2005)的評價理論認為,詞匯資源也表達人際意義,強調人際功能中“人”的因素。評價表達作者對評價對象的情感、觀點和看法。評價對象可抽象為實體和命題(張大群,肖雁2014)。實體評價通常由形容詞實現(xiàn),作者情感、態(tài)度的表達往往直觀明了,評價呈顯性。而命題評價大多呈隱性,對于語境的依賴性較強,信息的解讀往往要借助于作者和讀者共享的歷史文化語境及價值觀。

      (3)基于用戶關系的真實屬性和特征挖掘

      在現(xiàn)實生活和網(wǎng)絡交互中,那些交往較為親密的朋友似乎具有較多的相似性。但是相似的程度、相似的特征和相似的特點都具有不確定性。本項目將從大量的微博用戶行為和用戶交互關系數(shù)據(jù)進行分析,進行微博中用戶關系和特征相似性的研究以找到興趣相似特征的規(guī)律和特點。

      為了檢驗在微博用戶中,用戶之間關系k是否具有特征相似性,隨機選擇一組用戶對,對每個用戶對進行檢驗。

      在用戶對空間R中,隨機選擇n個用戶對形成總體R’,n>200,根據(jù)用戶對的關系k的關系強度的取值范圍,從小到大劃分為5個值域A1、A2、A3、A4、A5,根據(jù)用戶對的相似度的取值范圍,從小到大劃分為5個值域B1、B2、B3、B4、B5。

      統(tǒng)計每個用戶對的關系i的關系強度和相似度的值,構造用戶間關系強度和相似度的r*c聯(lián)表,建立卡方分布的統(tǒng)計量,來對不同的用戶關系和相似度進行假設檢驗判定。

      (4)基于用戶的時間行為與頻率周期的用戶真實屬性和個性特征

      用戶登錄微博的時間統(tǒng)計特征包括:時間量、頻度、間歇、日月年時間分布、假期時間分布等時間統(tǒng)計特征。用戶登錄微博的時間行為,能夠一定程度上反映該用戶的特征,對這些時間特征進行歸納統(tǒng)計,推理挖掘出相關特征。

      以上描述了通過多種方法進行用戶的真實屬性和個性特征的挖掘,這些挖掘的結論將組成一組結果集。然而,根據(jù)不同的規(guī)則,可能有互斥的一些結論,如何來對這些不確定的結論來進行最終結論推導是本節(jié)研究的問題。

      (二)個性特征挖掘與關系網(wǎng)絡研究的原型系統(tǒng)開發(fā)

      (1)開發(fā)微博應用綜合平臺

      本項目將采用Hadoop分布計算平臺,通過元搜索引擎技術,整合國內主流的微博系統(tǒng),對其中的用戶和主題相關數(shù)據(jù),分布式的進行數(shù)據(jù)抽取和數(shù)據(jù)挖掘,以結構化的形式存入本地服務器的ORACLE數(shù)據(jù)庫中,建立完善的微博用戶行為、關系的分析系統(tǒng)。

      (2)開發(fā)微博用戶關系網(wǎng)絡分析系統(tǒng)

      在微博數(shù)據(jù)平臺的基礎上,根據(jù)微博用戶關系網(wǎng)絡挖掘方法,開發(fā)相關算法并融入到系統(tǒng)中,使系統(tǒng)提供預讀和預判機制,自動計算用戶間的關系強度和方向,自動繪制用戶間的關系網(wǎng)絡圖;提供重要用戶排序列表和“小團體”分布結果。

      (3)開發(fā)微博用戶個性特征挖掘系統(tǒng)

      在微博數(shù)據(jù)平臺的基礎上,根據(jù)微博中用戶真實屬性和個性特征的挖掘方法,開發(fā)相關算法并融入到系統(tǒng)中。在分布式采集時,將微博主題進行結構化處理,并對無效數(shù)據(jù)預過濾,對有效數(shù)據(jù)進行預分詞。當查詢用戶名時,系統(tǒng)快速的對該用戶進行真實屬性和個性挖掘,并將結果展示出來。

      微博中用戶數(shù)量龐大,用戶間的交互關系種類多樣,用戶交互行為頻率較高,傳統(tǒng)的社會關系網(wǎng)絡分析方法在效率和精度上都不能滿足微博用戶關系的研究。研究科學有效的微博用戶關系分析方法,建立高效、精確的微博用戶關系網(wǎng)絡是一個極具挑戰(zhàn)性的關鍵科學問題。

      微博中用戶發(fā)表的主題、回復的文本內容往往都比較短,且數(shù)量多、頻次高?;陉P鍵詞頻無法得到準確的數(shù)據(jù),傳統(tǒng)的語義分析也因缺乏上下文語境無法高效的實現(xiàn)。尋找合適的方法,快速有效地挖掘真實屬性和個性特征是一個極具挑戰(zhàn)性的關鍵科學問題。

      四、結語與展望

      實驗結果表明,本文所提出的基于本體特征對用戶主題評論分析,得到該用戶的特征屬性是可行的。在本文中,以性別、年齡、學歷、地域、興趣5個特征屬性為例進行了研究,此方法具有可擴展性。

      微博中的用戶關系具有多樣性和復雜性,快速地分析微博中的用戶關系和計算關系強度是一個具有挑戰(zhàn)性的關鍵問題。在本文中,我們首先對微博、微博用戶、微博用戶行為建立了完整的科學模型,在此基礎上對已有數(shù)據(jù)進行深入的分析和挖掘,對用戶關系進行分類,針對不同類別的用戶關系進行統(tǒng)計分析,研究用戶關系的分布規(guī)律,并通過實驗來進行校驗,最終構造高效、準確的用戶關系強度計算方法,使得微博間用戶關系的發(fā)現(xiàn)和強度快速計算是可行的。

      微博中的用戶所發(fā)表的主題文本短、頻率高,從大量的短文本中快速的挖掘特征信息,以識別用戶的真實屬性和個性特征是一個具有挑戰(zhàn)性的關鍵問題。在本文中,在微博用戶行為模型和微博用戶個性特征模型的基礎上,提出了基于文本內容的語義識別、基于用戶關系的關聯(lián)挖掘和基于用戶行為的行為挖掘三種方式,來對微博中用戶的真實屬性和個性特征進行挖掘。特別是在文本內容的語義識別上,改進了潛在語義模型,綜合利用共性、關聯(lián)、擴展等特征方法,來識別微博中的用戶真實屬性和個性特征進行挖掘,具有良好的可行性。

      猜你喜歡
      個性特征特征內容
      內容回顧溫故知新
      科學大眾(2022年11期)2022-06-21 09:20:52
      如何表達“特征”
      不忠誠的四個特征
      當代陜西(2019年10期)2019-06-03 10:12:04
      抓住特征巧觀察
      關于對幼兒園教學中教師有效提問的研究
      蘇軾散文的個性特征
      青年時代(2016年32期)2017-01-20 23:50:48
      高職學生個性特征及職業(yè)能力調查與分析
      主要內容
      臺聲(2016年2期)2016-09-16 01:06:53
      淺析貝多芬奏鳴曲OP.10 No.2 第一樂章
      戲劇之家(2016年4期)2016-03-25 16:18:34
      線性代數(shù)的應用特征
      河南科技(2014年23期)2014-02-27 14:19:15
      长汀县| 梨树县| 临江市| 营口市| 乐昌市| 穆棱市| 垫江县| 当雄县| 东辽县| 汾西县| 烟台市| 陇西县| 白河县| 阿荣旗| 宜黄县| 宿松县| 金寨县| 芦溪县| 昆山市| 霍州市| 自治县| 广河县| 伊宁市| 南溪县| 枞阳县| 神木县| 南雄市| 布尔津县| 丽江市| 古田县| 板桥市| 汕尾市| 邵东县| 南丰县| 玛沁县| 南宫市| 京山县| 安图县| 凯里市| 临城县| 永丰县|