王麗英
(南京師范大學教育技術系,江蘇南京210097)
高校BBS教育輿情的時空特征模型構建和熱點發(fā)現(xiàn)
——基于南京大學小百合BBS數(shù)據(jù)集的分析
王麗英
(南京師范大學教育技術系,江蘇南京210097)
自媒體時代網(wǎng)絡輿情的治理與引導在時、效、度3個維度都面臨著巨大的挑戰(zhàn)。針對高校BBS教育輿情,運用網(wǎng)絡測量學技術對自動采集到的南京大學小百合BBS相關數(shù)據(jù)集加以分析,構建了教育輿情的時空特征模型。該模型顯示,測量輿情的空間特征和多個時間特征能夠有效快速發(fā)現(xiàn)熱點信息。實驗證明,高校BBS教育輿情總體分布比較稀疏,單日活躍用戶數(shù)并不高,并且熱點信息相對較少、利用顯著的時空特征易于檢測。
教育輿情;網(wǎng)絡測量學;時空特征模型;熱點發(fā)現(xiàn)
自媒體時代網(wǎng)絡輿情的治理與引導在時、效、度3個維度都面臨著巨大的挑戰(zhàn)。自媒體的特點是以用戶生成內(nèi)容和共享為主,但內(nèi)容可信度低,影響力無法確定。由于網(wǎng)絡空間的開放性,我們無法事先預知自媒體上輿情傳播演變的時空特征,也就無法確定監(jiān)控的重點和引導時機,所以在線實時監(jiān)測成為一個難題。
自媒體中的論壇采用了主回帖關聯(lián)的組織方式,沒有用戶關聯(lián)功能,而且內(nèi)容采用目錄方式呈現(xiàn),結構相對簡單,所以基于論壇的在線實時監(jiān)測相對容易實現(xiàn)。由于論壇的開發(fā)技術相異,如開源的Discuz、BBSXp等,工業(yè)界的軟件難以通用。加之針對高校BBS的實時監(jiān)測和預警軟件相對較少,所以亟需開發(fā)針對性的軟件為校園管理提供輔助支撐。
2011年輿情行業(yè)被稱為朝陽行業(yè)。圍繞網(wǎng)絡媒體的話題檢測與跟蹤、熱點話題發(fā)現(xiàn)、意見領袖挖掘等輿情問題得到了充分研究。相關的網(wǎng)絡測量學、自然語言處理、文本特征表示、機器學習、社會網(wǎng)絡分析等理論和算法為內(nèi)容自動監(jiān)控提供了重要支持。
網(wǎng)絡測量學是利用網(wǎng)絡爬蟲采集數(shù)據(jù),對整體網(wǎng)絡開展輿情定量統(tǒng)計、整體監(jiān)測和趨勢分析。樊鵬翼等人[1]對新浪微博進行了網(wǎng)絡測量,得到小世界拓撲特征和用戶發(fā)博時間的周分布模式。徐恪等人[2]全面綜述網(wǎng)絡測量學的相關技術,闡述了大數(shù)據(jù)分析在線社交網(wǎng)絡的輿情演化、拓撲結構和用戶行為的可行性和典型方法。上述研究拓展了輿情治理和引導的時、效、度的研究視野,不再停留于歷史抽樣的文本數(shù)據(jù)分析和概念層面。
很多學者從傳播學角度研究網(wǎng)絡輿情的傳播過程和規(guī)律,發(fā)現(xiàn)熱點。以高校BBS熱點發(fā)現(xiàn)的相關研究為例,蘭凱梅[3]以主帖的回帖數(shù)、用戶數(shù)和人氣數(shù)的加權之和作為主題帖的熱度;羅泰曄[4]根據(jù)發(fā)帖量定義活躍用戶,利用用戶回復關系計算點出入度,由此區(qū)分活躍用戶的4種類型;喬文妤等人[5]統(tǒng)計發(fā)帖數(shù)、回帖數(shù)和回復率,發(fā)現(xiàn)信息的數(shù)量規(guī)模和活躍話題存在長尾效應,能夠確定出信息傳播的關鍵節(jié)點。王君澤等人[6]指出王青從輿情熱度、強度、傾度和生長度4個指標來評價輿情,但已有網(wǎng)絡輿情指標體系還不完善,直接影響輿情研判和預警。
熱點信息挖掘常見的做法是:通過文本分析提取語義特征、特征表示之后,聚類歸納出主題。其中,語義特征是基于“詞是文本的最小語義單位”來提取的。目前,國內(nèi)學者廣泛應用的自然語言處理二次開發(fā)接口有NLPIR/ICTCLAS漢語分詞、Lucene分詞引擎等,效果都很好。語義特征表示模型主要有向量空間模型VSM、隱含主題概率模型LDA。VSM以詞頻統(tǒng)計值如TF、TF-IDF或布爾型值作為詞語權重表示文本。VSM表示容易實現(xiàn),應用廣泛。例如,劉驊等人[7]采用布爾型值作為詞語權重表示文本,通過凝聚式層次聚類法分析BBS“每日十大熱門話題”標題共同的熱點;蘭凱梅采用網(wǎng)絡爬蟲收集論壇文本,用TF-IDF值作為詞語權重表示文本,應用多中心增量聚類來發(fā)現(xiàn)主題帖熱點。VSM存在的問題是,會丟失詞語之間的語義關聯(lián)信息,導致文本聚類結果不夠準確。與之相比,LDA在文本和詞之間增加了主題層,以主題分布概率作為主題權重表示文本,所以效果優(yōu)于VSM。比如黃煒[8]就是采用LDA聚類算法感知輿情事件的熱點。上述研究都局限于對歷史數(shù)據(jù)進行線下的主回帖關聯(lián)分析,無法及時反映網(wǎng)絡輿情的實時變化。
國內(nèi)外很多公司、科研單位和媒體本身開展輿情研究,積極應對信息安全和市場營銷的需要,形成了相應的輿情監(jiān)控軟件。例如,國外的Buzzlogic、Radian6、TNS Cymdony、Trackur、Reputation Defender等,用于公司、產(chǎn)品、品牌在網(wǎng)頁上的影響力監(jiān)測。在國內(nèi),中科點擊的軍犬、優(yōu)捷信達的Rank、紅麥聚信的紅麥等軟件,用于政府、企業(yè)等單位輿情重點監(jiān)控;融尚Winshield、互普威盾、歐克深信服、天銳網(wǎng)絡警、網(wǎng)絡幽狗、網(wǎng)貓等軟件,主要針對上網(wǎng)行為、聊天內(nèi)容、郵件等進行監(jiān)控。已有的監(jiān)控工具或軟件是通用的,沒有專門的面向教育領域的設計,缺乏針對性。
基于專用軟件的缺乏及網(wǎng)絡輿情指標體系不完善的現(xiàn)狀,本研究試圖運用網(wǎng)絡測量學技術解析高校BBS教育輿情傳播的時空特征,為熱點發(fā)現(xiàn)、實時監(jiān)控提供支持。
本研究的基本思路是:首先,對南京大學小百合BBS的教育主題相關的主題帖進行自動采集;然后對采集得到的教育輿情數(shù)據(jù)集進行統(tǒng)計測量,建立時空特征模型;再依據(jù)該模型測量新數(shù)據(jù),以發(fā)現(xiàn)輿情熱點和演變趨勢。
整個研究框架包括信息采集、特征模型、特征測量和熱點追蹤4個步驟,如圖1所示。
圖1 在線輿情監(jiān)測研究框架
本研究的技術路線是:首先,基于網(wǎng)絡爬蟲構建教育輿情采集算法,獲得論壇空間2013年11月2日至2014年5月10日之間的教育主題帖數(shù)據(jù)集;然后,運用網(wǎng)絡測量學技術分析教育輿情,構建一個時空特征模型;最后,運用時空特征指標進行輿情測量,發(fā)現(xiàn)熱點和引導時機。
本研究以蘭凱梅的網(wǎng)絡爬蟲算法為基礎,根據(jù)南京大學的小百合BBS的信息組織結構對該算法進行了相應的調(diào)整,形成本研究的教育輿情采集算法。通過頁面爬行、頁面解析、文本結構化等步驟得到教育輿情數(shù)據(jù)集。
3.1 采集算法流程
本研究的采集算法流程如圖2所示。其中,初始URL設為各個討論區(qū)的匯總頁面,即“全部討論區(qū)”頁面URL。經(jīng)過順序爬行得到各個討論區(qū)首頁URL,然后并行爬行討論區(qū)首頁URL及其主題帖頁面URL。
圖2 教育相關的主題網(wǎng)絡爬蟲的工作流程
每個討論區(qū)首頁采用主題模式和一般模式兩種呈現(xiàn)方式。主題模式以主題帖為單位顯示,主題帖包含主帖及其回帖等全部內(nèi)容。一般模式以用戶帖子為單位顯示,主帖及其回帖分離,需要通過帖子頁面中“同主題閱讀”才能相互關聯(lián)。因此本研究采用主題模式直接找到關聯(lián)的主回帖內(nèi)容。
頁面分析包括內(nèi)容和鏈接的解析和評價:解析是利用CHttpFile API接口讀取頁面文件,然后定位HTML標簽,提取出主題帖信息,包括標題、作者、正文、發(fā)表時間、人氣數(shù)、回帖數(shù)等,存儲到結構化的主題帖數(shù)據(jù)庫中;評價包括時間相關、主題相關和重復數(shù)據(jù)過濾。主題相關通過標題和正文中預設主題詞的詞頻統(tǒng)計進行過濾,詞頻越大,相關度越大,頁面越重要。本研究選取教育相關的一些主題詞,如學術、講座、考試、獎學金等,從而聚焦到關于師生權益、校園聲譽等方面的教育輿情監(jiān)控。
3.2 并行采集策略
由于論壇帖子數(shù)量龐大,而順序爬行耗時長、時效差,所以采用并行爬行加速。如果URL隊列中的元素不存在爬行的順序依賴關系,可以認為URL具有獨立性,可以并行爬行和解析。論壇上能并行爬行的URL有兩類:一類是各個討論區(qū)首頁的URL;另一類是各個主題帖頁面的URL。據(jù)此設計了兩類線程,實現(xiàn)同進程下的多線程并行算法。
第一類線程負責爬行和解析一個討論區(qū)首頁的URL頁面,提取若干主題帖頁面的URL和“上一頁”的URL。因為“上一頁”的URL不符合獨立性,只能按順序逐頁爬行。如果頁面上不存在“上一頁”URL,則該討論區(qū)的爬行結束。討論區(qū)逐頁順序爬行的流程圖如圖3所示。主題帖的標題是主題相關的,就把該主題帖頁面的URL加入到待爬行的URL隊列中。
第二類線程負責解析一個主題帖頁面,解析過程采用離線方式。離線方式是下載主題帖頁面到本地,留待以后解析。離線方式能夠減少頁面采樣時差,因為主題帖的爬行時刻大致相同,也就是采樣時刻近似相等。所有主題帖下載到本地的頁面集合構成頁面庫,相當于某個時刻對論壇的一次快照。與離線方式相比,在線方式邊爬行邊解析,耗時較長,使得主題帖頁面的采樣時刻先后相差很大,在此期間會有新帖發(fā)布的可能,因此在線方式不能收集到同一個采樣時刻論壇的真實數(shù)據(jù)。
圖3 討論區(qū)主題帖逐頁順序爬行流程圖
多線程數(shù)量受限于同一個網(wǎng)站的HTTP請求的次數(shù),所以不能過于頻繁。經(jīng)過實驗,將多線程數(shù)量設置為8個。
南京大學小百合BBS上共有討論區(qū)459個、用戶數(shù)60 883個。應用上述算法,采集了2013年11月2日之后190天的教育主題帖,總計帖子數(shù)22 054個、主帖數(shù)5 172個、轉載帖1 781個,涉及約48%的討論區(qū)(223個)、11%的用戶(6 944個)。
采用網(wǎng)絡測量學技術分析該數(shù)據(jù)集上的教育輿情,形成教育輿情的時空特征模型。
4.1 輿情空間特征
教育輿情的發(fā)帖量在各個討論區(qū)中的分布并不均勻,常常集中在幾個討論區(qū)中。數(shù)據(jù)集的討論區(qū)發(fā)帖量統(tǒng)計如圖4所示。
圖4 討論區(qū)發(fā)帖量統(tǒng)計圖
圖4 (a)顯示出大部分(大于300個)討論區(qū)的發(fā)帖量接近于零,圖4(b)顯示98%的發(fā)帖量位于6.6%的討論區(qū)中。利用教育輿情在討論區(qū)空間的分布特征可以預測輿情出現(xiàn)的可能性概率。討論區(qū)的教育輿情相關度的計算公式為:B=(c1N+c2P)/t,表示時間t內(nèi)新增帖子數(shù)N和人氣數(shù)P??紤]到回帖數(shù)對輿情的貢獻權重比人氣數(shù)的要大得多,本研究取c1=1,c2=0.05。
討論區(qū)首頁的URL的重要性按照討論區(qū)的輿情相關度B進行評價,相關度大的討論區(qū)在監(jiān)控時窗內(nèi)排序靠前,就會優(yōu)先采集和監(jiān)控,盡早獲得相關數(shù)據(jù),而不是在其他討論區(qū)上費時費力卻一無所獲。需要說明的是,本研究關注教育話題,與論壇本身的前一日十大熱門討論區(qū)、各區(qū)十大熱門話題及全站的十大熱門話題不同。
4.2 輿情時間特征
輿情測量的時間特征如表1所示。
表1 輿情測量的時間特征
4.2.1 生存期、貢獻度和活躍度分析
主題帖的生存期T以小時為單位,分段統(tǒng)計結果如圖5所示。T=0的主題帖占77.8%,表明主帖是沒有回帖的;T∈[0,24]的主題帖占91.2%。這表明,不同主題帖的生存期有很大差異,大部分持續(xù)時間短,只有小部分的主題帖具有吸引力,持續(xù)時間長。
圖5 主題帖生存期(小時)分段統(tǒng)計餅圖
統(tǒng)計主題帖的貢獻度和生存期的關系。可以發(fā)現(xiàn)以下幾點:
(1)生存期長但用戶少、回帖少、人氣少,代表無人問津,貢獻度小。例如,生存期最長的主題帖,標題為:“蘇州索法招聘留學寫作人員(全職)”,生存期T=108天,但R=5,U=1,P=297。
(2)生存期長、活躍度低的主題帖,其輿情貢獻度小。例如,生存期前10名的主題帖中,9個主題帖的參與用戶數(shù)U<5?;钴S度低的主題帖還表現(xiàn)為日貢獻度持續(xù)較小。例如,參與用戶數(shù)最多但活躍度低的主題帖,其標題為:“招聘,工作地點:常州”,其時間特征指標T=68、R=20、U=13、P=1367,日貢獻量為(0,1]:4/4、(1,2]:5/6、(2,6]:1/2或0/2或1/1或0/1、(67,68]:1/1。其中,(0,1]:4/4表示第1天新增用戶數(shù)為4,新增回帖數(shù)為4。
(3)生存期居中、活躍度A比較高的主題帖,才能進入活躍集S,成為監(jiān)測重點。例如,數(shù)據(jù)集中參與用戶數(shù)U>7的主題帖共計406個,占比7.8%,回帖數(shù)7 332個,其生存期T平均值為3天,取值范圍是1小時到31天,其中7天之內(nèi)的主題帖占92.7%。
統(tǒng)計表明,聯(lián)合多個時間特征指標可以快速發(fā)現(xiàn)輿情熱點。
4.2.2 回帖時間間隔分析
跟蹤活躍集S中主題帖的回帖發(fā)布的時間間隔,繪制了活躍度降序排名在第1和100位的主題帖回帖時間間隔變化圖,如圖6所示。圖6說明,活躍度低的主題帖的回帖時間間隔大,其線性(紅色)趨勢線的斜率更大。
假設,主題帖的回帖時間函數(shù)y=f(x),其中x代表回帖的樓號,y代表時刻,f(0)表示主帖的發(fā)布時刻。時間函數(shù)的一階差分f′(x)表示相鄰兩個回帖之間的時間間隔。時間函數(shù)的二階差分f″(x)表示時間間隔差分,即時間間隔變化量,變化量遞增說明活躍度下降,反之活躍度上升。利用時間間隔變化量與主題貼的活躍度是負相關的關系,對引導時機的時間窗口進行預測。當時間間隔變化量小于閾值時進入時間窗,當時間間隔變化量大于閾值時離開時間窗。
最后,按照發(fā)布時間分24小時統(tǒng)計發(fā)帖數(shù),如圖7所示。發(fā)現(xiàn),教育輿情活躍的時間段在早上9點到夜間24點,這是監(jiān)測的重點時域。
采用vc和sql server實現(xiàn)了針對南大小百合BBS教育輿情的采集算法和B/S模式的論壇熱點跟蹤系統(tǒng)。
圖6 回帖時間間隔變化圖
圖7 發(fā)帖數(shù)的分時統(tǒng)計圖
每次采集之后,測量本次采集到的數(shù)據(jù)集時空特征指標。指標排序靠前、達到閾值要求的確定為熱點信息。并且熱點信息的采集時間間隔將被調(diào)小,普通信息的采集時間間隔將被調(diào)大。作為監(jiān)控重點,熱點信息主要包括熱門討論區(qū)、熱門話題和活躍用戶。
5.1 熱門討論區(qū)
統(tǒng)計討論區(qū)的主帖數(shù)、回帖數(shù)和回復率指標,降序排名,前十名統(tǒng)計如果如表2所示。從主帖數(shù)排名發(fā)現(xiàn),“就業(yè)”“創(chuàng)業(yè)與求職”“兼職工作信息”“實習”等4個板塊的信息相對較多,說明這些版塊是校園信息發(fā)布的重要渠道,信息更新傳播快,對BBS的貢獻度最大。從回帖數(shù)排名發(fā)現(xiàn),“貼圖版”“創(chuàng)業(yè)與求職”“飛越重洋”3個版塊的回應信息多,說明這些版塊為學生提供了交流思想的空間。“飛越重洋”具有較高的回復率,說明南大學生對出國留學有非常高的意愿,渴望交流,學校應給予相關指導。在主、回帖數(shù)排名前10的討論區(qū)中,貼圖版是回復率最高的版塊,說明媒體素材的豐富可以促進用戶的深度交流,是在校學生交流的主要陣地,應該成為監(jiān)控的重點。從小百合自身在線人氣排序得出的熱門討論區(qū)(TOP20)看,盡管“百年好合”“女生天地”等版塊排名靠前,但在主、回帖數(shù)和回復率的指標上排名并不靠前,因此可以推斷這兩個版塊以圍觀人數(shù)居多,不必過多監(jiān)控。
表2 熱門討論區(qū)排名表
5.2 熱門話題
統(tǒng)計主題帖的回帖數(shù)R、參與用戶數(shù)U、人氣數(shù)P、轉載數(shù),降序排名。排名靠前的熱門話題是近期師生共同關心的學習生活事件,包括了用戶的個人見解和思想交鋒。以2014/5/1和2014/5/7單日發(fā)布的帖子為例,排名居首的主題帖如表3所示。從回帖情況看,BBS上沒有進行任何干預。
例如2014/5/1的排名首位的熱門主題帖,其回帖情況如表4所示,將“外甥現(xiàn)象”歸因于“慈母多敗兒”有失偏頗。監(jiān)測回帖時間間隔,設時間間隔閾值為10分鐘。當時間間隔小于閾值時,該主題帖進入監(jiān)控時間窗。因此,從21樓開始進入監(jiān)控時間窗,成為預測的引導時機。
表3 單日熱門主題帖表
表4 主題帖的回帖時間表
5.3 活躍用戶
統(tǒng)計用戶發(fā)布的主帖數(shù)M、回帖數(shù)Ru、獲回帖數(shù)R(指用戶發(fā)布的主帖的回帖數(shù)),降序排名,數(shù)值大于閾值的成為活躍用戶。結合用戶回復率(Ru/M)以及獲得回復率(R/M),將活躍用戶細分為發(fā)帖型、回應型和領袖型。發(fā)帖型是用戶回復率極低,回應型是用戶回復率極高,領袖型是獲得回復率極高。表5羅列給出了2014年3月前4位活躍用戶的發(fā)帖情況。
表5 活躍用戶表
高校網(wǎng)絡空間中,BBS是教育輿情反映比較集中的平臺。高校BBS教育輿情總體分布比較稀疏,主要反映在熱門討論區(qū)中。單日活躍用戶數(shù)(DAU)并不高,南大BBS的DAU平均只有36.5人/天?;钴S度高的主題帖比例很小,該比例在南大BBS上不到7.8%。這說明,只有少部分主題帖時空特征顯著,易于檢測。
本研究根據(jù)一所高校BBS教育輿情數(shù)據(jù)集分析得到時空特征模型,能夠有效發(fā)現(xiàn)熱點,預測引導時機。如果要推廣到其他主題的BBS輿情時空特征測量、分析,只要修改采集算法中的頁面分析模塊就可以實現(xiàn),修改難度低,工作量比較小。因此,本研究具有一般意義及普適性價值。
盡管本研究具有在線實時監(jiān)控輿情的優(yōu)勢,但因為只關注輿情傳播的時空特征,沒有考慮內(nèi)容語義分析,使得結果不夠全面。進一步的工作可以結合文本內(nèi)容分析的方法,挖掘重大事件,分析敏感異常輿情。
[1]樊鵬翼,王暉.微博網(wǎng)絡測量研究[J].計算機研究與發(fā)展,2012,49(4):691-699.
[2]徐恪,張賽,陳昊,等.在線社會網(wǎng)絡的測量與分析[J].計算機學報,2014,37(1):165-188.
[3]蘭凱梅.BBS熱點話題發(fā)現(xiàn)與監(jiān)控系統(tǒng)[D].北京:北京交通大學,2011.
[4]羅泰曄.高校BBS活躍用戶信息行為分析[J].現(xiàn)代情報,2011,31(1):150-152.
[5]喬文妤,高冕.高校BBS討論區(qū)內(nèi)信息有序化研究與管理啟示——以南京大學小百合網(wǎng)站為例[J].圖書情報工作,2013,57(5):116-120.
[6]王君澤,方醒,杜洪濤.網(wǎng)絡輿情分析系統(tǒng)中的支撐技術研究[J].現(xiàn)代情報,2015,35(8):51-56.
[7]劉驊,朱慶華.基于標題的BBS熱點話題挖掘——以南京大學小百合BBS為例[J].現(xiàn)代情報,2013,33(1):162-164.
[8]黃煒,姚嘉威.網(wǎng)絡輿情事件的主動感知實踐[J].現(xiàn)代情報,2015,35(10):7-11.
(本文責任編輯:郭沫含)
Construction of Spatial-Time Feature Model for Educational Public Opinion on University BBS and Hot Opinion Detection—Analysis of Nanjing University Lily BBS Dataset
Wang Liying
(Department of Educational Techenology,Nanjing Normal University,Nanjing 210097,China)
The governance and guidance of public opinion on Internet self-media are facing with big challenge in three dimentions of time effect and degree.For educational public opinion on university BBS,the network measurement technology is applied to analyze the related dataset,which is gathered automaticly from Nanjing University Lily BBS for a half year.A spatial-time feature model for educational public opinion is built,which indicates that it is effective to rapidly detect hot opinion from spatial and multiple time features.Experiments showed that educational public opinion on university BBS distributes very sparse,related day active user number is not high,hot opinion is relatively few and easy to be detected from its prominent spatial-time features.
educational public opinion;network measurement;spatial-time feature model;hot opinion detection
10.3969/j.issn.1008-0821.2016.01.015
G250.73
A
1008-0821(2016)01-0084-07
2015-10-20
江蘇省高校哲學社會科學研究基金“高校網(wǎng)絡教育輿情的熱點信息挖掘與異常監(jiān)測”(項目編號:2011SJB880029)。
王麗英(1976-),女,講師,博士,研究方向:網(wǎng)絡信息安全、計算機圖形學。