王萌 張紅英 田娜 嚴(yán)大虎
摘要:本文將信息挖掘技術(shù)應(yīng)用于大學(xué)生微博分析,以江南大學(xué)在校生為研究對象,通過收集學(xué)生的微博數(shù)據(jù),對微博內(nèi)容和行為進(jìn)行分析,力求以真實(shí)的微博數(shù)據(jù)為依據(jù),客觀地反映當(dāng)前大學(xué)生微博的使用現(xiàn)狀,并探究不同群體大學(xué)生的微博行為差異。
關(guān)鍵詞:微博;信息挖掘;教育技術(shù)
● 引言
微博作為新興的網(wǎng)絡(luò)傳播工具,受到越來越多用戶的青睞,微表達(dá)、微傳播的影響力與日俱增。在校園里,微博逐漸演變成學(xué)生的一種生活方式,從吃、穿、住、行到揭露時弊、參政問政,涵蓋了生活的方方面面,微博空間已成為大學(xué)生不可缺失的“第二交往空間”。針對大學(xué)生這一群體的微博行為分析成為研究熱點(diǎn)。
縱觀學(xué)術(shù)界,針對微博的相關(guān)研究及其涉及的學(xué)科范圍非常廣泛,可以歸納為兩個層面,一個是技術(shù)層面,從計(jì)算機(jī)科學(xué)技術(shù)、人工智能等自然科學(xué)的角度,主要研究微博短文本理解、微博內(nèi)容挖掘、微博情感分析、微博用戶社區(qū)挖掘。另一個是應(yīng)用層面,從心理學(xué)、教育學(xué)、傳播學(xué)、營銷管理等人文學(xué)科的角度,主要研究微博的系統(tǒng)功能、微博信息傳播模式、與學(xué)科教學(xué)的結(jié)合方式、微博交往的心理機(jī)制和行為特點(diǎn)、微博意見領(lǐng)袖。技術(shù)層面的研究多采用各種信息處理技術(shù),如中文分詞、命名實(shí)體識別、文本分類、情感分析,對微博文本建模,進(jìn)行語言處理和文本分析。而應(yīng)用層面的研究多采用調(diào)查問卷的方法、半結(jié)構(gòu)化訪談方法來獲取用戶使用微博的相關(guān)數(shù)據(jù),進(jìn)而對獲取的數(shù)據(jù)進(jìn)行定量分析。而結(jié)合兩種研究手段,將信息挖掘技術(shù)應(yīng)用于用戶微博行為分析的研究相對匱乏,因此我們做了此次研究。
● 實(shí)驗(yàn)流程
本次研究主要由三部分組成:微博賬號的收集、微博數(shù)據(jù)的采集及整理、微博內(nèi)容及行為的分析。
1.學(xué)生微博賬號收集
以自愿為原則,線上和線下兩種渠道并用,以調(diào)查問卷的方式,收集大學(xué)生的新浪微博昵稱,收集信息為:新浪微博昵稱、所在院系、性別、年級。本研究先將調(diào)查對象限定為江南大學(xué)在校生,學(xué)生的專業(yè)盡可能涵蓋文、理、工、藝、體、醫(yī)等多個學(xué)科,年級包括從大一到大四以及研究生一至三年級,多元化的調(diào)查對象帶來大量而真實(shí)的數(shù)據(jù),有利于進(jìn)行定量分析和對比研究。
2.微博數(shù)據(jù)采集及整理
利用公開下載的微博數(shù)據(jù)采集軟件weiboCrawlerApp_3.0.9對收集到的微博賬號進(jìn)行數(shù)據(jù)采集。輸入微博賬號名稱,該軟件從新浪微博上獲取指定用戶發(fā)表的所有微博內(nèi)容,并以文本格式文件保存,下載內(nèi)容如表1所示。
根據(jù)收集到的微博信息的特點(diǎn),我們設(shè)計(jì)了兩個核心數(shù)據(jù)表,對下載的微博數(shù)據(jù)進(jìn)行歸類整理,數(shù)據(jù)表的結(jié)構(gòu)說明如表2所示。
● 微博數(shù)據(jù)分析
通過近一個月的數(shù)據(jù)采集,共收集到微博賬號30個,其中有效賬號20個,學(xué)生分布情況如表3所示。調(diào)查對象數(shù)據(jù)量未達(dá)到預(yù)期的目標(biāo),主要原因是學(xué)生對此調(diào)查心存顧慮,不愿意提供微博賬號,還有部分同學(xué)提供“死”賬號(從未發(fā)布任何微博的賬號)。20個微博賬號共發(fā)布微博12610條,本文的數(shù)據(jù)分析都來自于以上微博數(shù)據(jù)。
1.登錄方式
學(xué)生發(fā)布的12610條微博,其中有3179次由手機(jī)客戶端發(fā)布,9431次由電腦客戶端發(fā)布,詳細(xì)分布見下頁圖1。在宿舍學(xué)生一般會使用電腦登錄,而在外面的時候多使用手機(jī)。微博可以通過手機(jī)網(wǎng)絡(luò)以短信、彩信的方式更新,這正是微博的優(yōu)勢所在。
2.發(fā)博時間
本文對20位樣本的12610次發(fā)布微博的時間進(jìn)行了統(tǒng)計(jì),以兩個小時為一個時間段,發(fā)博時間分布如下頁圖2所示。數(shù)據(jù)顯示,學(xué)生的微博發(fā)布量有一個高峰,集中在每天18:00~22:00。參考江南大學(xué)的作息時間表,這個時間段是屬于下課時間,學(xué)生有空閑來發(fā)布微博,而在上課時間微博量下降,凌晨時間段沒有微博發(fā)布。
3.微博情感分析
微博中的信息呈現(xiàn)碎片化的特性,微博不需要特別的邏輯和文法,任何一段話,幾個詞甚至一個表情符號,都能成為一條微博。微博作為大學(xué)生對話交流、思想分享的平臺,越來越多的學(xué)生通過微博來表達(dá)自我、宣泄情緒、評論時事、分享消息,微博內(nèi)容多帶有強(qiáng)烈的情感傾向。微博情感分析主要是進(jìn)行情感極性的判定,即判斷一條微博消息表達(dá)情感是正(積極)、負(fù)(消極)、中性(中立)。本文使用的情感分析軟件是武漢大學(xué)ROST虛擬學(xué)習(xí)團(tuán)隊(duì)編寫的ROSTCM6,該軟件具有文本操作、聊天分析、全網(wǎng)分析、網(wǎng)站分析等功能。我們利用其中的情感分析模塊對20位學(xué)生的12610條微博進(jìn)行了分析,微博情感分布如圖3所示。數(shù)據(jù)顯示,本次調(diào)查樣本中情緒積極占絕大多數(shù)。
● 基于大學(xué)生微博使用情況的幾點(diǎn)思考
如何引導(dǎo)學(xué)生合理使用微博,是擺在高校工作者面前的一個重要課題。根據(jù)本次大學(xué)生微博行為的調(diào)查結(jié)果,提出以下建議和思考。
1.管理微博使用時間,防止上癮
微博作為一種便捷的網(wǎng)絡(luò)交流工具,對學(xué)生的自覺性和自控能力要求很高,為了避免學(xué)生沉迷網(wǎng)絡(luò),甚至上課時間都在發(fā)微博,必須引導(dǎo)學(xué)生自覺管理微博使用時間。例如,在課程表定義的時間域內(nèi)禁止登錄,每天在線時間不得超過2小時等。
2.利用微博開展微型學(xué)習(xí)
微博“碎片化”的技術(shù)特點(diǎn)適合支持微型學(xué)習(xí)。微型學(xué)習(xí)中,學(xué)習(xí)者利用零碎的時間片段在課下或者一些并不適于集中注意力的環(huán)境中進(jìn)行學(xué)習(xí)。利用微博的多種媒體形式(如文本、圖片等)為學(xué)生提供簡明的微型化學(xué)習(xí)內(nèi)容,設(shè)置適當(dāng)?shù)膶W(xué)習(xí)目標(biāo)。微博在支持教育信息資源共享、教學(xué)交互等方面有著廣泛的應(yīng)用前景。
3.掌握學(xué)生思想輿論動態(tài)
利用信息挖掘技術(shù),對學(xué)生微博的進(jìn)行話題分析和情感分析,可以實(shí)時掌握學(xué)生的思想輿論動態(tài)及情緒走向,這對于提高處置網(wǎng)絡(luò)突發(fā)事件的能力和監(jiān)管能力有著非常重要的現(xiàn)實(shí)意義。
參考文獻(xiàn):
[1]王亞煦,等.大學(xué)生使用微博的現(xiàn)狀分析及對策研究[J].長春師范學(xué)院學(xué)報(bào)(人文社會科學(xué)版),2012(2):132-136.
[2]張琪.大學(xué)生微博交往動機(jī)與行為特點(diǎn)研究[J].電化教育研究,2012(8):54-58.
[3]閆幸.微博研究綜述[J].情報(bào)雜志,2011(9):61-65.
[4]林書兵,徐曉東.微博客及其教育應(yīng)用探析[J].電化教育研究,2010(3):16-20.
[5]張劍峰,等.微博文本處理研究綜述[J].中文信息學(xué)報(bào),2012(7):21-27.
[6]龔才春.短文本語言計(jì)算的關(guān)鍵技術(shù)研究[D].北京:中國科學(xué)院研究生院,博士學(xué)位論文,2008.
基金項(xiàng)目:本文受國家自然科學(xué)基金(項(xiàng)目編號:61300152)資助。