文炯
圖書館服務質量評價中微博數據的應用研究
文炯
論文探討利用R語言工具對圖書館新浪微博數據進行子主題聚類和挖掘,指出:在文本分詞、構建詞頻——文檔矩陣的基礎上,使用Pamk算法和Kmeans算法進行微博聚類,獲取圖書館服務質量評價與建議信息,挖掘圖書館核心微博用戶,便于圖書館利用微博數據評估服務效果,改進服務質量。
微博圖書館服務質量評價文本聚類核心用戶
微博(Microblogging)是目前圖書館服務廣為采用的SNS形式之一,集信息傳播、獲取、分享和互動為一體,用戶可隨時隨地通過手機、即時通訊、Web等方式更新博文、組建個人社區(qū),關注目標對象,獲取外界信息[1]。用戶越來越多地開始選擇微博作為評價圖書館服務、提出服務意見的工具和平臺。
以“微博”及“圖書館”為關鍵詞,通過邏輯“與”運算符連接,在《中國期刊全文數據庫》中進行統(tǒng)計發(fā)現,雖然目前國內圖書館學界對“微博”主題挖掘研究的文獻不少,但多以語義分析,抽取的主題較為寬泛,而以特定主題為導向,進行“微博”主題下的子話題挖掘和聚類的研究甚少。本文將在上述研究的基礎上,以“圖書館”為主題,探討利用R語言工具對圖書館新浪微博數據進行子主題聚類和挖掘,獲取圖書館服務質量評價與建議信息,挖掘圖書館核心微博用戶,便于圖書館利用微博數據評估服務效果,改進服務質量。
R是一種免費、開源的面向對象的可編程語言,通俗易懂,拓展性強,擁有大量強大的數據統(tǒng)計分析功能包和科學數據可視化工具?;谝陨咸攸c,本文擬用R工具進行圖書館微博數據的挖掘研究。
圖書館微博數據以文本方式呈現,是高度非結構化數據,在文本預處理基礎上,利用Pamk和Kmeans多層算法相結合的方式對微博文本聚類,實現圖書館主題下的子主題劃分,甄選圖書館服務質量評價方面的有用數據,并根據微博文本獲取相應用戶ID,挖掘圖書館微博的核心用戶群體,這是本文研究的重點。
1.1 微博文本預處理
微博文本預處理是抽取代表文本特征的元數據并進行量化,以一定特征項加以表示,將基于自然語言的非結構化文本信息表示為數學矩陣形式,實現非結構化數據向結構化數據轉變的過程。主要包括中文分詞、詞頻統(tǒng)計、去停用詞和文本向量化等操作。本文利用Ansj分詞工具,對微博文本分詞,并統(tǒng)計詞頻和分析微博內容[2]。在此基礎上,構建語料庫,清理微博文本,利用向量空間模型(VSM)進行文檔建模,生成詞頻—文檔矩陣,行對應關鍵詞t,列對應文本向量d,將每個文檔視為空間向量,向量值反映詞t與文本d的關聯度[3]。
1.2 微博文本聚類
文本聚類將相似度較大的文檔聚為一類,并將相似度較小的文檔加以區(qū)分,能將圖書館微博文本劃分為各種子主題,有效挖掘圖書館服務質量評價方面的有用數據。圖書館微博文本集合龐大且內容多樣,需劃分的簇數目無法預知,本文利用Pamk算法結合Kmeans算法的多層次聚類策略來實現微博文本聚類。
(1)對微博文本多次抽樣,調用Pamk算法尋找各樣本k值,并根據optimum averagesilhouette width或Calinski-Harabasz index兩大聚類驗證指標驗證對應k值的聚類效果,找到各樣本最佳k值,得到整個數據集k值范圍。Optimum average silhouette width是選取最大的聚類輪廓值sk作為最佳聚類輪廓值,與之對應k值為最佳聚類數目且聚類結果為最佳聚類。sk定義為,該值越接近1表明聚類效果越好。Calinski-Harabasz index則結合簇內凝聚度和簇間分離度驗證聚類效果優(yōu)劣并判斷最優(yōu)簇個數。CH定義為該值越大表明聚類效果越好,其對應k值為最優(yōu)簇個數[4]。
(2)將所有k值以參數形式回傳給Kmeans算法進行迭代和重新定位,根據簇內平均值進行相似性計算,將微博文本劃分為k個聚類。算法采用漸變中心的優(yōu)化方法,在每輪迭代中,一旦將某文本歸入某個類中心所在的類,即根據該文本向量修改類中心,以使聚類結果的類內平均相似度盡量大。并以夾角余弦度量文本相似度作為分組依據:
(3)以輪廓系數結合簇內凝聚度(cohesion)與簇間分離度(separation)度量聚類效果,判斷各k值條件下聚類的優(yōu)良性。輪廓系數,其取值-1到 1之間,越接近1表明聚類效果越好,取其最大值所對應的聚類結果為圖書館微博聚類的最終劃分[7]。
1.3 獲取評價信息,挖掘核心用戶
閱讀分析“圖書館服務質量評價與建議”子主題微博文本,總結相關信息,發(fā)現服務中存在的問題,分析用戶評價與建議的時間分布與側重點變化,分析微博文本的情感傾向,以此評價圖書館服務,改進服務方式與方法,調整服務質量管理策略與方向,提高服務質量;同時,獲取相關數據,完善圖書館服務質量測評結果;另外,根據微博文本獲取相應用戶ID,挖掘圖書館微博的核心用戶群體,定時追蹤,持久關注,一定程度降低微博應用分析成本,簡化應用分析步驟。
本文以“廣東藥學院圖書館”為例,通過網絡爬蟲和新浪API接口批量獲取圖書館微博數據。以“廣藥圖書館”“廣東藥學院圖書館”“廣藥”+“圖書館”“廣東藥學院”+“圖書館”為關鍵詞搜索,結合“用戶標簽=廣藥or廣東藥學院+微博關鍵詞=圖書館”的搜索結果,截止到2013年6月15日共計搜索到15 012條微博數據,經mid值比對去重,最后得到有效微博數據14 764條,每一條微博數據內容均包括:微博ID、作者昵稱、微博內容、轉發(fā)的原帖的內容、微博發(fā)布時間、該次搜索的時間、轉發(fā)數、評論數。
2.1 微博文本預處理
本文利用R語言工具中Rwordseg程序包,使用rJava調用Java分詞工具Ansj,對微博文本分詞,分析微博內容;利用tm工具包生成語料庫,使用tm-map命令清理微博文本,刪除多余空格、標點符號、數字、停止詞和url等;然后利用TermDocument-Matrix函數對語料庫進行斷字處理,以歸一化的相對詞頻TF—IDF構建詞頻—文檔矩陣,并使用removeSparseTerms函數,取參數sparse為0.8,對初步生成的稀疏矩陣進行降維處理,提高運算效率和分類精度。
對收集到的14 764條數據,提取微博內容分詞后得到廣藥圖書館微博詞語24 621個,刪去沒實質意義的詞匯,抽取頻次較高的部分詞語繪制成表1。
表1 廣藥圖書館微博文本高頻詞語統(tǒng)計表(部分)
分析可見,“廣藥”“藥學院”“圖書館”“我”“我們”等詞語出現頻次最多,即用戶多以主觀意識出發(fā),對廣藥圖書館意見和觀點的表達多與自身感受相關;“空調”“冷氣”“燈光”等詞語說明用戶對圖書館硬件設施,尤其與時令季節(jié)相關的空調開放多有意見;“借閱”“還書”“存書”“開放”“時間”“光盤”“論文”“排行”等詞語表現出用戶多在意圖書館藏書量多少、開放時間長短、圖書借閱與各項服務便利與否;“老師”“態(tài)度”“服務”“建議”等詞語表現出用戶多在意和評論圖書館工作人員的服務態(tài)度與方式??梢?,微博用戶對圖書館服務質量多有評價,但內容廣泛,涉及各層面,多以切身感受為出發(fā)點,具有較強情感傾向,一定程度上影響其對圖書館的后續(xù)使用。
2.2 微博文本聚類
本文對廣藥圖書館微博文本構建的詞頻—文檔矩陣觀測發(fā)現,其大小為863mb,直接調用pamk函數無力計算其k值和聚類。故對原始數據集抽樣,每次抽取1500條數據,隨機抽樣100次,每次取樣大小均能調用Pamk函數,且100次提取的樣本集之和基本等于原始數據集。對各樣本集分詞,形成詞頻—文檔矩陣,調用fpc程序包,利用函數pamk(data,usepam=TRUE/FALSE),設參數“usepam=TRUE”,根據optimum average silhouette width計算最優(yōu)簇數目。最終發(fā)現,100個k值表現為以下幾個數值:2,4,5,7,8,11,15。k值為4、5的出現頻率最高,為63次;k值為2、11、15的出現頻率最低,為17次。
確定k值范圍后,調用cluster程序包,將Pamk算法獲取的7個k值,結合kmeans函數對廣藥圖書館微博文本進行多次聚類計算:kmeans(x,centers, nstart),取參數“centers=k”,設定聚類數目,并設取隨機初始中心的次數nstart=50,該較大值可較好平衡隨機初始中心選取對算法的不利影響。
聚類完成后,調用fpc包,利用stats函數計算7種不同k值情況下的輪廓系數,分析當k值分別為2、4、5、7、8、11、15時廣藥圖書館微博文本的Kmeans算法聚類效果,做出聚類評價,具體結果見表2。
表2 聚類輪廓系數表
由表2可見,對廣藥圖書館微博文本進行聚類時,k值取11、15時輪廓系數為0.2843和0.2613,屬于0.26~0.50區(qū)間,表明聚類結果缺乏說服力;k值取2、7、8時輪廓系數為0.5114、0.5635和0.5089,屬于0.51~0.71區(qū)間,表明聚類結果合理但滿意度不夠高;k值取4、5時輪廓系數為0.7174和0.7290,表明聚類效果高效且令人信服。而k=5時輪廓系數為最大值,即將廣藥圖書館微博文本聚為5類時,聚類效果最好。最終對14 764條廣藥圖書館微博數據,取k值為5進行kmeans聚類,聚類效果見圖1:(其縱軸為聚類類別,橫軸為數據集合中微博文本的排列序號)。各聚類內部距離平方和分別為:5.114 019、5.108 600、4.561 437、3.692 953、3.561 367,該值較小說明各類中對象個體比較相近。組間距離平方和between_SS占到整體距離平方和total_SS的73.7%,說明各類的類間距離較大,類與類間區(qū)別較大。
根據文本內容,廣藥圖書館微博可以分為5大類:①個人生活類,基本為用戶自我行為及自我心情的表達,用戶并未以“廣藥圖書館”為主要敘述內容和對象;②圖書館外觀評價類,基本為用戶對圖書館建筑、附帶園林美化設施等發(fā)表的看法;③圖書館使用問題類,基本為用戶詢問在圖書館使用過程中遇到的種種問題,以尋求解決;④圖書館告知類,基本為圖書館相關組織及其工作人員所發(fā)的各類服務、活動等的通知與介紹;⑤圖書館服務評價與建議類,基本為用戶從自我角度出發(fā),發(fā)表對圖書館硬件設施和服務工作的意見和建議,涉及到圖書館服務的各個層面。①、②、③類微博較多,④、⑤微博較少,其中圖書館服務評價與建議類微博信息總計2343條,占整個數據集的15.87%。
2.3 獲取圖書館服務質量評價與建議信息,挖掘圖書館核心微博用戶
廣藥圖書館服務質量評價與建議類微博達2343條,對其閱讀分析發(fā)現,內容主要集中在以下4個方面:①服務設施類,對圖書館各類硬件設施如書架、桌椅、照明設施、飲水器械等進行評論,尤其對與時令季節(jié)密切相關的如夏季空調開放發(fā)表意見;②服務資源類,對圖書館文獻資源存儲量、資源配置比重、資源建設途徑等發(fā)表意見;③服務態(tài)度類,對圖書館工作人員的服務態(tài)度發(fā)表的評論;④服務方式類,對圖書館各種服務方式如圖書借閱時間長短、讀者排行表彰、光盤獲取方式、論文查詢途徑等發(fā)表意見。
其中服務態(tài)度類評價與建議最多,達875條,服務方式類評價與建議最少,達394條,服務資源和設施類評價與建議分別達686和567條,部分微博內容涉及2個及以上方面。4類微博發(fā)布時間都基本貫穿整個數據集時間段,服務態(tài)度和服務方式類評價與建議逐年上升,用戶關注重點逐漸轉移至服務“軟實力”方面。64.89%的微博為抱怨類信息,顯示用戶對圖書館服務質量不滿、信任度降低。利用上述挖掘信息,可評價圖書館服務質量,發(fā)現服務中存在的問題,從而改進圖書館服務方式與方法,調整服務質量管理的策略與方向,提高服務質量。另數據集時間分布為2009.3.12—2013.6.15,按一定時間段劃分總結,作為圖書館服務質量測評的數據來源與輔助手段,可完善測評結果。
本文抓取的微博字段包括:“MID”“Author”“Weibo”“Forward”“Time_Weibo”“Time_Search”“Count_Forward”“Count_Reply”??捎晌谋緝热荩╓eibo)獲取對應用戶ID(Author),即根據圖書館微博文本聚類結果,挖掘圖書館核心微博用戶,進行長期追蹤。結果發(fā)現,2343條圖書館服務評價與建議類微博共指向216個微博用戶,其中公共平臺用戶和機構用戶48個,個人微博用戶168個,前者發(fā)表微博1568條,后者發(fā)表微博775條。該216名用戶為微博平臺中圖書館服務質量評價方面的主要用戶。但有時用戶會選擇在圖書館及其工作人員發(fā)表的微博下發(fā)表評論意見,因此圖書館微博用戶的核心群體除216名圖書館服務質量評價方面的主要用戶外,還應包括圖書館告知類微博用戶。而圖書館告知類微博1626條共指向47個微博用戶,其中機構用戶18個、個人微博用戶29個,前者發(fā)表微博1092條,后者發(fā)表微博534條。即廣藥圖書館微博用戶的核心群體為上述263名微博用戶。表3為排名前10的核心微博用戶及其所發(fā)表的圖書館相關的微博數。
表3 廣藥圖書館核心微博用戶表
圖書館微博數據看似紛繁復雜,實則包含大量服務評價與意見信息。圖書館服務質量評價因帶有用戶主觀感情色彩往往會被高頻率轉發(fā)和關注,形成較強輿論傾向并在一定程度上影響用戶對圖書館的后續(xù)使用。因此,從大數據角度出發(fā),對圖書館微博數據進行收集、挖掘和聚類是極其必要的。這不僅能有效收集用戶意見,及時發(fā)現圖書館服務問題所在,而且能對微博用戶進行區(qū)分,發(fā)現核心用戶,便于從長遠角度持續(xù)、快捷地獲取微博中圖書館服務質量評價信息,最終改善圖書館服務質量和形象。
[1]高俊奎,付永宏,吳素彬.美國情報體制發(fā)展趨勢研究[J].情報雜志,2010(2):27-29.
[2]魏曉寧.基于隱馬爾科夫模型的中文分詞研究[J].電腦知識與技術,2007(21):885-886.
[3]石佑紅.基于支持向量機的文本分類的研究[D].北京:北京交通大學,2007.
[4]朱連江,馬炳先,趙學泉.基于輪廓系數的聚類有效性分析[J].計算機應用,2010,30(2):139-141.
[5]方匡南.基于數據挖掘的分類和聚類算法研究及R語言實現[D].廣州:暨南大學,2007.
[6]郭茜.搜索引擎結果冗余信息消解算法的研究與應用[D].上海:東華大學,2010.
[7]肖鳳,鄭海健,盧闖.基于聚類分析的銀行客戶關系管理策略研究[J].技術經濟,2010,29(1):87-93.
[8]陳希.基于R語言數據挖掘的社交網絡客戶細分研究[D].北京:北京郵電大學,2011.
[9]劉思喆.R語言環(huán)境下的文本挖掘[EB/OL].(2012-03-19)[2013-09-20].http://www.bjt.name/2012/03/ text-mining-in-r/.
[10]Lijian.Rweibo[EB/OL].(2011-03-21)[2013-09-20]. http://jliblog.com/app/rweibo.
[11]Lijian.Rwordseg[EB/OL].(2012-12-23)[2013-09-20].http://jliblog.com/app/rwordseg.
[12]Robert I.Kabacoff.Quick—R[EB/OL].[2013-09-20]. http://www.statmethods.net/.
[13]An Introduction to R[EB/OL].(2013-05-16)[2013-09-20].http://cran.r-project.org/doc/manuals/R-intro. pdf.
[14]薛毅.統(tǒng)計建模與R軟件[M].北京:清華大學出版社,2007.
文炯廣東藥學院圖書館館員。廣東廣州510006。
Research on the Application of the Microblog Data in the Library's Service Quality Evaluation
Wen Jiong
This paper investigates the sub topic mining and clustering of the library’s Sina microblog data by using R language tool.It points out that based on the text segmentation and term—document matrix,clustering library’s Sina microblog data by using Pamk algorithm and Kmeans algorithm to gain library’s service quality evaluations and advices and to unearth Sina microblog’s core?users of the library,can be easy for us to evaluate the library’s service effect and improve its service quality.
Microblog.Library’s service quality evaluation.Text clustering.Core users.
G250.7
2013-11-22編校:方瑋)