文炯
摘 要 論文探討利用R語(yǔ)言工具對(duì)圖書(shū)館新浪微博數(shù)據(jù)進(jìn)行子主題聚類(lèi)和挖掘,指出:在文本分詞、構(gòu)建詞頻——文檔矩陣的基礎(chǔ)上,使用Pamk算法和Kmeans算法進(jìn)行微博聚類(lèi),獲取圖書(shū)館服務(wù)質(zhì)量評(píng)價(jià)與建議信息,挖掘圖書(shū)館核心微博用戶(hù),便于圖書(shū)館利用微博數(shù)據(jù)評(píng)估服務(wù)效果,改進(jìn)服務(wù)質(zhì)量。
關(guān)鍵詞 微博 圖書(shū)館服務(wù)質(zhì)量評(píng)價(jià) 文本聚類(lèi) 核心用戶(hù)
分類(lèi)號(hào) G250.7
Research on the Application of the Microblog Data in the Library's Service Quality Evaluation
Wen Jiong
Abstract This paper investigates the sub topic mining and clustering of the librarys Sina microblog data by using R language tool. It points out that based on the text segmentation and term—document matrix, clustering librarys Sina microblog data by using Pamk algorithm and Kmeans algorithm to gain librarys service quality evaluations and advices and to unearth Sina microblogs core?users of the library, can be easy for us to evaluate the librarys service effect and improve its service quality.
Keywords Microblog. Librarys service quality evaluation. Text clustering. Core users.
微博(Microblogging)是目前圖書(shū)館服務(wù)廣為采用的SNS形式之一,集信息傳播、獲取、分享和互動(dòng)為一體,用戶(hù)可隨時(shí)隨地通過(guò)手機(jī)、即時(shí)通訊、Web等方式更新博文、組建個(gè)人社區(qū),關(guān)注目標(biāo)對(duì)象,獲取外界信息[1]。用戶(hù)越來(lái)越多地開(kāi)始選擇微博作為評(píng)價(jià)圖書(shū)館服務(wù)、提出服務(wù)意見(jiàn)的工具和平臺(tái)。
以“微博”及“圖書(shū)館”為關(guān)鍵詞,通過(guò)邏輯“與”運(yùn)算符連接,在《中國(guó)期刊全文數(shù)據(jù)庫(kù)》中進(jìn)行統(tǒng)計(jì)發(fā)現(xiàn),雖然目前國(guó)內(nèi)圖書(shū)館學(xué)界對(duì)“微博”主題挖掘研究的文獻(xiàn)不少,但多以語(yǔ)義分析,抽取的主題較為寬泛,而以特定主題為導(dǎo)向,進(jìn)行“微博”主題下的子話(huà)題挖掘和聚類(lèi)的研究甚少。本文將在上述研究的基礎(chǔ)上,以“圖書(shū)館”為主題,探討利用R語(yǔ)言工具對(duì)圖書(shū)館新浪微博數(shù)據(jù)進(jìn)行子主題聚類(lèi)和挖掘,獲取圖書(shū)館服務(wù)質(zhì)量評(píng)價(jià)與建議信息,挖掘圖書(shū)館核心微博用戶(hù),便于圖書(shū)館利用微博數(shù)據(jù)評(píng)估服務(wù)效果,改進(jìn)服務(wù)質(zhì)量。
1 設(shè)計(jì)思路和方案
R是一種免費(fèi)、開(kāi)源的面向?qū)ο蟮目删幊陶Z(yǔ)言,通俗易懂,拓展性強(qiáng),擁有大量強(qiáng)大的數(shù)據(jù)統(tǒng)計(jì)分析功能包和科學(xué)數(shù)據(jù)可視化工具?;谝陨咸攸c(diǎn),本文擬用R工具進(jìn)行圖書(shū)館微博數(shù)據(jù)的挖掘研究。
圖書(shū)館微博數(shù)據(jù)以文本方式呈現(xiàn),是高度非結(jié)構(gòu)化數(shù)據(jù),在文本預(yù)處理基礎(chǔ)上,利用Pamk和Kmeans多層算法相結(jié)合的方式對(duì)微博文本聚類(lèi),實(shí)現(xiàn)圖書(shū)館主題下的子主題劃分,甄選圖書(shū)館服務(wù)質(zhì)量評(píng)價(jià)方面的有用數(shù)據(jù),并根據(jù)微博文本獲取相應(yīng)用戶(hù)ID,挖掘圖書(shū)館微博的核心用戶(hù)群體,這是本文研究的重點(diǎn)。
1.1 微博文本預(yù)處理
微博文本預(yù)處理是抽取代表文本特征的元數(shù)據(jù)并進(jìn)行量化,以一定特征項(xiàng)加以表示,將基于自然語(yǔ)言的非結(jié)構(gòu)化文本信息表示為數(shù)學(xué)矩陣形式,實(shí)現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)向結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)變的過(guò)程。主要包括中文分詞、詞頻統(tǒng)計(jì)、去停用詞和文本向量化等操作。本文利用Ansj分詞工具,對(duì)微博文本分詞,并統(tǒng)計(jì)詞頻和分析微博內(nèi)容[2]。在此基礎(chǔ)上,構(gòu)建語(yǔ)料庫(kù),清理微博文本,利用向量空間模型(VSM)進(jìn)行文檔建模,生成詞頻—文檔矩陣,行對(duì)應(yīng)關(guān)鍵詞t,列對(duì)應(yīng)文本向量d,將每個(gè)文檔視為空間向量,向量值反映詞t與文本d的關(guān)聯(lián)度[3]。
1.2 微博文本聚類(lèi)
文本聚類(lèi)將相似度較大的文檔聚為一類(lèi),并將相似度較小的文檔加以區(qū)分,能將圖書(shū)館微博文本劃分為各種子主題,有效挖掘圖書(shū)館服務(wù)質(zhì)量評(píng)價(jià)方面的有用數(shù)據(jù)。圖書(shū)館微博文本集合龐大且內(nèi)容多樣,需劃分的簇?cái)?shù)目無(wú)法預(yù)知,本文利用Pamk算法結(jié)合Kmeans算法的多層次聚類(lèi)策略來(lái)實(shí)現(xiàn)微博文本聚類(lèi)。
(1)對(duì)微博文本多次抽樣,調(diào)用Pamk算法尋找各樣本k值,并根據(jù)optimum averagesilhouette width或Calinski-Harabasz index兩大聚類(lèi)驗(yàn)證指標(biāo)驗(yàn)證對(duì)應(yīng)k值的聚類(lèi)效果,找到各樣本最佳k值,得到整個(gè)數(shù)據(jù)集k值范圍。Optimum average silhouette width是選取最大的聚類(lèi)輪廓值sk作為最佳聚類(lèi)輪廓值,與之對(duì)應(yīng)k值為最佳聚類(lèi)數(shù)目且聚類(lèi)結(jié)果為最佳聚類(lèi)。sk定義為:sk=■■,該值越接近1表明聚類(lèi)效果越好。Calinski-Harabasz index則結(jié)合簇內(nèi)凝聚度和簇間分離度驗(yàn)證聚類(lèi)效果優(yōu)劣并判斷最優(yōu)簇個(gè)數(shù)。CH定義為:CH=■,該值越大表明聚類(lèi)效果越好,其對(duì)應(yīng)k值為最優(yōu)簇個(gè)數(shù)[4]。
(2)將所有k值以參數(shù)形式回傳給Kmeans算法進(jìn)行迭代和重新定位,根據(jù)簇內(nèi)平均值進(jìn)行相似性計(jì)算,將微博文本劃分為k個(gè)聚類(lèi)。算法采用漸變中心的優(yōu)化方法,在每輪迭代中,一旦將某文本歸入某個(gè)類(lèi)中心所在的類(lèi),即根據(jù)該文本向量修改類(lèi)中心,以使聚類(lèi)結(jié)果的類(lèi)內(nèi)平均相似度盡量大。并以?shī)A角余弦度量文本相似度作為分組依據(jù):endprint
sim(D1,D2)=cosθ=■[5-6]
(3)以輪廓系數(shù)結(jié)合簇內(nèi)凝聚度(cohesion)與簇間分離度(separation)度量聚類(lèi)效果,判斷各k值條件下聚類(lèi)的優(yōu)良性。輪廓系數(shù)sk=■■si,其取值-1到1之間,越接近1表明聚類(lèi)效果越好,取其最大值所對(duì)應(yīng)的聚類(lèi)結(jié)果為圖書(shū)館微博聚類(lèi)的最終劃分[7]。
1.3 獲取評(píng)價(jià)信息,挖掘核心用戶(hù)
閱讀分析“圖書(shū)館服務(wù)質(zhì)量評(píng)價(jià)與建議”子主題微博文本,總結(jié)相關(guān)信息,發(fā)現(xiàn)服務(wù)中存在的問(wèn)題,分析用戶(hù)評(píng)價(jià)與建議的時(shí)間分布與側(cè)重點(diǎn)變化,分析微博文本的情感傾向,以此評(píng)價(jià)圖書(shū)館服務(wù),改進(jìn)服務(wù)方式與方法,調(diào)整服務(wù)質(zhì)量管理策略與方向,提高服務(wù)質(zhì)量;同時(shí),獲取相關(guān)數(shù)據(jù),完善圖書(shū)館服務(wù)質(zhì)量測(cè)評(píng)結(jié)果;另外,根據(jù)微博文本獲取相應(yīng)用戶(hù)ID,挖掘圖書(shū)館微博的核心用戶(hù)群體,定時(shí)追蹤,持久關(guān)注,一定程度降低微博應(yīng)用分析成本,簡(jiǎn)化應(yīng)用分析步驟。
2 實(shí)證研究
本文以 “廣東藥學(xué)院圖書(shū)館”為例,通過(guò)網(wǎng)絡(luò)爬蟲(chóng)和新浪API接口批量獲取圖書(shū)館微博數(shù)據(jù)。以“廣藥圖書(shū)館”“廣東藥學(xué)院圖書(shū)館”“廣藥”+“圖書(shū)館”“廣東藥學(xué)院”+“圖書(shū)館”為關(guān)鍵詞搜索,結(jié)合“用戶(hù)標(biāo)簽=廣藥or廣東藥學(xué)院+微博關(guān)鍵詞=圖書(shū)館”的搜索結(jié)果,截止到2013年6月15日共計(jì)搜索到15 012條微博數(shù)據(jù),經(jīng)mid值比對(duì)去重,最后得到有效微博數(shù)據(jù)14 764條,每一條微博數(shù)據(jù)內(nèi)容均包括:微博ID、作者昵稱(chēng)、微博內(nèi)容、轉(zhuǎn)發(fā)的原帖的內(nèi)容、微博發(fā)布時(shí)間、該次搜索的時(shí)間、轉(zhuǎn)發(fā)數(shù)、評(píng)論數(shù)。
2.1 微博文本預(yù)處理
本文利用R語(yǔ)言工具中Rwordseg程序包,使用rJava調(diào)用Java分詞工具Ansj,對(duì)微博文本分詞,分析微博內(nèi)容;利用tm工具包生成語(yǔ)料庫(kù),使用tm-map命令清理微博文本,刪除多余空格、標(biāo)點(diǎn)符號(hào)、數(shù)字、停止詞和url等;然后利用TermDocumentMatrix函數(shù)對(duì)語(yǔ)料庫(kù)進(jìn)行斷字處理,以歸一化的相對(duì)詞頻TF—IDF構(gòu)建詞頻—文檔矩陣,并使用removeSparseTerms函數(shù),取參數(shù)sparse為0.8,對(duì)初步生成的稀疏矩陣進(jìn)行降維處理,提高運(yùn)算效率和分類(lèi)精度。
對(duì)收集到的14 764條數(shù)據(jù),提取微博內(nèi)容分詞后得到廣藥圖書(shū)館微博詞語(yǔ)24 621個(gè),刪去沒(méi)實(shí)質(zhì)意義的詞匯,抽取頻次較高的部分詞語(yǔ)繪制成表1。
表1 廣藥圖書(shū)館微博文本高頻詞語(yǔ)統(tǒng)計(jì)表(部分)
分析可見(jiàn),“廣藥”“藥學(xué)院”“圖書(shū)館”“我”“我們”等詞語(yǔ)出現(xiàn)頻次最多,即用戶(hù)多以主觀意識(shí)出發(fā),對(duì)廣藥圖書(shū)館意見(jiàn)和觀點(diǎn)的表達(dá)多與自身感受相關(guān);“空調(diào)”“冷氣”“燈光”等詞語(yǔ)說(shuō)明用戶(hù)對(duì)圖書(shū)館硬件設(shè)施,尤其與時(shí)令季節(jié)相關(guān)的空調(diào)開(kāi)放多有意見(jiàn);“借閱”“還書(shū)”“存書(shū)”“開(kāi)放”“時(shí)間”“光盤(pán)”“論文”“排行”等詞語(yǔ)表現(xiàn)出用戶(hù)多在意圖書(shū)館藏書(shū)量多少、開(kāi)放時(shí)間長(zhǎng)短、圖書(shū)借閱與各項(xiàng)服務(wù)便利與否;“老師”“態(tài)度”“服務(wù)”“建議”等詞語(yǔ)表現(xiàn)出用戶(hù)多在意和評(píng)論圖書(shū)館工作人員的服務(wù)態(tài)度與方式。可見(jiàn),微博用戶(hù)對(duì)圖書(shū)館服務(wù)質(zhì)量多有評(píng)價(jià),但內(nèi)容廣泛,涉及各層面,多以切身感受為出發(fā)點(diǎn),具有較強(qiáng)情感傾向,一定程度上影響其對(duì)圖書(shū)館的后續(xù)使用。
2.2 微博文本聚類(lèi)
本文對(duì)廣藥圖書(shū)館微博文本構(gòu)建的詞頻—文檔矩陣觀測(cè)發(fā)現(xiàn),其大小為863mb,直接調(diào)用pamk函數(shù)無(wú)力計(jì)算其k值和聚類(lèi)。故對(duì)原始數(shù)據(jù)集抽樣,每次抽取1500條數(shù)據(jù),隨機(jī)抽樣100次,每次取樣大小均能調(diào)用Pamk函數(shù),且100次提取的樣本集之和基本等于原始數(shù)據(jù)集。對(duì)各樣本集分詞,形成詞頻—文檔矩陣,調(diào)用fpc程序包,利用函數(shù)pamk(data,usepam=TRUE/FALSE),設(shè)參數(shù)“usepam=TRUE”,根據(jù)optimum average silhouette width計(jì)算最優(yōu)簇?cái)?shù)目。最終發(fā)現(xiàn),100個(gè)k值表現(xiàn)為以下幾個(gè)數(shù)值:2,4,5,7,8,11,15。k值為4、5的出現(xiàn)頻率最高,為63次;k值為2、11、15的出現(xiàn)頻率最低,為17次。
確定k值范圍后,調(diào)用cluster程序包,將Pamk算法獲取的7個(gè)k值,結(jié)合kmeans函數(shù)對(duì)廣藥圖書(shū)館微博文本進(jìn)行多次聚類(lèi)計(jì)算:kmeans(x,centers,nstart),取參數(shù)“centers=k”,設(shè)定聚類(lèi)數(shù)目,并設(shè)取隨機(jī)初始中心的次數(shù)nstart=50,該較大值可較好平衡隨機(jī)初始中心選取對(duì)算法的不利影響。
聚類(lèi)完成后,調(diào)用fpc包,利用stats函數(shù)計(jì)算7種不同k值情況下的輪廓系數(shù),分析當(dāng)k值分別為2、4、5、7、8、11、15時(shí)廣藥圖書(shū)館微博文本的Kmeans算法聚類(lèi)效果,做出聚類(lèi)評(píng)價(jià),具體結(jié)果見(jiàn)表2。
表2 聚類(lèi)輪廓系數(shù)表
由表2可見(jiàn),對(duì)廣藥圖書(shū)館微博文本進(jìn)行聚類(lèi)時(shí),k值取11、15時(shí)輪廓系數(shù)為0.2843和0.2613,屬于0.26~0.50區(qū)間,表明聚類(lèi)結(jié)果缺乏說(shuō)服力;k值取2、7、8時(shí)輪廓系數(shù)為0.5114、0.5635和0.5089,屬于0.51~0.71區(qū)間,表明聚類(lèi)結(jié)果合理但滿(mǎn)意度不夠高;k值取4、5時(shí)輪廓系數(shù)為0.7174和0.7290,表明聚類(lèi)效果高效且令人信服。而k=5時(shí)輪廓系數(shù)為最大值,即將廣藥圖書(shū)館微博文本聚為5類(lèi)時(shí),聚類(lèi)效果最好。最終對(duì)14 764條廣藥圖書(shū)館微博數(shù)據(jù),取k值為5進(jìn)行kmeans聚類(lèi),聚類(lèi)效果見(jiàn)圖1:(其縱軸為聚類(lèi)類(lèi)別,橫軸為數(shù)據(jù)集合中微博文本的排列序號(hào))。各聚類(lèi)內(nèi)部距離平方和分別為:5.114 019、5.108 600、4.561 437、3.692 953、3.561 367,該值較小說(shuō)明各類(lèi)中對(duì)象個(gè)體比較相近。組間距離平方和between_SS占到整體距離平方和total_SS的73.7%,說(shuō)明各類(lèi)的類(lèi)間距離較大,類(lèi)與類(lèi)間區(qū)別較大。
圖1 廣藥圖書(shū)館微博文本聚類(lèi)效果圖endprint
根據(jù)文本內(nèi)容,廣藥圖書(shū)館微博可以分為5大類(lèi):①個(gè)人生活類(lèi),基本為用戶(hù)自我行為及自我心情的表達(dá),用戶(hù)并未以“廣藥圖書(shū)館”為主要敘述內(nèi)容和對(duì)象;②圖書(shū)館外觀評(píng)價(jià)類(lèi),基本為用戶(hù)對(duì)圖書(shū)館建筑、附帶園林美化設(shè)施等發(fā)表的看法;③圖書(shū)館使用問(wèn)題類(lèi),基本為用戶(hù)詢(xún)問(wèn)在圖書(shū)館使用過(guò)程中遇到的種種問(wèn)題,以尋求解決;④圖書(shū)館告知類(lèi),基本為圖書(shū)館相關(guān)組織及其工作人員所發(fā)的各類(lèi)服務(wù)、活動(dòng)等的通知與介紹;⑤圖書(shū)館服務(wù)評(píng)價(jià)與建議類(lèi),基本為用戶(hù)從自我角度出發(fā),發(fā)表對(duì)圖書(shū)館硬件設(shè)施和服務(wù)工作的意見(jiàn)和建議,涉及到圖書(shū)館服務(wù)的各個(gè)層面。①、②、③類(lèi)微博較多,④、⑤微博較少,其中圖書(shū)館服務(wù)評(píng)價(jià)與建議類(lèi)微博信息總計(jì)2343條,占整個(gè)數(shù)據(jù)集的15.87%。
2.3 獲取圖書(shū)館服務(wù)質(zhì)量評(píng)價(jià)與建議信息,挖掘圖書(shū)館核心微博用戶(hù)
廣藥圖書(shū)館服務(wù)質(zhì)量評(píng)價(jià)與建議類(lèi)微博達(dá)2343條,對(duì)其閱讀分析發(fā)現(xiàn),內(nèi)容主要集中在以下4個(gè)方面:①服務(wù)設(shè)施類(lèi),對(duì)圖書(shū)館各類(lèi)硬件設(shè)施如書(shū)架、桌椅、照明設(shè)施、飲水器械等進(jìn)行評(píng)論,尤其對(duì)與時(shí)令季節(jié)密切相關(guān)的如夏季空調(diào)開(kāi)放發(fā)表意見(jiàn);②服務(wù)資源類(lèi),對(duì)圖書(shū)館文獻(xiàn)資源存儲(chǔ)量、資源配置比重、資源建設(shè)途徑等發(fā)表意見(jiàn);③服務(wù)態(tài)度類(lèi),對(duì)圖書(shū)館工作人員的服務(wù)態(tài)度發(fā)表的評(píng)論;④服務(wù)方式類(lèi),對(duì)圖書(shū)館各種服務(wù)方式如圖書(shū)借閱時(shí)間長(zhǎng)短、讀者排行表彰、光盤(pán)獲取方式、論文查詢(xún)途徑等發(fā)表意見(jiàn)。
其中服務(wù)態(tài)度類(lèi)評(píng)價(jià)與建議最多,達(dá)875條,服務(wù)方式類(lèi)評(píng)價(jià)與建議最少,達(dá)394條,服務(wù)資源和設(shè)施類(lèi)評(píng)價(jià)與建議分別達(dá)686和567條,部分微博內(nèi)容涉及2個(gè)及以上方面。4類(lèi)微博發(fā)布時(shí)間都基本貫穿整個(gè)數(shù)據(jù)集時(shí)間段,服務(wù)態(tài)度和服務(wù)方式類(lèi)評(píng)價(jià)與建議逐年上升,用戶(hù)關(guān)注重點(diǎn)逐漸轉(zhuǎn)移至服務(wù)“軟實(shí)力”方面。64.89%的微博為抱怨類(lèi)信息,顯示用戶(hù)對(duì)圖書(shū)館服務(wù)質(zhì)量不滿(mǎn)、信任度降低。利用上述挖掘信息,可評(píng)價(jià)圖書(shū)館服務(wù)質(zhì)量,發(fā)現(xiàn)服務(wù)中存在的問(wèn)題,從而改進(jìn)圖書(shū)館服務(wù)方式與方法,調(diào)整服務(wù)質(zhì)量管理的策略與方向,提高服務(wù)質(zhì)量。另數(shù)據(jù)集時(shí)間分布為2009.3.12—2013.6.15,按一定時(shí)間段劃分總結(jié),作為圖書(shū)館服務(wù)質(zhì)量測(cè)評(píng)的數(shù)據(jù)來(lái)源與輔助手段,可完善測(cè)評(píng)結(jié)果。
本文抓取的微博字段包括:“MID”“Author”“Weibo”“Forward”“Time_Weibo”“Time_Search”“Count_Forward”“Count_Reply”??捎晌谋緝?nèi)容(Weibo)獲取對(duì)應(yīng)用戶(hù)ID(Author),即根據(jù)圖書(shū)館微博文本聚類(lèi)結(jié)果,挖掘圖書(shū)館核心微博用戶(hù),進(jìn)行長(zhǎng)期追蹤。結(jié)果發(fā)現(xiàn),2343條圖書(shū)館服務(wù)評(píng)價(jià)與建議類(lèi)微博共指向216個(gè)微博用戶(hù),其中公共平臺(tái)用戶(hù)和機(jī)構(gòu)用戶(hù)48個(gè),個(gè)人微博用戶(hù)168個(gè),前者發(fā)表微博1568條,后者發(fā)表微博775條。該216名用戶(hù)為微博平臺(tái)中圖書(shū)館服務(wù)質(zhì)量評(píng)價(jià)方面的主要用戶(hù)。但有時(shí)用戶(hù)會(huì)選擇在圖書(shū)館及其工作人員發(fā)表的微博下發(fā)表評(píng)論意見(jiàn),因此圖書(shū)館微博用戶(hù)的核心群體除216名圖書(shū)館服務(wù)質(zhì)量評(píng)價(jià)方面的主要用戶(hù)外,還應(yīng)包括圖書(shū)館告知類(lèi)微博用戶(hù)。而圖書(shū)館告知類(lèi)微博1626條共指向47個(gè)微博用戶(hù),其中機(jī)構(gòu)用戶(hù)18個(gè)、個(gè)人微博用戶(hù)29個(gè),前者發(fā)表微博1092條,后者發(fā)表微博534條。即廣藥圖書(shū)館微博用戶(hù)的核心群體為上述263名微博用戶(hù)。表3為排名前10的核心微博用戶(hù)及其所發(fā)表的圖書(shū)館相關(guān)的微博數(shù)。
表3 廣藥圖書(shū)館核心微博用戶(hù)表
3 結(jié)語(yǔ)
圖書(shū)館微博數(shù)據(jù)看似紛繁復(fù)雜,實(shí)則包含大量服務(wù)評(píng)價(jià)與意見(jiàn)信息。圖書(shū)館服務(wù)質(zhì)量評(píng)價(jià)因帶有用戶(hù)主觀感情色彩往往會(huì)被高頻率轉(zhuǎn)發(fā)和關(guān)注,形成較強(qiáng)輿論傾向并在一定程度上影響用戶(hù)對(duì)圖書(shū)館的后續(xù)使用。因此,從大數(shù)據(jù)角度出發(fā),對(duì)圖書(shū)館微博數(shù)據(jù)進(jìn)行收集、挖掘和聚類(lèi)是極其必要的。這不僅能有效收集用戶(hù)意見(jiàn),及時(shí)發(fā)現(xiàn)圖書(shū)館服務(wù)問(wèn)題所在,而且能對(duì)微博用戶(hù)進(jìn)行區(qū)分,發(fā)現(xiàn)核心用戶(hù),便于從長(zhǎng)遠(yuǎn)角度持續(xù)、快捷地獲取微博中圖書(shū)館服務(wù)質(zhì)量評(píng)價(jià)信息,最終改善圖書(shū)館服務(wù)質(zhì)量和形象。endprint
根據(jù)文本內(nèi)容,廣藥圖書(shū)館微博可以分為5大類(lèi):①個(gè)人生活類(lèi),基本為用戶(hù)自我行為及自我心情的表達(dá),用戶(hù)并未以“廣藥圖書(shū)館”為主要敘述內(nèi)容和對(duì)象;②圖書(shū)館外觀評(píng)價(jià)類(lèi),基本為用戶(hù)對(duì)圖書(shū)館建筑、附帶園林美化設(shè)施等發(fā)表的看法;③圖書(shū)館使用問(wèn)題類(lèi),基本為用戶(hù)詢(xún)問(wèn)在圖書(shū)館使用過(guò)程中遇到的種種問(wèn)題,以尋求解決;④圖書(shū)館告知類(lèi),基本為圖書(shū)館相關(guān)組織及其工作人員所發(fā)的各類(lèi)服務(wù)、活動(dòng)等的通知與介紹;⑤圖書(shū)館服務(wù)評(píng)價(jià)與建議類(lèi),基本為用戶(hù)從自我角度出發(fā),發(fā)表對(duì)圖書(shū)館硬件設(shè)施和服務(wù)工作的意見(jiàn)和建議,涉及到圖書(shū)館服務(wù)的各個(gè)層面。①、②、③類(lèi)微博較多,④、⑤微博較少,其中圖書(shū)館服務(wù)評(píng)價(jià)與建議類(lèi)微博信息總計(jì)2343條,占整個(gè)數(shù)據(jù)集的15.87%。
2.3 獲取圖書(shū)館服務(wù)質(zhì)量評(píng)價(jià)與建議信息,挖掘圖書(shū)館核心微博用戶(hù)
廣藥圖書(shū)館服務(wù)質(zhì)量評(píng)價(jià)與建議類(lèi)微博達(dá)2343條,對(duì)其閱讀分析發(fā)現(xiàn),內(nèi)容主要集中在以下4個(gè)方面:①服務(wù)設(shè)施類(lèi),對(duì)圖書(shū)館各類(lèi)硬件設(shè)施如書(shū)架、桌椅、照明設(shè)施、飲水器械等進(jìn)行評(píng)論,尤其對(duì)與時(shí)令季節(jié)密切相關(guān)的如夏季空調(diào)開(kāi)放發(fā)表意見(jiàn);②服務(wù)資源類(lèi),對(duì)圖書(shū)館文獻(xiàn)資源存儲(chǔ)量、資源配置比重、資源建設(shè)途徑等發(fā)表意見(jiàn);③服務(wù)態(tài)度類(lèi),對(duì)圖書(shū)館工作人員的服務(wù)態(tài)度發(fā)表的評(píng)論;④服務(wù)方式類(lèi),對(duì)圖書(shū)館各種服務(wù)方式如圖書(shū)借閱時(shí)間長(zhǎng)短、讀者排行表彰、光盤(pán)獲取方式、論文查詢(xún)途徑等發(fā)表意見(jiàn)。
其中服務(wù)態(tài)度類(lèi)評(píng)價(jià)與建議最多,達(dá)875條,服務(wù)方式類(lèi)評(píng)價(jià)與建議最少,達(dá)394條,服務(wù)資源和設(shè)施類(lèi)評(píng)價(jià)與建議分別達(dá)686和567條,部分微博內(nèi)容涉及2個(gè)及以上方面。4類(lèi)微博發(fā)布時(shí)間都基本貫穿整個(gè)數(shù)據(jù)集時(shí)間段,服務(wù)態(tài)度和服務(wù)方式類(lèi)評(píng)價(jià)與建議逐年上升,用戶(hù)關(guān)注重點(diǎn)逐漸轉(zhuǎn)移至服務(wù)“軟實(shí)力”方面。64.89%的微博為抱怨類(lèi)信息,顯示用戶(hù)對(duì)圖書(shū)館服務(wù)質(zhì)量不滿(mǎn)、信任度降低。利用上述挖掘信息,可評(píng)價(jià)圖書(shū)館服務(wù)質(zhì)量,發(fā)現(xiàn)服務(wù)中存在的問(wèn)題,從而改進(jìn)圖書(shū)館服務(wù)方式與方法,調(diào)整服務(wù)質(zhì)量管理的策略與方向,提高服務(wù)質(zhì)量。另數(shù)據(jù)集時(shí)間分布為2009.3.12—2013.6.15,按一定時(shí)間段劃分總結(jié),作為圖書(shū)館服務(wù)質(zhì)量測(cè)評(píng)的數(shù)據(jù)來(lái)源與輔助手段,可完善測(cè)評(píng)結(jié)果。
本文抓取的微博字段包括:“MID”“Author”“Weibo”“Forward”“Time_Weibo”“Time_Search”“Count_Forward”“Count_Reply”??捎晌谋緝?nèi)容(Weibo)獲取對(duì)應(yīng)用戶(hù)ID(Author),即根據(jù)圖書(shū)館微博文本聚類(lèi)結(jié)果,挖掘圖書(shū)館核心微博用戶(hù),進(jìn)行長(zhǎng)期追蹤。結(jié)果發(fā)現(xiàn),2343條圖書(shū)館服務(wù)評(píng)價(jià)與建議類(lèi)微博共指向216個(gè)微博用戶(hù),其中公共平臺(tái)用戶(hù)和機(jī)構(gòu)用戶(hù)48個(gè),個(gè)人微博用戶(hù)168個(gè),前者發(fā)表微博1568條,后者發(fā)表微博775條。該216名用戶(hù)為微博平臺(tái)中圖書(shū)館服務(wù)質(zhì)量評(píng)價(jià)方面的主要用戶(hù)。但有時(shí)用戶(hù)會(huì)選擇在圖書(shū)館及其工作人員發(fā)表的微博下發(fā)表評(píng)論意見(jiàn),因此圖書(shū)館微博用戶(hù)的核心群體除216名圖書(shū)館服務(wù)質(zhì)量評(píng)價(jià)方面的主要用戶(hù)外,還應(yīng)包括圖書(shū)館告知類(lèi)微博用戶(hù)。而圖書(shū)館告知類(lèi)微博1626條共指向47個(gè)微博用戶(hù),其中機(jī)構(gòu)用戶(hù)18個(gè)、個(gè)人微博用戶(hù)29個(gè),前者發(fā)表微博1092條,后者發(fā)表微博534條。即廣藥圖書(shū)館微博用戶(hù)的核心群體為上述263名微博用戶(hù)。表3為排名前10的核心微博用戶(hù)及其所發(fā)表的圖書(shū)館相關(guān)的微博數(shù)。
表3 廣藥圖書(shū)館核心微博用戶(hù)表
3 結(jié)語(yǔ)
圖書(shū)館微博數(shù)據(jù)看似紛繁復(fù)雜,實(shí)則包含大量服務(wù)評(píng)價(jià)與意見(jiàn)信息。圖書(shū)館服務(wù)質(zhì)量評(píng)價(jià)因帶有用戶(hù)主觀感情色彩往往會(huì)被高頻率轉(zhuǎn)發(fā)和關(guān)注,形成較強(qiáng)輿論傾向并在一定程度上影響用戶(hù)對(duì)圖書(shū)館的后續(xù)使用。因此,從大數(shù)據(jù)角度出發(fā),對(duì)圖書(shū)館微博數(shù)據(jù)進(jìn)行收集、挖掘和聚類(lèi)是極其必要的。這不僅能有效收集用戶(hù)意見(jiàn),及時(shí)發(fā)現(xiàn)圖書(shū)館服務(wù)問(wèn)題所在,而且能對(duì)微博用戶(hù)進(jìn)行區(qū)分,發(fā)現(xiàn)核心用戶(hù),便于從長(zhǎng)遠(yuǎn)角度持續(xù)、快捷地獲取微博中圖書(shū)館服務(wù)質(zhì)量評(píng)價(jià)信息,最終改善圖書(shū)館服務(wù)質(zhì)量和形象。endprint
根據(jù)文本內(nèi)容,廣藥圖書(shū)館微博可以分為5大類(lèi):①個(gè)人生活類(lèi),基本為用戶(hù)自我行為及自我心情的表達(dá),用戶(hù)并未以“廣藥圖書(shū)館”為主要敘述內(nèi)容和對(duì)象;②圖書(shū)館外觀評(píng)價(jià)類(lèi),基本為用戶(hù)對(duì)圖書(shū)館建筑、附帶園林美化設(shè)施等發(fā)表的看法;③圖書(shū)館使用問(wèn)題類(lèi),基本為用戶(hù)詢(xún)問(wèn)在圖書(shū)館使用過(guò)程中遇到的種種問(wèn)題,以尋求解決;④圖書(shū)館告知類(lèi),基本為圖書(shū)館相關(guān)組織及其工作人員所發(fā)的各類(lèi)服務(wù)、活動(dòng)等的通知與介紹;⑤圖書(shū)館服務(wù)評(píng)價(jià)與建議類(lèi),基本為用戶(hù)從自我角度出發(fā),發(fā)表對(duì)圖書(shū)館硬件設(shè)施和服務(wù)工作的意見(jiàn)和建議,涉及到圖書(shū)館服務(wù)的各個(gè)層面。①、②、③類(lèi)微博較多,④、⑤微博較少,其中圖書(shū)館服務(wù)評(píng)價(jià)與建議類(lèi)微博信息總計(jì)2343條,占整個(gè)數(shù)據(jù)集的15.87%。
2.3 獲取圖書(shū)館服務(wù)質(zhì)量評(píng)價(jià)與建議信息,挖掘圖書(shū)館核心微博用戶(hù)
廣藥圖書(shū)館服務(wù)質(zhì)量評(píng)價(jià)與建議類(lèi)微博達(dá)2343條,對(duì)其閱讀分析發(fā)現(xiàn),內(nèi)容主要集中在以下4個(gè)方面:①服務(wù)設(shè)施類(lèi),對(duì)圖書(shū)館各類(lèi)硬件設(shè)施如書(shū)架、桌椅、照明設(shè)施、飲水器械等進(jìn)行評(píng)論,尤其對(duì)與時(shí)令季節(jié)密切相關(guān)的如夏季空調(diào)開(kāi)放發(fā)表意見(jiàn);②服務(wù)資源類(lèi),對(duì)圖書(shū)館文獻(xiàn)資源存儲(chǔ)量、資源配置比重、資源建設(shè)途徑等發(fā)表意見(jiàn);③服務(wù)態(tài)度類(lèi),對(duì)圖書(shū)館工作人員的服務(wù)態(tài)度發(fā)表的評(píng)論;④服務(wù)方式類(lèi),對(duì)圖書(shū)館各種服務(wù)方式如圖書(shū)借閱時(shí)間長(zhǎng)短、讀者排行表彰、光盤(pán)獲取方式、論文查詢(xún)途徑等發(fā)表意見(jiàn)。
其中服務(wù)態(tài)度類(lèi)評(píng)價(jià)與建議最多,達(dá)875條,服務(wù)方式類(lèi)評(píng)價(jià)與建議最少,達(dá)394條,服務(wù)資源和設(shè)施類(lèi)評(píng)價(jià)與建議分別達(dá)686和567條,部分微博內(nèi)容涉及2個(gè)及以上方面。4類(lèi)微博發(fā)布時(shí)間都基本貫穿整個(gè)數(shù)據(jù)集時(shí)間段,服務(wù)態(tài)度和服務(wù)方式類(lèi)評(píng)價(jià)與建議逐年上升,用戶(hù)關(guān)注重點(diǎn)逐漸轉(zhuǎn)移至服務(wù)“軟實(shí)力”方面。64.89%的微博為抱怨類(lèi)信息,顯示用戶(hù)對(duì)圖書(shū)館服務(wù)質(zhì)量不滿(mǎn)、信任度降低。利用上述挖掘信息,可評(píng)價(jià)圖書(shū)館服務(wù)質(zhì)量,發(fā)現(xiàn)服務(wù)中存在的問(wèn)題,從而改進(jìn)圖書(shū)館服務(wù)方式與方法,調(diào)整服務(wù)質(zhì)量管理的策略與方向,提高服務(wù)質(zhì)量。另數(shù)據(jù)集時(shí)間分布為2009.3.12—2013.6.15,按一定時(shí)間段劃分總結(jié),作為圖書(shū)館服務(wù)質(zhì)量測(cè)評(píng)的數(shù)據(jù)來(lái)源與輔助手段,可完善測(cè)評(píng)結(jié)果。
本文抓取的微博字段包括:“MID”“Author”“Weibo”“Forward”“Time_Weibo”“Time_Search”“Count_Forward”“Count_Reply”??捎晌谋緝?nèi)容(Weibo)獲取對(duì)應(yīng)用戶(hù)ID(Author),即根據(jù)圖書(shū)館微博文本聚類(lèi)結(jié)果,挖掘圖書(shū)館核心微博用戶(hù),進(jìn)行長(zhǎng)期追蹤。結(jié)果發(fā)現(xiàn),2343條圖書(shū)館服務(wù)評(píng)價(jià)與建議類(lèi)微博共指向216個(gè)微博用戶(hù),其中公共平臺(tái)用戶(hù)和機(jī)構(gòu)用戶(hù)48個(gè),個(gè)人微博用戶(hù)168個(gè),前者發(fā)表微博1568條,后者發(fā)表微博775條。該216名用戶(hù)為微博平臺(tái)中圖書(shū)館服務(wù)質(zhì)量評(píng)價(jià)方面的主要用戶(hù)。但有時(shí)用戶(hù)會(huì)選擇在圖書(shū)館及其工作人員發(fā)表的微博下發(fā)表評(píng)論意見(jiàn),因此圖書(shū)館微博用戶(hù)的核心群體除216名圖書(shū)館服務(wù)質(zhì)量評(píng)價(jià)方面的主要用戶(hù)外,還應(yīng)包括圖書(shū)館告知類(lèi)微博用戶(hù)。而圖書(shū)館告知類(lèi)微博1626條共指向47個(gè)微博用戶(hù),其中機(jī)構(gòu)用戶(hù)18個(gè)、個(gè)人微博用戶(hù)29個(gè),前者發(fā)表微博1092條,后者發(fā)表微博534條。即廣藥圖書(shū)館微博用戶(hù)的核心群體為上述263名微博用戶(hù)。表3為排名前10的核心微博用戶(hù)及其所發(fā)表的圖書(shū)館相關(guān)的微博數(shù)。
表3 廣藥圖書(shū)館核心微博用戶(hù)表
3 結(jié)語(yǔ)
圖書(shū)館微博數(shù)據(jù)看似紛繁復(fù)雜,實(shí)則包含大量服務(wù)評(píng)價(jià)與意見(jiàn)信息。圖書(shū)館服務(wù)質(zhì)量評(píng)價(jià)因帶有用戶(hù)主觀感情色彩往往會(huì)被高頻率轉(zhuǎn)發(fā)和關(guān)注,形成較強(qiáng)輿論傾向并在一定程度上影響用戶(hù)對(duì)圖書(shū)館的后續(xù)使用。因此,從大數(shù)據(jù)角度出發(fā),對(duì)圖書(shū)館微博數(shù)據(jù)進(jìn)行收集、挖掘和聚類(lèi)是極其必要的。這不僅能有效收集用戶(hù)意見(jiàn),及時(shí)發(fā)現(xiàn)圖書(shū)館服務(wù)問(wèn)題所在,而且能對(duì)微博用戶(hù)進(jìn)行區(qū)分,發(fā)現(xiàn)核心用戶(hù),便于從長(zhǎng)遠(yuǎn)角度持續(xù)、快捷地獲取微博中圖書(shū)館服務(wù)質(zhì)量評(píng)價(jià)信息,最終改善圖書(shū)館服務(wù)質(zhì)量和形象。endprint