張華帥 王廷梅 劉述娟 閆天雨
摘要:隨著用戶對圖書資源需求的多樣化,傳統(tǒng)圖書館的運營已無法滿足用戶的個性化需要,圖書館運營與管理能力提升十分必要。本課題通過研究“用戶畫像”在圖書館中的應用,對圖書館現(xiàn)有的模式提出合理化建議。利用線上的方式向在校大學生發(fā)放問卷收集數據,運用Excel對數據進行處理,利用SPSS軟件對數據進行聚類分析和判別分析,從而構建出用戶畫像,這有利于為用戶提供精準推薦服務。根據用戶個性化數據,也可對圖書館的管理提供更為精準的改進建議,從而提高圖書館精準化服務水平。
關鍵詞:用戶畫像;聚類分析;判別分析;圖書館精準化服務
中圖分類號:G642? ? ? ? 文獻標識碼:A
文章編號:1009-3044(2021)18-0022-04
開放科學(資源服務)標識碼(OSID):
Research on Smart Library Accurate Service Based on User Portrait
ZHANG Hua-shuai,WANG Ting-mei,ZHANG Shu-juan,YAN Tian-yu
(College of Applied Science and Technology,Beijing Union University,Beijing 100101, China)
Abstract: With the diversification of users' requirements for book resources, the operation of traditional library has been unable to meet the actual needs of users. It is necessary to improve the operation and management ability of library. This topic puts forward reasonable suggestions on the existing model of library by studying the application of user portrait in the library. To college students use online questionnaire to collect data by using EXCEL to deal with data, using SPSS software for data clustering analysis and discriminant analysis, so as to construct user portrait, which is beneficial to provide users with accurate recommendation service According to the result of data analysis, but also some rationalization Suggestions on the improvement of the library, so as to improve the level of library accurate service.
Key words: user portrait; cluster analysis; discriminant analysis; accurate service of library
1 引言
由于數據分析技術的廣泛應用以及用戶需求多元化,圖書館的轉型同樣是勢在必行,逐漸開始重視通過用戶的相關信息及資源數據進行分析,了解用戶需求并利用智能技術來優(yōu)化服務模式,以滿足不同用戶的個性需求,從而提升圖書館的價值。顯然,傳統(tǒng)的圖書館模式已經不能滿足用戶的需求,只有更智能、更方便、快捷的服務才能滿足這個信息化高速發(fā)展時代人們的需求。隨著教育越來越得到重視,圖書館的館藏資源也與日俱增,用戶要在浩如煙海的圖書中尋找到自己需要的圖書的難度可想而知。為了更好地服務用戶,提高用戶查找圖書的效率,使得“用戶畫像”這一有效工具引用到圖書館提供了有利條件?!坝脩舢嬒瘛边@一工具在國內圖書館應用并不廣泛,這引起了我們的關注。本文通過將“用戶畫像”引入到圖書館,給用戶推薦相關圖書,提高借閱圖書的效率。
2 研究思路
由于收集的數據會涉及一些圖書館用戶的個人隱私,而網上爬蟲到的數據比較少和零散,不具有數據分析的價值。所以決定采取線上問卷星調查以及線下手工制作問卷的形式去收集數據。
其次,對收集到數據進行匯總和數據預處理。清除異常數據,將不合要求的數據、有明顯錯誤的數據予以剔除,最后對數據進行排序。
然后用SPSS軟件對調查問卷中的數據進行信度和效度分析去測量問卷數據的可靠性和設計問卷是否合理;運用描述性分析研究樣本對變量的整體態(tài)度情況;運用相關分析探究變量之間的相關性是否存在相關關系,以及相關關系的緊密程度等;運用聚類分析去探索各個題項之間的親疏程度。運用判別分析找出影響樣本歸類的關鍵因素,甚至獲得一個判別函數,然后依據判別函數,對未來樣本進行判別。
最后,根據分析結果,構建用戶畫像,對圖書館提出合理化建議。本文的研究思路流程圖,如圖1所示。
3 數據的采集
3.1 數據收集方法
獲取數據的渠道有若干種方法,比如有線上、線下、網上爬蟲等。線上收集數據的優(yōu)點就是覆蓋面廣、數據量大、實施起來比較方便;線下收集數據的優(yōu)點就是數據真實可靠;網上爬蟲的優(yōu)點就是數據量大,比較有權威性,但是由于涉及一些圖書館用戶的個人隱私,網上爬蟲到的數據比較少和零散,不具有數據分析的價值,所以決定采取線上問卷星調查以及線下手工制作問卷的形式去收集數據。
3.2 設計問卷
設計問卷的方法有很多種,比如有(電話)訪問式問卷、自填式問卷、網絡問卷、送發(fā)式問卷、封閉式問卷、開放式問卷。根據本課題研究需要,選擇自填式、網絡式相結合的問卷形式,這能收集到更有實際性、時效性、統(tǒng)計性的數據。
本課題問卷涉及量表題項和非量表題項,設計量表題項是為了對數據進行信度分析和效度分析,檢測研究數據的真實可靠性以及研究題項設計是否合理;非量表題目包括單選題和多選題,主要目的是了解樣本基本情況。該問卷共30個題項,Q1-Q6分析用戶背景,Q7-Q9分析用戶的閱讀態(tài)度,Q10-Q13分析用戶的閱讀興趣,Q14-Q20分析用戶的借閱習慣,Q21-Q30分析用戶的借閱行為。具體問卷題項表,如表1所示。
4 數據分析
4.1 信度和效度分析
本課題共收集1201條數據,得到有效數據1051條,在數據分析之前,需要進行信度分析,即測試研究樣本數據是否真實可靠,信度分析后得到可靠性統(tǒng)計表,如表2所示。
從表2中,可以看出α系數為0.903,高于0.6,符合信度分析要求,信度水平較高。α系數,即內部一致性系數,公式為 α ﹦(n / n -1)(1-∑Si2/St2),用其進行信度水平判斷。
采用探索性因子分析進行效度驗證時,首先要對KMO值和Bartlett球形檢驗對應的p值進行判斷,KMO檢驗和Bartlett球形檢驗表,如表3所示。
由表3知,SPSS軟件所分析出來的KMO值為0.953,大于0.6 ,并且Bartlett球形檢驗對應的p值為0.000,小于0.05的判斷標準,說明通過了檢驗,則可以繼續(xù)進行探索性因子分析。經過數據分析,探索性因子分析的解釋總方差表根據特征共提取出4個因子,并且數據的累計方差解釋率為62.248%,可以說明這四個因子可以解釋整個問卷62.248%的信息量,所以將所有題項分成四大類即可。
4.2 變量描述性分析
為了進一步了解用戶的特征,我們對用戶的閱讀態(tài)度、閱讀興趣進行了變量描述性分析。
用戶的閱讀的態(tài)度和對圖書的感興趣程度介于一般水平到比較滿意這一水平之間,這說明用戶對讀書的態(tài)度和對讀書的興趣還是相對積極的;而用戶的閱讀習慣和閱讀行為這兩個方面將在研究課題后期,會通過分析結果,給圖書館提供合理化的建議。
4.3 相關分析
相關分析是用于分析變量之間的相關關系,相關系數用來表示相關關系,通常當系數的絕對值大于0.7時,說明變量之間的相關關系非常強;當絕對值大于0.4時,說明相關關系較強;當絕對值小于0.2時,說明相關關系較弱。在問卷研究過程中,通常使用Pearson相關系數。
利用SPSS軟件進行相關分析后,用戶的基本信息都對借閱圖書種類有相對較強的相關關系;在用戶閱讀態(tài)度這一因子中,第9題與用戶借閱圖書種類的相關系數在0.4以上;在用戶閱讀興趣這一因子中,第12題與用戶借閱圖書的種類的相關系數同樣在0.4以上;在用戶閱讀行為這一因子中,22、23、24、27、28、29這六個題項與用戶借閱圖書種類的相關關系大都在0.4以上,顯然都有相對較強的相關關系;在用戶閱讀習慣這一個因子中,利用題項與用戶借閱圖書種類之間相關關系,為之后的分析做鋪墊,針對有較強相關關系的因素,會結合后面的研究構建出用戶畫像,對于相關關系較弱的因子,會分析其原因提出合理化的建議,提高圖書館服務的質量。
4.4 聚類分析
聚類分析,即為分類分析。SPSS軟件會按照相關指標進行計算,最終將樣本分成幾類,并且類與類之間的差異很大,但同類樣本之間的差異要盡可能地小,本課題將一定數量的指標(題項)看成一類,將親疏程度最高的合并,然后考慮其他的類與合并后的類的親疏程度,再不斷重復這個過程,直到將所有指標合并成一類。
在對數據進行探索性因子分析之后,將24個題項共濃縮成4個因子,分別是用戶閱讀態(tài)度、用戶閱讀興趣、用戶閱讀習慣以及用戶閱讀行為,本課題通過SPSS軟件分別對4個因子下的題項進行系統(tǒng)聚類,詳解過程如下:
Q21~Q30是用戶閱讀行為這一因子下的題項,經系統(tǒng)聚類后,對其進行合理命名為:
1、將題項21、23、24、27、28、29歸為一類,命名為“圖書館學術資源利用情況”
2、將題項22歸為一類,命名為“分享交流心得情況”
3、將題項25、26、30歸為一類,命名為“圖書館課外資源的使用情況”
Q14~Q20是用戶閱讀習慣這一因子下的題項,經系統(tǒng)聚類后,對其進行合理命名為:
1)將題項16、17、18歸為一類,命名為“用戶閱讀時間段”
2)將題項14、15歸為一類,命名為“頻率”
3)將題項19、20歸為一類,命名為“圖書的篇幅”
Q7~Q9是用戶閱讀態(tài)度這一因子下的題項,經系統(tǒng)聚類后,對其進行合理命名為:
1)將題項9歸為一類,命名為“閱讀意義”
2)將題項7、8歸為一類,命名為“閱讀自我認知”
Q10~Q13是用戶閱讀態(tài)度這一因子下的題項,經系統(tǒng)聚類后,對其進行合理命名為:
1)將題項12歸為一類,命名為“老師推薦專業(yè)圖書的借閱情況”
2)將題項11歸為一類,命名為“歷史哲學類圖書閱讀情況”
4.5 判別分析
判別分析就是根據已被正確分類的樣本及其屬性進行數據分析,找出影響樣本歸類的關鍵因素,甚至獲得一個判別函數;然后依據判別函數,對未來樣本進行判別,讓未來個案自動歸類或預測其可能的類別。進行在k-均值聚類后,需要用判別分析的方式探索出用戶所屬標簽類別,并得到Bayes判別函數式。
利用SPSS軟件分析用戶閱讀態(tài)度的Bayes判別函數式為:
[Y1=4.36*X1+10.555*X2-18.841]
[Y2=6.869*X1+17.040*X2-47.344]
X1:喜歡讀書;
X2:讀書意義;
利用這2個判別函數式,可以把任意個案屬性值直接代入,從而可以計算出2個值,哪個數值最大,該個案就屬于哪個類別。在SPSS生成的“分類結果”表中,可以顯示出對97.4%的個案進行了正確的判定,這說明判別分析效果良好。
用戶閱讀興趣的Bayes判別函數式為:
[Y1=10.901*Z1+8.767*Z2+6.538*Z3-47.434]
[Y2=7.741*Z1+5.653*Z2+5.128*Z3-24.193]
Z1:專業(yè)書籍;
Z2:科研;
Z3: 歷史哲學;
用戶閱讀興趣的“分類結果”表示出對99.3%的個案進行了正確的判定,這說明判別分析效果良好。
用戶閱讀行為的Bayes判別函數式為:
[Y1=1.727*K1+2.101*K2+2.664*K3+0.467*K3+2.022K5+2.692*K6+1.032*K7+1.398*K8+0.200*K9+4.876*K10-19.389][Y2=2.979*K1+3.255*K2+3.956*K3+0.866*K3+3.682K5+3.251*K6+2.460*K7+1.966*K8+0.821*K9+5.845*K10-40.684][Y3=3.423*K1+5.990*K2+5.473*K3+1.421*K3+4.778K5+3.904*K6+3.572*K7+3.494*K8+1.847*K9+6.860*K10-75.986]? ? K1: 閱讀書籍情況;
K2: 與他人交流情況;
K3:期刊論文的使用情況;
K4: 學位論文的使用情況;
K5: 圖書館課外圖書的使用情況;
K6: 圖書館報紙的使用情況;
K7: 圖書館會議論文的使用情況;
K8: 圖書館專利/成果的使用情況;
K9: 分享交流閱讀心得情況;
K10: 閱讀評價狀況;
用戶閱讀行為的“分類結果”表示出對96.6%的個案進行了正確的判定,這說明判別分析效果良好。
5 用戶畫像建模與資源推薦服務
5.1 畫像建模
圖書館用戶畫像模型的設計是根據用戶畫像的標簽系統(tǒng),包括對用戶借閱態(tài)度、用戶借閱興趣、用戶借閱習慣、用戶借閱行為的相關數據進行分類以及處理。通過4大因子的聚類從而生成標簽層次結構,再與用戶基本背景信息相結合,并將其歸納為9個主題,用來描述用戶的態(tài)度、興趣、習慣、行為。另外,用戶的屬性會隨著時間的變化而不斷變化,包括在原有屬性的基礎上的增加或減少,以及新屬性的產生。因此,實時地更新用戶原來的態(tài)度、興趣、習慣、行為模型也是非常必要的。
5.2 對圖書館的服務提出建議
聚類分析用戶閱讀態(tài)度結果表明,有84%的用戶閱讀認知水平都在平均水平以上,但仍然有16%的用戶水平相對較低,對于這部分用戶,要引起圖書館的重視,要注重這些潛在的讀書用戶。因此,圖書館需要采取一定的措施提高這些用戶的閱讀認知水平,比如開展講座、發(fā)傳單宣傳等,讓這部分用戶深刻認識到讀書的意義,改善這部分讀者的認知水平。
聚類分析用戶閱讀興趣后,在用戶閱讀興趣這一因子中,本小組特意設置了一個題項是用戶是否會對歷史哲學有濃厚的興趣,之所以設置這個題項,主要是因借閱歷史哲學類書籍的用戶相比其他借閱其他種類書籍的用戶要少。本校圖書館館藏量是284萬冊,其中歷史哲學類的館藏量是33萬冊,大約占總館藏量的11.6%,據調查統(tǒng)計,大學讀者人均年讀書量為18本,總校區(qū)的人數是19700人左右,經計算全校大概有6513人會借歷史哲學類書籍,人均可借閱歷史哲學類圖書大約51本,這遠遠高于歷史哲學類圖書的需求量,因此,建議圖書館適量調節(jié)歷史哲學類的館藏量。
聚類分析用戶閱讀習慣后,發(fā)現(xiàn)圖書館應該盡快增添桌椅的擺放量,給用戶提供更多的便利;同時隨著互聯(lián)網的發(fā)展,電子圖書的形式更加受年輕一代的歡迎,我??梢赃M一步完善電子類圖書的推薦系統(tǒng),更好地為用戶服務。
聚類分析用戶閱讀行為后,發(fā)現(xiàn)未充分利用圖書館學術資源的占49%,接近總用戶的二分之一,其中47%的用戶并不知道圖書館有相關學術資源,這是導致用戶不能充分利用圖書館學術資源的主要原因,因此,圖書館應該針對學術資源這一問題進行有大范圍的宣傳,吸引更多的潛在用戶。同時絕大部分的用戶不會與他人分享閱讀心得,針對這一情況,圖書館應該鼓勵更多的用戶互相交流,只有相互交流才能共同進步,體會閱讀的真正內涵。
6 關鍵問題與應對策略
本課題研究中,雖然探索和研究了用戶畫像的許多方面,但用戶是圖書館的核心,其用戶心理和用戶行為自始至終都是圖書館改善服務最主要的方面。所以,對用戶的分析,本課題只是涉及了其中最基礎的用戶畫像部分,對于用戶的一些動態(tài)信息,如:用戶心理、用戶檢索記錄以及用戶的興趣的變更等方面還需要進一步的考量,用戶需求建模的分析還有待于進一步研究,對于未來這方面的研究,本課題認為主要有如下的幾個方面:
用戶畫像的標簽系統(tǒng),主要是依據用戶目前的狀況對用戶進行分類歸納,在未來還可以利用各種科學技術對數據進行提取和挖掘,還可以去考慮用戶的語言內容、學習內容、評論內容等,從而進行關鍵詞的提取和建模,并且開發(fā)出以文本挖掘為核心引擎的標簽體系。
由于數據的局限性,本課題論文實踐方面還有進步的空間,利用用戶畫像,達到給用戶精準推薦的目的。在未來的研究方面,還可以根據用戶在圖書館的檢索數據,去完善借閱圖書系統(tǒng)的反饋機制,對用戶畫像模型中的標簽進行及時的更新。
參考文獻:
[1] 胡媛,毛寧.基于用戶畫像的數字圖書館知識社區(qū)用戶模型構建[J].圖書館理論與實踐,2017(4):82-85,97.
[2] 劉速.淺議數字圖書館知識發(fā)現(xiàn)系統(tǒng)中的用戶畫像——以天津圖書館為例[J].圖書館理論與實踐,2017(6):103-106.
[3] 潘宇光.高校智慧圖書館讀者信息需求的用戶畫像[J].合肥工業(yè)大學學報(社會科學版),2018,32(2):113-119.
[4] 韓梅花,趙景秀.基于“用戶畫像”的閱讀療法模式研究——以抑郁癥為例[J].大學圖書館學報,2017,35(6):105-110.
[5] 楊燕.圖書館用戶畫像及其應用研究[J].四川圖書館學報,2018(1):63-65.
[6] 韋良珍.大數據環(huán)境下用戶畫像在圖書館的應用[J].中華醫(yī)學圖書情報雜志,2018,27(3):33-37.
[7] 王慶福.貝葉斯網絡在用戶興趣模型構建中的研究[J].無線互聯(lián)科技,2016(12):101-102.
[8] 張海旭,胡訪宇,趙家輝.基于話單數據的移動通信用戶畫像研究[J].計算機系統(tǒng)應用,2018,27(11):271-277.
[9] 夏秀雙.大數據環(huán)境下高校圖書館個性化信息服務研究[D].曲阜:曲阜師范大學,2015.
[10] 李巨偉.數據挖掘在高校圖書館個性化推薦服務中的應用[D].石家莊:河北科技大學,2018.
【通聯(lián)編輯:王力】