• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于數(shù)據(jù)驅(qū)動的圖書館用戶畫像模型構(gòu)建方法研究

      2021-11-18 22:44:50趙建建
      新世紀(jì)圖書館 2021年10期
      關(guān)鍵詞:用戶畫像層次分析法圖書館

      摘 要 構(gòu)建基于數(shù)據(jù)驅(qū)動的圖書館用戶畫像模型體系以提升圖書館的資源推薦精準(zhǔn)度。論文從用戶對資源的需求出發(fā)進行分析,通過對用戶行為數(shù)據(jù)的采集與特征選取,以層次分析法為分類標(biāo)準(zhǔn),構(gòu)建用戶的標(biāo)簽體系。運用TF-IDF算法對標(biāo)簽的權(quán)值進行計算,構(gòu)建個體用戶畫像,再以標(biāo)簽為載體進行聚類分析構(gòu)建群體用戶畫像模型,為圖書館開展精準(zhǔn)推薦服務(wù)提供依據(jù)。

      關(guān)鍵詞 圖書館 用戶畫像 層次分析法 標(biāo)簽體系

      分類號 G250.7

      DOI 10.16810/j.cnki.1672-514X.2021.10.008

      Research on the Construction Method of Library User Profiles Model Based on Data Driven

      Zhao Jianjian

      Abstract User profiles model system is aimed to help libraries to accurate recommend resources based on data driven. This paper conducts an analysis and built a user tag system through acquisition and feature selection of user behavior data with the analytic hierarchy process as a standard for classification. The profiles of individual users are constructed by calculating the weight of tags with the term frequency–inverse document frequency (TF-IDF) algorithm, and a cluster analysis is conducted based on tags to build a model of group user portrait, so as to provide a basis for libraries to deliver precise recommendation services.

      Keywords Library. User profiles. Analytic hierarchy process. Tag system.

      目前,圖書館逐年增加的紙質(zhì)資源和電子資源給圖書館的管理帶來壓力,而用戶又迫切需要圖書館提供個性化、精準(zhǔn)化的信息服務(wù)。針對以上問題,圖書館需要樹立“數(shù)據(jù)即服務(wù)”的理念,采用大數(shù)據(jù)技術(shù)分析用戶利用圖書館資源的特征,挖掘用戶行為產(chǎn)生的海量數(shù)據(jù)之間的相關(guān)性,預(yù)測用戶對資源的動態(tài)需求,以彌補用戶反饋機制不暢造成的圖書館對用戶需求的認(rèn)知偏離。近年來,圖書館不斷引入各種智能設(shè)備,這些設(shè)備制造的大量終端用戶數(shù)據(jù)為分析用戶資源需求特征提供了數(shù)據(jù)保障。大數(shù)據(jù)具有海量性、多樣性、高速性和價值性等特點,而用戶畫像則是有效的大數(shù)據(jù)分析工具,利用用戶畫像可以實現(xiàn)圖書館資源、讀者信息需求之間的有效銜接,進而推動基于用戶需求的圖書館資源建設(shè),構(gòu)建具有精準(zhǔn)推送、個性化服務(wù)的智慧圖書館,提升圖書館資源的利用率,降低用戶的使用門檻。

      1 用戶畫像研究概述

      學(xué)界對用戶畫像的研究主要集中在用戶畫像的基本問題、用戶畫像的模型構(gòu)建和用戶畫像的應(yīng)用價值三個方面。

      1.1 用戶畫像的基本問題

      用戶畫像的基本問題主要包括用戶畫像的概念、理論基礎(chǔ)和實踐意義。交互設(shè)計之父Alan Cooper最早提出了用戶畫像的概念,用戶畫像即用戶角色,是真實用戶的虛擬代表,是建立在一系列真實數(shù)據(jù)上的目標(biāo)用戶模型[1]。David Travis認(rèn)為一個完整的用戶畫像應(yīng)該具有基本性(Primary)、真實性(Realistic)、移情性(Empathy)、目標(biāo)性(Objectives)、獨特性(Singular)、數(shù)量性(Number)、應(yīng)用性(Applicable),并將其總結(jié)為PERSONA,一個應(yīng)用系統(tǒng)要滿足其七大特征才能構(gòu)成一個完整的用戶畫像模型[2]。許鵬程等在David Travis的七個特性的基礎(chǔ)上提出了大數(shù)據(jù)環(huán)境下的用戶畫像特性,認(rèn)為其應(yīng)該具有可迭代性、知識性、聚類性、交互性、時效性和區(qū)隔性,并對這六大特性進行了詳細(xì)的解釋[3]。李丹認(rèn)為用戶畫像是對用戶行為進行的分類,是通過大數(shù)據(jù)技術(shù)從海量用戶特征中抽取信息對用戶進行類別刻畫,構(gòu)建用戶的特征全貌[4]。晁明娣認(rèn)為用戶畫像是對用戶特征的信息整合、篩選、聚類建構(gòu),實現(xiàn)知識在大數(shù)據(jù)環(huán)境下的利用、增值與再創(chuàng)造,以用戶行為特征的標(biāo)簽化刻畫用戶畫像全貌,以用戶需求為導(dǎo)向進行資源推薦[5]。宋美琦認(rèn)為對用戶數(shù)據(jù)的充分利用是用戶畫像研究的前提,用戶畫像研究在本質(zhì)上就是對用戶特征進行研究的過程[6]。

      1.2 用戶畫像模型構(gòu)建

      王樂、倪維健等分析了用戶Web行為特征,并依據(jù)用戶的網(wǎng)絡(luò)日志構(gòu)建了層次化的用戶標(biāo)簽體系,采用Stacking組合模型完成標(biāo)簽的自動識別與結(jié)果分析,利用模式堆疊的方法構(gòu)建多種分類器,進行用戶特征值提取和語義庫構(gòu)建[7]。徐海玲以概念格理論為基礎(chǔ),以標(biāo)簽形式標(biāo)記不同用戶群體的屬性值,采用層次顯示和基于關(guān)聯(lián)規(guī)則描述標(biāo)簽,通過建立群體用戶興趣畫像,實現(xiàn)了對用戶的精準(zhǔn)描述[8]。吳智勤以用戶的社交網(wǎng)絡(luò)數(shù)據(jù)作為分析載體,通過機器學(xué)習(xí)的方法進行模型分析,通過開源分布式平臺Spark系統(tǒng)中的GraphX算法庫等專用的機器學(xué)習(xí)工具挖掘社交數(shù)據(jù),全面獲取用戶特征,通過構(gòu)建用戶興趣標(biāo)簽、用戶社交標(biāo)簽和知識標(biāo)簽來構(gòu)建用戶畫像[9]。學(xué)者Leung和Lee采用排序?qū)W習(xí)的方法,基于搜索引擎的原理構(gòu)建了基于概念向量的用戶畫像[10]。Jomsri P. 通過圖書ID、借還時間等圖書信息構(gòu)建了基于用戶畫像的圖書推薦系統(tǒng)[11]。

      1.3 用戶畫像的應(yīng)用價值

      單曉紅以北京市攜程網(wǎng)酒店為案例,以網(wǎng)上用戶評論數(shù)據(jù)為基礎(chǔ),將畫像模型屬性分為用戶基本信息、酒店信息和用戶評論信息三方面,構(gòu)建了基于三個維度的用戶畫像模型,從而為酒店開展精準(zhǔn)營銷提供決策依據(jù)[12]。李嘉興、王晰巍等通過對老年人手機移動終端日志的使用行為分析,以微信為分析媒介,根據(jù)老年人的使用能力、交互能力、使用強度構(gòu)建了老年人行為特征的用戶畫像模型,為國家老年人事業(yè)發(fā)展提供智力支持[13]。林燕霞依據(jù)社會認(rèn)知理論,采用主題模型的概念來構(gòu)建用戶畫像模型,通過文本挖掘的方法抽取出用戶喜愛的微博主題,利用空間向量來計算用戶之間對微博主題的偏好程度,計算出用戶的相似度,實現(xiàn)了群體用戶畫像模型的設(shè)計[14],對微博輿情分析有理論研究意義。任中杰運用爬蟲技術(shù)采集數(shù)據(jù)構(gòu)建用戶畫像,通過貝葉斯分類器對評論文本進行情感分析,以天津?;肥鹿蕿槔ㄟ^設(shè)計用戶畫像模型對突發(fā)事件的網(wǎng)絡(luò)用戶進行了情感分析[15]。目前國內(nèi)劉海鷗、張亞明、劉速等學(xué)者針對用戶畫像在圖書館的應(yīng)用做了很多嘗試,但主要是從理論方面對用戶畫像的相關(guān)問題進行了論述,缺乏實證研究。

      2 圖書館用戶畫像數(shù)據(jù)來源及設(shè)計

      圖書館用戶畫像模型是建立在讀者真實數(shù)據(jù)的基礎(chǔ)之上構(gòu)建的虛擬化畫像模型。圖書館用戶數(shù)據(jù)的來源主要是讀者人口統(tǒng)計學(xué)屬性和圖書館的各類資源平臺、社交平臺。用戶的人口統(tǒng)計學(xué)屬性又稱為基本數(shù)據(jù)信息,隨著時間的推移變化不大,可將其列為用戶畫像定性分析的范疇。讀者對圖書館各類資源平臺的訪問數(shù)據(jù)、社交平臺交互式數(shù)據(jù)屬于動態(tài)信息,隨著時間、地點、場景等使用維度的變化,讀者的科研興趣、閱讀偏好可能會發(fā)生變化,可將其列為用戶畫像定量分析的范疇。用戶畫像數(shù)據(jù)類別如表1所示。

      用戶畫像的設(shè)計需要實現(xiàn)兩方面的目標(biāo):第一,圖書館用戶畫像的構(gòu)建能夠準(zhǔn)確理解用戶的資源需求;第二,按照用戶畫像的模型,圖書館推送給用戶的數(shù)據(jù)應(yīng)該是用戶所需要的或者和用戶需求相關(guān)的資源。用戶對資源的需求情況可通過用戶背景、用戶行為特征和上下文信息等分析獲取,用戶畫像設(shè)計的目標(biāo)是盡可能全面細(xì)致地抽象描繪出用戶的信息全貌。常見的用戶畫像分析方法有定性分析方法和定量分析方法,所謂定性分析方法主要是通過網(wǎng)絡(luò)鏈接發(fā)放調(diào)查問卷、會員注冊時填寫基本資料等形式收集的用戶信息,此類信息的精準(zhǔn)度高但樣本量有限。定量分析是運用技術(shù)手段對用戶特征進行刻畫,其中最重要的核心問題是通過建模對用戶潛在的信息需求和興趣進行分析,根據(jù)用戶的基本信息、場景信息、資源利用信息、資源忠誠度等建立用戶偏好模型。圖書館用戶畫像本質(zhì)上就是與該用戶相關(guān)聯(lián)數(shù)據(jù)的可視化的展現(xiàn),即用戶需求信息的標(biāo)簽化。圖書館用戶畫像設(shè)計如圖1所示。

      3 用戶畫像模型的構(gòu)建

      3.1 用戶數(shù)據(jù)的采集

      數(shù)據(jù)是一切分析的前提,用戶畫像模型的構(gòu)建首先需要抽取出用戶的關(guān)聯(lián)性數(shù)據(jù)。用戶畫像的數(shù)據(jù)來源主要包括用戶基本信息數(shù)據(jù),中國知網(wǎng)、萬方知識服務(wù)平臺等文獻(xiàn)類網(wǎng)站資源用戶行為數(shù)據(jù),圖書館網(wǎng)站門戶用戶數(shù)據(jù)和社交平臺數(shù)據(jù)等。用戶基本信息主要保存在關(guān)系型數(shù)據(jù)庫中,屬于結(jié)構(gòu)化數(shù)據(jù);圖書館門戶網(wǎng)站用戶數(shù)據(jù)可通過HTML中的標(biāo)記區(qū)分抽取,屬于半結(jié)構(gòu)化的數(shù)據(jù);文獻(xiàn)類網(wǎng)站資源用戶行為數(shù)據(jù)、社交平臺數(shù)據(jù)以文本的形式存放,屬于非結(jié)構(gòu)化數(shù)據(jù)。用戶畫像數(shù)據(jù)采集需要將半結(jié)構(gòu)化、非結(jié)構(gòu)化的數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)進行存儲。

      半結(jié)構(gòu)化數(shù)據(jù)的抽取,常用的技術(shù)方法有基于知識圖譜包裝器的抽取和網(wǎng)絡(luò)爬蟲法等?;谥R圖譜包裝器的抽取方法在于包裝器能夠?qū)?shù)據(jù)從HTML網(wǎng)頁中抽取出來,并將數(shù)據(jù)還原成結(jié)構(gòu)化的數(shù)據(jù)[16];網(wǎng)絡(luò)爬蟲法利用常見的開源框架如python的Scrapy,java平臺的WebMagic等,通過簡單的配置完成爬蟲規(guī)則的定義、爬取、清洗、去重、入庫等操作,從而獲取相關(guān)用戶特征。目前免費網(wǎng)絡(luò)爬蟲軟件八爪魚采集器就是一款簡單、可視化的網(wǎng)絡(luò)爬蟲工具。

      非結(jié)構(gòu)化數(shù)據(jù)的抽取可基于深度學(xué)習(xí)和日志挖掘法等。深度學(xué)習(xí)法通過構(gòu)建文本分類、主題模型等機器學(xué)習(xí)模型獲取文本的特征;日志挖掘法是對日志數(shù)據(jù)進行清洗、集成,對用戶會話行為等進行數(shù)據(jù)預(yù)處理,得到結(jié)構(gòu)化的數(shù)據(jù)文件,最后利用數(shù)據(jù)挖掘方法進行分析[17]。

      對于文本類資源用戶特征的提取主要包括專用名詞或者有特定含義的名詞短語,比如從文本語料庫中抽取出的資源類別、時間信息、用戶機構(gòu)信息等。再者,對用戶特征的提取需要考慮特征語義之間的關(guān)聯(lián)性,比如A特征屬于B特征的范圍,B特征屬于C特征的范圍,那么A特征也屬于C特征的范圍,通過語義的分析挖掘,找出特征值之間的集合關(guān)系。第三,通過特征值的關(guān)聯(lián)性分析,建立用戶之間的關(guān)聯(lián)度。隨著時間等因素的改變,用戶對資源的需求呈現(xiàn)動態(tài)變化過程,在這里要考慮時間衰減對于用戶聚類的影響。對于跨媒體類用戶特征的提取,例如對于視頻、圖像類用戶特征的挖掘,主要采用人工智能的方法,將用戶特征自動生成語義和邏輯合乎視覺內(nèi)容的描述性文本,從而將視頻、圖像類用戶特征按照文本類數(shù)據(jù)進行抽取。

      3.2 標(biāo)簽體系的構(gòu)建

      用戶畫像可簡單理解為是對海量數(shù)據(jù)進行分類的標(biāo)簽,根據(jù)用戶的學(xué)歷、學(xué)科背景,資源需求的差異,統(tǒng)計用戶的標(biāo)簽特征,建立用戶畫像的標(biāo)簽體系,通過標(biāo)簽統(tǒng)計區(qū)分不同的用戶群體。

      標(biāo)簽的指標(biāo)體系是建立用戶畫像的關(guān)鍵環(huán)節(jié),從用戶角度將標(biāo)簽分為基本屬性、行為數(shù)據(jù)、社交屬性、場景數(shù)據(jù)四個維度。但標(biāo)簽的一個重要功能就是用來統(tǒng)計分析,為此需要考慮標(biāo)簽的統(tǒng)計功能和規(guī)則功能,建立標(biāo)簽之間的關(guān)聯(lián)度。畫像標(biāo)簽的構(gòu)建參照面向?qū)ο蟪绦蛟O(shè)計的思想,定義如下表2所示。

      圖書館用戶的標(biāo)簽體系按照結(jié)構(gòu)化標(biāo)簽設(shè)計思路,將用戶的數(shù)據(jù)維度分為兩層標(biāo)簽結(jié)構(gòu)。一級維度對應(yīng)著數(shù)據(jù)類型(用戶基本數(shù)據(jù)、用戶行為數(shù)據(jù)、社交平臺、場景數(shù)據(jù)),二級維度對應(yīng)著相應(yīng)的數(shù)據(jù)項。用戶畫像的標(biāo)簽體系如圖2所示。

      3.3 標(biāo)簽權(quán)重計算

      標(biāo)簽體系的建立是按照層次結(jié)構(gòu)進行構(gòu)建的,可借助層次分析法對用戶特征值進行權(quán)重計算。層次分析法(Analytic Hierarchy Process),簡稱AHP,是由美國匹茲堡大學(xué)教授薩蒂提出,是將決策問題有關(guān)的元素分解成目標(biāo)、準(zhǔn)則、方案等層次,在此基礎(chǔ)上進行定性和定量分析,按照用戶的數(shù)據(jù)資源類別建立遞階層次模型。例如某用戶畫像A為層次模型的目標(biāo)用戶,將準(zhǔn)則層按照用戶數(shù)據(jù)層次分為用戶基本數(shù)據(jù)(B1)、用戶行為數(shù)據(jù)(B2)、社交數(shù)據(jù)(B3)、場景數(shù)據(jù)(B4),相應(yīng)的方案層為準(zhǔn)則層對應(yīng)的數(shù)據(jù)項。

      3.3.1 準(zhǔn)則層權(quán)重計算

      用戶畫像A在準(zhǔn)則層劃分為B1-B4四個層次,通過判斷矩陣對準(zhǔn)則層之間的重要程度進行量化,判斷矩陣采用1-9進行量化構(gòu)建,通過構(gòu)建同層次因素間的判斷矩陣,計算出矩陣的最大特征值及特征向量。特征矩陣的構(gòu)建根據(jù)圖書館資源整體使用情況和圖書館領(lǐng)域?qū)<疫M行統(tǒng)籌考慮同層準(zhǔn)則的重要性[18]。例如用戶的圖書借閱一般周期性較長,而用戶對期刊論文的下載可能每天都在進行,那么可定義用戶對期刊論文下載的量化較強重要于對圖書的借閱。定義aij表示準(zhǔn)則層bi與bj重要性的量化準(zhǔn)側(cè)如下:

      若aij值為2,4,6,8,則表示相鄰判斷的中間值,aij值為相關(guān)值的倒數(shù),則為bj相對bi重要性的量化準(zhǔn)則。建立好準(zhǔn)則層的兩兩對比矩陣,通過計算出矩陣的最大特征根λ和特征向量,采用幾何平均法(方根法)或者規(guī)范列平均法,得到所求權(quán)重向量。

      構(gòu)建判斷矩陣A=(aij)n×n,用aij表示第i個因素相對于第j個因素的比較結(jié)果。將矩陣A的各行向量進行幾何平均法,然后進行歸一化,即可得到各評價指標(biāo)權(quán)重Wi和特征向量W。

      AHP設(shè)定了C.I.(Consistency Index) 和R.I.(Random Index)兩個判斷是否滿足一致性的參數(shù)。

      其中C.I.(Consistency Index) =? ? ? ?(λ為判斷矩陣的最大特征根)。

      R.I.為平均隨機一致性指標(biāo),是關(guān)于矩陣維度n的離散函數(shù),不同的n值對應(yīng)不同的R.I.,從而避免了因為矩陣維度不同而出現(xiàn)的不一致問題。通過AHP的隨機一致性比率C.R.(Consistency Ratio)來計算判斷矩陣的一致性問題,其公式如下:

      若C.R.<0.1,則滿足研究要求。否則,需要對權(quán)重指標(biāo)進行重新賦值,重新進行一致性檢驗,直到滿足C.R.<0.1為止。

      3.3.2 動態(tài)標(biāo)簽權(quán)重計算

      層次分析法是將用戶行為分為目標(biāo)層,準(zhǔn)則層和方案層,其中方案層即為準(zhǔn)則層的數(shù)據(jù)項。由于用戶在某一準(zhǔn)則層上不同數(shù)據(jù)項有著不同的行為權(quán)重,因此將用戶每一次的特征項(瀏覽、收藏、下載等)以對應(yīng)的標(biāo)簽來表示,建立用戶特征項與標(biāo)簽之間的映射關(guān)系。某用戶同一標(biāo)簽出現(xiàn)的次數(shù)越多,說明該用戶對該類標(biāo)簽資源利用率越高;如果該標(biāo)簽在全部用戶標(biāo)簽體系中出現(xiàn)的次數(shù)越多,說明該標(biāo)簽的重要性降低。對用戶與標(biāo)簽之間的權(quán)重分析可以采用TF-IDF來進行分析。

      TF-IDF(Term Frequency-Inverse Document Frequency)是計算文檔中詞或者短語權(quán)值的方法。TF指的是一個給定的詞語在該文檔中出現(xiàn)的頻率,IDF是對一個詞語在整個文檔中重要性的度量,表示某一個詞語在整個文檔集中出現(xiàn)的頻率[19]。

      假設(shè)Tm用來表示一個標(biāo)簽T被用于標(biāo)記某個用戶P的次數(shù),TFm用來表示這個標(biāo)簽在所有標(biāo)記用戶P的標(biāo)簽中所占的比例,則公式表示如下:

      TFm反映了用戶P與標(biāo)簽T之間的關(guān)聯(lián)關(guān)系,這個度量值越大說明用戶T與該標(biāo)簽的關(guān)系越緊密。

      IDF(P,T)用來表示標(biāo)簽T的的稀缺程度,? ? ? ?表示這個標(biāo)簽T在全體用戶中所有標(biāo)簽出現(xiàn)的頻率,則

      。對于標(biāo)簽T來說,如果它在全體用戶中出現(xiàn)的頻率很低,但卻用來標(biāo)識用戶P,那說明標(biāo)簽T與用戶P之間的關(guān)聯(lián)更加緊密。這樣,利用TF-IDF得到用戶P在某數(shù)據(jù)項上的標(biāo)簽T的權(quán)重為:

      在分析用戶與標(biāo)簽之間的關(guān)系時,時間是一個重要的上下文信息。隨著時間的變化,用戶對資源的需求也是在動態(tài)變化的,需要考慮隨著時間的推移,用戶對標(biāo)簽權(quán)重的衰減度。時間衰減是指隨著時間的推移,用戶的歷史行為和當(dāng)前行為的相關(guān)性不斷減弱[20]。對于時間衰減度的函數(shù)模型,國內(nèi)陳彬彬[21]等通過實驗方法提出了如下公式:

      其中T表示當(dāng)前時間,T-t表示現(xiàn)在與學(xué)術(shù)行為發(fā)生的時間差,f(t)表示經(jīng)過T-t衰減后的值,其取值為[0,1]。α表示衰減因子,其可通過回歸計算得出。

      綜上,基于層次分析法和時間衰減的動態(tài)用戶畫像標(biāo)簽權(quán)重計算公式為:用戶標(biāo)簽權(quán)重=準(zhǔn)則層權(quán)重*時間衰減*TF-IDF計算標(biāo)簽權(quán)重。

      3.4 畫像的可視化

      用戶畫像的標(biāo)簽體系可以標(biāo)注用戶一段時間內(nèi)對資源的喜好程度,而可視化的圖形方式可以將用戶的標(biāo)簽體系以更加直觀的形式展示出來。常見的統(tǒng)計圖表、關(guān)系型數(shù)據(jù)庫都可以進行數(shù)據(jù)的展示,采用易詞云軟件可對用戶標(biāo)簽進行分析。易詞云軟件具有詞頻分析功能,通過對標(biāo)簽進行分析,生成詞云數(shù)據(jù),用可視化的形式直觀的對用戶的喜好進行表示。在易詞云中,字體越大說明用戶對該標(biāo)簽的活躍度高。反之,字體越小說明用戶對該標(biāo)簽的活躍度低。

      4 基于用戶畫像的精準(zhǔn)圖書推薦服務(wù)

      圖書館傳統(tǒng)圖書推薦多采用讀者對圖書的借閱量、借閱圖書類別來進行統(tǒng)計,設(shè)定某一個頻次,將高于此頻次的同類圖書推薦給讀者。此類方法簡單易行,但對于從未借過圖書或者很少借書的讀者,無法收集讀者的數(shù)據(jù)信息,在統(tǒng)計過程中存在冷啟動,不能有效的對讀者進行聚類。采用用戶畫像模型進行圖書推薦服務(wù)可按照基于用戶基本信息屬性、用戶社交屬性、用戶行為屬性、用戶場景屬性四個層次,按照層次分析法確定權(quán)重。用戶行為數(shù)據(jù)主要包含用戶的借閱、瀏覽、文獻(xiàn)服務(wù)等,用戶基本屬性主要包含所學(xué)專業(yè)、所在學(xué)院信息等,用戶社交屬性主要包含用戶在圖書館各類平臺的互引、互贊等交互式操作等,場景信息主要指用戶所在線下圖書館位置信息等。本文認(rèn)為用戶行為屬性和用戶基本屬性較重要于用戶社交屬性、場景屬性,因此依據(jù)層次分析法按照0.4、0.3、0.2、0.1對用戶行為屬性、基本屬性、社交屬性、場景屬性賦予權(quán)重。用戶畫像可從以上四個維度對讀者進行刻畫,分別基于這四個維度采用TF-IDF進行權(quán)重計算,然后基于層次分析法和時間衰減的動態(tài)用戶畫像標(biāo)簽權(quán)重計算公式得到用戶標(biāo)簽權(quán)重。

      以用戶行為屬性為例,對于用戶行為屬性數(shù)據(jù)的獲取可以通過OPAC系統(tǒng)、文獻(xiàn)資源的下載、圖書館APP平臺等,通過數(shù)據(jù)庫管理系統(tǒng)或者Python網(wǎng)絡(luò)爬蟲開源框架Scrapy來獲取讀者特征。部分圖書館讀者的原始特征數(shù)據(jù)如表3所示:

      用戶畫像即對目標(biāo)用戶以標(biāo)簽的形式進行標(biāo)識, 通過對標(biāo)簽與標(biāo)簽之間關(guān)聯(lián)程度的分析,不僅可用來分析目標(biāo)用戶,還應(yīng)該包含用戶間的關(guān)聯(lián)分析,即對用戶進行聚類,從而建立群體用戶畫像。一個用戶u1如果被打上標(biāo)簽A的同時又被打上標(biāo)簽B,如果在同一時間因素范圍內(nèi),又有用戶um,un被打上標(biāo)簽A與標(biāo)簽B,那我們就說標(biāo)簽A與標(biāo)簽B有相關(guān)性,即有共同的用戶群體u1,um,un。

      定義標(biāo)簽集合{A,B,…}同時被一個用戶或者多個用戶所標(biāo)注,則稱標(biāo)簽A、標(biāo)簽B、…構(gòu)成共被標(biāo)注關(guān)系。標(biāo)簽集合{A,B,…}的元素個數(shù)稱之為共被標(biāo)注強度,共被標(biāo)注強度越大說明用戶之間的相似度越高。被標(biāo)注頻率最高的標(biāo)簽其在所屬用戶群體中影響力越大,其余標(biāo)簽依次類似分析?;诖?,可通過標(biāo)簽權(quán)重對用戶進行聚類分析。在基于相似讀者的圖書推薦過程中,可基于余弦相似度函數(shù)來計算讀者之間的相似度。

      設(shè)標(biāo)簽集合T={T1,T2,T3 ……Tm},考慮到時間上下文的因素,在某段時間內(nèi)通過TF-IDF計算標(biāo)簽權(quán)重,標(biāo)簽權(quán)重的取值范圍為[0,1]。 n個用戶的標(biāo)簽權(quán)重矩陣T為:

      矩陣T的行向量表示用戶un對標(biāo)簽集合的活躍度,通過使用余弦相似度函數(shù)來計算用戶之間的相關(guān)性,設(shè)定用戶um的標(biāo)簽權(quán)重向量為A,用戶un的標(biāo)簽權(quán)重向量為B,sim(um,un)表示用戶um,un,的相似度,則計算公式如下:

      余弦相似度函數(shù)通過空間中兩個向量夾角的余弦值來衡量相似度的大小,余弦值越接近于1,說明用戶之間的相似性越大。反之,余弦值越接近于0,說明用戶之間的相似度越小。通過用戶之間相似度的計算來構(gòu)建群體用戶畫像。

      5 結(jié)語

      本文從用戶畫像理論角度對圖書館數(shù)據(jù)驅(qū)動業(yè)務(wù)的發(fā)展做了闡述,對于提高圖書館服務(wù)的精準(zhǔn)度具有一定的效能。模型以標(biāo)簽為載體,通過TF-IDF計算用戶相關(guān)聯(lián)標(biāo)簽的權(quán)重,構(gòu)建個體用戶畫像。在此基礎(chǔ)上,以圖書館圖書推薦為案例,以標(biāo)簽為聚類數(shù)據(jù)項,采用余弦相似度的協(xié)同過濾算法將個體用戶畫像進行聚類,構(gòu)建群體用戶畫像,實現(xiàn)了對用戶群體的精準(zhǔn)分類,圖書館按照不同的分類群體推薦不同的信息資源,實現(xiàn)精準(zhǔn)推薦服務(wù)。基于用戶畫像的圖書館構(gòu)建模型適用于精準(zhǔn)知識推薦服務(wù)、個性化智慧服務(wù)、閱讀推廣活動、數(shù)字圖書館智慧社區(qū)構(gòu)建等。模型充分考慮到了圖書館數(shù)據(jù)的采集、用戶行為的分類、時間的衰減因素、場景因素等,但也存在對畫像模型數(shù)據(jù)顆粒度的劃分層次較粗放、缺乏反饋機制和用戶的評價機制等不足之處。由于篇幅所限,對動態(tài)標(biāo)簽權(quán)重的計算方法介紹單一,沒有考慮用戶數(shù)據(jù)采集中的數(shù)據(jù)隱私保護等問題,有待今后進一步深化研究。

      參考文獻(xiàn):

      COOPER A. The inmates are running the asylum: why high-tech products drive us crazy and how to restore the sanity[M]. Sams Publishing, 2004.

      TRAVIS D. E-commerce usability: tools and techniques to perfect the on-line experience[M].CRC Press,2002.

      許鵬程,畢強. 數(shù)據(jù)驅(qū)動下數(shù)字圖書館用戶畫像模型構(gòu)建[J].圖書情報工作, 2019(3):30-37.

      李丹,高建忠. 基于用戶畫像的圖書館推薦服務(wù)初探[J]. 圖書館,2019(7):066-071.

      晁明娣. 面向圖書館精準(zhǔn)服務(wù)的用戶畫像構(gòu)建研究[J].圖書館學(xué)刊,2019(4):106-111.

      宋美琦. 用戶畫像述評[J]. 情報科學(xué). 2019(4):171-176.

      王樂,倪維建,林澤東. 基于模型堆疊的上網(wǎng)行為日志用戶畫像方法[J]. 山東科技大學(xué)學(xué)報(自然學(xué)版).2018(5):70-77.

      徐海玲. 基于概念格的高校圖書館群體用戶興趣畫像研究[J]. 情報科學(xué), 2019(9):153-158.

      吳智勤. 基于社交網(wǎng)絡(luò)的高校圖書館用戶畫像構(gòu)建研究[J].圖書館學(xué)研究, 2018(16):26-30.

      LEUNG K W T, LEE D L. Deriving concept-based user profiles from search engine logs[J]. IEEE Transactions on Knowledge and Data Engineering, 2010, 22(7): 969-982.

      JOMSRI P. Book recommendation system for digital librarybased on user profiles by using association rule[C].//FourthInternational Conference on Innovative Computing Technology. IEEE,2014:130-134.

      單曉紅,張曉月,劉曉燕. 基于在線評論的用戶畫像研究:以攜程酒店為例[J]. 情報理論與實踐,2018,41(4):99-104,149.

      李嘉興,王晰巍,常穎. 基于移動終端日志的微信老年用戶使用行為畫像研究[ J ] . 圖書情報工作, 2019(22):31-39.

      林燕霞,謝湘生. 基于社會認(rèn)同理論的微博群體用戶畫像[J]. 情報理論與實踐,2018(3):142-148.

      任中杰. 面向突發(fā)事件的網(wǎng)絡(luò)用戶畫像情感分析[J].情報雜志,2019,38(11):126-133.

      王昊奮,漆桂林. 知識圖譜方法、實踐與應(yīng)用[M].北京:電子工業(yè)出版社. 2019:133-137.

      王繼民. 基于日志挖掘的移動搜索用戶行為研究綜述[J]. 情報理論與實踐 ,2014(3):134-138.

      姚遠(yuǎn),張蕙. 基于本體的用戶畫像構(gòu)建方法[J]. 計算機科學(xué). 2018(10):226-232.

      牛溫佳,劉吉強,石川. 用戶網(wǎng)絡(luò)行為畫像[M].北京:電子工業(yè)出版社,2016:100.

      趙宏田. 用戶畫像方法論與工程化解決方案[M].北京:機械工業(yè)出版社,2020:114-115.

      陳彬彬. 基于雙語圖書本體匹配的推薦系統(tǒng)的研究與實現(xiàn)[D].南京:東南大學(xué),2016:25.

      趙建建 中原工學(xué)院圖書館館員。 河南鄭州,450007。

      (收稿日期:2020-10-12 編校:劉 明,左靜遠(yuǎn))

      猜你喜歡
      用戶畫像層次分析法圖書館
      圖書館
      小太陽畫報(2018年1期)2018-05-14 17:19:25
      把聲音的魅力發(fā)揮到極致
      中國廣播(2017年1期)2017-02-21 13:40:10
      移動用戶畫像構(gòu)建研究
      飛躍圖書館
      基于微博的大數(shù)據(jù)用戶畫像與精準(zhǔn)營銷
      關(guān)于三江源生態(tài)移民創(chuàng)業(yè)能力評價指標(biāo)體系構(gòu)建的研究
      基層社會管理關(guān)鍵績效指標(biāo)體系構(gòu)建研究
      中國市場(2016年35期)2016-10-19 02:03:21
      基于層次分析法的乳制品品牌顧客滿意度實證研究
      中國市場(2016年35期)2016-10-19 01:52:09
      基于模糊綜合評價模型對道路擁堵的研究
      商(2016年27期)2016-10-17 07:03:47
      移動互聯(lián)網(wǎng)下手機用戶使用行為特征的研究
      千阳县| 湘阴县| 长春市| 嘉荫县| 白城市| 西贡区| 晋州市| 惠东县| 大同市| 平江县| 莱芜市| 永寿县| 樟树市| 株洲县| 合阳县| 威海市| 聂荣县| 唐海县| 安徽省| 郑州市| 江永县| 泾阳县| 岱山县| 博野县| 大连市| 仙游县| 车致| 大洼县| 海盐县| 图木舒克市| 岳西县| 崇文区| 博野县| 高邮市| 伊宁县| 绥德县| 贵德县| 会理县| 当阳市| 松原市| 安庆市|