• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于數(shù)據(jù)挖掘的數(shù)字圖書館用戶行為特征研究*
      ——以CADAL平臺(tái)為例

      2022-09-05 08:29:58郭科遠(yuǎn)劉桂鋒
      圖書情報(bào)研究 2022年3期
      關(guān)鍵詞:圖書館資源用戶

      郭科遠(yuǎn) 劉桂鋒 包 翔

      (江蘇大學(xué)科技信息研究所 鎮(zhèn)江 212013)

      1 引言

      圖書館用戶研究起源于上世紀(jì)30年代,美國(guó)芝加哥大學(xué)的圖書館學(xué)研究生院關(guān)于普通民眾的閱讀需要及閱讀行為交流的一系列研究標(biāo)志著圖書館用戶行為研究的開端[1-2]。隨著科學(xué)方法革命的到來(lái),圖靈獎(jiǎng)得主James Gray 提出科學(xué)研究第四范式,即數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)(Data-Intensive Scientific Discovery),從而成為當(dāng)前科研的主要方向。在當(dāng)前大數(shù)據(jù)環(huán)境下,圖書館作為知識(shí)數(shù)據(jù)的集中地,對(duì)圖書館用戶數(shù)據(jù)進(jìn)行分析能夠一定程度反映科研方向。大數(shù)據(jù)時(shí)代,技術(shù)促使圖書館研究進(jìn)入新時(shí)代[3]。隨著我國(guó)互聯(lián)網(wǎng)領(lǐng)域發(fā)展步入新的階段,5G 和產(chǎn)業(yè)互聯(lián)網(wǎng)等新技術(shù)帶來(lái)新機(jī)遇,互聯(lián)網(wǎng)在發(fā)展階段出現(xiàn)更多不確定性,互聯(lián)網(wǎng)與實(shí)體經(jīng)濟(jì)進(jìn)入全面深度融合期[4]。隨著移動(dòng)互聯(lián)網(wǎng)的高速發(fā)展,數(shù)字用戶規(guī)模呈現(xiàn)井噴式增長(zhǎng),記錄的用戶行為也變得更加豐富,分析復(fù)雜度也隨之越來(lái)越高。

      2 國(guó)內(nèi)研究現(xiàn)狀

      2015年12月31日,教育部發(fā)布了《普通高等院校圖書館規(guī)程》,其中第三十條規(guī)定:“圖書館應(yīng)積極拓展信息服務(wù)領(lǐng)域,提供數(shù)字信息服務(wù),嵌入教學(xué)和科研過(guò)程,開展學(xué)科化服務(wù),根據(jù)需求積極探索開展新服務(wù)。”[5]

      近年來(lái),利用數(shù)據(jù)挖掘技術(shù)針對(duì)圖書館用戶行為的研究越來(lái)越多。在國(guó)內(nèi),相關(guān)研究起步較晚,21 世紀(jì)以來(lái)才出現(xiàn)利用數(shù)據(jù)挖掘技術(shù)對(duì)圖書館用戶行為數(shù)據(jù)進(jìn)行分析,2008年以來(lái),相關(guān)文獻(xiàn)數(shù)量增長(zhǎng)速度極快,已經(jīng)成為了圖書館用戶研究的熱點(diǎn)前沿之一。王慧[6]等以天津圖書館“數(shù)字圖書館知識(shí)發(fā)現(xiàn)系統(tǒng)研究項(xiàng)目”為例研究數(shù)字圖書館瀏覽行為中的用戶興趣,詳細(xì)闡述了用戶瀏覽行為數(shù)據(jù)的采集、知識(shí)行為數(shù)據(jù)的整理與構(gòu)建,并對(duì)個(gè)體用戶與群體用戶興趣進(jìn)行分析;張潔[7]等將用戶畫像概念引入數(shù)字圖書館領(lǐng)域,構(gòu)建數(shù)字圖書館各項(xiàng)服務(wù)的用戶興趣模型,并依照模型設(shè)計(jì)、數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘以及標(biāo)簽映射的步驟開展對(duì)國(guó)家農(nóng)業(yè)圖書館知識(shí)服務(wù)用戶的用戶畫像建模及管理實(shí)踐;王剛[8]等關(guān)注用戶在社交網(wǎng)絡(luò)的各種行為信息,并通過(guò)分析社交網(wǎng)絡(luò)中用戶之間的社交密切程度、資源使用情況以及用戶對(duì)資源訪問(wèn)的時(shí)間、訪問(wèn)頻率,分析用戶對(duì)資源使用的興趣變化,設(shè)計(jì)用戶行為模型,提出好友推薦方法以及資源推薦機(jī)制;尹相權(quán)[9]等利用北京師范大學(xué)圖書館研究間系統(tǒng)日志數(shù)據(jù),根據(jù)用戶畫像的研究思路,對(duì)用戶數(shù)據(jù)進(jìn)行多維度行為建模,挖掘高校圖書館研究間的用戶行為規(guī)律特征,探索影響用戶行為的主要因素;高馨[10]等以“數(shù)字圖書館推廣工程”微信公眾號(hào)為例,依托微信后臺(tái)數(shù)據(jù)統(tǒng)計(jì)功能,基于用戶行為數(shù)據(jù)分析,排查微信服務(wù)存在的問(wèn)題及原因,調(diào)整微信公眾號(hào)相應(yīng)服務(wù)運(yùn)營(yíng);許鵬程[11]等通過(guò)剖析數(shù)字圖書館用戶畫像的內(nèi)涵及特征,分析用戶畫像的數(shù)據(jù)來(lái)源及采集處理過(guò)程,提出數(shù)據(jù)化、標(biāo)簽化、關(guān)聯(lián)化、可視化的數(shù)據(jù)驅(qū)動(dòng)下的用戶畫像路線,從自然維度、興趣維度、社交維度,構(gòu)建多維度、多層級(jí)、立體化來(lái)分析用戶畫像模型;劉速[12]等以天津圖書館為例,從數(shù)據(jù)來(lái)源、數(shù)據(jù)采集、信息識(shí)別、模型搭建等方面探究數(shù)字圖書館知識(shí),發(fā)現(xiàn)系統(tǒng)用戶畫像構(gòu)建的規(guī)律,并提出可視化統(tǒng)計(jì)描述、多維度交叉分析、用戶關(guān)系圖譜等用戶畫像分析方法。

      綜上可知,目前國(guó)內(nèi)學(xué)者主要立足于用戶視角、關(guān)注數(shù)字圖書館中用戶具體行為的分析、探究影響因素、提供個(gè)性化服務(wù)等方面。本文則從平臺(tái)運(yùn)營(yíng)的角度開展研究,更關(guān)注于用戶群體的分類、資源使用、行為習(xí)慣以及用戶的流失情況。

      隨著圖書館服務(wù)的用戶群體規(guī)模急速增長(zhǎng),圖書館在對(duì)用戶行為研究和分析的過(guò)程中很難涉及到每個(gè)用戶的行為特征。對(duì)于現(xiàn)代化綜合性圖書館而言,無(wú)法對(duì)用戶深入研究就無(wú)法分析用戶群體的行為特征,也就容易忽視用戶的服務(wù)需求[13]。針對(duì)圖書館數(shù)據(jù)的傳統(tǒng)數(shù)據(jù)分析方法大多是依據(jù)單一的日志文件提供的數(shù)據(jù)或是單純的借閱數(shù)據(jù)來(lái)分析單一的用戶行為,這一點(diǎn)顯然不能滿足當(dāng)前的研究需要。研究中存在問(wèn)題單一化、不全面,很難反映現(xiàn)實(shí)用戶的行為特征[14]。數(shù)據(jù)規(guī)模越來(lái)越大,傳統(tǒng)的用戶分析方法已經(jīng)無(wú)法滿足處理大量數(shù)據(jù)這一需要,而利用數(shù)據(jù)挖掘技術(shù)對(duì)圖書館用戶行為數(shù)據(jù)進(jìn)行分析已經(jīng)有效解決這一問(wèn)題。面對(duì)現(xiàn)在無(wú)法提供全面用戶分析的問(wèn)題,可以通過(guò)將不同維度、不同來(lái)源的數(shù)據(jù)進(jìn)行結(jié)合,以此更加完整而全面地描述用戶的行為特征。

      通過(guò)之前各領(lǐng)域?qū)D書館用戶行為數(shù)據(jù)分析的有關(guān)研究可以看出,采用數(shù)據(jù)挖掘手段結(jié)合有關(guān)模型能夠更好地去探索圖書館用戶行為規(guī)律和特征,因此本文將著眼于不同角度下利用數(shù)據(jù)挖掘技術(shù)探究數(shù)字圖書館在線平臺(tái)用戶行為特征以保障平臺(tái)用戶行為分析的全面性、可用性和精確性,這樣才能確保圖書館滿足用戶的個(gè)性化服務(wù)要求。

      3 數(shù)字圖書館平臺(tái)用戶行為特征分析方法

      平臺(tái)掌握的是圖書資源,平臺(tái)的使用者是用戶,平臺(tái)與用戶之間的交互過(guò)程(如圖1所示)是使用過(guò)程。而在這一過(guò)程中,平臺(tái)能為用戶提供的除了資源還有服務(wù),而體現(xiàn)平臺(tái)服務(wù)質(zhì)量的主要因素之一是用戶特征。從靜態(tài)上看,用戶特征是不同用戶群體間的不同屬性,如果從平臺(tái)運(yùn)營(yíng)的角度去看,主要是從用戶對(duì)平臺(tái)具有的價(jià)值來(lái)對(duì)用戶進(jìn)行分類,此外,用戶使用資源的類型也能體現(xiàn)用戶的習(xí)慣和喜好,這些都可以通過(guò)分析用戶的特征來(lái)提高平臺(tái)的運(yùn)營(yíng)管理效率。從動(dòng)態(tài)上看,一方面,用戶群體在使用過(guò)程的不同階段的使用行為能夠很好的展現(xiàn)該過(guò)程所提供的服務(wù)是否滿足用戶需求。本文采取轉(zhuǎn)化率方式加以展現(xiàn)用戶不同階段的平臺(tái)使用情況,找出平臺(tái)所需改進(jìn)的區(qū)域。另一方面,用戶訪問(wèn)平臺(tái)的時(shí)間既反映了用戶使用的習(xí)慣,同時(shí)也為平臺(tái)調(diào)整改進(jìn)的時(shí)間提供了參考依據(jù)。

      圖1 用戶-平臺(tái)交互圖

      當(dāng)然,從不同角度分析用戶群體是動(dòng)態(tài)變化的,個(gè)人的用戶行為也與群體行為有所差異,受限用戶的行為數(shù)據(jù)的不足,因此無(wú)法全面反應(yīng)用戶各個(gè)群體的行為特征。但無(wú)論是從用戶的使用過(guò)程,還是用戶的群體和資源這幾個(gè)角度,都能反映用戶的行為特征,可為平臺(tái)的運(yùn)營(yíng)效率提供決策支持。

      本文采用Python 進(jìn)行數(shù)據(jù)處理分析,首先對(duì)獲取的數(shù)據(jù)進(jìn)行預(yù)處理,然后觀察處理數(shù)據(jù)。在監(jiān)控平臺(tái)用戶使用流程的過(guò)程中,主要是聚焦于兩類用戶情況:首先是有價(jià)值的用戶,該類用戶主要表現(xiàn)在網(wǎng)站使用上,可以為網(wǎng)站產(chǎn)生一些價(jià)值,本文中主要是指常用平臺(tái)獲取資源的用戶。二是流失的用戶,主要指那些曾經(jīng)訪問(wèn)過(guò)網(wǎng)站或注冊(cè)過(guò)的用戶,但由于對(duì)網(wǎng)站漸漸失去興趣后逐漸遠(yuǎn)離網(wǎng)站,進(jìn)而徹底脫離網(wǎng)站的那批用戶,主要是指近期不再訪問(wèn)或訪問(wèn)次數(shù)減少的用戶。通過(guò)對(duì)兩者行為的觀察并利用Python 進(jìn)行數(shù)據(jù)分析,再結(jié)合經(jīng)濟(jì)學(xué)等領(lǐng)域多種分析模型對(duì)用戶行為進(jìn)行深入分析,從而為提高平臺(tái)使用量提供數(shù)據(jù)基礎(chǔ)。

      從時(shí)間序列上看,從用戶訪問(wèn)的時(shí)間方面展開分析,對(duì)獲取用戶訪問(wèn)行為數(shù)據(jù)需要對(duì)訪問(wèn)時(shí)間進(jìn)行切片處理并對(duì)各時(shí)段獨(dú)立訪客數(shù)與頁(yè)面訪客數(shù)分析,再分天、年分析,并針對(duì)產(chǎn)生現(xiàn)象提出建議。

      從用戶訪問(wèn)階段方面分析,針對(duì)用戶訪問(wèn)平臺(tái)時(shí)使用行為進(jìn)行分階段分析,根據(jù)數(shù)字圖書館用戶訪問(wèn)流程特點(diǎn),將用戶訪問(wèn)的流程劃分為注冊(cè)、檢索、借閱三個(gè)階段,通過(guò)建立漏斗模型得到用戶訪問(wèn)平臺(tái)的不同階段之間用戶轉(zhuǎn)化率的差異變化,提出相應(yīng)建議。

      從用戶群體與平臺(tái)資源上看,通過(guò)采取聚類方法對(duì)用戶進(jìn)行分類,獲得不同的用戶群體,并針對(duì)不同群體提出不同的服務(wù)建議。在該階段一方面要注意用戶分類特征的選擇,另一方面也要注意聚類方法的選擇,本文主要采取K-Means 聚類方法對(duì)用戶分類。而對(duì)資源進(jìn)行分析相對(duì)簡(jiǎn)便,通過(guò)排序,選取熱門資源,分析資源類型,來(lái)推測(cè)用戶習(xí)慣并提出相應(yīng)建議。

      最后是針對(duì)資源進(jìn)行分析,通過(guò)簡(jiǎn)單的排序,選取熱門資源,分析資源類型,推測(cè)用戶閱讀資源喜好并提出相應(yīng)建議以推動(dòng)資源優(yōu)化。整體研究思路如圖2所示。

      圖2 整體研究思路

      4 CADAL 平臺(tái)用戶行為特征研究

      4.1 CADAL 建設(shè)現(xiàn)狀

      大學(xué)數(shù)字圖書館國(guó)際合作計(jì)劃(China Academic Digital Associative Library,CADAL)起源于2000年12月中美兩國(guó)計(jì)算機(jī)科學(xué)家倡導(dǎo)建設(shè)百萬(wàn)冊(cè)數(shù)字圖書館項(xiàng)目;2002年9月,被中國(guó)教育部列為“十五”期間“211 工程”公共服務(wù)體系建設(shè)的組成部分,定名為“高等學(xué)校中英文圖書數(shù)字化國(guó)際合作計(jì)劃”;2009年8月,該項(xiàng)目正式改名為“大學(xué)數(shù)字圖書館國(guó)際合作計(jì)劃”。CADAL 項(xiàng)目建設(shè)的總體目標(biāo)是:構(gòu)建擁有多學(xué)科、多類型、多語(yǔ)種海量數(shù)字資源的,由國(guó)內(nèi)外圖書館、學(xué)術(shù)組織、學(xué)科專業(yè)人員廣泛參與建設(shè)與服務(wù),具有高技術(shù)水平的學(xué)術(shù)數(shù)字圖書館,成為國(guó)家創(chuàng)新體系信息基礎(chǔ)設(shè)施之一,形成了全世界最大的資源數(shù)字化網(wǎng)絡(luò),主要來(lái)源于國(guó)內(nèi)外研究型大學(xué)的館藏文獻(xiàn),囊括中外文圖書、音視頻資料以及報(bào)刊論文等重要文獻(xiàn),對(duì)從國(guó)外、境外組織的英文圖書進(jìn)行數(shù)字化加工。這是一個(gè)以數(shù)字化圖書期刊為主、覆蓋所有重點(diǎn)學(xué)科的學(xué)術(shù)文獻(xiàn)資源體系,對(duì)高校教學(xué)科研起到了巨大的支撐作用[15]。

      4.2 數(shù)據(jù)獲取與預(yù)處理

      本文的數(shù)據(jù)來(lái)源于CADAL 用戶行為數(shù)據(jù)[16],并通過(guò)脫敏技術(shù)保障了讀者隱私。本文主要針對(duì)資源借閱數(shù)據(jù)、用戶訪問(wèn)數(shù)據(jù),涉及到對(duì)數(shù)值型與日期型變量的處理,通過(guò)慧源數(shù)據(jù)平臺(tái)下載相應(yīng)數(shù)據(jù),主要包含自2020年1月以來(lái)半年的數(shù)據(jù),利用Python 進(jìn)行數(shù)據(jù)處理,在數(shù)據(jù)導(dǎo)入清洗前,要檢查是否導(dǎo)入pandas 等庫(kù)。在導(dǎo)入數(shù)據(jù)時(shí)要注意傳輸數(shù)據(jù)的完整性,為保證導(dǎo)入順利,對(duì)數(shù)據(jù)格式要進(jìn)行檢查,防止部分?jǐn)?shù)據(jù)無(wú)法導(dǎo)入或被破壞。

      首先對(duì)缺失值進(jìn)行清洗,缺失值清理是處理數(shù)據(jù)問(wèn)題最為常見(jiàn)的步驟。通過(guò)isnull()函數(shù)進(jìn)行異常檢測(cè),確定缺失值的范圍,統(tǒng)計(jì)原始數(shù)據(jù)包含的各字段的缺失值比例,依照計(jì)算所得的缺失值比例、字段重要性等方面,酌情制定清洗策略,主要采用刪除法去除缺失情況較為嚴(yán)重的,即影響力較小的字段,使用替換法,利用平均數(shù)填補(bǔ)缺失值不太嚴(yán)重且影響分析結(jié)果的字段。此外還要對(duì)格式內(nèi)容進(jìn)行清洗,主要是處理各類數(shù)據(jù)在顯示格式方面的不一致,本文采取的主要方法是在初期導(dǎo)入時(shí)將其處理成一致的某種格式(如str 字符型格式),最后對(duì)非需求數(shù)據(jù)進(jìn)行清洗,刪除不要的表格字段,盡量減少機(jī)器運(yùn)算量,使分析過(guò)程更為高效。

      利用Python 進(jìn)行分析時(shí)間序列的過(guò)程中,在可視化分析和分時(shí)期統(tǒng)計(jì)等方面經(jīng)常出現(xiàn)時(shí)間日期格式處理和轉(zhuǎn)換問(wèn)題,尤其在分期統(tǒng)計(jì)階段,日期數(shù)據(jù)的處理好壞直接影響到最終統(tǒng)計(jì)結(jié)果的準(zhǔn)確性。為保證讀取表格數(shù)據(jù)完整性,在讀取過(guò)程后所得的日期數(shù)據(jù)通常為字符型數(shù)據(jù)。為了進(jìn)一步分析需要,本文對(duì)所得數(shù)據(jù)進(jìn)行了進(jìn)一步的處理,首先利用函數(shù)將日期數(shù)據(jù)格式化,保證該數(shù)據(jù)類型格式一致,方便進(jìn)一步處理;然后對(duì)日期進(jìn)行切片處理,便于分過(guò)程分析數(shù)據(jù);對(duì)所需數(shù)據(jù)進(jìn)行篩選,獲取所得數(shù)據(jù),進(jìn)而進(jìn)行分期統(tǒng)計(jì)。

      4.3 用戶使用過(guò)程分析

      4.3.1 用戶使用時(shí)間

      通過(guò)周頁(yè)面訪問(wèn)量(圖3)可以看出,在周二與周六兩日出現(xiàn)過(guò)峰值,用戶的訪問(wèn)行為主要分布在周二、周五與周六,周三、周四相較而言,訪問(wèn)量較少。考慮到CADAL 服務(wù)的對(duì)象主要是大學(xué)生及研究人員,針對(duì)以上現(xiàn)象,應(yīng)該在周二、周六加強(qiáng)網(wǎng)站管理,或加強(qiáng)檢索訪問(wèn)數(shù)據(jù)的收集,防止影響用戶的正常登錄或使用。

      圖3 周頁(yè)面總訪問(wèn)量(PV)

      通過(guò)周頁(yè)面獨(dú)立訪客數(shù)(圖4)可以看出,在周二出現(xiàn)峰值,周五、周六獨(dú)立訪客數(shù)也較多,周四出現(xiàn)了谷值。因此,考慮選擇周二加強(qiáng)對(duì)登錄用戶管理、對(duì)用戶數(shù)據(jù)進(jìn)行收集分類,來(lái)提供個(gè)性化服務(wù)。

      圖4 周獨(dú)立訪客數(shù)(UV)

      結(jié)合圖3和圖4的分析,基本可以看出頁(yè)面訪問(wèn)量與獨(dú)立訪客數(shù)基本呈正比增長(zhǎng),基本可以判定周四平臺(tái)的訪問(wèn)量與訪客數(shù)應(yīng)為一周最低點(diǎn),可以將不利于客戶使用平臺(tái)的操作放在周四進(jìn)行。

      由總訪問(wèn)量分時(shí)分析可以看出(圖5),在9時(shí)到24 時(shí)多次出現(xiàn)峰值,訪問(wèn)量相對(duì)較多,用戶訪問(wèn)習(xí)慣主要集中于正常工作時(shí)間段以及24 時(shí)前小段時(shí)間,其他時(shí)間段相對(duì)較少。

      圖5 每時(shí)段頁(yè)面總訪問(wèn)量(PV)

      根據(jù)分時(shí)段對(duì)頁(yè)面獨(dú)立訪客數(shù)(圖6)的分析,獨(dú)立訪客數(shù)與總訪問(wèn)量分時(shí)分析規(guī)律基本一致,在0 時(shí)到8 時(shí)間訪問(wèn)人數(shù)較少,在9 時(shí)到24時(shí)間出現(xiàn)的兩次谷值也基本符合用戶午餐和晚餐進(jìn)餐時(shí)間。通過(guò)分時(shí)分析,可以把握大部分用戶一天的訪問(wèn)習(xí)慣,因此,可在訪客較多時(shí)段適時(shí)推送相關(guān)內(nèi)容,提高平臺(tái)利用效益。

      圖6 每時(shí)段頁(yè)面獨(dú)立訪客數(shù)(UV)

      從頁(yè)面訪問(wèn)量與獨(dú)立訪客量?jī)煞矫娣治?,在每周四該天?yè)面訪問(wèn)量與該天獨(dú)立訪客量達(dá)到最低值,在周六該天頁(yè)面訪問(wèn)量達(dá)到最高,在周二該天獨(dú)立訪客量達(dá)到最高。從每天來(lái)看(圖7),在每天凌晨5 時(shí)到6 時(shí)該時(shí)段頁(yè)面訪問(wèn)量與該時(shí)段獨(dú)立訪客量達(dá)到最低值,在10 時(shí)到24 時(shí)出現(xiàn)三次峰值。在該環(huán)節(jié)分析中,不難看出在每周四凌晨5 到6 時(shí)該時(shí)段頁(yè)面訪問(wèn)量與獨(dú)立訪客量最低,所以在平臺(tái)維護(hù)更新時(shí)可以考慮選擇這一時(shí)段,來(lái)減小對(duì)用戶使用的影響。

      圖7 每時(shí)段PV 與UV 的變化趨勢(shì)

      4.3.2 用戶轉(zhuǎn)化率

      通過(guò)對(duì)新用戶增量分析(圖8),不難看出自2011 平臺(tái)建設(shè)以來(lái)至2017年,新用戶注冊(cè)數(shù)量較小。自2018年至2020年該平臺(tái)用戶注冊(cè)量實(shí)現(xiàn)跳躍性增長(zhǎng),除了計(jì)算機(jī)普及應(yīng)用等硬件原因,更多的是由于平臺(tái)資源、服務(wù)、宣傳等多種因素,尤其是2020年僅上半年記錄數(shù)據(jù)即達(dá)到6 860 人的注冊(cè)量,結(jié)合當(dāng)前疫情常態(tài),越來(lái)越多的人選擇在線閱讀方式,線上閱讀平臺(tái)發(fā)展十分迅速。平臺(tái)應(yīng)當(dāng)抓住機(jī)遇,擴(kuò)大用戶范圍,加大平臺(tái)推廣。

      圖8 新增用戶數(shù)

      漏斗分析是分析用戶流程的數(shù)據(jù)分析模型,該模型可以較為準(zhǔn)確地反映用戶的行為狀態(tài),同時(shí)可以更直觀展現(xiàn)從用戶使用初期到末期各階段的用戶轉(zhuǎn)化率情況。通過(guò)對(duì)比漏斗模型各環(huán)節(jié)間相關(guān)數(shù)據(jù)變化,可以很直觀地展示問(wèn)題出現(xiàn)的階段,就能夠針對(duì)問(wèn)題所在階段進(jìn)行相應(yīng)優(yōu)化。

      通過(guò)對(duì)平臺(tái)運(yùn)營(yíng)數(shù)據(jù)觀察,可以利用注冊(cè)用戶逐步變?yōu)榛钴S用戶的轉(zhuǎn)化過(guò)程來(lái)構(gòu)建量化模型。其關(guān)鍵要素包括:環(huán)節(jié)與相鄰環(huán)節(jié)的轉(zhuǎn)化率。根據(jù)用戶使用流程,選取關(guān)鍵節(jié)點(diǎn)并劃分為3 個(gè)步驟,分別是:注冊(cè)、檢索、借閱,該模型(圖9)展示了用戶使用的完整過(guò)程,普通用戶轉(zhuǎn)變?yōu)榛钴S用戶的過(guò)程,同時(shí)也在一定程度上反映了用戶流失情況。當(dāng)然,網(wǎng)站中用戶的新老交替情況是無(wú)法避免的,在平臺(tái)運(yùn)營(yíng)中必然會(huì)存在流失用戶,但平臺(tái)可以通過(guò)流失用戶所占比例和變化趨勢(shì)來(lái)說(shuō)明其對(duì)用戶的保留能力和未來(lái)的發(fā)展趨勢(shì)。

      圖9 年新增用戶數(shù)

      從表1可以觀察到,從整體過(guò)程看,用戶流失較多,總體轉(zhuǎn)化率僅達(dá)39.4%。然而用戶注冊(cè)到檢索過(guò)程中,用戶轉(zhuǎn)化率達(dá)到78.55%,所在該平臺(tái)使用中用戶檢索行為較為普遍,相比而言,在檢索到借閱過(guò)程中,用戶流失較多,流失率高達(dá)49.84%。因此在平臺(tái)運(yùn)行過(guò)程中除了擴(kuò)大用戶量,更主要的是首先要把重點(diǎn)放在提高檢索用戶的借閱興趣上,盡可能鼓勵(lì)檢索用戶去借閱書籍,為用戶做好推薦等服務(wù),幫助用戶選取所需要的書籍,并且擴(kuò)充書庫(kù),采購(gòu)用戶所需書籍,提高服務(wù)質(zhì)量。其次,平臺(tái)需要做好用戶流失預(yù)警,不僅要把可能有流失傾向的用戶分析出來(lái),而且需要采取相應(yīng)的召回、引導(dǎo)策略。

      表1 用戶轉(zhuǎn)化率統(tǒng)計(jì)

      4.4 用戶群體分類分析

      利用CADAL 用戶行為數(shù)據(jù)對(duì)用戶群體進(jìn)行分類,進(jìn)而可以針對(duì)流失用戶進(jìn)行挽留,也可以根據(jù)不同用戶群體采取不同策略。

      4.4.1 RFM 模型分析

      RFM 模型是一種被廣泛使用的客戶關(guān)系管理(CRM)的分析模型。利用RFM 模型可以很好地衡量客戶價(jià)值,同時(shí)也可以評(píng)估客戶創(chuàng)利能力。相比其他分類模型,RFM 模型能夠更好地、動(dòng)態(tài)地凸顯各類用戶變化,也能夠較為客觀地判斷出用戶的長(zhǎng)期價(jià)值,為進(jìn)一步提供個(gè)性化溝通與服務(wù)并制定更多的營(yíng)銷決策提供支持[17]。

      在模型中,R(Recency)通常表示用戶最近一次購(gòu)買的時(shí)間的遠(yuǎn)近,F(xiàn)(Frequency)表示客戶在最近一段時(shí)間內(nèi)購(gòu)買的次數(shù),RFM 模型主要利用用戶行為的差異來(lái)區(qū)分客戶[17]。由于本文沒(méi)有獲得M 數(shù)據(jù),故主要利用R 與F 進(jìn)行用戶分類(圖10)。主要原理是近期使用平臺(tái)的用戶相比于近期沒(méi)有使用的用戶更有可能再次使用平臺(tái),經(jīng)常使用平臺(tái)的用戶相對(duì)于較少使用平臺(tái)的用戶更有可能再次使用平臺(tái)。

      圖10 用戶價(jià)值分類

      重要價(jià)值客戶(11):這類客戶主要表現(xiàn)在最近消費(fèi)時(shí)間較近且消費(fèi)頻次較高,由于該類用戶數(shù)量不多,在使用K-Means 聚類時(shí),該類用戶分類不明顯。

      重要保持客戶(01):這類客戶主要表現(xiàn)在雖然最近消費(fèi)時(shí)間較遠(yuǎn),但消費(fèi)頻次較高,對(duì)于此類用戶,用戶對(duì)平臺(tái)的忠誠(chéng)度并不高,需要主動(dòng)聯(lián)系該類用戶,征求建議,改進(jìn)平臺(tái)服務(wù)。

      重要發(fā)展客戶(10):這類客戶主要表現(xiàn)在最近消費(fèi)時(shí)間較近,但頻次不高,該類用戶多屬于初始用戶,有對(duì)平臺(tái)的使用要求,該類用戶發(fā)展?jié)摿^大,應(yīng)作為重點(diǎn)發(fā)展對(duì)象。

      重要挽留客戶(00):這類客戶主要表現(xiàn)在最近消費(fèi)時(shí)間較遠(yuǎn)且消費(fèi)頻次較低,有可能是已經(jīng)要流失的用戶或是準(zhǔn)備放棄使用平臺(tái)的用戶,應(yīng)當(dāng)采取挽留措施。

      4.4.2 基于K-Means 算法的分析

      利用聚類算法對(duì)某一特征用戶群體的劃分和歸組,不僅方便預(yù)測(cè)用戶之后的態(tài)度行為,而且對(duì)用戶分層管理很有幫助,通過(guò)對(duì)不同類型客戶提供不同服務(wù),提高平臺(tái)運(yùn)行效率。利用聚類的方法處理用戶信息,能夠較快對(duì)用戶進(jìn)行分類,幫助平臺(tái)了解用戶,挖掘潛在用戶,幫助平臺(tái)實(shí)現(xiàn)差異化營(yíng)銷[18]。

      K-Means 算法是一種較為常用的聚類算法,聚類是根據(jù)處理數(shù)據(jù)對(duì)象是否相似的原則,把相似度較高的數(shù)據(jù)對(duì)象分配到相同的類簇,將數(shù)據(jù)對(duì)象中相異度較高的對(duì)象劃分到不同的類簇。相比于分類算法,二者之間最大的區(qū)別在于聚類的過(guò)程是一個(gè)無(wú)監(jiān)督的過(guò)程,即在處理待處理數(shù)據(jù)對(duì)象前,是沒(méi)有任何有關(guān)處理的先驗(yàn)知識(shí)[19]。而分類過(guò)程作為有監(jiān)督過(guò)程,是存在使用先驗(yàn)知識(shí)作為處理過(guò)程的訓(xùn)練數(shù)據(jù)集。K-Means 聚類作為一種較為通用的算法,基本可以運(yùn)用到各種類型的分組分類問(wèn)題。K-Means 算法是針對(duì)已有樣本集,通過(guò)計(jì)算樣本間的距離大小劃分出K 個(gè)簇,實(shí)現(xiàn)簇內(nèi)點(diǎn)盡可能密集(間距?。亻g距離盡可能大。本文主要是針對(duì)已有的用戶群體,劃分用戶類型。用數(shù)據(jù)表達(dá)式表示,假設(shè)將當(dāng)前給定的數(shù)據(jù)集劃分的簇集合為(C1,C2,...Ck),則我們的目標(biāo)是最小化平方誤差E:

      其中μi是簇Ci的均值向量,有時(shí)也稱為質(zhì)心,表達(dá)式為:

      K-Means 聚類算法具體操作步驟如下:

      (1)首先要選擇集群的數(shù)量K,主要是通過(guò)觀察散點(diǎn)分布等方法選取合適的K 值。

      (2)利用Python 中已有函數(shù)對(duì)K 個(gè)點(diǎn)進(jìn)行隨機(jī)選擇,作為初始質(zhì)心(質(zhì)心選擇不一定非要是已知點(diǎn))。

      (3)通過(guò)對(duì)點(diǎn)間歐式距離的計(jì)算,把每個(gè)數(shù)據(jù)點(diǎn)逐一分配到構(gòu)成K 簇的最近的質(zhì)心。

      (4)計(jì)算并重新放置每個(gè)集群的新質(zhì)心。注意數(shù)據(jù)點(diǎn)與它們的集群中心之間的平均距離。

      (5)重新將計(jì)算后的數(shù)據(jù)點(diǎn)根據(jù)距離遠(yuǎn)近分到最近的質(zhì)心所在簇。在該過(guò)程中,每發(fā)生一次重置,就再次循環(huán)到步驟4,如果未發(fā)生重置則結(jié)束該流程并記錄下所獲取到的K 個(gè)簇。

      在使用K-Means 聚類過(guò)程中,發(fā)現(xiàn)分四類特征并不明顯(表2),所以采取分三類的方法進(jìn)行用戶分類(表3)。通過(guò)觀察數(shù)據(jù),對(duì)高于平均值置1,低于平均值置0,得到重要挽留客戶(00)、重要保持客戶(01)、重要發(fā)展客戶(10)三類用戶,所占比例分別為42.66%、47.01%、10.33%。利用聚類算法獲得了用戶分類,方便運(yùn)營(yíng)方對(duì)不同用戶采取不同策略,提高用戶體驗(yàn)度。

      表2 K-Means 分四類結(jié)果

      表3 K-Means 分三類結(jié)果

      根據(jù)以上方法模型可以實(shí)現(xiàn)對(duì)用戶的分類,不僅可以提取流失客戶加以挽留,還可以為有潛力客戶提供推送服務(wù),進(jìn)一步豐富常用用戶群體,擴(kuò)大平臺(tái)影響。

      4.5 用戶借閱資源分析

      在互聯(lián)網(wǎng)產(chǎn)業(yè)競(jìng)爭(zhēng)過(guò)程中,平臺(tái)提供的資源仍然是最重要的因素,書籍作為圖書館提供的主要資源,如果這一基礎(chǔ)喪失,其他因素的作用都將不存在。對(duì)書籍資源進(jìn)行分析,一方面可以為用戶提供推薦服務(wù),另一方面可以通過(guò)分析熱門資源,為圖書館館藏提供方向。由于使用Python讀取列表的順序時(shí)是自0 開始,由此可以根據(jù)推算找出閱讀量在前十的書籍(見(jiàn)表4)。

      表4 閱讀量前十的作品

      由于閱讀量能夠反映用戶興趣,通過(guò)收集前十閱讀量的書籍可以把握較多用戶的興趣,把握?qǐng)D書資源擴(kuò)充的方向。通過(guò)觀察不難發(fā)現(xiàn)閱讀量較多的書籍涉及范圍較廣,但有多篇文獻(xiàn)涉及醫(yī)學(xué)衛(wèi)生領(lǐng)域,結(jié)合當(dāng)前疫情的情況來(lái)看,也可以看出該模型所得數(shù)據(jù)一定程度反映了用戶關(guān)注社會(huì)熱點(diǎn)問(wèn)題。平臺(tái)通過(guò)閱讀量統(tǒng)計(jì)來(lái)了解相關(guān)信息并結(jié)合社會(huì)熱點(diǎn)把握讀者興趣,進(jìn)一步加強(qiáng)平臺(tái)服務(wù),提高用戶滿意度。

      表5是收藏量前十的作品,由表5可以發(fā)現(xiàn),收藏量較多的書籍多涉及人文社科,一方面由于自然科學(xué)書籍具有較強(qiáng)的專業(yè)性和實(shí)效性,另一方面在用戶行為習(xí)慣方面反映出閱讀自然科學(xué)書籍的用戶可能收藏行為較少。

      表5 收藏量前十的作品

      對(duì)平臺(tái)資源閱讀量與收藏量的分析,平臺(tái)運(yùn)營(yíng)者可以把握用戶習(xí)慣與興趣,針對(duì)不同用戶在不同環(huán)節(jié)中為了得到某種服務(wù)及功能而提出的需求,可以改進(jìn)平臺(tái)服務(wù)的不足,從而滿足用戶需求,進(jìn)一步擴(kuò)大平臺(tái)資源覆蓋范圍,提高服務(wù)質(zhì)量。

      5 結(jié)論與建議

      隨著大數(shù)據(jù)時(shí)代的到來(lái),電子書的普及讓在線平臺(tái)已經(jīng)能夠?qū)崿F(xiàn)圖書館的許多職能,保證了用戶的行為數(shù)據(jù)更容易被收集。利用大數(shù)據(jù)具有的及時(shí)性、精準(zhǔn)性、高客觀性等特點(diǎn),本文通過(guò)多角度對(duì)用戶行為及資源進(jìn)行詳細(xì)分析,進(jìn)而為平臺(tái)提供合理建議,主要分析了網(wǎng)站運(yùn)營(yíng)、用戶行為、圖書借閱等方面。在用戶分類階段采取無(wú)監(jiān)督的聚類方法,基本可以監(jiān)控用戶在各個(gè)環(huán)節(jié)間的轉(zhuǎn)化流失情況,可以讓平臺(tái)運(yùn)營(yíng)者聚焦用戶使用的全部流程中最為有效轉(zhuǎn)化路徑,與此同時(shí)運(yùn)營(yíng)者可以由此發(fā)現(xiàn)可優(yōu)化的短板,進(jìn)一步提升用戶體驗(yàn),從而減少用戶流失,通過(guò)觀察不同環(huán)節(jié)間的轉(zhuǎn)化情況,迅速找到流失環(huán)節(jié),并針對(duì)有關(guān)環(huán)節(jié),持續(xù)分析,從而找到可優(yōu)化點(diǎn),由此提升用戶留存率。在分類階段采取K-Means 聚類分析,通過(guò)無(wú)監(jiān)督的聚類方法減小了人為失誤的可能性,保證分類的準(zhǔn)確性。針對(duì)資源的分析可以了解用戶習(xí)慣,為平臺(tái)擴(kuò)充資源提供方向。

      針對(duì)CADAL 平臺(tái)用戶群體以及用戶行為特征,根據(jù)平臺(tái)的運(yùn)營(yíng)現(xiàn)狀,提出以下建議:

      (1)確定平臺(tái)維護(hù)更新時(shí)間段,減小對(duì)用戶使用的影響。針對(duì)用戶訪問(wèn)的時(shí)間分布情況,可以選取周四凌晨5 到6 時(shí)頁(yè)面訪問(wèn)量與獨(dú)立訪客量最低時(shí)段作為平臺(tái)維護(hù)更新時(shí)間。

      (2)利用網(wǎng)絡(luò)優(yōu)勢(shì)擴(kuò)大用戶群體。通過(guò)對(duì)新用戶增加趨勢(shì)的分析,2020 上半年新用戶增加量高達(dá)6 860 人,用戶閱讀方式逐步轉(zhuǎn)移到線上,平臺(tái)應(yīng)當(dāng)抓住機(jī)遇,擴(kuò)大用戶范圍,加大平臺(tái)推廣。

      (3)針對(duì)使用階段的用戶流失率,從而調(diào)整平臺(tái)。通過(guò)漏斗模型了解每個(gè)階段的轉(zhuǎn)化率,關(guān)注用戶流失較多的階段,做好用戶流失預(yù)警,同時(shí)用戶流失率也在一定程度上反映用戶使用過(guò)程中的滿意度。比如在檢索到借閱過(guò)程中用戶流失率高達(dá)49.84%,用戶流失較多,除了要關(guān)注流失用戶群體外,平臺(tái)應(yīng)該對(duì)借閱系統(tǒng)進(jìn)行優(yōu)化,提高用戶滿意度。

      (4)通過(guò)用戶價(jià)值分類,確立服務(wù)等級(jí)??梢葬槍?duì)用戶流失群體,潛力客戶群體及忠誠(chéng)客戶群體分別采取不同服務(wù)策略。

      (5)根據(jù)資源閱讀量與收藏量分析,實(shí)時(shí)優(yōu)化數(shù)字圖書館館藏資源。根據(jù)資源閱讀量與收藏量分析,在疫情時(shí)期,醫(yī)學(xué)圖書較為熱門,人文類書籍收藏較多,既反映人文類書籍相對(duì)自然科學(xué)類書籍閱讀群體較多,而且反映人文學(xué)者收藏行為較為普遍。應(yīng)當(dāng)根據(jù)習(xí)慣加購(gòu)人文類書籍,對(duì)收藏功能加以優(yōu)化。

      (6)加大數(shù)字資源開發(fā)力度,開發(fā)平臺(tái)的新功能。不僅限于紙本資源數(shù)字化,可以進(jìn)一步利用虛擬現(xiàn)實(shí)等計(jì)算機(jī)前沿技術(shù),提高用戶沉浸式體驗(yàn)。

      猜你喜歡
      圖書館資源用戶
      基礎(chǔ)教育資源展示
      一樣的資源,不一樣的收獲
      資源回收
      圖書館
      資源再生 歡迎訂閱
      資源再生(2017年3期)2017-06-01 12:20:59
      關(guān)注用戶
      商用汽車(2016年11期)2016-12-19 01:20:16
      飛躍圖書館
      關(guān)注用戶
      商用汽車(2016年6期)2016-06-29 09:18:54
      關(guān)注用戶
      商用汽車(2016年4期)2016-05-09 01:23:12
      如何獲取一億海外用戶
      乌拉特中旗| 平陆县| 密山市| 晋中市| 清涧县| 保定市| 彭水| 白山市| 谢通门县| 白银市| 渝北区| 新建县| 宁波市| 健康| 怀化市| 乌拉特中旗| 桃江县| 平谷区| 定陶县| 洪泽县| 清丰县| 延安市| 安图县| 盘山县| 新野县| 江安县| 白银市| 城固县| 连南| 望江县| 南漳县| 南阳市| 吉林省| 普格县| 芦山县| 图木舒克市| 巴东县| 玉环县| 涟水县| 高要市| 电白县|