張 倩
(南京藝術(shù)學(xué)院,江蘇南京,210013)
進(jìn)入web2.0 時(shí)代,互聯(lián)網(wǎng)具有了互動(dòng)功能,用戶通過注冊(cè)身份可以參與信息的制造和流通,特別是用戶行為大數(shù)據(jù)分析的應(yīng)用價(jià)值,迅速得到了各行各業(yè)的青睞。大數(shù)據(jù)技術(shù)不僅發(fā)現(xiàn)了用戶基本信息資料記錄的使用價(jià)值,而且研發(fā)出了用戶行為數(shù)據(jù)增值的“智能挖掘系統(tǒng)”。
本文通過深入考察互聯(lián)網(wǎng)“用戶行為大數(shù)據(jù)分析”的技術(shù)創(chuàng)新案例,試圖在揭示其基本涵義、研究意義和數(shù)據(jù)源集成機(jī)制的基礎(chǔ)上,探究高校檔案用戶行為大數(shù)據(jù)分析的應(yīng)用前景,并提出模式創(chuàng)新的設(shè)計(jì)重點(diǎn)與技術(shù)要領(lǐng),以利驅(qū)動(dòng)高校檔案機(jī)構(gòu)不斷推出增值服務(wù)。
大數(shù)據(jù)技術(shù)之所以迅速得到各行各業(yè)的青睞和熱捧,就是因其能夠利用“用戶行為大數(shù)據(jù)分析”的技術(shù)手段,為互聯(lián)網(wǎng)“數(shù)據(jù)廢氣”變廢為寶提供機(jī)遇與途徑。為了解和掌握“檔案用戶行為大數(shù)據(jù)分析”的基本內(nèi)涵與應(yīng)用價(jià)值,筆者作了如下考察:
首先,何為“檔案用戶行為信息”?筆者認(rèn)為,其主要是指:檔案用戶在檔案網(wǎng)站或檔案信息管理系統(tǒng)等環(huán)境中發(fā)生的檢索、瀏覽、下載等行為(數(shù)據(jù)痕跡),并包括用戶在第三方網(wǎng)站上與檔案實(shí)踐活動(dòng)相關(guān)的行為,如社交媒體上的交流、參與討論、查看相關(guān)評(píng)價(jià)、與好友互動(dòng)等產(chǎn)生的行為。
其次,什么是“檔案用戶行為大數(shù)據(jù)分析”?筆者認(rèn)為,其主要是指:通過把淹沒在檔案用戶行為海量數(shù)據(jù)中雜亂無章的數(shù)據(jù)經(jīng)過數(shù)據(jù)收集和提煉,獲取有效數(shù)據(jù),并挖掘隱藏在用戶行為數(shù)據(jù)背后的信息,研究其數(shù)據(jù)價(jià)值的過程。這項(xiàng)技術(shù)的核心價(jià)值在于:能夠事先根據(jù)不同檔案用戶在線發(fā)生的行為事件,分析出不同用戶的行為特性,并將智能數(shù)據(jù)服務(wù)平臺(tái)集成的用戶需求預(yù)測(cè)結(jié)果與其優(yōu)化匹配(Match),進(jìn)而達(dá)到不斷發(fā)掘數(shù)據(jù)潛在價(jià)值之目的。
第三,為什么要進(jìn)行“檔案用戶行為大數(shù)據(jù)分析”?筆者認(rèn)為,其主要是指:在看似毫無用處的“數(shù)據(jù)垃圾”背后,隱藏著寶貴的使用價(jià)值,即“數(shù)據(jù)持有人可以從歷史數(shù)據(jù)中推測(cè)判斷出行為人的下一步動(dòng)作——個(gè)人的行動(dòng)軌跡、行為軌跡,甚至思維軌跡[1]?!睓n案管理機(jī)構(gòu)利用“大數(shù)據(jù)X光機(jī)”探究各類行為軌跡背后的本質(zhì),不僅能夠通過串聯(lián)基于檔案用戶行為的參考數(shù)據(jù),對(duì)在線用戶進(jìn)行360 度視角的剖 析 ,最 終 提 供 可 視 化(Visualization)的解決方案,以便更好地服務(wù)用戶、留住用戶;而且有利于不斷提升數(shù)據(jù)分析能力,使后續(xù)業(yè)務(wù)活動(dòng)更加有的放矢,以期實(shí)現(xiàn)與用戶在線智能互動(dòng)、精準(zhǔn)匹配。
“數(shù)據(jù)源”(Data Source)是大數(shù)據(jù)之母。在大數(shù)據(jù)來源中,用戶行為數(shù)據(jù)曾很少被人問津,但其卻是最為重要、最有價(jià)值的一種數(shù)據(jù)源。尤其值得重視的是:用戶行為數(shù)據(jù)的豐富度與集成機(jī)制將決定大數(shù)據(jù)技術(shù)的發(fā)展方向與進(jìn)程。目前,高校檔案管理機(jī)構(gòu)已積累了大量的用戶行為數(shù)據(jù),這為開發(fā)檔案用戶行為大數(shù)據(jù)分析提供了良好的資源基礎(chǔ),但要實(shí)現(xiàn)原創(chuàng)數(shù)據(jù)轉(zhuǎn)換為“增值數(shù)據(jù)”(premium data)[2]的“最后一躍”,尚需具備三項(xiàng)基本技術(shù)支撐條件。條件一:構(gòu)建檔案用戶行為原創(chuàng)數(shù)據(jù)資源庫;條件二:構(gòu)建檔案用戶行為“增值數(shù)據(jù)”集成模塊(智能集成機(jī)制);條件三:構(gòu)建檔案用戶行為“增值數(shù)據(jù)”匹配服務(wù)平臺(tái)(智能分析系統(tǒng))。需要指出的是,在這三項(xiàng)技術(shù)支撐條件中,尋找合適的檔案用戶行為原創(chuàng)數(shù)據(jù)源進(jìn)行“ 清洗”(Data Scrubbing,即對(duì)數(shù)據(jù)資源進(jìn)行優(yōu)選凝練),并將“增值數(shù)據(jù)”輸入匹配服務(wù)平臺(tái),是檔案用戶行為大數(shù)據(jù)分析過程的最大挑戰(zhàn)之一[3]。通過深入考察,筆者認(rèn)為:構(gòu)建檔案用戶行為數(shù)據(jù)源的凝練集成機(jī)制,必須對(duì)關(guān)鍵性影響因素做好充分的技術(shù)分析,以利明確智能集成系統(tǒng)設(shè)計(jì)的研究內(nèi)容和重點(diǎn)。
首先,要從時(shí)間維度了解和掌握檔案用戶的行為軌跡。借鑒“現(xiàn)代營銷學(xué)之父”菲利普·科特勒(Philip Kotler)的營銷學(xué)理論,剖析檔案用戶的行為軌跡可以發(fā)現(xiàn)其主要包括:產(chǎn)生需求、信息收集、方案選擇、需求決策、后續(xù)行為五個(gè)階段。其中,后續(xù)行為包括:檔案用戶的使用習(xí)慣、使用體驗(yàn)、滿意度和忠誠度等。檔案用戶行為軌跡的時(shí)間記錄,是幫助透析和預(yù)判用戶需求的探測(cè)鏡,對(duì)開發(fā)利用“增值數(shù)據(jù)”具有重要作用。
其次,要從空間維度了解和掌握影響檔案用戶行為的關(guān)鍵要素。借鑒“5W2H”分析法,可將檔案網(wǎng)站發(fā)生的用戶行為分解成七大要素。 即:誰(Who)? 什 么 時(shí) 間(When)?什么地點(diǎn)(Where)?訪問了什么檔案(What)?產(chǎn)生查詢需求的動(dòng)機(jī)是什么(Why)?打算查詢多少檔案資料(How Much)?如何借閱(How)?根據(jù)這些關(guān)鍵要素的分析,既能獲得用戶訪問檔案網(wǎng)站的時(shí)間、地點(diǎn)、點(diǎn)擊的內(nèi)容、頁面每個(gè)部分停留的時(shí)間等零散的信息參數(shù),又可整理、提煉并清楚地定義一個(gè)具體的用戶行為,且利于盡可能精準(zhǔn)地挖掘出“5W2H”中需要解答的問題。
第三,要從質(zhì)量維度分析和評(píng)判檔案用戶行為數(shù)據(jù)的使用價(jià)值。檔案用戶的行為數(shù)據(jù),可區(qū)分為“靜態(tài)數(shù)據(jù)”(Static Data)和“動(dòng)態(tài)數(shù)據(jù)”(Dynamic Data)兩大類。其中:“靜態(tài)數(shù)據(jù)”是指用戶的姓名、年齡、學(xué)歷、職業(yè)、來源地區(qū)、興趣愛好等用戶屬性類信息。這類大數(shù)據(jù)信息,通常由檔案管理機(jī)構(gòu)的日常服務(wù)自我生成。如:檔案網(wǎng)絡(luò)管理系統(tǒng)需要用戶注冊(cè)ID才可使用,它可構(gòu)成用戶身份的確定性與唯一性,且用戶填寫的注冊(cè)資料是分析和評(píng)判數(shù)據(jù)價(jià)值最基礎(chǔ)、最重要的依據(jù)。“動(dòng)態(tài)數(shù)據(jù)”是指檔案管理機(jī)構(gòu)內(nèi)部主動(dòng)對(duì)用戶行為進(jìn)行“捕獲”(Capture)而獲得的操作類信息。這類大數(shù)據(jù)信息,主要包括用戶的檢索、瀏覽網(wǎng)頁、下載等操作數(shù)據(jù)和點(diǎn)擊流數(shù)據(jù)、跳出率數(shù)據(jù),等等。檔案管理機(jī)構(gòu)通過獲取用戶的“靜態(tài)數(shù)據(jù)”和“動(dòng)態(tài)數(shù)據(jù)”,既可了解和掌握用戶行為規(guī)律,又可為分析和評(píng)判用戶行為數(shù)據(jù)的使用價(jià)值提供基礎(chǔ)依據(jù)。
第四,要從來源維度分析和研判檔案用戶行為數(shù)據(jù)結(jié)構(gòu)優(yōu)化的解決方案。檔案用戶的行為數(shù)據(jù),可區(qū)分為“內(nèi)部數(shù)據(jù)”(Internal Data)與“外部數(shù)據(jù)”(External Data)。據(jù)IBM 公司發(fā)布的《分析:大數(shù)據(jù)在現(xiàn)實(shí)世界中的應(yīng)用》白皮書顯示:企業(yè)“內(nèi)部數(shù)據(jù)”是大數(shù)據(jù)的主要來源,社交媒體等“外部數(shù)據(jù)”則不到一半[4]。目前,高校檔案管理機(jī)構(gòu)也面臨同樣的問題。即:內(nèi)部系統(tǒng)中用戶行為數(shù)據(jù)占主導(dǎo)地位,且這類數(shù)據(jù)的潛藏價(jià)值尚待開發(fā);外部傳統(tǒng)互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)、SNS社交網(wǎng)等每天都在生成大量的UGC(User Generated Content,即用戶產(chǎn)生的內(nèi)容)公共數(shù)據(jù),檔案管理機(jī)構(gòu)現(xiàn)有的人力物力卻難以顧及。改變這一狀況的出路何在?筆者認(rèn)為,除積極改善人力物力條件之外,必須從數(shù)據(jù)來源的結(jié)構(gòu)優(yōu)化入手,著力遴選“增值數(shù)據(jù)”集成機(jī)制的解決方案。如:針對(duì)高校檔案部門用戶行為數(shù)據(jù)分布在一系列不同的數(shù)據(jù)庫(Data Base)、數(shù)據(jù)存儲(chǔ)器(Data Storage)和文件服務(wù)器(File Server)的特點(diǎn),可將所收集的文本、視頻、音頻、圖片等不同結(jié)構(gòu)類型的數(shù)據(jù),先梳理、歸類為結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)三大類型;再按照數(shù)據(jù)價(jià)值的特性,將不同結(jié)構(gòu)類型的數(shù)據(jù)賦予“一般”、“獨(dú)特”、“專屬”等不同的價(jià)值屬性,并對(duì)不同價(jià)值屬性的數(shù)據(jù)進(jìn)行結(jié)構(gòu)優(yōu)化和集成;然后,根據(jù)裝備和技術(shù)條件選擇不同的存儲(chǔ)模式(遠(yuǎn)程存儲(chǔ)、共享存儲(chǔ)、專用平臺(tái)存儲(chǔ)、移動(dòng)存儲(chǔ)等),以便于開發(fā)利用。
檔案用戶行為大數(shù)據(jù)分析的技術(shù)系統(tǒng)建設(shè),涉及多方面功能集成模塊的設(shè)計(jì)思路與方法的選擇問題,其中數(shù)據(jù)凝練、數(shù)據(jù)分析、數(shù)據(jù)預(yù)測(cè)、數(shù)據(jù)交互等關(guān)鍵技術(shù),更是實(shí)踐應(yīng)用不可回避的研究重點(diǎn)。下面,筆者借他山之石并結(jié)合自己的研究體會(huì),對(duì)系統(tǒng)所涉重大功能模塊的主要作用和設(shè)計(jì)重點(diǎn),提出初步研探的一些看法。
3.1.1 用戶基本信息模塊
構(gòu)建用戶行為數(shù)據(jù)資源凝練系統(tǒng),是高校檔案用戶行為大數(shù)據(jù)分析的核心技術(shù)之一,而建立用戶基本信息模塊更是重中之重。該模塊的主要作用:一是可對(duì)用戶進(jìn)行多維度分析。如:依據(jù)用戶的性別、年齡、地域、興趣愛好等人文屬性,可創(chuàng)建用戶基本信息數(shù)據(jù)的多維度分析資源庫。二是可形成凝練用戶基本信息數(shù)據(jù)的標(biāo)準(zhǔn)化識(shí)別機(jī)制。如:將用戶的人文資料及在線行為記錄進(jìn)行有機(jī)融合,可把凝練出來的用戶資料信息作為增值數(shù)據(jù)進(jìn)行開發(fā)利用。三是可自動(dòng)更新和完善用戶基本信息數(shù)據(jù)。如:在不侵犯用戶隱私的前提下,可對(duì)用戶基本信息記錄作自動(dòng)更新和完善,以滿足不同用戶的應(yīng)用需求。
3.1.2 用戶信用(價(jià)值)評(píng)價(jià)模塊
用戶信用(價(jià)值)評(píng)價(jià)模塊,是用戶行為數(shù)據(jù)資源凝練系統(tǒng)中不可或缺的重要組成部分。該模塊的主要作用:一是可對(duì)大量用戶歷史數(shù)據(jù)進(jìn)行量化分析。如:通過對(duì)用戶過去是否有點(diǎn)擊、是否有借閱,借閱檔案的價(jià)值,借閱的頻率,最近一次什么時(shí)候借閱等屬性的統(tǒng)計(jì)和歸類,可尋找出用戶信用風(fēng)險(xiǎn)的特征值與規(guī)律。二是可對(duì)用戶行為數(shù)據(jù)進(jìn)行價(jià)值評(píng)分。如:對(duì)新用戶和已有用戶(偶然來訪者和常客),可賦予不同的分值來劃分用戶信用等級(jí)。三是可建立用戶價(jià)值分群模型。如:按照不同的風(fēng)險(xiǎn)管理級(jí)別與服務(wù)級(jí)別,可有針對(duì)性地對(duì)不同用戶群設(shè)計(jì)服務(wù)方式與客戶體驗(yàn)。如:當(dāng)用戶每次光顧高校檔案網(wǎng)站時(shí),系統(tǒng)能夠立即訪問用戶行為數(shù)據(jù)庫,并實(shí)時(shí)判斷出此用戶是否為優(yōu)質(zhì)用戶(High-quantity User),對(duì)優(yōu)質(zhì)用戶可給予合適的優(yōu)惠服務(wù)。又如:當(dāng)一位很久沒來過的用戶再次光顧高校檔案網(wǎng)站時(shí),系統(tǒng)可對(duì)其提供特殊優(yōu)待服務(wù),以便其成為??汀T偃纾合到y(tǒng)能給排名靠前的用戶發(fā)送推薦信息,以利發(fā)現(xiàn)盡量多的潛在用戶(Potential User),且能提前發(fā)現(xiàn)不守信用的用戶(如逾期不歸還檔案或丟失原件等),并根據(jù)實(shí)際情況采取不同的有效措施進(jìn)行預(yù)警處理。
3.2.1 用戶偏好(傾向)模塊
在用戶行為需求預(yù)測(cè)系統(tǒng)中,用戶偏好(傾向)模塊是重要基石。該模塊不僅可以通過追蹤和分析用戶行為數(shù)據(jù)來掌握用戶行為規(guī)律,而且能夠精確定位用戶的需求偏好。應(yīng)用案例一:高校檔案管理機(jī)構(gòu)通過日常對(duì)用戶借閱行為、意向的記錄與積累,可發(fā)現(xiàn)用戶經(jīng)常喜歡辦理哪些業(yè)務(wù),以及對(duì)服務(wù)還有哪些需求,以利從用戶反饋中預(yù)測(cè)其需求狀況并更好地改善用戶的體驗(yàn)度。如:每年上半年高校會(huì)有大批教職員工查詢與己有關(guān)的職稱材料,檔案管理機(jī)構(gòu)可對(duì)用戶需求進(jìn)行分類并預(yù)先做出滿足其需要的“對(duì)象庫”,以利有效細(xì)分用戶群的服務(wù)效果。應(yīng)用案例二:高校檔案管理機(jī)構(gòu)通過對(duì)用戶在網(wǎng)頁上的熱點(diǎn)圖(Heat Map)分布數(shù)據(jù)和網(wǎng)頁覆蓋圖(Webpage-overlay Map)數(shù)據(jù),可分析用戶喜歡看哪些主題的檔案資料,從而做到一方面加強(qiáng)用戶所偏好檔案的收集、存儲(chǔ),另一方面還能考察自己的產(chǎn)品與服務(wù)效果,為新課題研發(fā)提供可靠的線索。應(yīng)用案例三:高校檔案管理機(jī)構(gòu)通過對(duì)用戶登錄時(shí)間點(diǎn)的分析,不僅可以獲悉用戶的活躍期,而且可在對(duì)應(yīng)的時(shí)間段做某些有針對(duì)性的信息推送,以利降低運(yùn)營成本,并為發(fā)現(xiàn)增值服務(wù)提供可靠的線索。應(yīng)用案例四:高校檔案管理機(jī)構(gòu)可通過用戶訪問網(wǎng)站流程來分析其對(duì)網(wǎng)站的字體顏色的喜好程度或頁面結(jié)構(gòu)設(shè)計(jì)是否合理等,為不同的用戶呈現(xiàn)其專屬設(shè)計(jì)的網(wǎng)頁,以利開發(fā)出不同的產(chǎn)品與服務(wù)體驗(yàn)。
3.2.2 用戶個(gè)性化服務(wù)推薦模塊
在用戶行為需求預(yù)測(cè)系統(tǒng)中,個(gè)性化服務(wù)推薦模塊不僅是一種信息過濾的重要技術(shù)和手段,而且是解決信息超載問題的有效工具。用戶個(gè)性化服務(wù)推薦模塊的功能,主要以“私人訂制”等各類貼心服務(wù)來予以體現(xiàn)。應(yīng)用案例一:效仿亞馬遜等電商巨頭的做法,高校檔案管理機(jī)構(gòu)可在檔案網(wǎng)站內(nèi)設(shè)置“同類用戶還查詢了什么”的頁面,由系統(tǒng)引導(dǎo)用戶發(fā)現(xiàn)有價(jià)值、感興趣的信息或當(dāng)前的熱點(diǎn)文章以及熱點(diǎn)話題等。應(yīng)用案例二:借鑒電子郵件 營 銷(EDM,即Email Direct Marketing)的技術(shù)手段,高校檔案管理機(jī)構(gòu)可通過分析用戶已有的訪問信息,并在其事先許可的前提下,利用電子郵件或微信公眾賬號(hào)向目標(biāo)用戶主動(dòng)發(fā)送有價(jià)值的信息提示,以利幫助用戶作出決策(經(jīng)過大數(shù)據(jù)分析后發(fā)送的推薦信息,使用戶收到的郵件起碼是與其潛在需求的普通屬性相關(guān)的、可能感興趣的信息,以免被用戶作為垃圾信息而直接刪除)。應(yīng)用案例三:高校檔案管理機(jī)構(gòu)可在所有要推薦的檔案信息產(chǎn)品旁邊增加一個(gè)“不喜歡”的按鈕,以便用戶選擇。就個(gè)性化服務(wù)推薦而言,收集用戶不喜歡的東西與喜歡的東西不僅同樣具有重要的使用價(jià)值,而且可在一定程度上幫助系統(tǒng)改進(jìn)功能,以利提供更精準(zhǔn)的推薦服務(wù)。
3.2.3 用戶風(fēng)險(xiǎn)預(yù)警模塊
在用戶行為需求預(yù)測(cè)系統(tǒng)中,用戶風(fēng)險(xiǎn)預(yù)警模塊不僅可預(yù)測(cè)用戶黏度(User Viscosity)并對(duì)將要流失的有價(jià)值的用戶及時(shí)采取有針對(duì)性的維系方法,而且對(duì)降低運(yùn)營風(fēng)險(xiǎn)具有重要作用。如:移動(dòng)運(yùn)營商采取給數(shù)億用戶建立一個(gè)數(shù)據(jù)庫的辦法,通過海量數(shù)據(jù)分析跟蹤用戶的話費(fèi)消耗情況,就能知道哪些用戶在流失(話費(fèi)銳減的用戶基本上是將要流失的先兆)。借鑒這一做法,高校檔案用戶風(fēng)險(xiǎn)預(yù)警模塊的設(shè)計(jì),應(yīng)將用戶行為“生命周期”的分析判斷作為重點(diǎn),并采取相應(yīng)措施來增強(qiáng)用戶黏度、降低流失率??少Y借鑒的參考方案:一是針對(duì)處于“穩(wěn)定期”的用戶,可通過加強(qiáng)用戶互動(dòng)交流和信息推送服務(wù)等,以利保持用戶對(duì)高校檔案網(wǎng)站的關(guān)注度;二是針對(duì)處于“成長期”的用戶,可通過對(duì)使用某類增值業(yè)務(wù)有興趣的用戶進(jìn)行預(yù)測(cè)分析,主動(dòng)向其推薦個(gè)性化服務(wù)內(nèi)容,以利促進(jìn)其向“穩(wěn)定期”轉(zhuǎn)化;三是針對(duì)處于“衰退期”的用戶,可通過設(shè)定預(yù)控條件,對(duì)即將流失的用戶做出友情提醒,盡量促使其回歸穩(wěn)定。此外,要根據(jù)用戶流失特征和各類運(yùn)作風(fēng)險(xiǎn)作深度分析,及時(shí)改進(jìn)服務(wù)不到位的缺陷,以利有效增強(qiáng)用戶黏度。如:系統(tǒng)可根據(jù)大數(shù)據(jù)分析,實(shí)時(shí)判斷并提前發(fā)現(xiàn)用戶在使用過程中的各種操作失誤或故障,對(duì)其各種誤操作進(jìn)行警示。又如:在物聯(lián)網(wǎng)營運(yùn)環(huán)境下,檔案管理人員需要接觸并操作溫濕度控制、有線和無線通信、遠(yuǎn)程監(jiān)控、自動(dòng)報(bào)警、RFID物聯(lián)網(wǎng)傳感器等各種現(xiàn)代化設(shè)備,系統(tǒng)可通過建立用戶風(fēng)險(xiǎn)預(yù)警模塊來收集這些設(shè)備的海量運(yùn)作數(shù)據(jù),提前對(duì)某個(gè)具體指標(biāo)的變化進(jìn)行預(yù)警分析,并據(jù)此采取相應(yīng)措施來提高數(shù)據(jù)安全管控,避免不必要的損失和事故發(fā)生,以利實(shí)現(xiàn)更加及時(shí)、更加人性化管理之目的。
3.3.1 用戶“購物籃”關(guān)聯(lián)模塊
關(guān)聯(lián)技術(shù)不僅是互聯(lián)網(wǎng)發(fā)展的一大優(yōu)勢(shì)特征,而且為大數(shù)據(jù)關(guān)聯(lián)分析提供了有益條件。通過“關(guān)聯(lián)分析”(Association Rules)尋找在同一事件中出現(xiàn)的不同項(xiàng)的相關(guān)性,有助于增值數(shù)據(jù)的開發(fā)利用[5]。如:亞馬遜運(yùn)用協(xié)同過濾(collaborative filtering)技術(shù),對(duì)收集到的銷售數(shù)據(jù)和客戶購買行為數(shù)據(jù)進(jìn)行分析,并據(jù)此向客戶推銷相關(guān)商品[6]。再如,沃爾瑪“啤酒與尿布”的經(jīng)典商業(yè)案例,同樣是將收集到的消費(fèi)者購物行為數(shù)據(jù),運(yùn)用關(guān)聯(lián)算法進(jìn)行數(shù)據(jù)挖掘(Data Mining),發(fā)現(xiàn)了風(fēng)馬牛不相及的商品之間的神奇關(guān)聯(lián),使看似無用的數(shù)據(jù)創(chuàng)造了新的商業(yè)價(jià)值。同理,高校檔案管理機(jī)構(gòu)可借鑒“購物籃分析”(Market Basket Analysis)方法,在網(wǎng)站上為用戶設(shè)置“購物籃”,分析“購物籃”里用戶借閱檔案之間的相似性關(guān)系,發(fā)現(xiàn)什么樣的檔案組合用戶多半會(huì)一起查閱,尋找出既頻繁又可信的檔案信息借閱組合。因此,建立用戶“購物籃”關(guān)聯(lián)模塊,一方面可快速、準(zhǔn)確地幫助用戶瀏覽想要的檔案,減少用戶過濾信息的負(fù)擔(dān),節(jié)省用戶的檢索時(shí)間;另一方面可按照大數(shù)據(jù)分析結(jié)果對(duì)實(shí)體檔案進(jìn)行科學(xué)排架,并通過實(shí)體檔案與關(guān)聯(lián)電子檔案的優(yōu)化鏈接,促進(jìn)借閱量的快速增長。
3.3.2 用戶檢索語言語義分析模塊
零售業(yè)寡頭沃爾瑪為其網(wǎng)站設(shè)計(jì)的搜索引擎Polaris,利用語義數(shù)據(jù)進(jìn)行文本分析、機(jī)器學(xué)習(xí)和同義詞關(guān)聯(lián)挖掘,使在線購物完成率提升了10%到15%[7]。高校檔案管理機(jī)構(gòu)應(yīng)積極借鑒大數(shù)據(jù)語義檢索(Semantic Retrieval)技術(shù),通過建立用戶檢索語言語義分析模塊,來捕捉用戶所輸入語句背后的意圖,并以此向用戶提供最符合其需求的查詢結(jié)果。該模塊的技術(shù)設(shè)計(jì)要領(lǐng)是:依托知識(shí)“本體”(Ontology)的支持,對(duì)用戶查詢請(qǐng)求進(jìn)行預(yù)處理(Data Preprocessing)、語 義 映 射(Semantic Mapping)、共 現(xiàn) 分 析(Collocation Analysis)、聯(lián) 想 檢 索(Associative Retrieval)等處理后,在“檔案元數(shù)據(jù)”(Metadatabase)中匹配(Match)符合條件的檔案信息,以適應(yīng)概念匹配、語義匹配等知識(shí)檢索之需。
3.4.1 O2O用戶交互模塊
在實(shí)踐中,用戶會(huì)先到檔案網(wǎng)站上去查詢,然后再到檔案館去調(diào)閱檔案。這種行為模式,與O2O(Online to Offline,線上與線下的結(jié)合)電子商務(wù)模式有異曲同工之妙。因此,建立O2O 用戶交互模塊,將高校檔案管理機(jī)構(gòu)線下的業(yè)務(wù)與網(wǎng)絡(luò)進(jìn)行對(duì)接(網(wǎng)站成為線下“交易”的前臺(tái),檔案館成為線下的“實(shí)體店”),既可讓用戶用收到的二維碼彩信電子憑證在檔案館享受相應(yīng)的服務(wù),又可通過網(wǎng)上檔案館直接完成足不出戶的查檔體驗(yàn)。此外,開發(fā)用戶O2O 交互數(shù)據(jù),不僅能節(jié)省用戶時(shí)間,而且可節(jié)約檔案館的人力服務(wù)成本,特別是O2O模式在創(chuàng)造客流量的同時(shí),網(wǎng)站上產(chǎn)生的用戶行為O2O數(shù)據(jù)資源會(huì)成為檔案管理機(jī)構(gòu)了解用戶需求信息的重要渠道,而掌握了龐大的用戶行為數(shù)據(jù),既有利于提升“精準(zhǔn)服務(wù)”水平,又可更好地維護(hù)并拓展用戶。
3.4.2 用戶滿意度分析模塊
對(duì)用戶評(píng)論進(jìn)行情感(滿意度)分析具有潛在的商業(yè)價(jià)值。目前,亞馬遜、淘寶等主流網(wǎng)絡(luò)交易平臺(tái)幾乎都配置了評(píng)論功能,大眾點(diǎn)評(píng)網(wǎng)、豆瓣網(wǎng)等第三方點(diǎn)評(píng)網(wǎng)站也把評(píng)論信息作為吸引用戶使用的重要功能。通過考察可以發(fā)現(xiàn),網(wǎng)站的評(píng)論信息是根據(jù)用戶的經(jīng)歷和經(jīng)驗(yàn)寫成的,正反信息都有,較為客觀,既可方便其他用戶對(duì)關(guān)注的內(nèi)容進(jìn)行充分的比較和更深入的了解,又可方便網(wǎng)站獲得用戶反饋來促進(jìn)后續(xù)的生產(chǎn)或銷售。借鑒這一做法,建立用戶滿意度分析模塊,可讓高校檔案管理機(jī)構(gòu)根據(jù)用戶評(píng)論的目標(biāo)、評(píng)論的內(nèi)容、分享的內(nèi)容,及時(shí)了解和掌握用戶的信息需求。
3.4.3 用戶社交圖譜模塊
建立用戶社交圖譜(Social Graph)模塊,既是完善和豐富知識(shí)“本體庫”的需要,也是用戶行為大數(shù)據(jù)分析的必備條件。高校檔案管理機(jī)構(gòu)要在不斷充實(shí)和完善內(nèi)部用戶行為數(shù)據(jù)的基礎(chǔ)上,切實(shí)做好與互聯(lián)網(wǎng)數(shù)據(jù)的對(duì)接。如:微博、微信等社交媒體中的用戶非結(jié)構(gòu)化數(shù)據(jù),主流的關(guān)系型數(shù)據(jù)庫很難存儲(chǔ),高校檔案管理機(jī)構(gòu)要利用大數(shù)據(jù)技術(shù)來分析UGC 中海量的用戶社會(huì)關(guān)系和興趣關(guān)系,并通過分析社交圖譜來建立匯聚社會(huì)化、非結(jié)構(gòu)化的檔案用戶行為數(shù)據(jù)資源知識(shí)庫,同時(shí)要根據(jù)這些圖譜關(guān)系,結(jié)合用戶的網(wǎng)絡(luò)訪問軌跡,對(duì)網(wǎng)絡(luò)潛藏信息進(jìn)行挖掘,幫助用戶發(fā)現(xiàn)彼此的朋友圈,拓展交流范圍,以利方便有共同旨趣的用戶進(jìn)行檔案信息交流。
3.4.4 可視化分析模塊
“1張圖片等于1000個(gè)字[8]?!泵篮玫囊曈X展現(xiàn)效果可使數(shù)據(jù)不再是簡單的文字或數(shù)字,它能便捷地使用戶理解數(shù)據(jù)分析背后的信息。建立可視化分析(Visualization Analysis)模塊的用途:運(yùn)用計(jì)算機(jī)圖形學(xué)和圖像處理技術(shù),將用戶行為數(shù)據(jù)壓縮轉(zhuǎn)換成圖形或圖像在屏幕上顯示出來,以便于用戶理解和交互處理。實(shí)踐表明,利用可視化軟件以動(dòng)畫、趨勢(shì)線、圖形等美觀的視覺效果,不僅能更好地展現(xiàn)檔案用戶行為大數(shù)據(jù)分析結(jié)果或監(jiān)測(cè)數(shù)據(jù)背后的信息,而且能優(yōu)化檔案管理系統(tǒng)人機(jī)交互界面,吸引用戶眼球、提高網(wǎng)站黏度。此外,還可將該分析結(jié)果發(fā)布到Web 和移動(dòng)終端設(shè)備進(jìn)行交互式信息展示,進(jìn)一步提高推薦結(jié)果被用戶接受的可能性,且可為未來作出合理決策等業(yè)務(wù)提供信息依據(jù)。
用戶行為大數(shù)據(jù)分析不是簡單的“分析數(shù)據(jù)”,需要一整套切實(shí)可行的解決方案,尤其要重視用戶行為數(shù)據(jù)采集凝練體系與分析流程的應(yīng)用對(duì)策研究。
首先,要有明確的建設(shè)目標(biāo)。隨著Hadoop(由Apache 基金會(huì)開發(fā)的一個(gè)分布式系統(tǒng)基礎(chǔ)架構(gòu)——支撐大數(shù)據(jù)分析的分布式計(jì)算平臺(tái))的誕生,特別是NoSQL 數(shù)據(jù)庫(非關(guān)系型數(shù)據(jù)庫——支撐大數(shù)據(jù)分析的基礎(chǔ)技術(shù))的推廣普及,高校檔案管理機(jī)構(gòu)已無需在內(nèi)部開發(fā)或配備所有大數(shù)據(jù)技術(shù),甚至不必投入固定資本自行搭建大規(guī)模的IT環(huán)境,即可完成對(duì)大量非結(jié)構(gòu)化數(shù)據(jù)的高速處理。對(duì)此,筆者認(rèn)為,高校檔案管理機(jī)構(gòu)要根據(jù)業(yè)務(wù)需求和基礎(chǔ)條件,認(rèn)真研究并制定檔案用戶行為大數(shù)據(jù)分析系統(tǒng)的建設(shè)目標(biāo),不僅要明確總體建設(shè)規(guī)劃目標(biāo)和階段性實(shí)施方案,而且要對(duì)施用范圍與成本效益作出科學(xué)估價(jià),并通過權(quán)衡利弊提出應(yīng)對(duì)措施。如:大型高校檔案館可以橫向的大數(shù)據(jù)分析為建設(shè)目標(biāo),選擇自建基于大型機(jī)系統(tǒng)的數(shù)據(jù)中心作為內(nèi)部解決方案;小型高校檔案館(室)則應(yīng)以垂直行業(yè)的關(guān)鍵性技術(shù)應(yīng)用為大數(shù)據(jù)分析的建設(shè)目標(biāo),選擇租用托管商提供的基于云端的大數(shù)據(jù)應(yīng)用程序(Big Data Applications)作為內(nèi)部解決方案。但就發(fā)展方向而言,高校檔案管理機(jī)構(gòu)應(yīng)將著眼點(diǎn)放在對(duì)信息的分析、存儲(chǔ)和預(yù)測(cè)能力等核心競爭力的提升上,努力使自身轉(zhuǎn)化為“有價(jià)值的信息部門”。
第二,要確立規(guī)范的技術(shù)標(biāo)準(zhǔn)與流程。大數(shù)據(jù)的利用難點(diǎn)在于技術(shù)。實(shí)踐證明,從數(shù)據(jù)的收集、存儲(chǔ) 到 清 洗 , 再 到 脫 敏(Desensitization)、歸類、標(biāo)簽化、結(jié)構(gòu)化,以及建模分析、挖掘利用等等,這不僅需要服務(wù)器集群、數(shù)據(jù)利用模型、數(shù)據(jù)處理算法等一系列大數(shù)據(jù)技術(shù)予以匹配,而且需要依靠科學(xué)規(guī)范的技術(shù)標(biāo)準(zhǔn)與流程將挖掘出來的結(jié)果進(jìn)行包裝、變現(xiàn)。對(duì)此,筆者認(rèn)為,對(duì)于一般高校檔案管理機(jī)構(gòu)來說,除了技術(shù)性很強(qiáng)的業(yè)務(wù)可委托外包給專業(yè)公司來做外,自身需要規(guī)范的技術(shù)標(biāo)準(zhǔn)與流程主要包括:一是要規(guī)范“用戶行為”內(nèi)涵定義。高校檔案管理機(jī)構(gòu)必須事先為大數(shù)據(jù)分析定義出規(guī)范的“用戶行為”。如:用戶分組、發(fā)生時(shí)間、持續(xù)時(shí)間等,以便后續(xù)匹配。二是要規(guī)范“行為事件”采集標(biāo)準(zhǔn)。高校檔案管理機(jī)構(gòu)必須高度重視數(shù)據(jù)采集的標(biāo)準(zhǔn)體系建設(shè),并按照標(biāo)準(zhǔn)化和規(guī)范化的采集方法與流程,堅(jiān)持從小處入手,對(duì)日常采集的獨(dú)立數(shù)據(jù)流作分類、轉(zhuǎn)換、匯總并將其輸入至智能數(shù)據(jù)庫保存起來(隨著收集數(shù)據(jù)的不斷增多,大數(shù)據(jù)可隨即形成)。這樣做不但可減少先期投入,而且還能從數(shù)據(jù)采集凝練中取得意外的收獲。如果平時(shí)不注重積攢用戶行為數(shù)據(jù),關(guān)鍵時(shí)刻將會(huì)受歷史數(shù)據(jù)量所限而無法進(jìn)行大數(shù)據(jù)分析。三是要規(guī)范“行為事件”凝練手段。高校檔案管理機(jī)構(gòu)要根據(jù)業(yè)務(wù)需求和大數(shù)據(jù)分析技術(shù)裝備條件,逐個(gè)分析已有的數(shù)據(jù)倉庫,認(rèn)真甄別和凝練有效數(shù)據(jù),并對(duì)其匹配人工或系統(tǒng)智能定義好的個(gè)性化標(biāo)簽(需通過持續(xù)化地調(diào)整優(yōu)化用戶行為定義),以利建立用戶行為記錄的分類模型。四是要規(guī)范“結(jié)果可視化”展示形式。檔案用戶行為大數(shù)據(jù)分析既要對(duì)數(shù)據(jù)進(jìn)行詮釋,更要對(duì)分析凝練的結(jié)論進(jìn)行可視化包裝展示。鑒于這是一種主觀性分析,其產(chǎn)生的實(shí)際效益通常難以量化和展示,能否把具體的項(xiàng)目收益與業(yè)務(wù)需求緊密結(jié)合起來,將是效益分析成敗的關(guān)鍵之舉。因此,高校檔案管理機(jī)構(gòu)要深入研究有效數(shù)據(jù)的量化規(guī)律和展示技巧,不斷探索和創(chuàng)新“結(jié)果可視化”包裝展示的規(guī)范化形式。
第三,要注重?cái)?shù)據(jù)安全的風(fēng)險(xiǎn)防范。大數(shù)據(jù)需要“大安全”。高校檔案管理機(jī)構(gòu)在進(jìn)行用戶行為大數(shù)據(jù)分析時(shí),不僅要考慮包括系統(tǒng)安全問題、用戶隱私問題、兼容與整合問題等影響因素,而且必須提前做好應(yīng)對(duì)各類風(fēng)險(xiǎn)的解決預(yù)案。對(duì)此,筆者建議:一是要建立健全信息安全監(jiān)管制度。嚴(yán)格遵守國際國內(nèi)相關(guān)法律法規(guī)的要求,切實(shí)規(guī)范信息安全監(jiān)管制度與操作規(guī)程(包括在規(guī)定期限之后刪除個(gè)人信息的義務(wù))。二是要建立健全用戶行為大數(shù)據(jù)分析隱私權(quán)防護(hù)機(jī)制。對(duì)采集的用戶行為數(shù)據(jù)必須作“模糊處理”(Fuzzy Processing),著力使“大數(shù)據(jù)分析”挖掘出來的個(gè)人信息(特別是涉及用戶隱私的信息)與特定數(shù)據(jù)點(diǎn)的聯(lián)系難以對(duì)接。三是要建立健全數(shù)字化節(jié)制措施。對(duì)涉及用戶信息數(shù)據(jù)再利用的行為,必須采取行之有效的數(shù)字化節(jié)制措施,不斷更新和提升減災(zāi)能力,以利規(guī)避或降低用戶信息數(shù)據(jù)二次利用中潛在的侵權(quán)風(fēng)險(xiǎn)。
數(shù)據(jù)科學(xué)(Data Science)正在成為一個(gè)新興的學(xué)科和領(lǐng)域,誰能更好地抓住數(shù)據(jù)、理解數(shù)據(jù)、分析數(shù)據(jù)、應(yīng)用數(shù)據(jù),誰就能在未來的競爭中占據(jù)先機(jī)。因此,高校檔案管理機(jī)構(gòu)要像對(duì)待自己的寶貴資產(chǎn)一樣來對(duì)待檔案用戶行為數(shù)據(jù),高度關(guān)注大數(shù)據(jù)技術(shù)的發(fā)展走勢(shì),切實(shí)加強(qiáng)應(yīng)用研究,不斷提升檔案用戶行為大數(shù)據(jù)分析技術(shù)的實(shí)時(shí)化、精細(xì)化、智能化應(yīng)用水平,努力使其成為開拓高校檔案增值服務(wù)和滿足社會(huì)需求之利器。
[1]周楓.大數(shù)據(jù)時(shí)代檔案館的特征及發(fā)展策略[J].檔案與建設(shè),2013(8):8.
[2]城田真琴.《大數(shù)據(jù)的沖擊》[M].北京:人民郵電出版社,2013:219.
[3]Frank J.Ohlhorst.《大數(shù)據(jù)分析點(diǎn)“數(shù)”成金》[M].北京:人民郵電出版社,2013:31.
[4]科技日?qǐng)?bào).大數(shù)據(jù)主要來源于企業(yè)內(nèi)部數(shù)據(jù)[EB/OL].(2013-03-21).[2014- 04- 28]. http://news.xinhuanet.com/tech/2013-03/21/c_124487009.htm.
[5]楊池然.《跟隨大數(shù)據(jù)旅行》[M].北京:機(jī)械工業(yè)出版社,2014:35.
[6]城田真琴.《大數(shù)據(jù)的沖擊》[M].北京:人民郵電出版社,2013:56.
[7]搜狐IT.八個(gè)典型的大數(shù)據(jù)應(yīng)用案例[EB/OL].(2014-01-07).[2014-05- 28].http://it.sohu.com/20140107/n393108255.shtml.
[8]大衛(wèi)·芬雷布.《大數(shù)據(jù)云圖》[M].杭州:浙江人民出版社,2014:178.