袁露
摘要:大數(shù)據(jù)分析技術(shù)有效規(guī)避了研究傳統(tǒng)用戶信息搜索行為的不足,為該課題的研究提供了新的理論視角與實(shí)踐工具。本文構(gòu)建了大數(shù)據(jù)分析框架,用于對用戶信息搜索行為進(jìn)行分析,然后介紹了大數(shù)據(jù)可視化等關(guān)鍵技術(shù),以為大數(shù)據(jù)分析的應(yīng)用提供理論依據(jù)。
關(guān)鍵詞:信息搜索行為;大數(shù)據(jù)分析;關(guān)鍵技術(shù)
引言
用戶在進(jìn)行搜索和瀏覽時,會產(chǎn)生非常多的行為記錄,逐漸積累構(gòu)成了大體量的數(shù)據(jù)。現(xiàn)階段,針對用戶信息搜索行為進(jìn)行研究的方法非常多,主要針對傳統(tǒng)網(wǎng)絡(luò)環(huán)境下的結(jié)構(gòu)較為單一的數(shù)據(jù),對大數(shù)據(jù)的應(yīng)用能力非常弱,局限性也比較大。而應(yīng)用大數(shù)據(jù)分析技術(shù),可以快速處理海量數(shù)據(jù),獲得足夠的用戶信息,并從中發(fā)掘出有規(guī)律的信息,將其展示出來。本文在此基礎(chǔ)上,針對用戶搜索行為構(gòu)建了大數(shù)據(jù)分析框架,同時對其關(guān)鍵技術(shù)的應(yīng)用進(jìn)行介紹。
一、用戶信息搜索行為的大數(shù)據(jù)分析框架
(一)用戶信息搜索行為模型的構(gòu)建
在已有文獻(xiàn)研究成果的基礎(chǔ)上,筆者對用戶搜索行為模型進(jìn)行構(gòu)建,將其分為前中后三個部分,分別與用戶層、人機(jī)交互層和評價利用層相對應(yīng)[1]。用戶層分為信息用戶和用戶需求;人機(jī)交互層包含選擇信息源以及選擇檢索方式和瀏覽行為。而評價利用層包含用戶的物理行為以及心理行為。但是信息搜索是一個過程,并且該過程有可能是循環(huán)過程,用戶在信息評價時如果沒有得到令其滿意的結(jié)果,則會重新回到用戶層對其需求進(jìn)行調(diào)整,然后在人機(jī)交互層對信息源和檢索方式等進(jìn)行重新選擇,直到最終獲得滿意的結(jié)果。
(二)構(gòu)建大數(shù)據(jù)分析體系
以往的學(xué)者在對這一問題進(jìn)行研究時,所提出的構(gòu)建大數(shù)據(jù)處理系統(tǒng)的流程,包括收集和預(yù)處理以及存儲分析、挖掘等。本文的研究在此基礎(chǔ)上,把大數(shù)據(jù)分析劃成數(shù)據(jù)收益與預(yù)處理以及數(shù)據(jù)存儲和分析、結(jié)果呈現(xiàn)等。大數(shù)據(jù)的收集可以來自于多種數(shù)據(jù)源,對于收集的大數(shù)據(jù),要進(jìn)行預(yù)處理后,才能進(jìn)入下一環(huán)節(jié),即進(jìn)行存儲和處理。在此基礎(chǔ)上,對其進(jìn)行分析更加容易發(fā)掘研究對象的內(nèi)在規(guī)律,最后再將結(jié)果呈現(xiàn)出來,即從數(shù)據(jù)中提取有用的信息。
(三)構(gòu)建用戶信息搜索行為的大數(shù)據(jù)分析框架
從橫向來看,該框架是以大數(shù)據(jù)處理流程為基礎(chǔ),將其分為數(shù)據(jù)層和分析層以及結(jié)果呈現(xiàn)層與支撐層等。對于整個框架而言,數(shù)據(jù)層是基礎(chǔ),分析層是核心,目標(biāo)是結(jié)果呈現(xiàn)層,根本保證是支承層。數(shù)據(jù)層包括收集和預(yù)處理以及存儲數(shù)據(jù)等環(huán)節(jié)。收集的數(shù)據(jù)主要來源于互聯(lián)網(wǎng)和物聯(lián)網(wǎng),預(yù)處理則包括數(shù)據(jù)的清洗和轉(zhuǎn)換以及數(shù)據(jù)加載等。數(shù)據(jù)存儲則是對大體量的數(shù)據(jù)采用分布式的方式進(jìn)行存儲。分析層主要依據(jù)人工智能領(lǐng)域的多項技術(shù),比如統(tǒng)計分析和數(shù)據(jù)挖掘等。結(jié)果呈現(xiàn)層就是將得到的結(jié)果呈現(xiàn)出來,支撐層是手機(jī)和預(yù)處理大體量數(shù)據(jù)的關(guān)鍵所在。
二、關(guān)鍵技術(shù)
(一)數(shù)據(jù)層的關(guān)鍵技術(shù)
首先是數(shù)據(jù)收集所應(yīng)用的關(guān)鍵技術(shù),主要包括數(shù)據(jù)收集、預(yù)處理以及數(shù)據(jù)存儲等。數(shù)據(jù)收集主要包括采集系統(tǒng)日志和網(wǎng)絡(luò)數(shù)據(jù)、物聯(lián)網(wǎng)技術(shù)以及智能移動終端。用戶的搜索行為所產(chǎn)生的數(shù)據(jù)均記錄在日志文件中,比如頁面訪問量和訪問時間以及搜索的關(guān)鍵詞與時間等[2]。日志文件能夠較好的記錄歷史數(shù)據(jù),也不會受到防火墻的阻隔,而且日志文件所記錄的復(fù)雜信息在格式和內(nèi)容方面都有一定的差異,需要采用專業(yè)的工具對其進(jìn)行處理。在采集網(wǎng)絡(luò)數(shù)據(jù)時,可以采用API,這是目前應(yīng)用比較廣泛的技術(shù)。物聯(lián)網(wǎng)技術(shù)主要包括RFID和紅外傳感以及全球定位等,關(guān)鍵在于傳感器技術(shù),是物聯(lián)網(wǎng)技術(shù)獲取新的的關(guān)鍵。智能移動終端的普及率越來越高,比如智能手機(jī)和平板電腦等,這些設(shè)備隨時都在發(fā)送和接收信息。用戶在智能終端上進(jìn)行信息搜索時,同樣會產(chǎn)生大量的數(shù)據(jù)。數(shù)據(jù)預(yù)處理的技術(shù)主要包括SSIS技術(shù),不斷改進(jìn)非結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù)。數(shù)據(jù)存儲可以以云數(shù)據(jù)的模式進(jìn)行,通過集群應(yīng)用等,促使各類存儲設(shè)備協(xié)同工作,以更好的進(jìn)行數(shù)據(jù)存儲與業(yè)務(wù)訪問等。
(二)分析層的關(guān)鍵技術(shù)
分析層的關(guān)鍵技術(shù)主要包括統(tǒng)計分析和機(jī)器學(xué)習(xí)以及自然語言處理與數(shù)據(jù)挖掘等。統(tǒng)計分析主要是利用統(tǒng)計學(xué)分析方法對數(shù)據(jù)進(jìn)行一系列處理,分析人員可以采用定性和定量相結(jié)合的方法研究用戶信息搜索行為,運(yùn)用到的分析工具包括SPSS和R語言以及SAS等。機(jī)器學(xué)習(xí)是要求計算機(jī)利用數(shù)據(jù)進(jìn)行工作的方法,可以根據(jù)用戶的搜索數(shù)據(jù)等,識別用戶的搜索意圖,完成對用戶的策略學(xué)習(xí)[3]。自然語言處理主要應(yīng)用的工具是OpenNLP和FundanNLP等,而數(shù)據(jù)挖掘常用的技術(shù)與統(tǒng)計分析基本一致。
(三)結(jié)果呈現(xiàn)層與支撐層的關(guān)鍵技術(shù)
結(jié)果呈現(xiàn)層所應(yīng)用的技術(shù)主要是分析人員所應(yīng)用的將數(shù)據(jù)進(jìn)行可視化的技術(shù),比如Tableau和Ember Charts等。而支撐層主要是為用戶信息搜索行為的研究提供數(shù)據(jù)處理平臺,核心在于分布式系統(tǒng)架構(gòu)?,F(xiàn)階段該架構(gòu)主要包括騰訊大數(shù)據(jù)平臺和阿里云的ODPS等。伴隨計算機(jī)技術(shù)的進(jìn)步,該類技術(shù)也在不斷的更新,出現(xiàn)了很多新的技術(shù),比如Spark、Storm等。
結(jié)語
當(dāng)前時期,大數(shù)據(jù)技術(shù)的價值不斷凸顯,采用該技術(shù)對用戶信息搜索行為進(jìn)行分析,可以更加有效的深度挖掘用戶的搜索需求,對于搜索引擎與信息組織方式的改進(jìn)提供了方向,也給傳統(tǒng)信息服務(wù)模式帶來了較大的沖擊。在大數(shù)據(jù)背景下,構(gòu)建分析用戶搜索信息行為的框架,需要注重各層關(guān)鍵技術(shù)的應(yīng)用,確保分析框架的先進(jìn)性和實(shí)用性。
參考文獻(xiàn):
[1]易成岐,鮑媛媛,薛一波.社會網(wǎng)絡(luò)大數(shù)據(jù)分析框架及其關(guān)鍵技術(shù)[J].中興通訊技術(shù),2014(1):5-10.
[2]袁紅,朱睿琪.用戶信息搜索行為大數(shù)據(jù)分析框架及其關(guān)鍵技術(shù)[J].圖書館學(xué)研究,2016(24):39-46.
[3]徐飛,徐緒堪,吳廣印.基于大數(shù)據(jù)的用戶閱讀行為分析[J].數(shù)字圖書館論壇,2014(12):56-62.