劉秀芹
[摘要]用戶訪問過的文檔和使用過的關(guān)鍵字包含用戶感興趣的信息,對這些文檔進(jìn)行提取、匯總可以分析預(yù)測用戶真正的需求。提出一套適合中小型B2C網(wǎng)站的簡單模型,設(shè)計數(shù)據(jù)存儲結(jié)構(gòu)和挖掘方法。
[關(guān)鍵詞]Web挖掘關(guān)鍵字市場需求
中圖分類號:TP3文獻(xiàn)標(biāo)識碼:A文章編號:1671-7597(2009)0510054-01
電子商務(wù)網(wǎng)站作為一種新興的商務(wù)交易模式,以其成本低廉、快捷、不受時空限制等優(yōu)點而受到企業(yè)的青睞。但從國內(nèi)目前的發(fā)展情況看,由于資金等多方面的原因,許多中小型B2c站點還停留在簡單的形象展示和單一的商品銷售上,并沒有過多地考慮網(wǎng)站點擊流、用戶需求變化、商業(yè)智能等方面的內(nèi)容。如何有效地分析用戶需求,從而調(diào)整網(wǎng)站布局和結(jié)構(gòu),以幫助用戶從站點的大量信息中快速發(fā)現(xiàn)他們感興趣的內(nèi)容?以及如何幫助企業(yè)從網(wǎng)站的訪客行為中去發(fā)現(xiàn)了解客戶需求的變化,從而有的放矢地提供客戶所需要的服務(wù)和商品,這是目前中小型B2C網(wǎng)站需要面臨的一個重要課題,也是本文的主要研究目標(biāo)。
一、數(shù)據(jù)來源
用戶訪問過的文檔和使用過的關(guān)鍵字包含用戶感興趣的信息,對這些文檔進(jìn)行提取、匯總可以分析預(yù)測用戶真正的需求。獲取用戶需求相關(guān)數(shù)據(jù)的方法有很多種,其中隱式反饋的方法比較適合電子商務(wù)網(wǎng)站,因為它能夠自適應(yīng)用戶興趣的變化,而且不要求用戶輸入任何信息,而是通過分析用戶訪問過的文檔和用戶的訪問痕跡,抽取出用戶感興趣的領(lǐng)域、以及需求的轉(zhuǎn)移。其中隱式反饋的來源有兩部分:一是用戶的訪問路徑,二是用戶使用過程中留下的關(guān)鍵字。已經(jīng)有很多文獻(xiàn)就用戶訪問路徑進(jìn)行了多方面的數(shù)據(jù)挖掘研究,所以,本文只研究用戶使用過程中留下的關(guān)鍵字,從這里面找出隱含的市場需求的狀況,進(jìn)行數(shù)據(jù)挖掘的需求分析研究。用戶使用過程中留下的關(guān)鍵字是用戶消費現(xiàn)場第一手資料,沒有經(jīng)過人為的二次加工。用它來進(jìn)行分析比較貼近實際情況,誤差會較??;而且相對而言,技術(shù)簡單,比較適合中小型B2C網(wǎng)站。
二、存儲結(jié)構(gòu)設(shè)計
其中重點工作是設(shè)計數(shù)據(jù)的存儲結(jié)構(gòu),包括以下核心結(jié)構(gòu)表:
(一)分類器。為了更好地定位用戶的需求類別,縮小范圍,提高精度,特定義分類器。可以利用原有的分類信息,構(gòu)造分類器。分類器就是指產(chǎn)品的分類信息。而分類信息中有一級分類和二級分類,以及三級分類。在數(shù)據(jù)庫部分,分類器相應(yīng)的存儲在一個數(shù)據(jù)表中。每次的搜索信息都要判斷所屬的類別,所以在該表中設(shè)計了特征詞表字段。分類器是動態(tài)的,是隨著市場和產(chǎn)品不斷變化的,類別和特征詞表也是變化的。
(二)關(guān)鍵信息表。用戶使用的關(guān)鍵字是最關(guān)鍵的信息,也是我們必須要存儲的。所有的關(guān)鍵字都羅列在一起,就會增加數(shù)據(jù)分析的難度,甚至失去了它的價值,所以用戶在搜索的時候所提供的類別也是必須要存儲的信息。另外為了進(jìn)一步進(jìn)行深入的數(shù)據(jù)挖掘,要對用戶的身份或類型進(jìn)行存儲或標(biāo)識。用戶在不同時期需求會有相應(yīng)的變化,所以還需存儲時間標(biāo)記。
(三)事實表。在搜索時用戶沒有提供明確的類別信息,我們需要確定用戶需求的類別。這一部分我們可以借助于網(wǎng)站推薦系統(tǒng)的相關(guān)理論和方法。在網(wǎng)站推薦系統(tǒng)中有一個事實表。事實表記錄著用戶每次訪問網(wǎng)站的行為記錄,即哪位用戶在什么時候訪問了哪個頁面,在該頁面上停留了多長時間。
(四)用戶信息表。為了基于不同客戶群體進(jìn)行挖掘,可引入原有的用戶信息表。
三、挖掘方法設(shè)計
(一)類別判斷。這里的類別判斷指的是關(guān)鍵字所屬類別的判斷。已知用戶的需求類別,不用進(jìn)行特殊處理;用戶需求類別未知,有兩種情況存在:1,沒有用戶所需要的信息,說明沒有該關(guān)鍵字下的相關(guān)信息,這時我們將相近的關(guān)鍵字推薦給用戶,由用戶判斷,是不是使用其他的關(guān)鍵字替代;2,跟蹤用戶在相關(guān)搜索結(jié)果上的下一步操作,根據(jù)用戶在搜索結(jié)果中的瀏覽項目上的停留時間,結(jié)合一定的算法,進(jìn)而判斷結(jié)果中的哪一項是用戶的需求類別。
(二)類內(nèi)統(tǒng)計。一條信息反映某個用戶的一個需求,大量信息反映市場的整體需求。而我們所做的工作也就是將這些雜亂無章的數(shù)據(jù)進(jìn)行整理、過濾和統(tǒng)計,以及進(jìn)一步的分析,使其變成一定的有用信息。這些信息才是分析者和決策者所需要的,才能夠成為支持他們對市場或形式充分了解的依據(jù)。這里我們主要使用統(tǒng)計分析的方法,來多角度的分析和反映問題,為分析和決策提供數(shù)據(jù)支持。
(三)子類內(nèi)分析。在分類器中,有子類和父類之分,在分類器表中用所在層字段和父類ID來標(biāo)識。除了類內(nèi)統(tǒng)計以外,我們還可以更進(jìn)一步在子類上做分析,更進(jìn)一步了解用戶的需求,更精確的定位分析用戶的需求狀況,以及細(xì)分市場的需求狀況。
(四)孤立點分析。如果用戶選擇模糊分類:“其他”,或者“全部”,往往這樣的搜索信息反映的是用戶的新的需求。也要對這種信息進(jìn)行統(tǒng)計處理,把一些異常情況及時報告給系統(tǒng)管理員,或者市場分析人員,好讓他們結(jié)合實際情況和分析,借助于這些系統(tǒng)提示信息,作出進(jìn)一步的處理。
(五)具體挖掘流程。重點采用統(tǒng)計分析方法進(jìn)行挖掘。處理流程如下:首先,數(shù)據(jù)的獲取?;陉P(guān)鍵字的數(shù)據(jù)挖掘的信息源的獲取渠道可以從服務(wù)器端、客戶端等幾方面進(jìn)行。其次,數(shù)據(jù)預(yù)處理。得到原始數(shù)據(jù)后,經(jīng)過類別判斷處理之后得到整齊的數(shù)據(jù)。再次,選擇挖掘方式,可以是類內(nèi)統(tǒng)計、子類內(nèi)統(tǒng)計或孤立點分析。最后,根據(jù)挖掘結(jié)果進(jìn)行分析。
(六)對不同的客戶群體做進(jìn)一步的挖掘分析。這其中牽涉到客戶關(guān)系管理的相關(guān)內(nèi)容??蛻絷P(guān)系管理中的重要問題是,如何基于對客戶的了解來為客戶提供真正需要的產(chǎn)品以及優(yōu)質(zhì)的服務(wù)。通過對網(wǎng)站客戶群的分類,找出各個客戶群體中客戶的共同特征,以便開展有針對性的營銷活動。可以采用簡單的分類分析,具體做法是將用戶信息表和關(guān)鍵信息表聯(lián)合起來,將用戶按不同的標(biāo)準(zhǔn)進(jìn)行分組,在組內(nèi)進(jìn)行關(guān)鍵信息的統(tǒng)計分析,再進(jìn)一步分析不同組之間差異性,以及組內(nèi)的整體需求情況。挖掘的目標(biāo)是了解不同客戶群體的瀏覽行為,知道不同客戶群體的興趣以及需要所在,動態(tài)調(diào)整Web頁面,以更好地滿足客戶需求。
四、總結(jié)
本文針對當(dāng)前所普遍存在的問題現(xiàn)狀,提出了一個適合很多中小型商務(wù)網(wǎng)站的簡單模型,該模型能存儲和搜索用戶的相關(guān)訪問信息,并進(jìn)一步為企業(yè)下一步的營銷提供很好的分析和指導(dǎo)。該模型具有簡單、可操作性強、技術(shù)要求低的特點,能為廣大的中小型B2C網(wǎng)站提供參考和支持。