王苗苗
摘要:數(shù)據(jù)的價(jià)值不斷提升,對(duì)用戶行為數(shù)據(jù)的分析可以更精確快速地形成用戶標(biāo)簽,為企業(yè)發(fā)展提供數(shù)據(jù)信息基礎(chǔ)。論述了關(guān)于用戶畫像的研究現(xiàn)狀,探究了在數(shù)據(jù)挖掘基礎(chǔ)上利用聚類分析方法和python語言對(duì)互聯(lián)網(wǎng)企業(yè)的用戶畫像構(gòu)建,對(duì)用戶畫像的應(yīng)用領(lǐng)域進(jìn)行了介紹,并總結(jié)了用戶畫像在帶來便利的同時(shí)也帶來了一些弊端。
關(guān)鍵詞:數(shù)據(jù)挖掘;用戶畫像;標(biāo)簽
大數(shù)據(jù)時(shí)代,許多實(shí)體企業(yè)已經(jīng)爭先開始向互聯(lián)網(wǎng)企業(yè)進(jìn)行改革。在第41次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》中顯示,數(shù)字經(jīng)濟(jì)繁榮發(fā)展,電子商務(wù)持續(xù)快速增長。2017年電子商務(wù)等行業(yè)的收入水平增速均在20%以上,發(fā)展勢頭良好。中國已經(jīng)上市的互聯(lián)網(wǎng)企業(yè)超百家,電子商務(wù)的服務(wù)模式不斷創(chuàng)新、信息技術(shù)能力迅速增強(qiáng)。在競爭如此激烈的環(huán)境下,互聯(lián)網(wǎng)企業(yè)必須以滿足消費(fèi)者需求為導(dǎo)向,以智能化技術(shù)為抓手,向用戶提供個(gè)性化服務(wù),才能在群雄逐鹿的時(shí)代健康發(fā)展并且占領(lǐng)一席之地。
用戶畫像也稱為用戶角色,是用來勾畫用戶(用戶背景、特征、性格標(biāo)簽、行為場景等)和分析用戶需求并且滿足用戶的產(chǎn)品設(shè)計(jì)的有效方法之一,旨在從海量數(shù)據(jù)中盡可能分析提煉出有關(guān)用戶的信息全貌,從而幫助企業(yè)將數(shù)據(jù)轉(zhuǎn)化為商業(yè)價(jià)值。通俗的來講,用戶在互聯(lián)網(wǎng)上的基本信息、社會(huì)交往以及瀏覽、點(diǎn)擊、評(píng)論等碎片化的數(shù)據(jù)被組織存儲(chǔ)起來,形成一系列的標(biāo)簽,即用戶信息標(biāo)簽化。這是在互聯(lián)網(wǎng)發(fā)展下逐漸產(chǎn)生的一種用戶行為分析方式,其應(yīng)用也同時(shí)促進(jìn)了互聯(lián)網(wǎng)市場的不斷發(fā)展。
大數(shù)據(jù)分析技術(shù)在各企業(yè)以及政府部門中應(yīng)用越來越廣泛。文章探究了基于數(shù)據(jù)挖掘技術(shù)的互聯(lián)網(wǎng)企業(yè)用戶畫像的構(gòu)建,并綜合分析了用戶畫像技術(shù)的應(yīng)用情況。
一、相關(guān)研究綜述
1.概念
數(shù)據(jù)挖掘,也叫數(shù)據(jù)采集,是基于統(tǒng)計(jì)分析基礎(chǔ)上的一種數(shù)據(jù)分析技術(shù)。從技術(shù)角度來定義:指在大量的、不完全的、有噪音的數(shù)據(jù)中,提取人們事先不知道的、潛在有用的信息,是一種特定信息的搜索過程。從商業(yè)角度來定義:是一種商業(yè)數(shù)據(jù)信息處理技術(shù),主要對(duì)商業(yè)數(shù)據(jù)庫中的業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和其他模型化處理,從中提取輔助商業(yè)決策的關(guān)鍵性數(shù)據(jù)并指導(dǎo)商業(yè)決策。利用數(shù)據(jù)挖掘技術(shù),用戶在互聯(lián)網(wǎng)中的行為可以被生動(dòng)的描述出來。
2.用戶畫像研究現(xiàn)狀
近年來隨著大數(shù)據(jù)的發(fā)展,用戶畫像也被越來越多的學(xué)者所研究,并且被應(yīng)用到各種領(lǐng)域以滿足不同的需求。其中An J,Cho H,Kwak H等人,設(shè)計(jì)了一種基于社交媒體實(shí)時(shí)數(shù)據(jù)的自動(dòng)分析方法,實(shí)現(xiàn)了實(shí)時(shí)創(chuàng)建用戶畫像。Jiabin Li,Zhi Xue提出了一種利用大數(shù)據(jù)技術(shù)分析用戶畫像的新方法,建立了一個(gè)數(shù)據(jù)存儲(chǔ)和搜索模塊的封裝系統(tǒng)。Zhang x,Brown H F,Shankar A提出了一種定量的自下而上的數(shù)據(jù)驅(qū)動(dòng)方法來創(chuàng)建用戶畫像,以便能夠更好的反映用戶在產(chǎn)品使用過程中的實(shí)際工作流程。劉海等人提出以4C理論為基礎(chǔ)構(gòu)建“用戶畫像”數(shù)據(jù)庫,通過數(shù)據(jù)挖掘來達(dá)到對(duì)消費(fèi)群體進(jìn)行細(xì)分的目的,能夠準(zhǔn)確的定位消費(fèi)者群體的需求。
3.數(shù)據(jù)挖掘在用戶畫像中的作用
我國許多學(xué)者在此方面進(jìn)行了一些研究。黃章樹等依據(jù)數(shù)據(jù)挖掘技術(shù)提出了一種新的營銷策略,該營銷策略結(jié)合內(nèi)容提供企業(yè)的實(shí)踐經(jīng)驗(yàn)及用戶的實(shí)際數(shù)據(jù),在保留重點(diǎn)客戶、激活潛在客戶、降低客戶流失率等方面取得良好的效果。李鵬,陳曉東等提出基于客戶端用戶瀏覽行為的數(shù)據(jù)采集方式,進(jìn)行Web使用記錄挖掘,并且其實(shí)用性得到很好的驗(yàn)證。陳澤菡對(duì)客戶細(xì)分、客戶價(jià)值、交叉銷售及客戶流失方面等電信業(yè)務(wù)進(jìn)行主題分析,通過數(shù)據(jù)挖掘技術(shù)得到大量的用戶數(shù)據(jù)和業(yè)務(wù)數(shù)據(jù)中的潛在商業(yè)價(jià)值信息,實(shí)現(xiàn)精準(zhǔn)營銷使企業(yè)效益最大化。
一般來說,用戶畫像已經(jīng)成為企業(yè)增強(qiáng)競爭力的有效技術(shù)方法之一,數(shù)據(jù)挖掘技術(shù)能夠準(zhǔn)確識(shí)別和分析目標(biāo)用戶,對(duì)用戶群體的差異化可以進(jìn)行細(xì)分。然而,不同行業(yè)的目標(biāo)用戶及不同的領(lǐng)域有較大的差異,所以我們需要有針對(duì)性的構(gòu)建用戶畫像。
二、用戶畫像構(gòu)建
構(gòu)建用戶畫像的關(guān)鍵是利用本體對(duì)用戶畫像領(lǐng)域中的標(biāo)簽進(jìn)行表示、驗(yàn)證、推理和解釋。本體一般包括類、屬性、實(shí)例、公理和推理規(guī)則。這里將用戶畫像的構(gòu)建分為數(shù)據(jù)采集、用戶行為建模、構(gòu)建用戶畫像三個(gè)部分。
1.數(shù)據(jù)采集
一般情況可以將用戶數(shù)據(jù)分為用戶屬性數(shù)據(jù)和用戶行為數(shù)據(jù)。用戶屬性分析,主要涉及靜態(tài)數(shù)據(jù),如姓名、性別、年齡、籍貫、薪資、職業(yè)、教育程度、消費(fèi)水平等,這些基本屬性信息往往由用戶注冊使用某網(wǎng)站或者APP后就可以通過統(tǒng)計(jì)直接獲取,一般用于刻畫靜態(tài)用戶畫像以便對(duì)用戶群體進(jìn)行差異化的細(xì)分。用戶行為分析,主要涉及用戶動(dòng)態(tài)特征及動(dòng)態(tài)變化趨勢,如點(diǎn)擊率、訪問時(shí)間、訪問深度、收藏率、購買率、評(píng)價(jià)等用戶行為時(shí)所產(chǎn)生的數(shù)據(jù),這些數(shù)據(jù)則可以根據(jù)挖掘相應(yīng)網(wǎng)站的用戶行為日志或相關(guān)數(shù)據(jù)來獲得。為了全面的分析用戶畫像獲得更準(zhǔn)確的用戶信息,這兩個(gè)方面都必須具體考慮。
2.基于數(shù)據(jù)挖掘技術(shù)的用戶行為建模
以滿足用戶的需求為目標(biāo),要以用戶原始數(shù)據(jù)為基礎(chǔ),需要對(duì)用戶行為進(jìn)行建模,從而為分析用戶偏好等重要商業(yè)信息提供大量的數(shù)據(jù)基礎(chǔ)。用戶畫像建模往往就是用戶信息標(biāo)簽化,將用戶的行為偏好數(shù)據(jù)及潛在的興趣意愿等進(jìn)行存儲(chǔ)和分析,形成精準(zhǔn)的語義信息。
數(shù)據(jù)挖掘的方法有很多,文章簡單介紹一下聚類分析方法。聚類分析是指在沒有任何先驗(yàn)知識(shí)的前提下,依據(jù)一定的研究和處理將數(shù)據(jù)聚合成不同的類,并且描述了類問的差異性及同一類中的相似性,是認(rèn)識(shí)和探索事物內(nèi)在聯(lián)系的一種有效手段。從數(shù)據(jù)集生成不同類別概念的過程,實(shí)質(zhì)上就是一種概念的聚類分析過程?;ヂ?lián)網(wǎng)企業(yè)將每天產(chǎn)生的大量用戶數(shù)據(jù)進(jìn)行聚類分析,通過對(duì)這些信息進(jìn)行分析處理,可挖掘到用戶的某些行為特征及相似用戶群體,以便進(jìn)行科學(xué)的商業(yè)決策。
數(shù)據(jù)挖掘是通過統(tǒng)計(jì)數(shù)據(jù)、在線分析處理等諸多方法來實(shí)現(xiàn)一系列統(tǒng)計(jì)分析目標(biāo)。Pvthon是一種程序設(shè)計(jì)語言,語法簡潔而清晰、可讀性比較強(qiáng)、便于維護(hù),并且具有豐富和強(qiáng)大的類庫,是實(shí)現(xiàn)數(shù)據(jù)挖掘方法的一種工具。數(shù)據(jù)挖掘的算法,可以由python具體實(shí)現(xiàn),簡單方便。
3.構(gòu)建用戶畫像
通過統(tǒng)計(jì)分析建模、數(shù)據(jù)挖掘技術(shù)形成一整套用戶標(biāo)簽體系,能夠預(yù)測用戶未來數(shù)據(jù),極大地支持了精準(zhǔn)營銷的實(shí)現(xiàn),從對(duì)潛在用戶的挖掘到吸引新用戶,再到老用戶的培養(yǎng)與流失用戶的回流,體現(xiàn)了其巨大的商業(yè)價(jià)值。
三、用戶畫像的應(yīng)用
1.精準(zhǔn)營銷
用戶畫像可以幫助互聯(lián)網(wǎng)企業(yè)較為精準(zhǔn)的發(fā)現(xiàn)客戶類型,包括忠實(shí)客戶、普通客戶、潛在客戶等,針對(duì)不同的客戶類型可以提供不同的服務(wù)。首先,能夠準(zhǔn)確識(shí)別和分析目標(biāo)用戶。比如某女性在某電商平臺(tái)上搜索了化妝品和衣服的商品信息,留下了個(gè)人足跡,平臺(tái)就會(huì)針對(duì)用戶所留下的瀏覽痕跡進(jìn)行精準(zhǔn)的商品推薦,使用戶在更短的時(shí)間內(nèi)就可以準(zhǔn)確的定位到他們可能喜歡的商品,從而達(dá)到增加電商銷售額的目的。其次,能夠在精準(zhǔn)服務(wù)中避免用戶流失。隨著互聯(lián)網(wǎng)的發(fā)展,各大電商企業(yè)競爭日趨激烈,應(yīng)該利用用戶畫像提取用戶的隱含信息,充分反映客戶的潛在需求、及時(shí)跟進(jìn)服務(wù),在針對(duì)性服務(wù)中吸引新用戶、挽留老用戶。
2.征信
由于用戶畫像提供了豐富的用戶標(biāo)簽,其中包括個(gè)人基本信息、購買記錄、消費(fèi)水平、薪資水平、受教育水平、工作單位等,這些記錄可以為個(gè)人信用評(píng)價(jià)提供詳細(xì)的數(shù)據(jù)參考,對(duì)用戶的信用度進(jìn)行較為全面的評(píng)估分析。例如支付寶中的芝麻信用、螞蟻花唄和螞蟻借唄。支付寶是我國互聯(lián)網(wǎng)支付的領(lǐng)跑者,其附帶的芝麻信用能夠客觀呈現(xiàn)個(gè)人的信用狀況。用戶的芝麻信用分?jǐn)?shù)越高代表其信用度越高,并且已經(jīng)在信用卡、消費(fèi)金融、融資租貸、酒店、租房、出行、公共事業(yè)服務(wù)等上百個(gè)場景為用戶和商戶提供服務(wù)。比如,當(dāng)某人芝麻信用的分?jǐn)?shù)達(dá)到一定等級(jí)后可以享受共享單車免押金服務(wù)。另外,平臺(tái)在分析了用戶的芝麻信用度、購買行為、評(píng)價(jià)行為以及賬號(hào)等級(jí)等因素之后,可以豐富該用戶標(biāo)簽,這些標(biāo)簽決定了用戶螞蟻花唄和螞蟻借唄的具體額度。
3.搜索引擎
隨著互聯(lián)網(wǎng)用戶數(shù)量的不斷增加,對(duì)于信息的需求也在呈持續(xù)上漲的趨勢。如何更有效的利用信息技術(shù)為用戶提供更好的服務(wù)是現(xiàn)在互聯(lián)網(wǎng)企業(yè)的一個(gè)重要研究問題。搜索引擎是一種重要的服務(wù)模式,其技術(shù)的不斷完善很大程度上降低了用戶的搜索成本。以百度收索引擎為例,當(dāng)用戶開始注冊使用,就可以通過采集該用戶的搜索記錄、點(diǎn)擊率、日常訪問日志等行為數(shù)據(jù)構(gòu)建相應(yīng)的用戶畫像,分析用戶接下來想要了解的相關(guān)信息,進(jìn)而將用戶可能感興趣的內(nèi)容按照結(jié)果的相關(guān)性排列在搜索結(jié)果的前列,優(yōu)化用戶體驗(yàn)。其基本思路是將行為相似用戶聚類,為不同類別的用戶給出不同排序的結(jié)果,同時(shí)還考慮了用戶的位置等信息。
4.個(gè)性化業(yè)務(wù)定制領(lǐng)域
大數(shù)據(jù)時(shí)代信息數(shù)量激增,同時(shí)信息冗余量也在不斷上升,用戶很難從海量的數(shù)據(jù)信息中快速的檢索到個(gè)人感興趣的信息內(nèi)容。對(duì)于互聯(lián)網(wǎng)中的內(nèi)容服務(wù)商來說,需要針對(duì)用戶的需求及時(shí)提供相應(yīng)的服務(wù),提高用戶體驗(yàn),增加用戶的滿意度。因此,開發(fā)了個(gè)性化業(yè)務(wù)定制功能,用戶畫像通常被應(yīng)用到此領(lǐng)域。例如《今日頭條》,這是一款基于數(shù)據(jù)挖掘的推薦引擎,為用戶推薦信息,提供連接人與信息的服務(wù)的產(chǎn)品。其宣傳標(biāo)語為:你關(guān)心的,才是頭條!根據(jù)用戶的行為習(xí)慣、閱讀記錄及興趣偏好為其定制個(gè)性化服務(wù),為不同的用戶推送不同方向的信息內(nèi)容,極大程度滿足了用戶的需求,從而提升用戶忠誠度與黏性。
四、結(jié)語
用戶在互聯(lián)網(wǎng)上的行為軌跡和數(shù)據(jù)被充分的記錄下來,企業(yè)利用這些近乎完整的標(biāo)簽?zāi)軌蚋_的勾畫出用戶畫像,從而制定發(fā)展戰(zhàn)略。值得注意的是,在享受用戶畫像帶來的利益的同時(shí),也帶來了前所未有的挑戰(zhàn)?;ヂ?lián)網(wǎng)企業(yè)掌握著用戶的幾乎全部信息,“信息安全”、“數(shù)據(jù)隱私”、“大數(shù)據(jù)殺熟”諸如此類的詞匯開始逐漸出現(xiàn)。首先,在信息安全方面,共享充電寶的出現(xiàn)緩解了不少手機(jī)用戶的燃眉之急,但是其中也存在諸多隱患。2017年3·15晚會(huì)曝光了用戶在使用充電樁時(shí)惡意軟件直接被下載安裝的現(xiàn)象,用戶的信息安全得不到保障,黑客由此便可竊取用戶手機(jī)內(nèi)的個(gè)人信息包括,甚至能夠遠(yuǎn)程控制支付軟件,不輸密碼就可以購物。此外,數(shù)據(jù)隱私也是一個(gè)讓人擔(dān)憂的重大問題,用戶數(shù)據(jù)的泄漏會(huì)導(dǎo)致公眾信任的缺失。互聯(lián)網(wǎng)企業(yè)應(yīng)加強(qiáng)信息技術(shù)的利用,在技術(shù)上保證用戶隱私數(shù)據(jù)的安全,防范可能出現(xiàn)的風(fēng)險(xiǎn),如數(shù)據(jù)丟失,數(shù)據(jù)非法獲取等。其次,互聯(lián)網(wǎng)企業(yè)可以通過用戶的日常消費(fèi)行為,能夠判斷出用戶經(jīng)常使用什么品牌的手機(jī)以及處于什么樣的消費(fèi)水平,然后看人下單,但用戶是被蒙在鼓里的。然而個(gè)性化服務(wù)不是看人叫價(jià),企業(yè)要避免技術(shù)的貪欲,應(yīng)該構(gòu)建與大數(shù)據(jù)發(fā)展相適應(yīng)的消費(fèi)權(quán)利觀念。