曹陽(yáng) 陳永當(dāng)
【摘 要】隨著互聯(lián)網(wǎng)的飛速發(fā)展,網(wǎng)絡(luò)信息以指數(shù)形式爆炸式增長(zhǎng),大數(shù)據(jù)時(shí)代隨之到來(lái),廣告形式也發(fā)生了變化,互聯(lián)網(wǎng)廣告的比重越來(lái)越大。本文采用聚類(lèi)分析的方法研究了互聯(lián)網(wǎng)廣告定向精準(zhǔn)投放問(wèn)題,從而可以降低廣告成本,也可達(dá)到有效的宣傳效果。
【關(guān)鍵詞】聚類(lèi)分析;互聯(lián)網(wǎng)廣告;精準(zhǔn)廣告
Internet Advertising Based on Clustering Analysis
CAO Yang CHEN Yong-dang
(School of Mechanical&Electrical Engineering, Xian Polytechnic University, Xian Shaanxi 710048, China)
【Abstract】With the rapid development of the Internet,the network information in the form of index explosive growth. The era of big data to follow. Advertising forms have changed, too. The proportion of Internet advertising is bigger and bigger. This article adopts the method of cluster analysis studies the Internet advertising directed their problems, in order to decrease the cost of advertising, also can achieve effective publicity.
【Key words】Clustering analysis; Internet advertising; Precision advertising
1 研究背景與意義
近幾年來(lái),互聯(lián)網(wǎng)爆炸式發(fā)展。據(jù)艾瑞咨詢(xún)研究調(diào)查,預(yù)計(jì)到2016年,中國(guó)網(wǎng)絡(luò)經(jīng)濟(jì)的市場(chǎng)規(guī)模將達(dá)到13500億元?;ヂ?lián)網(wǎng)的快速發(fā)展,產(chǎn)生了海量數(shù)據(jù),大數(shù)據(jù)時(shí)代隨之到來(lái)。2014年,中國(guó)大數(shù)據(jù)市場(chǎng)規(guī)模已達(dá)23億以上,并且以很高的速率增長(zhǎng),大數(shù)據(jù)中蘊(yùn)含無(wú)限大的商機(jī)。
廣告是一種公開(kāi)傳遞信息、具有一定目的的宣傳手段。廣告的媒體形式從報(bào)紙、雜志到廣播、電視再到互聯(lián)網(wǎng)。目前,互聯(lián)網(wǎng)廣告已經(jīng)成為一種新的廣告投放模式,并且具有以下幾個(gè)顯著的優(yōu)勢(shì):范圍廣、消耗少、易計(jì)量及靈活性強(qiáng)。因此互聯(lián)網(wǎng)廣告發(fā)展異常迅猛,已經(jīng)成為僅次于電視廣告的第二大媒體廣告。
但是,隨著大數(shù)據(jù)時(shí)代的到來(lái),傳統(tǒng)互聯(lián)網(wǎng)廣告投放的粗獷性和無(wú)指定性弊端越來(lái)越明顯,使得市場(chǎng)迫切需求一種精準(zhǔn)的互聯(lián)網(wǎng)廣告,于是在此背景下誕生了一種新的廣告模式一大數(shù)據(jù)環(huán)境下的互聯(lián)網(wǎng)精準(zhǔn)廣告。精準(zhǔn)廣告將廣告內(nèi)容與潛在受眾進(jìn)行匹配,有針對(duì)性的進(jìn)行廣告投放,這樣可以提高廣告的投放精準(zhǔn)性。
2 聚類(lèi)分析
數(shù)據(jù)挖掘技術(shù)是對(duì)未來(lái)人類(lèi)產(chǎn)生重大影響的十大新興技術(shù)之一,聚類(lèi)分析是數(shù)據(jù)挖掘中的一個(gè)功能。聚類(lèi)就是將數(shù)據(jù)對(duì)象根據(jù)相似性劃分為若干個(gè)組或簇,同組相似性高,異組差異性大。與分類(lèi)不同的是,聚類(lèi)操作要?jiǎng)澐值念?lèi)事先是未知的,類(lèi)的形式完全是數(shù)據(jù)導(dǎo)向的,屬于一種無(wú)指導(dǎo)學(xué)習(xí)。聚類(lèi)分析也看作是一種數(shù)學(xué)工具,像數(shù)據(jù)如何分布、數(shù)據(jù)的組成特征都可以通過(guò)它來(lái)獲取。傳統(tǒng)的統(tǒng)計(jì)聚類(lèi)分析方法包括系統(tǒng)聚類(lèi)法、分解法、加入法、動(dòng)態(tài)聚類(lèi)法、有序樣品聚類(lèi)、重疊聚類(lèi)和模糊聚類(lèi)等。
聚類(lèi)分析在數(shù)據(jù)挖掘中主要有以下幾個(gè)應(yīng)用:①可以作為其他算法的預(yù)處理步驟;②可以作為一個(gè)獨(dú)立的工具來(lái)獲得數(shù)據(jù)的分布情況;③可以完成孤立點(diǎn)挖掘。
聚類(lèi)分析的基本過(guò)程:選擇聚類(lèi)變量→聚類(lèi)分析→找出各類(lèi)用戶(hù)的重要特征→聚類(lèi)解釋、命名。
現(xiàn)在普遍的分類(lèi)方法是用數(shù)據(jù)樣本間的距離對(duì)數(shù)據(jù)樣本分組。聚類(lèi)分析中使用的數(shù)據(jù)集表示為X={xi|i=1,2,…,n},其中xi用d維特征向量xi=(xi1,xi2,…,xid)來(lái)表示,xik(k=1,2,…,d)分別對(duì)應(yīng)d個(gè)描述屬性A1,A2,… ,Ad的具體值。描述屬性可以是連續(xù)型、離散型或者混合型的屬性。計(jì)算不同描述屬性的相似度的方法不同。像年齡、收入和距離這樣的屬性就是連續(xù)性的屬性,它們的取值是連續(xù)的。
普遍使用樣本間的距離描述樣本之間相似呈度。兩個(gè)樣本xi和xj之間的距離表示為d(xi,xj)。常用的距離有如下三種計(jì)算方式:
(1)歐氏距離
(2)曼哈頓距離
(3)明可夫斯基距離
以上三種距離滿(mǎn)足如下性質(zhì):
(1),即數(shù)據(jù)樣本之間的距離是非負(fù)值—最小性。
(2),即數(shù)據(jù)樣本與自身的距離為0,樣本與自身的相似性最大—自相似性。
(3),即數(shù)據(jù)樣本之間的距離是對(duì)稱(chēng)的—對(duì)稱(chēng)性。
(4),即數(shù)據(jù)樣本之間的距離滿(mǎn)足三角不等式的性質(zhì)—三角不等性。
樣本的距離可以度量樣本之間的相異性。當(dāng)距離的取值很小時(shí),x和y相似;當(dāng)距離的取值很大時(shí),x和y相異。給距離設(shè)定一個(gè)閾值,小于閾值時(shí)可以看成一類(lèi),從而達(dá)成相似性聚類(lèi)的目的。
3 廣告受眾的指向性
一種產(chǎn)品或服務(wù)只能滿(mǎn)足部分人的需求,因此產(chǎn)品或服務(wù)的廣告就有一定的目標(biāo)受眾,不是所有人群都適合。我們可知廣告受眾據(jù)有這些特征:針對(duì)性、復(fù)雜性、多變性、集群性、自主性和互動(dòng)性。如何從海量的人群中找出廣告的目標(biāo)群體是廣告投放者所關(guān)心的一個(gè)重要問(wèn)題,這樣可以提高廣告的投放精準(zhǔn)性。
互聯(lián)網(wǎng)廣告受眾有多種差別,基本可以從以下幾個(gè)維度進(jìn)行分析:基本屬性、購(gòu)買(mǎi)能力、行為特征、社交網(wǎng)絡(luò)、心理特征、興趣愛(ài)好等。廣告人必須在一定范圍內(nèi)選擇受眾的共同興趣作為廣告的訴求點(diǎn)。
聚類(lèi)算法能夠?qū)⑹鼙姲凑漳撤N規(guī)則進(jìn)行分類(lèi),將特征相同或相近的受眾聚成一類(lèi),將特征不同或相似度低的受眾分成不同的類(lèi)群,通過(guò)分析不同類(lèi)群廣告受眾的特征,進(jìn)而確定廣告產(chǎn)品的目標(biāo)受眾,實(shí)現(xiàn)廣告的精確性投放,實(shí)現(xiàn)廣告投放有的放矢,減少?gòu)V告的投入費(fèi)用。
4 基于聚類(lèi)分析的互聯(lián)網(wǎng)廣告投放模型構(gòu)建
互聯(lián)網(wǎng)廣告精準(zhǔn)投放其核心內(nèi)容就是根據(jù)用戶(hù)的固有屬性和訪問(wèn)網(wǎng)站的動(dòng)態(tài)屬性進(jìn)行分類(lèi),也就是把用戶(hù)定位在對(duì)用戶(hù)興趣度最高的那類(lèi)廣告上。具體來(lái)說(shuō)就是首先根據(jù)用戶(hù)上網(wǎng)的綜合行為來(lái)分析他的特征,包括用戶(hù)注冊(cè)時(shí)的一些基本信息、他搜索過(guò)什么廣告、瀏覽過(guò)什么樣的網(wǎng)頁(yè)以及在頁(yè)面的停留時(shí)間等。通過(guò)對(duì)這些信息的提取和分析,可以準(zhǔn)確識(shí)別用戶(hù)特征,獲得用戶(hù)消費(fèi)需求,從而鎖定目標(biāo)用戶(hù),進(jìn)行精準(zhǔn)廣告投放。聚類(lèi)分析可以對(duì)用戶(hù)進(jìn)行相似性分類(lèi),也可以對(duì)網(wǎng)頁(yè)按相似性進(jìn)行分類(lèi),以下是基于聚類(lèi)分析的互聯(lián)網(wǎng)廣告投放模型。
5 小結(jié)
廣告網(wǎng)絡(luò)是通過(guò)集中采集各類(lèi)網(wǎng)絡(luò)媒體的媒介資源,通過(guò)技術(shù)手段實(shí)現(xiàn)分布投放的虛擬運(yùn)營(yíng)平臺(tái),幫助廣告主實(shí)現(xiàn)多種媒體資源組合投放的廣告服務(wù)網(wǎng)絡(luò)。廣告網(wǎng)絡(luò)負(fù)責(zé)對(duì)大量頁(yè)面進(jìn)行分析、聚集,完成廣告投放轉(zhuǎn)換的過(guò)程。其優(yōu)勢(shì)體現(xiàn)在對(duì)網(wǎng)站媒介資源的整合能力、受眾數(shù)據(jù)獲取和挖掘的能力以及精準(zhǔn)匹配廣告主營(yíng)銷(xiāo)需求的能力。投放流程要包含以下幾個(gè)方面:廣告位所屬網(wǎng)頁(yè)的內(nèi)容分析、用戶(hù)受眾定向、廣告匹配、廣告選擇與投放、展示跟蹤與報(bào)告等。本文主要介紹了一種基于聚類(lèi)分析的互聯(lián)網(wǎng)廣告精準(zhǔn)投放模型,算法利用用戶(hù)網(wǎng)頁(yè)瀏覽等行為信息進(jìn)行聚類(lèi)分析,并在通過(guò)這種方法將真實(shí)用戶(hù)的行為模型轉(zhuǎn)化為興趣模型從而進(jìn)行了更高精度的廣告投放。
【參考文獻(xiàn)】
[1]李娜,李?lèi)?ài)軍. 基于用戶(hù)特征分類(lèi)的精準(zhǔn)廣告投放研究[J].電腦知識(shí)與技術(shù),2010,01:196-198.
[2]李朝娟.基于聚類(lèi)技術(shù)的客戶(hù)細(xì)分模型研究與實(shí)現(xiàn)[D].哈爾濱工業(yè)大學(xué),2006.
[3]俞淑平,陳剛.一種高效的行為定向廣告投放算法[J].計(jì)算機(jī)應(yīng)用與軟件,2011,01:4-7.
[4]丁青,周留根,朱愛(ài)兵,張義東.基于K-means聚類(lèi)算法的校園網(wǎng)用戶(hù)行為分析研究[J].微計(jì)算機(jī)應(yīng)用,2010,06:74-80.
[5]陳艷燕,許曉昕.模糊聚類(lèi)算法EFCM及其在上下文廣告關(guān)鍵詞提取中的應(yīng)用[J].計(jì)算機(jī)與現(xiàn)代化,2009,03:81-83.
[6]黃詩(shī)瑤.聚類(lèi)分析在移動(dòng)通信用戶(hù)行為分析中的研究與應(yīng)用[D].廣東工業(yè)大學(xué),2013.
[7]郭心語(yǔ),劉鵬,周敏奇,周傲英.網(wǎng)絡(luò)廣告定向技術(shù)綜述[J].華東師范大學(xué)學(xué)報(bào):自然科學(xué)版,2013,03:93-105.