喬 慧,郭肖旺,張昕偉(內(nèi)蒙古化工職業(yè)學(xué)院,內(nèi)蒙古 呼和浩特 010070)
隨著移動(dòng)互聯(lián)網(wǎng)的飛速發(fā)展,移動(dòng)廣告市場(chǎng)取得了巨大飛躍,在美國(guó)排名前50位的廣告主中,有80%的廣告主計(jì)劃在未來(lái)12~18個(gè)月的時(shí)間內(nèi)增加其在移動(dòng)廣告領(lǐng)域的支出預(yù)算。因此如何建立起一個(gè)擁有更高用戶參與度和更多流量的移動(dòng)在線平臺(tái)成為當(dāng)前面臨亟待解決的問題。
目前,智能手機(jī)、平板電腦等移動(dòng)設(shè)備應(yīng)用廣泛,移動(dòng)智能終端設(shè)備的使用量迅速上升。但是,很多移動(dòng)廣告的推送和表現(xiàn)形式生硬呆板,嚴(yán)重影響了用戶的體驗(yàn),阻礙了廣告投放的效益。隨著技術(shù)的發(fā)展,出現(xiàn)了更加豐富多樣的展現(xiàn)形式,伴隨著終端應(yīng)用的社交化、多媒體化,廣告主更加重視移動(dòng)應(yīng)用平臺(tái)的廣告投放。移動(dòng)終端的反饋速度、互動(dòng)社交、隨時(shí)隨地和精準(zhǔn)的特點(diǎn)都是其他媒體無(wú)法比擬的,移動(dòng)應(yīng)用平臺(tái)廣告提供了個(gè)性化、多樣化的營(yíng)銷廣告模式。
本文著重研究基于位置和內(nèi)容定向的廣告投放技術(shù),提出了一種新的基于內(nèi)容定向和位置信息的廣告投放模型[1],主要包括:(1)針對(duì)用戶移動(dòng)終端所在地理位置,判別與此地理位置相關(guān)的廣告;(2)對(duì)于同一個(gè)廣告,提供與此相關(guān)的多個(gè)地理位置,由此可為每個(gè)應(yīng)用頁(yè)面和廣告都分配一個(gè)地理范圍,提高地理信息匹配的準(zhǔn)確性;(3)根據(jù)移動(dòng)用戶應(yīng)用軟件使用習(xí)慣和內(nèi)容,研究基于內(nèi)容定向的精準(zhǔn)投放算法,可以有效提高匹配準(zhǔn)確性。本文對(duì)上述方法進(jìn)行研究,并設(shè)計(jì)出高效精準(zhǔn)的移動(dòng)應(yīng)用平臺(tái)廣告投放系統(tǒng),能有效提高廣告投放功能。
廣告投放的目的是根據(jù)廣告主的需求對(duì)用戶進(jìn)行廣告推送,定向廣告是廣告投放應(yīng)用的一項(xiàng)關(guān)鍵技術(shù)。定向廣告投放包括內(nèi)容定向和行為定向,其目的就是將特定的廣告投放給特定的人群。移動(dòng)應(yīng)用廣告投放是指根據(jù)用戶使用移動(dòng)應(yīng)用的習(xí)慣,確定廣告的受眾對(duì)象,對(duì)用戶進(jìn)行群體劃分,并根據(jù)用戶群體特點(diǎn)進(jìn)行高效精準(zhǔn)的廣告投放。
本文結(jié)合內(nèi)容定向和地理位置構(gòu)建高效精準(zhǔn)的移動(dòng)應(yīng)用平臺(tái)廣告投放系統(tǒng)。
貝葉斯理論的含義是通過(guò)已知事件信息預(yù)測(cè)未知事件的發(fā)生概率[2]。將貝葉斯理論運(yùn)用到廣告投放的過(guò)濾算法中,假設(shè)某些字詞經(jīng)常出現(xiàn)在用戶使用的應(yīng)用軟件中,這些文字作為已知文字,當(dāng)廣告中含有這些字詞時(shí),用戶對(duì)此廣告感興趣的概率就較高。
(1)已知文字信息的貝葉斯數(shù)據(jù)創(chuàng)建
首先收集用戶經(jīng)常在移動(dòng)應(yīng)用平臺(tái)瀏覽和使用的數(shù)據(jù)(非隱私數(shù)據(jù)),通過(guò)貝葉斯算法提取這些數(shù)據(jù)中的關(guān)鍵字樣本,樣本字符串包括文字或符號(hào)標(biāo)志(如IP地址,域名等)。收集關(guān)鍵字和符號(hào),建立已知文字信息樣本數(shù)據(jù)庫(kù)。
(2)貝葉斯概率數(shù)據(jù)庫(kù)創(chuàng)建
根據(jù)用戶瀏覽信息,對(duì)每個(gè)已知文字符號(hào)在用戶最近瀏覽和使用的應(yīng)用軟件中出現(xiàn)的概率進(jìn)行統(tǒng)計(jì),并由貝葉斯公式計(jì)算出在廣告文字中出現(xiàn)某些文字符號(hào)的概率,得出該廣告為用戶感興趣廣告的概率。例如:在1 000個(gè)采集樣本中“裙子”出現(xiàn)了80次,而在其他不經(jīng)常訪問的頁(yè)面中這個(gè)詞出現(xiàn)了5次,則其對(duì)應(yīng)的感興趣的概率為 0.888 9(備注:[80/1 000]/[5/1 000+80/1 000])。
(3)創(chuàng)建個(gè)性化的貝葉斯庫(kù)
由于不同用戶的偏好是不同的,例如,年輕的女性用戶經(jīng)常訪問購(gòu)物應(yīng)用,關(guān)注社交應(yīng)用的購(gòu)物和時(shí)尚主題等,則“衣服”等關(guān)鍵詞出現(xiàn)的幾率很高,但是男性則多訪問新聞、游戲等應(yīng)用。如果不區(qū)分用戶群,使用統(tǒng)一的關(guān)鍵詞過(guò)濾,就會(huì)產(chǎn)生很多誤判,影響廣告投放的效率。因此,在貝葉斯算法過(guò)濾的基礎(chǔ)上,建立貝葉斯已知文字信息數(shù)據(jù)庫(kù)的同時(shí),按照用戶群體進(jìn)行貝葉斯庫(kù)的統(tǒng)計(jì)和創(chuàng)建。這樣感興趣廣告的識(shí)別率將更高,同時(shí)也使得誤判率變得很低。
貝葉斯過(guò)濾算法[3]的主要思想是在已知的大量用戶信息中,包含一些特征串(token),這些特征串可以簡(jiǎn)單地理解為一個(gè)完整的單詞,但實(shí)際上它不僅僅限于單詞,它們出現(xiàn)在用戶瀏覽信息中的頻率特別高,而在一些其他應(yīng)用中,另一些特征串出現(xiàn)的頻率也很高。一般而言,對(duì)于同一個(gè)特征串出現(xiàn)在不同用戶群體中的概率是不同的。因此,對(duì)于出現(xiàn)的每一個(gè)特征串,都會(huì)生成一個(gè)用戶群體感興趣指示性概率。這樣就可以判斷文本消息的整體“用戶感興趣概率”。
貝葉斯方法過(guò)濾廣告的基本原理為:
(1)收集大量的不同用戶群體的信息,建立用戶感興趣的廣告集合和用戶不感興趣的廣告集合。
(2)提取用戶信息中的關(guān)鍵字和獨(dú)立文字作為令牌串,并統(tǒng)計(jì)其出現(xiàn)次數(shù)(字頻)。
(3)對(duì)每個(gè)集合設(shè)立一個(gè)哈希表,哈希表中存儲(chǔ)令牌串與字頻之間的映射關(guān)系。感興趣集合的哈希表為hashtable_yes,不感興趣的集合對(duì)應(yīng)哈希表hashtable_no。
(4)令牌串概率P=(令牌串的字頻)/(令牌串所在哈希表的長(zhǎng)度),由此統(tǒng)計(jì)出每個(gè)哈希表中令牌串的出現(xiàn)比率。
(5)綜合考慮感興趣集合和不感興趣集合的哈希表,當(dāng)用戶訪問一個(gè)應(yīng)用時(shí),推斷用戶感興趣廣告的集合,并判斷某個(gè)廣告為用戶感興趣廣告的概率。數(shù)學(xué)表達(dá)式為:
A事件為用戶感興趣廣告;t1,t2,…,tn為令牌串,則P(A/ti)表示在廣告中出現(xiàn)令牌串ti時(shí),該廣告為用戶所感興趣廣告的概率。
設(shè)P1(ti)=(ti在hashtable_yes中的值)
P2(ti)=(ti在 hashtable_no 中的值),則:
(6)通過(guò)設(shè)立新的哈希表 hashtable_probability來(lái)存儲(chǔ)TOKEN令牌串ti到P(A/ti)之間的映射關(guān)系。
(7)根據(jù)建立哈希表來(lái)預(yù)測(cè)用戶對(duì)該新廣告感興趣的概率。
當(dāng)新生成一個(gè)廣告時(shí),通過(guò)步驟(2)生成令牌串來(lái)查詢哈希表以得到其鍵值。
假設(shè)該廣告生成了N個(gè)令牌串:t1,t2,…,tn,哈希表中對(duì)應(yīng)的取值為 P1,P2,…,Pn,P(A/t1,t2,…,tn)表示多個(gè)令牌串t1,t2,…,tn同時(shí)出現(xiàn)在該廣告中的概率。則用戶對(duì)該廣告感興趣的概率公式如下:
當(dāng)P(A/t1,t2,…,tn)超過(guò)預(yù)定閾值時(shí),就可以判斷該廣告為感興趣的廣告。
基于地理位置信息的廣告投放算法,結(jié)合內(nèi)容定向,通過(guò)獲取用戶所在的地理位置,計(jì)算廣告與地理位置的相似度,通過(guò)獲取用戶所瀏覽信息中的地理位置,并通過(guò)文本處理來(lái)計(jì)算用戶移動(dòng)應(yīng)用內(nèi)容與廣告的內(nèi)容相似度。最后,結(jié)合地理相似度和廣告相似度來(lái)計(jì)算用戶應(yīng)用信息與廣告之間的最終相似度,并根據(jù)排序挑選出最匹配的應(yīng)用信息與廣告[4]。
算法處理步驟如下:
(1)根據(jù)用戶移動(dòng)終端所獲得的地理位置,確定移動(dòng)應(yīng)用與地理位置的相關(guān)度。
(2)分別對(duì)移動(dòng)應(yīng)用(移動(dòng)瀏覽器網(wǎng)頁(yè))等文本和廣告文本做如下處理:
①通過(guò)貝葉斯技術(shù)選取用戶移動(dòng)應(yīng)用內(nèi)容的特征,確定用戶瀏覽關(guān)注的應(yīng)用信息關(guān)鍵詞;
②對(duì)關(guān)鍵詞做語(yǔ)義擴(kuò)展,包括同義詞與近義詞;
③估算關(guān)鍵詞的特征權(quán)重;
④抽取用戶所在地理位置,擴(kuò)展地理位置特征,分配地理范圍;
⑤根據(jù)地理位置特征,調(diào)整地理位置與用戶瀏覽內(nèi)容主題的相關(guān)度。
(3)根據(jù)用戶的地理位置和廣告的地理范圍,計(jì)算地理相似度。
(4)計(jì)算用戶所瀏覽內(nèi)容與廣告內(nèi)容的相似度。
(5)將內(nèi)容相似度和地理相似度線性組合,計(jì)算廣告與用戶關(guān)注信息的最終相似度。
(1)功能性需求分析
①投放計(jì)劃模塊:該模塊主要用于實(shí)時(shí)接收廣告投放計(jì)劃,并根據(jù)投放計(jì)劃的變更情況,動(dòng)態(tài)地對(duì)服務(wù)器中的廣告訂單項(xiàng)目進(jìn)行增、刪、改、暫停和啟用,從而完成對(duì)廣告投放的控制。
②廣告投放模塊:主要用于接收來(lái)自不同移動(dòng)應(yīng)用終端的廣告請(qǐng)求,并對(duì)這些請(qǐng)求參數(shù)進(jìn)行分析,根據(jù)貝葉斯理論查找用戶感興趣的廣告并發(fā)送給移動(dòng)終端,同時(shí)能夠處理大量的終端請(qǐng)求。
③投放分析模塊:該模塊主要用于接收來(lái)自終端的廣告投放報(bào)告,并將廣告投放的詳細(xì)數(shù)據(jù)信息存入日志庫(kù)中。
④管理員可以將廣告投放服務(wù)器注冊(cè)到指定的管理中心及日志服務(wù)器上,從而使管理中心取得對(duì)該廣告投放服務(wù)器的投放控制權(quán),日志服務(wù)器可以從該廣告投放服務(wù)器中獲取對(duì)應(yīng)的投放詳細(xì)報(bào)告和日志。
⑤投放配置模塊:為了實(shí)現(xiàn)熱切換,廣告投放模塊需要能夠動(dòng)態(tài)獲取相關(guān)配置文件。
(2)穩(wěn)定性需求分析
①投放模塊不能下發(fā)可能會(huì)導(dǎo)致移動(dòng)應(yīng)用終端異常的信息。
②數(shù)據(jù)同步過(guò)程中,要能夠正常處理客戶端的廣告請(qǐng)求,并保證平滑地完成數(shù)據(jù)同步。
③當(dāng)廣告投放模塊出現(xiàn)問題時(shí),需要能夠馬上完成下線工作,并通過(guò)Email或短信通知管理人員。
④異常自動(dòng)修補(bǔ):通過(guò)收集相關(guān)地域定向信息,實(shí)現(xiàn)對(duì)請(qǐng)求異常的自動(dòng)修補(bǔ)。
(3)可擴(kuò)展性需求
①當(dāng)業(yè)務(wù)流程出現(xiàn)變化時(shí),系統(tǒng)應(yīng)能通過(guò)簡(jiǎn)便方法實(shí)現(xiàn)業(yè)務(wù)節(jié)點(diǎn)的增刪。
②投放配置模塊應(yīng)能靈活地實(shí)現(xiàn)對(duì)不同客戶渠道的流程配置。
在移動(dòng)應(yīng)用平臺(tái)廣告投放系統(tǒng)中,視圖層包括輸入和輸出兩方面信息:(1)輸入:用戶瀏覽移動(dòng)應(yīng)用和移動(dòng)終端網(wǎng)頁(yè)的信息;(2)輸出:即系統(tǒng)通過(guò)搜集用戶瀏覽的內(nèi)容進(jìn)行數(shù)據(jù)挖掘,確定與用戶興趣點(diǎn)最相關(guān)的精準(zhǔn)廣告投放,并通過(guò)視圖層進(jìn)行展示。
控制層是系統(tǒng)的核心,完成用戶瀏覽數(shù)據(jù)搜集,以及用戶特征模型的建立/更新、用戶的分類及廣告投放等功能。
底層模型層提供數(shù)據(jù)保存服務(wù),主要包括用戶數(shù)據(jù)表,廣告表及信息表等庫(kù)表和視圖數(shù)據(jù)。系統(tǒng)架構(gòu)設(shè)計(jì)如圖1所示。
圖1 廣告投放系統(tǒng)架構(gòu)
系統(tǒng)首先通過(guò)搜集移動(dòng)客戶端用戶的瀏覽信息,并采用貝葉斯技術(shù)對(duì)用戶瀏覽的內(nèi)容進(jìn)行分類,之后將用戶特征信息保存到用戶檔案中。此時(shí)根據(jù)用戶所屬群體,判斷用戶的IP和其他信息,創(chuàng)建用戶檔案[5]。
根據(jù)用戶特征,對(duì)用戶和廣告進(jìn)行相似性分析,得到位置相似度和內(nèi)容相似度,計(jì)算用戶信息與廣告的總體相似得分,最后選擇最匹配的廣告進(jìn)行投放。系統(tǒng)處理流程如圖2所示。
圖2 系統(tǒng)處理流程
本文針對(duì)移動(dòng)應(yīng)用廣告投放技術(shù)進(jìn)行研究,著重研究了基于位置和內(nèi)容定向的移動(dòng)互聯(lián)網(wǎng)廣告投放技術(shù),構(gòu)建出高效精準(zhǔn)的移動(dòng)應(yīng)用平臺(tái)廣告投放系統(tǒng)。從而為移動(dòng)廣告主帶來(lái)更加豐厚的廣告效益,從而產(chǎn)生更大的經(jīng)濟(jì)價(jià)值。
[1]OGILVY D.Confessions of an advertising man[M].New York:South bank Publishing,2004.
[2]戴浩.圖像存儲(chǔ)與傳輸系統(tǒng)在 iPad上的設(shè)計(jì)與實(shí)現(xiàn)[J].微型機(jī)與應(yīng)用,2013,32(19):25-27.
[3]王利民.貝葉斯學(xué)習(xí)理論中若干問題的研究[D].吉林:吉林大學(xué),2005.
[4]黃秀蓮.我國(guó)手機(jī)廣告發(fā)展現(xiàn)狀及前景預(yù)測(cè)研究[D].廈門:廈門大學(xué),2008.
[5]郭泉成,劉鈺,劉紅,等.基于WAMP的遠(yuǎn)程醫(yī)療咨詢系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].微型機(jī)與應(yīng)用,2013,32(19):13-16.