• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      電信行業(yè)基于種子用戶群擴(kuò)展技術(shù)的定向營(yíng)銷研究與應(yīng)用

      2018-02-01 03:31:41張旭劉洋胡磊趙曉東張海濱
      電信科學(xué) 2018年1期
      關(guān)鍵詞:運(yùn)營(yíng)商種子樣本

      張旭,劉洋,胡磊,趙曉東,張海濱

      ?

      電信行業(yè)基于種子用戶群擴(kuò)展技術(shù)的定向營(yíng)銷研究與應(yīng)用

      張旭,劉洋,胡磊,趙曉東,張海濱

      (華為軟件技術(shù)有限公司,江蘇 南京 210012)

      在數(shù)據(jù)業(yè)務(wù)爆發(fā)式增長(zhǎng)的時(shí)代,掌握海量用戶數(shù)據(jù)的電信運(yùn)營(yíng)商占有價(jià)值優(yōu)勢(shì)。通過(guò)大數(shù)據(jù)技術(shù)對(duì)數(shù)據(jù)價(jià)值進(jìn)行洞察識(shí)別和探索已經(jīng)成為運(yùn)營(yíng)商發(fā)展增值業(yè)務(wù)的必要手段。對(duì)于傳統(tǒng)的營(yíng)銷方式,各省市公司通過(guò)一些業(yè)務(wù)指標(biāo)篩選目標(biāo)客戶或者單獨(dú)建模的方式進(jìn)行粗放營(yíng)銷,數(shù)據(jù)獲取周期長(zhǎng),營(yíng)銷接觸率不高。針對(duì)上述痛點(diǎn),提出在小樣本數(shù)據(jù)情況下構(gòu)建相似群擴(kuò)展服務(wù)(Lookalike)。該服務(wù)結(jié)合電信行業(yè)的數(shù)據(jù)及業(yè)務(wù)特點(diǎn),集成了度量學(xué)習(xí)、深度學(xué)習(xí)等方法,有效支撐電信運(yùn)營(yíng)商實(shí)現(xiàn)精準(zhǔn)營(yíng)銷。Lookalike服務(wù)減少了人工參與,自動(dòng)實(shí)現(xiàn)營(yíng)銷目標(biāo)客戶的輸出,大大提高了營(yíng)銷活動(dòng)的工作效率及成功率,在多次實(shí)際電信項(xiàng)目中得到驗(yàn)證TTM(time to market)取得了由月到日的提升,營(yíng)銷成功率明顯提高。

      智能數(shù)據(jù)集成;種子相似用戶群自動(dòng)擴(kuò)展技術(shù);華為運(yùn)營(yíng)商大數(shù)據(jù)平臺(tái)

      1 引言

      隨著社會(huì)信息化的飛速發(fā)展,人們已經(jīng)邁入大數(shù)據(jù)時(shí)代。Gartner統(tǒng)計(jì)數(shù)據(jù)認(rèn)為從2011年開(kāi)始,大數(shù)據(jù)已經(jīng)處于期望快速提高的階段。各行各業(yè)產(chǎn)生的數(shù)據(jù)呈現(xiàn)出3V的特性,即數(shù)量大、數(shù)據(jù)種類多,數(shù)據(jù)響應(yīng)速度要求高。與互聯(lián)網(wǎng)相比,電信運(yùn)營(yíng)商積累了龐大的數(shù)據(jù)資源,每天都有數(shù)以億計(jì)的用戶在運(yùn)營(yíng)商管道中留下電信行為數(shù)據(jù)[1]。工業(yè)和信息化部統(tǒng)計(jì)數(shù)據(jù)顯示,2016年我國(guó)三大運(yùn)營(yíng)商電話用戶數(shù)達(dá)15.3億戶,移動(dòng)用戶數(shù)為13.2億戶[2],固話用戶數(shù)為2.07億戶[3]。數(shù)據(jù)源種類豐富多樣,運(yùn)營(yíng)商的數(shù)據(jù)包括通話數(shù)據(jù)、位置數(shù)據(jù)、用戶屬性數(shù)據(jù)、用戶上網(wǎng)數(shù)據(jù)、手機(jī)消費(fèi)數(shù)據(jù)、終端數(shù)據(jù)等,數(shù)據(jù)類型涵蓋結(jié)構(gòu)化的用戶基本信息數(shù)據(jù)、半結(jié)構(gòu)化的用戶訪問(wèn)日志數(shù)據(jù)、非結(jié)構(gòu)化的流媒體數(shù)據(jù)等。為了應(yīng)對(duì)信息化運(yùn)營(yíng)商的轉(zhuǎn)型,各大國(guó)際運(yùn)營(yíng)商在大數(shù)據(jù)產(chǎn)品方向大力投入,如西班牙電信(Telefónica)率先成立名為“動(dòng)態(tài)洞察”的大數(shù)據(jù)業(yè)務(wù)部門;Verizon成立了基于大數(shù)據(jù)分析的精準(zhǔn)營(yíng)銷部門(Precision Marketing Division);新西蘭電信(Telecom New Zealand)成立獨(dú)立的大數(shù)據(jù)子公司 Qrious[4]。

      精準(zhǔn)營(yíng)銷一直是電信運(yùn)營(yíng)商業(yè)務(wù)最重要的部分,傳統(tǒng)的營(yíng)銷方式是業(yè)務(wù)專家根據(jù)規(guī)則篩選目標(biāo)用戶,隨著機(jī)器學(xué)習(xí)的興起,也將監(jiān)督的分類方法融入模型中。機(jī)器學(xué)習(xí)的方法對(duì)數(shù)據(jù)分析人員的技術(shù)背景及能力有較高要求,數(shù)據(jù)預(yù)處理及參數(shù)調(diào)整都相對(duì)復(fù)雜。此外,在運(yùn)營(yíng)商的很多實(shí)際營(yíng)銷場(chǎng)景中,由于沒(méi)有積累營(yíng)銷反饋數(shù)據(jù),難以準(zhǔn)確定義正負(fù)樣本。客戶希望根據(jù)現(xiàn)網(wǎng)存量用戶,分析他們的共性且獨(dú)特的特征,然后找出最相似的目標(biāo)用戶群,作為最可能轉(zhuǎn)化的潛在用戶。只利用現(xiàn)網(wǎng)存量的種子用戶進(jìn)行潛在目標(biāo)用戶的挖掘,可能面臨種子用戶數(shù)量較少、種子用戶與未知用戶數(shù)量相差懸殊的問(wèn)題??梢?jiàn),傳統(tǒng)的基于正負(fù)樣本的分類模型不再適用,需尋找或開(kāi)發(fā)適用于無(wú)法準(zhǔn)確定義正負(fù)樣本且能較好解決種子樣本所占比例較低的問(wèn)題。因此本文提出在小樣本數(shù)據(jù)情況下構(gòu)建相似群擴(kuò)展服務(wù)(Lookalike),可以更好地發(fā)揮數(shù)據(jù)價(jià)值,最大限度地提高數(shù)據(jù)分析人員的工作效率,模型構(gòu)建從2個(gè)月縮短至2周,降低人員專業(yè)要求,無(wú)需數(shù)據(jù)分析專家,只需業(yè)務(wù)人員參與,快速支撐融合營(yíng)銷目標(biāo)客戶群選取。

      圖1 預(yù)測(cè)分析服務(wù)框架

      2 Lookalike技術(shù)方案及關(guān)鍵技術(shù)

      2.1 大數(shù)據(jù)平臺(tái)預(yù)測(cè)分析服務(wù)框架

      Lookalike是華為運(yùn)營(yíng)商大數(shù)據(jù)平臺(tái)預(yù)測(cè)分析服務(wù)產(chǎn)品中的一部分,預(yù)測(cè)分析服務(wù)整體方案如圖1所示。

      華為運(yùn)營(yíng)商大數(shù)據(jù)平臺(tái)的預(yù)測(cè)分析服務(wù)具備以下特點(diǎn)。

      ? ? 機(jī)器學(xué)習(xí)自動(dòng)化:提供超參優(yōu)化、特征選擇、集成學(xué)習(xí)、各種評(píng)估指標(biāo)等自動(dòng)化能力,提供開(kāi)箱即用的分析服務(wù)。

      ? ? 分析服務(wù)插件化:支持第三方開(kāi)發(fā)服務(wù)插件,插件接口靈活,提供服務(wù)自動(dòng)發(fā)布、計(jì)算平臺(tái)自動(dòng)對(duì)接等工程能力,開(kāi)發(fā)者僅需關(guān)注核心分析服務(wù)邏輯。

      ? ? 擴(kuò)展算法庫(kù):集成MLlib、TensorFlow、Sparkling Water等業(yè)界先進(jìn)算法平臺(tái),提供豐富的算法庫(kù),降低構(gòu)建分析服務(wù)難度,提升服務(wù)準(zhǔn)確性。

      2.2 Lookalike分析服務(wù)

      Lookalike服務(wù)的定位是客戶只需要提供少量的種子用戶,自動(dòng)輸出潛在目標(biāo)客戶群,可以支撐潛在客戶挖掘、用戶拉新、精準(zhǔn)營(yíng)銷、銷售提升以及在線廣告等大數(shù)據(jù)分析應(yīng)用。Lookalike具有“COURSE”(control,on-demand,unified,rule-free,scalable,efficient)六大亮點(diǎn)。

      ?? control(擴(kuò)展規(guī)??蛇x):支持?jǐn)U展群規(guī)模靈活選擇。

      ?? on-demand(按需觸發(fā)):根據(jù)業(yè)務(wù)需求隨時(shí)觸發(fā)。

      ?? unified(通用場(chǎng)景):通用Lookalike服務(wù),適用各種精準(zhǔn)營(yíng)銷場(chǎng)景。

      ?? rule-free(不依賴規(guī)則):無(wú)需維護(hù)龐大規(guī)則庫(kù)。

      ?? scalable(可伸縮):最小支持100種子,最大可支持百萬(wàn)級(jí)種子。

      ?? efficient(有效性):百萬(wàn)級(jí)種子條件下可在小時(shí)內(nèi)完成服務(wù)響應(yīng)。

      圖2 Lookalike分析服務(wù)流程

      Lookalike服務(wù)總體流程如圖2所示,主要分為不平衡數(shù)據(jù)集處理、數(shù)據(jù)預(yù)處理、核心算法處理和模型選擇、模型應(yīng)用4個(gè)部分,下面對(duì)Lookalike中的幾個(gè)關(guān)鍵技術(shù)進(jìn)行介紹。

      ?2.2.1 數(shù)據(jù)預(yù)處理

      每個(gè)電信運(yùn)營(yíng)商都具有豐富的數(shù)據(jù)資源,傳統(tǒng)的方式對(duì)于不同的業(yè)務(wù)場(chǎng)景都需要業(yè)務(wù)專家對(duì)特征維度進(jìn)行多次篩選,多域的數(shù)據(jù)特征近千維,給業(yè)務(wù)專家?guī)?lái)較大挑戰(zhàn)。為了減輕業(yè)務(wù)專家工作量,Lookalike服務(wù)融入了特征降維的模塊。大多數(shù)業(yè)務(wù)場(chǎng)景中,用戶沒(méi)有提供相關(guān)的負(fù)樣本,有監(jiān)督的特征選擇方法會(huì)帶入計(jì)算誤差,因此優(yōu)先選用RBM(restricted Boltzmann machine,受限玻爾茲曼機(jī))降維方法。

      RBM是由Hinton和Sejnowski于1986年提出的一種生成式隨機(jī)神經(jīng)網(wǎng)絡(luò)(generative stochastic neural network),該網(wǎng)絡(luò)由一些可見(jiàn)單元(visible unit,對(duì)應(yīng)可見(jiàn)變量,亦即數(shù)據(jù)樣本)和一些隱藏單元(hidden unit,對(duì)應(yīng)隱藏變量)構(gòu)成。整個(gè)網(wǎng)絡(luò)是一個(gè)二部圖,只有可見(jiàn)單元和隱藏單元之間才會(huì)存在邊,可見(jiàn)單元之間以及隱藏單元之間都不會(huì)有邊連接[5]。

      RBM的核心在于定義一個(gè)合理的能量函數(shù),通過(guò)能量定義狀態(tài)的概率,然后通過(guò)極大似然估計(jì)求解模型的參數(shù),最后得到每一個(gè)輸入樣本的隱式表達(dá),通過(guò)輸出層可以獲取希望得到的降維后的特征。RBM構(gòu)建示意如圖3所示。

      圖3 RBM構(gòu)建示意

      ?2.2.2 DensityPropagation算法

      基于密度傳播的相似用戶擴(kuò)展方案,可以降低噪聲影響。密度傳播算法分為兩個(gè)步驟,首先通過(guò)NN計(jì)算用戶之間相似性,為種子和候選集分配不同的初始能量,通過(guò)種子和候選集之間的遞更新各自能量值。模型訓(xùn)練示意如圖4所示。

      圖4 DensityPropagation算法示意

      DensityPropagation模型訓(xùn)練流程具體如下。

      (1)訓(xùn)練樣本包含種子集和候選集,SU分別代表種子和非種子。

      (2)設(shè)置所有種子的初始能量s,設(shè)置所有非種子的初始能量u。

      (3)對(duì)于每個(gè)種子,選取它的個(gè)近鄰,每個(gè)近鄰把自身初始能量的1/傳遞給這個(gè)種子,能量加上種子的初始能量就是種子的新能量ESsi,得到種子的最終能量。

      (4)對(duì)于每個(gè)非種子,選取它的個(gè)近鄰,近鄰中的種子用戶把更新后的能量的EFsi的1/傳遞給這個(gè)候選用戶,更新候選用戶能量ESuj。

      (5)對(duì)于每個(gè)非種子,選取它的個(gè)近鄰,近鄰中的非種子用戶把能量ESuj的1/傳遞給候選用戶,得到新的能量為EUuj。

      (6)非種子的最終能量為EFuj=(s/tanh (s·9))· tanh(u+ESuj+EUuj)。

      如果能量傳遞后種子的能量升高,說(shuō)明種子周圍的種子數(shù)量較多,該種子為正樣本的權(quán)重越高;如果候選用戶的能量升高,說(shuō)明該候選用戶周圍的種子用戶數(shù)量較多,由此可初步推斷該候選用戶的營(yíng)銷成功概率較高。經(jīng)過(guò)多次迭代,輸出候選集中每個(gè)用戶營(yíng)銷成功率列表并按能量值進(jìn)行排序??蛻舾鶕?jù)業(yè)務(wù)需求確定閾值,該閾值以上的用戶即潛在目標(biāo)用戶。算法采用NN計(jì)算用戶之間相似性,為了更好地描述不同特征,將度量學(xué)習(xí)融入算法中[6]。

      電信領(lǐng)域數(shù)據(jù)具有數(shù)據(jù)量大、維度高、稀疏性強(qiáng)等特點(diǎn),其固有數(shù)據(jù)分布空間可能不是歐氏空間。采用簡(jiǎn)單的歐氏距離來(lái)度量樣本點(diǎn)之間的相似性,往往無(wú)法保證得到令人滿意的結(jié)果。通過(guò)訓(xùn)練數(shù)據(jù)學(xué)習(xí)出的度量距離對(duì)比歐氏距離,能夠更好地描述樣本的本征相似性。因此通過(guò)NN算法計(jì)算用戶之間相似性時(shí),Lookalike算法采用度量學(xué)習(xí)方法,在最小化同類樣本對(duì)的馬氏距離平方和的同時(shí),約束不同類樣本對(duì)的馬氏距離,使其大于給定閾值。使在新的度量空間中相似對(duì)更加緊湊,而非相似對(duì)更加分離[6],如圖5所示。

      圖5 度量空間變換前后示意

      度量學(xué)習(xí)目標(biāo)函數(shù)如式(1)所示:

      其中,x,x為樣本對(duì),稱為度量矩陣。

      通過(guò)式(1)計(jì)算得到度量矩陣后,優(yōu)化后的樣本間距離表達(dá)式見(jiàn)式(2)。

      ?2.2.3 TraightWeight算法

      TraightWeight算法是基于FP-growth獲取關(guān)聯(lián)規(guī)則分類的思想。由于沒(méi)有明確的負(fù)樣本,該服務(wù)中采用關(guān)聯(lián)規(guī)則得到種子關(guān)鍵特征進(jìn)一步計(jì)算相似性的方法來(lái)輸出潛在客戶群。與C4.5、SVM算法相比,基于頻繁項(xiàng)的分類方法近幾年在很多的研究中都得到了較好的結(jié)果[7]。FP-growth與Apriori算法相比,只需要兩次掃描數(shù)據(jù)庫(kù),采用分治的策略有效降低搜索開(kāi)銷。TraightWeight算法的流程如圖6所示,具體介紹如下。

      (1)首先對(duì)數(shù)值型數(shù)據(jù)進(jìn)行分箱,類別型的屬性做索引。

      (2)出于性能考慮,根據(jù)種子用戶抽樣比例參數(shù)的設(shè)置,對(duì)候選集用戶進(jìn)行抽樣。

      (3)基于FP-growth,采用關(guān)聯(lián)規(guī)則分類的方法,挖掘頻繁項(xiàng)規(guī)則,當(dāng)產(chǎn)生的規(guī)則的數(shù)量小于設(shè)定的最小規(guī)則生成數(shù)量時(shí),規(guī)則的最小支持度閾值減半。直至從種子集和全量集中產(chǎn)生的規(guī)則的數(shù)量都滿足要求或達(dá)到迭代次數(shù)限制。

      圖6 TraightWeight示意

      (4)根據(jù)頻繁項(xiàng)在種子和全量集合的不同,獲取關(guān)鍵關(guān)聯(lián)規(guī)則的權(quán)重。

      (5)累加某未知用戶包含的所有規(guī)則的權(quán)重,將其作為該未知用戶的得分。得分越高,成為目標(biāo)用戶的概率越大。

      ?2.2.4 WeightedElasticNet算法

      利用正類樣本和無(wú)標(biāo)記樣本進(jìn)行學(xué)習(xí)(learning from positive and unlabled example)稱為 PU 或 LPU 學(xué)習(xí)[8],是一種半監(jiān)督的二元分類模型,通過(guò)標(biāo)注過(guò)的正樣本和大量未標(biāo)注的樣本訓(xùn)練出一個(gè)二元分類器。由于正樣本集合中難免會(huì)有一些噪聲以及正負(fù)樣本的數(shù)據(jù)傾斜,采用WeightedElasticNet算法[9],可以解決樣本不平衡的問(wèn)題,Wen算法的目標(biāo)函數(shù)如式(3)所示:

      ?2.2.5 模型融合

      為了提高推薦結(jié)果的準(zhǔn)確度,系統(tǒng)通常會(huì)應(yīng)用多個(gè)子模型(多個(gè)算法)產(chǎn)生多個(gè)推薦候選集。然后通過(guò)一定的模型融合策略,將多個(gè)候選集融合成最終的結(jié)果展示給用戶,以達(dá)到“1+1>2”的效果[10]。Lookalike融合模型如圖7所示。

      圖7 Lookalike融合模型

      本文采用加權(quán)平均法對(duì)模型進(jìn)行集成為:

      ?2.2.6 超參優(yōu)化

      Lookalike服務(wù)中涉及許多可以調(diào)整的配置參數(shù),有些參數(shù)很難預(yù)置在軟件開(kāi)發(fā)中,需要根據(jù)實(shí)際業(yè)務(wù)數(shù)據(jù)進(jìn)行調(diào)整,為了減輕人工配置的工作量,本文在框架中置入超參優(yōu)化模塊,可以識(shí)別算法的關(guān)鍵超參及其有效范圍,克服超參優(yōu)化的維度災(zāi)難和非凸性。本文選擇貝葉斯優(yōu)化算法對(duì)Lookalike模型中涉及的參數(shù)進(jìn)行優(yōu)化。貝葉斯優(yōu)化是一種聯(lián)合優(yōu)化超參數(shù)的強(qiáng)力工具,并且最近也越來(lái)越流行。它能自動(dòng)調(diào)節(jié)超參數(shù)以提升產(chǎn)品質(zhì)量和人類生產(chǎn)力。貝葉斯優(yōu)化是一種近似逼近的方法,采用在函數(shù)方程不知的情況下根據(jù)已有的采樣點(diǎn)預(yù)估函數(shù)最大值的思想[11]。貝葉斯優(yōu)化算法的偽代碼如下。

      算法1 貝葉斯優(yōu)化算法

      for=1,2,…,do

      query objective function to obtainy+1

      update statistical model

      end for

      3 應(yīng)用效果

      Lookalike服務(wù)經(jīng)過(guò)多個(gè)項(xiàng)目的驗(yàn)證,在提高營(yíng)銷成功率的同時(shí)還可以縮短TTM,獲取含數(shù)據(jù)與分析時(shí)長(zhǎng)由月到日的轉(zhuǎn)變。

      3.1 X省機(jī)頂盒加裝項(xiàng)目

      X省電信運(yùn)營(yíng)商推廣第二部機(jī)頂盒加裝業(yè)務(wù),匿名特征198維度,將采用隨機(jī)森林算法與Lookalike算法做比較。其中隨機(jī)森林參數(shù)設(shè)置:樹(shù)的棵數(shù)為100棵,樹(shù)深10層。實(shí)驗(yàn)環(huán)境為2臺(tái)華為RH2288(單臺(tái)24核300 GB內(nèi)存)、Hadoop2.7.2和Spark1.5.1。其實(shí)驗(yàn)數(shù)據(jù)和實(shí)驗(yàn)結(jié)果分別見(jiàn)表1和表2。

      表1 X省機(jī)頂盒加裝項(xiàng)目實(shí)驗(yàn)數(shù)據(jù)

      表2 X省機(jī)頂盒加裝項(xiàng)目實(shí)驗(yàn)結(jié)果

      從上述結(jié)果可以看出,監(jiān)督的分類模型自動(dòng)將非種子集合(unlabeled data)認(rèn)為是負(fù)樣本會(huì)代入效果誤差,Lookalike的AUC與隨機(jī)森林相比提升23%。

      3.2 Y省流量套餐營(yíng)銷

      Y省運(yùn)營(yíng)商為了培養(yǎng)全省的客戶的流量使用習(xí)慣,通過(guò)短信進(jìn)行“任我享”流量包營(yíng)銷。采用Lookalike服務(wù)輸出營(yíng)銷潛在客戶名單與運(yùn)營(yíng)商實(shí)際的營(yíng)銷結(jié)果做AB對(duì)比測(cè)試,此應(yīng)用案例采用Top的查全率和查準(zhǔn)率進(jìn)行比較。

      用戶的接入特征有基本特征、賬單列表、訂購(gòu)套餐、流量特征等,都做了匿名處理,分別為F1, F1, …, F128。實(shí)驗(yàn)環(huán)境為5臺(tái)E9000(單臺(tái)6核,96 GB內(nèi)存)、Hadoop2.7.2和Spark1.5.1。其實(shí)驗(yàn)數(shù)據(jù)見(jiàn)表3。

      表3 Y省流量套餐營(yíng)銷實(shí)驗(yàn)數(shù)據(jù)

      全量目標(biāo)用戶是用戶對(duì)全量1 908萬(wàn)用戶營(yíng)銷的結(jié)果,查全率比較結(jié)果如圖8所示。

      圖8 查全率比較

      從查全率來(lái)看,全量目標(biāo)用戶截止至12日共訂購(gòu)用戶149 457個(gè),其中23 048個(gè)在Lookalike結(jié)果得分靠前的100萬(wàn)用戶中,查全率為15.4%。

      圖9 命中率變化趨勢(shì)

      命中率為根據(jù)Lookalike選定個(gè)用戶,該個(gè)用戶中訂購(gòu)的個(gè)數(shù)與的比例,命中率變化趨勢(shì)如圖9所示。從命中率來(lái)看,截止至12日的全量目標(biāo)命中率為0.78%,算法圈定的得分靠前的100萬(wàn)用戶命中率為2.30%,前10萬(wàn)用戶命中率為3.64%,命中率有顯著的提高。

      Lookalike服務(wù)產(chǎn)品對(duì)目標(biāo)客戶有較強(qiáng)的識(shí)別能力,若需達(dá)到2.3萬(wàn)訂購(gòu)目標(biāo),使用Lookalike只需的營(yíng)銷為100萬(wàn)用戶,傳統(tǒng)方式需營(yíng)銷300萬(wàn)用戶,將為運(yùn)營(yíng)商節(jié)約2/3的營(yíng)銷資源。

      3.3 H省4G終端營(yíng)銷

      H省運(yùn)營(yíng)商4G客戶滲透率已達(dá)到60%,但仍有1 700萬(wàn)客戶未使用4G終端,以低端客戶為主,遇到發(fā)展瓶頸,各市公司通過(guò)DOU/ARPU等指標(biāo)篩選目標(biāo)客戶或單獨(dú)建模的方式進(jìn)行粗放營(yíng)銷,數(shù)據(jù)獲取周期長(zhǎng),營(yíng)銷接觸率低,營(yíng)銷成功率不高。因此該公司嘗試用Lookalike同時(shí)開(kāi)展?fàn)I銷活動(dòng),實(shí)驗(yàn)環(huán)境2臺(tái)華為RH2288(單臺(tái)12核,256 GB內(nèi)存),實(shí)驗(yàn)數(shù)據(jù)和實(shí)驗(yàn)結(jié)果見(jiàn)表4和表5。

      表4 H省4G終端營(yíng)銷實(shí)驗(yàn)數(shù)據(jù)

      從表5來(lái)看,接通率提升了23.04%,外呼成功率提升了12.77%,從原來(lái)的月建模時(shí)間縮短為2 h輸出潛在客戶名單,同時(shí)保證了較高的營(yíng)銷成功率。

      4 結(jié)束語(yǔ)

      針對(duì)電信行業(yè)營(yíng)銷場(chǎng)景中負(fù)樣本難以精確定義和搜集的特點(diǎn),本文提出了一種基于小樣本種子用戶群擴(kuò)展技術(shù)來(lái)快速、準(zhǔn)確識(shí)別潛在目標(biāo)客戶,該技術(shù)將客戶發(fā)現(xiàn)問(wèn)題抽象成無(wú)監(jiān)督或半監(jiān)督機(jī)器學(xué)習(xí)任務(wù)進(jìn)行建模并對(duì)預(yù)測(cè)結(jié)果進(jìn)行有效融合。經(jīng)多個(gè)局點(diǎn)和多個(gè)實(shí)際業(yè)務(wù)場(chǎng)景驗(yàn)證發(fā)現(xiàn),與傳統(tǒng)方法相比,種子用戶群擴(kuò)展技術(shù)提高了目標(biāo)客戶發(fā)現(xiàn)的準(zhǔn)確率,降低了一線服務(wù)或業(yè)務(wù)實(shí)施人員的使用門檻,還可適用于電信行業(yè)多個(gè)業(yè)務(wù)營(yíng)銷場(chǎng)景,在幫助電信運(yùn)營(yíng)商大大提升營(yíng)銷活動(dòng)E2E轉(zhuǎn)化率的同時(shí)也有效節(jié)約了營(yíng)銷支撐成本。

      在業(yè)務(wù)部署過(guò)程中,也發(fā)現(xiàn)了一些還未得到有效解決的技術(shù)問(wèn)題,包括:用戶建模問(wèn)題,即如何科學(xué)選擇有效特征或?qū)傩詠?lái)描述用戶,才能保證后續(xù)種子用戶群算法的覆蓋率和精準(zhǔn)度;持續(xù)優(yōu)化問(wèn)題,即如何及時(shí)搜集營(yíng)銷反饋數(shù)據(jù),并根據(jù)反饋持續(xù)優(yōu)化機(jī)器學(xué)習(xí)模型,形成算法和營(yíng)銷活動(dòng)的閉環(huán)。

      驅(qū)使?fàn)I銷活動(dòng)成功的因素較多,算法和模型只是其中一部分,以最小的代價(jià)獲取最大受益,是營(yíng)銷活動(dòng)永恒的追求。在后續(xù)的研究和優(yōu)化過(guò)程中,或可考慮將營(yíng)銷成本和代價(jià)等因素構(gòu)建到模型當(dāng)中,打造完全基于數(shù)據(jù)驅(qū)動(dòng)的智能營(yíng)銷系統(tǒng)。

      表5 H省4G終端營(yíng)銷實(shí)驗(yàn)結(jié)果

      [1] 劉春, 鄒海鋒, 向勇. 大數(shù)據(jù)環(huán)境下電信數(shù)據(jù)服務(wù)能力開(kāi)放研究[J]. 電信科學(xué), 2014, 30(3): 156-161.

      LIU C, ZOU H F, XIANG Y, et al. Research on telecom data service open ability under the environment of big data [J]. Telecommunications Science, 2014, 30(3): 156-161.

      [2] 廖建新. 大數(shù)據(jù)技術(shù)的應(yīng)用現(xiàn)狀與展望[J]. 電信科學(xué), 2015, 31(7): 7-18.

      LIAO J X. Big data technology: current applications and prospects [J]. Telecommunications Science, 2015, 31(7): 7-18.

      [3] 黃勇軍, 馮明, 丁圣勇, 等. 電信運(yùn)營(yíng)商大數(shù)據(jù)發(fā)展策略探討[J]. 電信科學(xué), 2013, 29(3): 6-11.

      HUANG Y J, FENG M, DING S Y, et al. Big data development strategy for telecom operators[J]. Telecommunications Science, 2013, 29(3): 6-11.

      [4] 梁燦, 何陽(yáng), 韓涵, 等. 數(shù)據(jù)中心聯(lián)盟大數(shù)據(jù)發(fā)展促進(jìn)委員會(huì)電信工作組[S]. 電信大數(shù)據(jù)應(yīng)用白皮書. 2017.

      LIANG C, HE Y, HAN H, et al. Data center alliance major data development promotion committee telecom working group[S]. White Book of Telecommunication Big Data Application. 2017.

      [5] 張春霞, 姬楠楠, 王冠偉. 受限波爾茲曼機(jī)[J]. 工程數(shù)學(xué)學(xué)報(bào), 2015(2): 159-173.

      ZHANG C X, JI N N, WANG G W. Restricted Boltzmann machines[J]. Chinese Journal of Engineering Mathematics, 2015(2): 159-173.

      [6] XING E P, NG A Y, JORDAN M I, et al. Distance metric learning, with application to clustering with side-information[C]// International Conference on Neural Information Processing Systems, Dec 9-14, 2002, Vancouver, British Columbia, Canada. Cambridge: MIT Press, 2002: 521-528.

      [7] WAND J, KARYPIS G. Harmony: efficiently mining the best rules for classification[C]//M The Fifth SIAM International Conference on Data Mining, Apr 21-23, 2005, Newport Beach, California, USA. Piscataway: IEEE Press, 2005: 205-216.

      [8] LEE W S, LIU B. Learning with positive and unlabeled examples using weighted logistic regression[C]// Machine Learning, Proceedings of the Twentieth International Conference, Aug 21-24, 2003, Washington DC, USA. Palo Alto: Aaai Press, 2003: 448-455.

      [9] HONG D, ZHANG F. Weighted elastic net model for mass spectrometry imaging, processing[J]. Mathematical Modelling of Natural Phenomena, 2010, 5(3): 115-133.

      [10] 周志華. 機(jī)器學(xué)習(xí)[M]. 北京: 清華大學(xué)出版社, 2016.

      ZHOU Z H. Machine learning[M]. Beijing: Tsinghua University Press, 2016.

      [11] SHAHRIARI B, SWERSKY K, WAND Z, et al. Taking the human out of the loop: a review of bayesian optimization[J]. Proceedings of the IEEE, 2015, 104(1): 148-175.

      Application and research of marketing using automatic similar users extension technology in telecom industry

      ZHANG Xu, LIU Yang, HU Lei, ZHAO Xiaodong, ZHANG Haibin

      Huawei Software Technologies Co., Ltd., Nanjing 210012, China

      With the explosive development of data service, TSP(telecommunication service provider) has taken advantages of owing massive user data. It is a necessity for TSP to develop value added business using big data techniques which explores the data value. The traditional way of marketing utilizes rules or supervised classification method meets the challenge of low success rate and long data acquisition period. Therefore, a new service named Lookalike was proposed. The service supports precision marketing by integrating matric learning and deep learning efficiently based on telecom operators’ data characteristics. The Lookalike service decreases the artificial participation and enhances the efficiency and success rate of marketing activity. The enhancement of TTM (time to market) has been improved in many real programs and the success rate of marketing has increased absolutely.

      smart data integration, automatic similar users extension technology, Huawei FusionInsight platform

      TP311.13

      A

      10.11959/j.issn.1000?0801.2018029

      2017?12?01;

      2017?12?20

      張旭(1976?),男,博士,華為軟件技術(shù)有限公司大數(shù)據(jù)首席分析建模專家,主要研究方向?yàn)閿?shù)據(jù)挖掘與分析、用戶偏好分析、用戶建模、用戶相似性分析與個(gè)性化推薦。

      劉洋(1989?),女,華為軟件技術(shù)有限公司大數(shù)據(jù)科學(xué)實(shí)驗(yàn)室高級(jí)工程師,主要研究方向?yàn)閿?shù)據(jù)挖掘與分析、個(gè)性化推薦、用戶建模。

      胡磊(1981?),男,華為軟件技術(shù)有限公司大數(shù)據(jù)科學(xué)實(shí)驗(yàn)室高級(jí)工程師,主要研究方向?yàn)閿?shù)據(jù)挖掘和機(jī)器學(xué)習(xí)。

      趙曉東(1981?),男,華為軟件技術(shù)有限公司大數(shù)據(jù)科學(xué)實(shí)驗(yàn)室高級(jí)工程師,主要研究方向?yàn)閿?shù)據(jù)挖掘、數(shù)據(jù)集成與治理。

      張海濱(1983?),男,博士,現(xiàn)就職于華為軟件技術(shù)有限公司大數(shù)據(jù)科學(xué)實(shí)驗(yàn)室,主要研究方向?yàn)閿?shù)據(jù)挖掘與機(jī)器學(xué)習(xí)、時(shí)間序列分析、服務(wù)計(jì)算等。

      猜你喜歡
      運(yùn)營(yíng)商種子樣本
      用樣本估計(jì)總體復(fù)習(xí)點(diǎn)撥
      桃種子
      幸運(yùn)的小種子
      幼兒園(2018年15期)2018-10-15 19:40:36
      推動(dòng)醫(yī)改的“直銷樣本”
      可憐的種子
      隨機(jī)微分方程的樣本Lyapunov二次型估計(jì)
      取消“漫游費(fèi)”只能等運(yùn)營(yíng)商“良心發(fā)現(xiàn)”?
      村企共贏的樣本
      第一章 在腐敗火上烤的三大運(yùn)營(yíng)商
      三大運(yùn)營(yíng)商換帥不是一個(gè)簡(jiǎn)單的巧合
      贵定县| 河东区| 五原县| 新竹市| 陇川县| 大城县| 海门市| 浦东新区| 谢通门县| 长海县| 孝昌县| 大田县| 闽侯县| 威海市| 永康市| 吉安市| 枞阳县| 建德市| 马鞍山市| 庆安县| 清水河县| 承德县| 甘德县| 曲水县| 江安县| 宜章县| 迁西县| 常德市| 泽州县| 金沙县| 松江区| 文水县| 双流县| 高碑店市| 阿尔山市| 巴东县| 兴文县| 安阳县| 武安市| 英吉沙县| 闻喜县|