摘要:在國(guó)外,通過(guò)設(shè)計(jì)A/B測(cè)試,改善產(chǎn)品的使用流程,提升用戶體驗(yàn),不斷促進(jìn)用戶或收入的增長(zhǎng),已經(jīng)形成了一套非常科學(xué)的流程和方法論。除一些大型互聯(lián)網(wǎng)企業(yè)外,A/B測(cè)試的流程和方法還沒(méi)有得到較好的應(yīng)用。近年來(lái),隨著越來(lái)越多傳統(tǒng)企業(yè)的互聯(lián)網(wǎng)化,如何提升產(chǎn)品設(shè)計(jì)和運(yùn)營(yíng)的效率,加強(qiáng)市場(chǎng)競(jìng)爭(zhēng)力,減少犯錯(cuò)機(jī)會(huì),已經(jīng)是一個(gè)迫在眉睫需要解決的問(wèn)題。本文旨在以PDCA思路為基礎(chǔ),詳細(xì)闡述A/B測(cè)試的相關(guān)細(xì)節(jié),為中小企業(yè)的產(chǎn)品設(shè)計(jì)和運(yùn)營(yíng)效率的提升,提供一些行之有效的參考方法。
關(guān)鍵詞:A/B測(cè)試;郵件營(yíng)銷;PDCA
一、概述
A/B測(cè)試是指通過(guò)對(duì)真實(shí)訪客進(jìn)行隨機(jī)分組,讓不同分組的訪客訪問(wèn)不同的設(shè)計(jì)方案(變量),并借助統(tǒng)計(jì)學(xué)原理對(duì)收集到的訪客行為數(shù)據(jù)進(jìn)行假設(shè)檢驗(yàn)分析,從而找出最佳方案的一種方法。通俗一點(diǎn)說(shuō),即一部分用戶訪問(wèn)方案A,另外一部分用戶訪問(wèn)方案B,A、B方案間僅存在一個(gè)因素(變量)差異,排除其他干擾因素,最終通過(guò)觀察數(shù)據(jù)確定訪客的行為方式和行為內(nèi)容。
A/B測(cè)試作為一種數(shù)據(jù)驅(qū)動(dòng)的精細(xì)化科學(xué)運(yùn)營(yíng)方法,在互聯(lián)網(wǎng)行業(yè)有著非常廣泛的應(yīng)用,能夠幫助企業(yè)在用戶增長(zhǎng)、廣告效果優(yōu)化、獲客成本優(yōu)化、轉(zhuǎn)化率優(yōu)化、用戶體驗(yàn)優(yōu)化等方面快速找到最佳方案。目前,A/B測(cè)試在國(guó)外已經(jīng)非常普及,并形成了一整套的成熟工具、系統(tǒng)的解決方案。但在國(guó)內(nèi),A/B測(cè)試應(yīng)用得還不是特別普遍,很多中小型互聯(lián)網(wǎng)企業(yè)甚至都沒(méi)聽(tīng)過(guò)A/B測(cè)試。因此,本文將以電子郵件營(yíng)銷的A/B測(cè)試為例,基于PDCA思路系統(tǒng)闡述A/B測(cè)試的流程,具體如下圖所示:
二、確定改善指標(biāo)&目標(biāo)
在正式A/B測(cè)試前,應(yīng)首先明確對(duì)什么指標(biāo)進(jìn)行改善,以及希望達(dá)到多大的改善。一個(gè)好的數(shù)據(jù)指標(biāo)應(yīng)做到:1.具體的且可量化的;2.指標(biāo)改善能夠促進(jìn)業(yè)務(wù)發(fā)展;3.體現(xiàn)產(chǎn)品關(guān)鍵行為;4.指導(dǎo)團(tuán)隊(duì)的努力方向;5.促進(jìn)資源合理分配;6.易于被各個(gè)部門理解和溝通。一般來(lái)說(shuō),設(shè)定一個(gè)好的指標(biāo)與目標(biāo),可以讓執(zhí)行團(tuán)隊(duì)對(duì)結(jié)果負(fù)責(zé),并逐漸形成一種以結(jié)果為導(dǎo)向的文化氛圍。
由于不同團(tuán)隊(duì)的電子郵件營(yíng)銷的目的各不相同,這就會(huì)導(dǎo)致不同團(tuán)隊(duì)的改善指標(biāo)也會(huì)有很大的差異。通常來(lái)說(shuō),在電子郵件營(yíng)銷中,常用的改善指標(biāo)有開(kāi)封率(獨(dú)立打開(kāi)郵件用戶數(shù)/送達(dá)用戶數(shù))、點(diǎn)擊率(獨(dú)立點(diǎn)擊用戶數(shù)/送達(dá)用戶數(shù))、CTO(點(diǎn)擊率/開(kāi)封率)。根據(jù)郵件服務(wù)商webpower統(tǒng)計(jì),我國(guó)電子郵件的平均開(kāi)封率在7%左右,平均點(diǎn)擊率在2%左右。
三、設(shè)計(jì)測(cè)試方案
在設(shè)計(jì)A/B測(cè)試方案時(shí),應(yīng)根據(jù)MECE(窮盡不交叉)原則對(duì)所有可能會(huì)影響改善指標(biāo)的因素進(jìn)行拆解,并根據(jù)自己對(duì)這些因素影響大小進(jìn)行假設(shè),對(duì)實(shí)施簡(jiǎn)單且對(duì)指標(biāo)改善影響大的因素優(yōu)先開(kāi)始執(zhí)行,對(duì)實(shí)施困難且對(duì)指標(biāo)改善影響小的因素最后執(zhí)行。
根據(jù)經(jīng)驗(yàn),可以用來(lái)作為郵件營(yíng)銷的測(cè)試因素有:推送時(shí)間、標(biāo)題文案、標(biāo)題字符數(shù)、單雙標(biāo)題、句式差異(如陳述句式與疑問(wèn)句式)、限時(shí)限量、圖片或文案的放置位置、圖片大小與類型(如女性照片與男性照片對(duì)比)、字體大小與顏色、內(nèi)容列表數(shù)量(如5條內(nèi)容與10條內(nèi)容的差異),地域名詞差異(如北京與延慶)、簡(jiǎn)寫與全拼、增加客服聯(lián)系方式、數(shù)量名詞(如產(chǎn)品有多少用戶)、專家或機(jī)構(gòu)名稱,等等。一般來(lái)說(shuō),推送時(shí)間越合理,標(biāo)題越吸引人,郵件設(shè)計(jì)越合理,開(kāi)封率、點(diǎn)擊率就會(huì)越高,反之則較低。
在實(shí)踐中,A/B測(cè)試通常執(zhí)行的是單變量測(cè)試,即一個(gè)因素的變化對(duì)指標(biāo)改善的影響。但是,有時(shí)候?yàn)榱颂岣邷y(cè)試效率,當(dāng)測(cè)試的是多因素多水平對(duì)指標(biāo)改善影響的時(shí)候,建議可以使用多變量測(cè)試。需要注意的是,當(dāng)執(zhí)行多變量測(cè)試時(shí),由于排列組合較多,建議可以引入正交實(shí)驗(yàn)思路進(jìn)行處理,或者使用軟件對(duì)因素和水平隨機(jī)抽樣來(lái)處理。
四、選擇合適的抽樣方法
抽樣好壞直接影響著最終測(cè)試結(jié)論的可信性。抽樣應(yīng)保證樣本是從同一總體中隨機(jī)抽樣的相似樣本,符合統(tǒng)計(jì)學(xué)上的無(wú)偏性、有效性和一致性。在電子郵件營(yíng)銷的A/B測(cè)試中,考慮到實(shí)施方便、隨機(jī)化等原則,推薦使用系統(tǒng)抽樣作為首選的抽樣方法。
具體實(shí)施過(guò)程如下:
根據(jù)A/B測(cè)試要推送的用戶總體N,按照用戶的訪問(wèn)時(shí)間(或其他合適標(biāo)志,如用戶IP地址的奇偶性)進(jìn)行排序;然后依據(jù)設(shè)定的樣本量大小n,確定間隔k=N/n;從k中隨機(jī)抽取2個(gè)數(shù)字為起始點(diǎn),然后每隔n個(gè)用戶抽出一個(gè)樣本,直到抽滿兩組樣本為止。
由于在實(shí)際電子郵件營(yíng)銷中,n通常比較大,因此不考慮N/n不是整數(shù)的影響。或者采用簡(jiǎn)化的處理方法,將kd(kd=N-nk)個(gè)抽樣單元舍棄掉。這種做法略顯粗暴,但從效果上看并無(wú)太大影響。
五、計(jì)算樣本量
樣本量的大小直接影響著抽樣誤差的大小。一般來(lái)說(shuō),樣本量越小,抽樣誤差就會(huì)越大;樣本量越大,抽樣誤差就會(huì)越小,但也會(huì)帶來(lái)不具備實(shí)施條件、成本過(guò)高,甚至是完全沒(méi)必要等問(wèn)題。因此,在抽樣設(shè)計(jì)中,確定合理的樣本容量n是實(shí)施抽樣的必要前提,如果樣本容量n無(wú)法確定,就無(wú)法展開(kāi)后續(xù)工作。對(duì)于A/B測(cè)試的樣本量確定步驟如下:
第1步:根據(jù)A/B測(cè)試要求,確定估計(jì)精度水平,包括絕對(duì)誤差限度d和置信度1-a。
第2步:對(duì)總體方差S2進(jìn)行估計(jì)??梢岳靡郧暗恼{(diào)查結(jié)果、預(yù)調(diào)查結(jié)果或?qū)<医?jīng)驗(yàn)進(jìn)行估計(jì)。對(duì)于總體比例估計(jì),如果P未知,可遵循方差最大選擇,即P=0.5。
第3步:根據(jù)上述的精度水平、總體方差S2的預(yù)估結(jié)果,并考慮N的大小,計(jì)算出初始樣本量n1。對(duì)于總體比例的估計(jì)而言,S2=P(1-P),具體的計(jì)算公式為:
[n1]:初始樣本容量
N: 待抽樣的總體規(guī)模
d: 絕對(duì)誤差限度
P: 總體中具有某一特征的比例。如果未知,取P=0.5。
z: 在某一置信度下對(duì)應(yīng)的分位數(shù)。常用的是95%的置信區(qū)間對(duì)應(yīng)的z為1.96。
通過(guò)公式1可以看出,影響樣本數(shù)量的主要因素有總體規(guī)模、總體中某一特征的比例、某一置信區(qū)間下的z分?jǐn)?shù)、誤差限度。
第4步:根據(jù)不同的抽樣方式,確定設(shè)計(jì)效應(yīng)deff,并對(duì)初始樣本[n1]進(jìn)行調(diào)整,對(duì)于系統(tǒng)抽樣,deff近似取1。
第5步:在實(shí)際郵件推送中,受硬彈、軟彈、用戶投訴等因素的影響,郵件送達(dá)率并不能做到100%,會(huì)有一定的損耗,這里假設(shè)送達(dá)率為a,對(duì)樣本量再次進(jìn)行調(diào)整,從而確定最終抽樣樣本數(shù)。
示例1:假設(shè)某企業(yè)要開(kāi)展一項(xiàng)新業(yè)務(wù),符合這項(xiàng)業(yè)務(wù)的目標(biāo)用戶群是N=10000人,根據(jù)過(guò)去的郵件推送記錄,這10000人的整體開(kāi)封率是P=7%,我們希望新業(yè)務(wù)的開(kāi)封率提升到10%(d=10%-7%=3%),10000用戶的送達(dá)率是a=98%。根據(jù)公式1和2,可以計(jì)算出在95%的置信區(qū)間下(z=1.96)樣本數(shù)量為276個(gè)樣本。
如果上述業(yè)務(wù)缺乏總體開(kāi)封率的統(tǒng)計(jì),那么可以假設(shè)P=50%,誤差限度3%,從而計(jì)算出在95%的置信區(qū)間下(z=1.96)樣本數(shù)量為984個(gè)樣本。
六、假設(shè)檢驗(yàn)
假設(shè)檢驗(yàn)是利用樣本去估計(jì)總體的一種統(tǒng)計(jì)學(xué)方法,其基本思想就是小概率事件,即當(dāng)某一事件出現(xiàn)的概率非常小的時(shí)候,我們就認(rèn)為其不會(huì)發(fā)生。在執(zhí)行電子郵件營(yíng)銷A/B測(cè)試的假設(shè)檢驗(yàn)時(shí),推薦使用的統(tǒng)計(jì)方法是兩總體比例之差進(jìn)行假設(shè)檢驗(yàn)。此外,考慮到執(zhí)行A/B測(cè)試主要兩個(gè)目的:1.哪種設(shè)計(jì)方案更好?2.相比較差方案,較好的方案改善了多少?下面分別介紹這兩種情況的假設(shè)檢驗(yàn)過(guò)程。
(一)檢驗(yàn)總體比例p1、p2是否相等
假設(shè)A組的開(kāi)封人數(shù)為a1,送達(dá)人數(shù)為n1,則p1=[α]1/n1;B組的開(kāi)封人數(shù)為b2,送達(dá)人數(shù)為n2,則p2=b2/n2。根據(jù)統(tǒng)計(jì)原理,如果n1p1、n1(1-p1)、n2p2、n2(1-p2)都大于等于10時(shí),就可以認(rèn)為是大樣本,從而基于正態(tài)分布對(duì)兩樣本的比例之差p1-p2的抽樣分布進(jìn)行假設(shè)檢驗(yàn)。
H0:兩組開(kāi)封率無(wú)差異,即p1=p2
H1:兩組開(kāi)封率有差異,即p1?p2
z=[p1-p2p(1-p)(1n1+1n2)]? (公式4)
p: 在原假設(shè)成立的情況下,將兩個(gè)樣本合并為一個(gè)樣本的開(kāi)封率,即p=(x1+x2)/(n1+n2)。
在統(tǒng)計(jì)上,一般原假設(shè)H0是希望被拒絕的假設(shè),備擇假設(shè)H1則是希望通過(guò)實(shí)驗(yàn)證明能夠被接受的假設(shè)。在執(zhí)行A/B測(cè)試時(shí),是希望找到有改善的解決方案,故原假設(shè)為p1=p2。然后通過(guò)如果計(jì)算z值,如果|z|>[zα/2],則拒絕原假設(shè),否則則接受原假設(shè)。
示例2:假設(shè)某項(xiàng)新業(yè)務(wù)在執(zhí)行推送時(shí)間對(duì)郵件開(kāi)封率影響的A/B測(cè)試,其中A組為上午8點(diǎn)推送,送達(dá)984人,開(kāi)封70人;B組為晚上7點(diǎn)推送,送達(dá)983人,開(kāi)封98人。直觀上看,B組的開(kāi)封率更高一些,那么這兩組是否有統(tǒng)計(jì)學(xué)上的顯著差異呢?根據(jù)公式4,可計(jì)算出z=2.265。假設(shè)置信區(qū)間為95%,那么[zα/2]=1.96,由于|z|>[zα/2],我們可以拒絕原假設(shè),晚上7點(diǎn)推送的B組的設(shè)計(jì)方案更好。
(二)檢驗(yàn)總體比例p1-p2是否等于某個(gè)常數(shù)d0
H0:兩組開(kāi)封率之差小于或等于d0,即p1-p2≤d0
H1:兩組開(kāi)封率之差大于d0,即p1-p2> d0
z=[p1-p2-d0p1(1-p1)n1+p2(1-p2)n2]? (公式5)
如果計(jì)算的z值|z|>[zα/2],則拒絕原假設(shè),否則則接受原假設(shè)。
在實(shí)際執(zhí)行A/B測(cè)試中,我們不僅要檢驗(yàn)?zāi)慕M效果更好,通常我們也會(huì)將測(cè)試結(jié)論分享給其他部門或領(lǐng)導(dǎo),并明確通過(guò)A/B測(cè)試將指標(biāo)提升了多少,這里就可以借助兩總體比例之差是某個(gè)常數(shù)進(jìn)行假設(shè)檢驗(yàn)。繼續(xù)以示例2為例,相比A組,B組開(kāi)封的效果是否提升了43%(即d0=3%)?根據(jù)公式5,可計(jì)算出z=-0.115,假設(shè)置信區(qū)間為95%,那么[zα/2]=1.96,由于|z|<[zα/2],接受原假設(shè),即盡管B組效果更好,但相比A組,未提升43%。
七、確定合理的α值
在統(tǒng)計(jì)學(xué)上,原假設(shè)正確,而我們卻當(dāng)作錯(cuò)誤加以拒絕的概率,稱為顯著性水平α,即小概率事件發(fā)生的可能性大小。α值在不同的行業(yè)有不同的選擇,如果拒絕原假設(shè)的風(fēng)險(xiǎn)越大,成本越高,那么建議將顯著性水平α值設(shè)置得較小一些;如果拒絕原假設(shè)的風(fēng)險(xiǎn)很小,成本不高,那么這時(shí)可將顯著性水平α值設(shè)置大一些。常用的顯著性水平α值有0.01、0.05、0.1。
在電子郵件營(yíng)銷的A/B測(cè)試中,依然推薦使用常用的顯著性水平α值。但根據(jù)個(gè)人經(jīng)驗(yàn),如果嚴(yán)格執(zhí)行上述標(biāo)準(zhǔn),將α設(shè)置得較小,可能會(huì)讓很多測(cè)試結(jié)果找不出統(tǒng)計(jì)學(xué)上的差異性,長(zhǎng)期下來(lái),會(huì)讓大量的測(cè)試沒(méi)有結(jié)論,打擊測(cè)試團(tuán)隊(duì)的積極性。因此,在要求不高的情況下,將顯著性水平α設(shè)置成0.2或0.3,也是完全可以接受的。
八、A/B測(cè)試總結(jié)報(bào)告
當(dāng)通過(guò)一組測(cè)試,發(fā)現(xiàn)某個(gè)變量對(duì)改善指標(biāo)有比較明顯的影響時(shí),應(yīng)將相關(guān)測(cè)試數(shù)據(jù)和檢驗(yàn)過(guò)程發(fā)送給相關(guān)部門的負(fù)責(zé)人,并請(qǐng)示測(cè)試方案是否可以向總體進(jìn)行推廣應(yīng)用。此外,對(duì)A/B測(cè)試結(jié)果應(yīng)制作成月度報(bào)告,在全公司范圍內(nèi)進(jìn)行展示。這樣做的好處是,一方面可以展示測(cè)試成果,突顯測(cè)試團(tuán)隊(duì)的價(jià)值,爭(zhēng)取到更多的資源;另一方面可以使公司的其他部門快速獲取A/B測(cè)試經(jīng)驗(yàn),加快業(yè)務(wù)推進(jìn);最后,還可以營(yíng)造一種測(cè)試文化,吸納更多的測(cè)試創(chuàng)意。需要注意的是,通過(guò)樣本測(cè)試發(fā)現(xiàn)的有益方法,在向總體應(yīng)用時(shí),有時(shí)會(huì)表現(xiàn)得并未像測(cè)試那樣好,導(dǎo)致這個(gè)問(wèn)題的原因有很多,如抽樣是否做到足夠隨機(jī)、改善指標(biāo)是否有周期性、是否存在測(cè)試方案外的其他關(guān)鍵影響因素等。
參考文獻(xiàn):
[1]金勇進(jìn),杜子芳,蔣妍.《抽樣技術(shù)》(第四版)[M].北京:中國(guó)人民大學(xué)出版社,2015.
[2]賈俊平.《統(tǒng)計(jì)學(xué)》(第六版)[M].北京:中國(guó)人民大學(xué)出版社,2015.
作者簡(jiǎn)介:
楊山山(1982.4-? ),男,漢族,遼寧省大連市普蘭店,中國(guó)人民大學(xué)在職研究生,研究方向:數(shù)理統(tǒng)計(jì)。