吳才琴
福建警察學(xué)院,福建 福州 350007
刷單行為是指商家的虛假交易行為,一般是由商家通過(guò)付費(fèi)給刷單手或刷單軟件的經(jīng)營(yíng)者,批量生成虛假交易記錄和用戶(hù)評(píng)價(jià),從而提高銷(xiāo)量數(shù)據(jù)和信譽(yù)度,進(jìn)而提高網(wǎng)店的搜索排名。在眾多同業(yè)、同行的激烈競(jìng)爭(zhēng)中,為了爭(zhēng)取更多消費(fèi)者的關(guān)注和成交機(jī)會(huì),部分電商選擇通過(guò)刷單行為提高網(wǎng)店在電商平臺(tái)上的搜索排名,既誤導(dǎo)消費(fèi)者,又損害同業(yè)競(jìng)爭(zhēng)者的合法權(quán)利。刷單這一虛假交易行為,違反了《網(wǎng)絡(luò)交易管理辦法》第十四、十九、五十三條[1]及《中華人民共和國(guó)反不正當(dāng)競(jìng)爭(zhēng)法》第二十四條的規(guī)定[2]。近年來(lái),刷單這一違法行為已經(jīng)引起市場(chǎng)監(jiān)管、公安及其他相關(guān)部門(mén)的重視。如今年伊始,市場(chǎng)監(jiān)管總局在全國(guó)范圍內(nèi)加大對(duì)網(wǎng)絡(luò)不正當(dāng)競(jìng)爭(zhēng)行為監(jiān)管力度,嚴(yán)厲打擊“刷單炒信”、虛假宣傳等不正當(dāng)競(jìng)爭(zhēng)行為,截至上半年,共查辦各類(lèi)不正當(dāng)競(jìng)爭(zhēng)案件3128件[3]。
在相關(guān)部門(mén)如公安部門(mén)打擊刷單行為的過(guò)程中,對(duì)刷單行為的研判是關(guān)鍵環(huán)節(jié),然而刷單行為具有極大的隱蔽性,除了物流包裹是空包裹,其他交易記錄、商品評(píng)價(jià)和物流信息均由電商平臺(tái)和物流平臺(tái)真實(shí)生成,因此當(dāng)消費(fèi)者、電商平臺(tái)和相關(guān)監(jiān)督管理部門(mén)面對(duì)電商平臺(tái)上的海量數(shù)據(jù)時(shí),難以對(duì)刷單行為進(jìn)行全面而系統(tǒng)的人工研判。本文基于數(shù)據(jù)治理的思想,通過(guò)本福特統(tǒng)計(jì)學(xué)定律對(duì)電商的大量銷(xiāo)售和評(píng)價(jià)數(shù)據(jù)進(jìn)行檢測(cè),為今后公安及相關(guān)部門(mén)針對(duì)刷單行為的大數(shù)據(jù)治理及相關(guān)案件的電子物證痕跡偵測(cè)提供參考。
本福特定律又稱(chēng)為“首位數(shù)字定律”。它是指當(dāng)統(tǒng)計(jì)數(shù)據(jù)足夠多時(shí),開(kāi)頭數(shù)字是1的數(shù)據(jù)最多,大約占了所有數(shù)據(jù)的1/3,開(kāi)頭數(shù)字是2的數(shù)據(jù)其次,往后依此減少[4]。該定律通常用于財(cái)務(wù)審計(jì)、金融、選舉投票、人口統(tǒng)計(jì)、實(shí)驗(yàn)數(shù)據(jù)等方面的異常和規(guī)律的檢測(cè),為查處造假和舞弊提供依據(jù)。
根據(jù)本福特定律首位數(shù)字d的概率公式[4]可以開(kāi)發(fā)出用于檢測(cè)數(shù)據(jù)造假的程序。目前,相關(guān)程序有在線(xiàn)測(cè)試和可供下載的xls、VBA等形式。這些程序通常要求輸入待檢的數(shù)據(jù)為十進(jìn)制,且待測(cè)數(shù)據(jù)達(dá)到足夠數(shù)量,統(tǒng)計(jì)學(xué)理論上要求3000個(gè)以上為佳,數(shù)據(jù)量越大判斷結(jié)果越準(zhǔn)確,因此適合于對(duì)大數(shù)據(jù)進(jìn)行初步檢測(cè)。在實(shí)際操作中,這些程序通常僅要求輸入30個(gè)以上數(shù)據(jù),以超過(guò)100個(gè)為宜。人為編造的大數(shù)據(jù)不符合本福特定律,如按一定規(guī)則生成的價(jià)格、電話(huà)號(hào)碼、郵政編碼等,因此將人為編造的大數(shù)據(jù)輸入本福特檢驗(yàn)程序,輸出結(jié)果將顯示不能通過(guò)驗(yàn)證,由此可以判斷數(shù)據(jù)是自然生成還是人為編造。相關(guān)程序輸出結(jié)果通常為曲線(xiàn)圖形式,當(dāng)數(shù)據(jù)不符合本福特定律時(shí),輸出曲線(xiàn)會(huì)明顯偏離標(biāo)準(zhǔn)曲線(xiàn)。此外,還有一些檢驗(yàn)程序會(huì)進(jìn)一步通過(guò)KS檢驗(yàn)、Z檢驗(yàn)和余弦相似性檢驗(yàn)直接輸出檢測(cè)結(jié)果是真是假。通常KS檢驗(yàn)、Z檢驗(yàn)過(guò)于嚴(yán)格,數(shù)據(jù)量沒(méi)有達(dá)到數(shù)學(xué)理論值或有些許偏差就會(huì)被判定為不符合本福特定律。所以當(dāng)數(shù)據(jù)量較少、影響因素較多時(shí),這兩種檢驗(yàn)結(jié)果只能作為參考,建議結(jié)合余弦相似性檢驗(yàn)結(jié)果綜合判斷[5]。
電商平臺(tái)上有海量的公開(kāi)數(shù)據(jù),這些數(shù)據(jù)可能成為證明刷單行為的電子物證。數(shù)據(jù)的海量性不僅體現(xiàn)在數(shù)據(jù)量的巨大,也體現(xiàn)在數(shù)據(jù)的多樣性,如電商平臺(tái)上有評(píng)價(jià)日期、追評(píng)數(shù)目、銷(xiāo)量、成交量、評(píng)價(jià)者昵稱(chēng)、評(píng)價(jià)字?jǐn)?shù)、評(píng)價(jià)圖片數(shù)目、評(píng)價(jià)詞匯和圖片的相似度等多維度的數(shù)據(jù)。本文基于易于獲得、便于統(tǒng)計(jì)的原則,篩選出了評(píng)價(jià)日期和銷(xiāo)量數(shù)據(jù)這兩組具有檢驗(yàn)價(jià)值的數(shù)據(jù)進(jìn)行檢測(cè)。
隨機(jī)選擇淘寶自動(dòng)推薦的一款手機(jī)殼(該款手機(jī)上架時(shí)間短,價(jià)格沒(méi)有明顯波動(dòng),手機(jī)殼銷(xiāo)售也不受季節(jié)影響且數(shù)據(jù)時(shí)間僅選擇一個(gè)月之內(nèi)的短跨度,盡量減少了波動(dòng)),將最近一個(gè)月的用戶(hù)評(píng)價(jià)日期(共計(jì)200條,日期選用淘寶顯示的“X天前”中的X值末兩位數(shù),即數(shù)值范圍在0~29)輸入本福特定律.xls格式檢測(cè)程序,輸出結(jié)果如圖1所示,檢測(cè)程序判斷數(shù)據(jù)不符合本福特定律,余弦相似性約為0.86,相似程度分值為0,其中,評(píng)價(jià)日期尾數(shù)為1、4、5的小數(shù)值占比與本福特分布的標(biāo)準(zhǔn)值偏差較大,且尾數(shù)為1的評(píng)價(jià)日期占比顯著低于標(biāo)準(zhǔn)值。
圖1 某款手機(jī)殼用戶(hù)評(píng)價(jià)日期的本福特定律檢測(cè)結(jié)果
作為對(duì)照,選擇手機(jī)在天貓官網(wǎng)的評(píng)價(jià)日期(官網(wǎng)評(píng)價(jià)僅有78條)進(jìn)行測(cè)評(píng),結(jié)果如圖2所示。檢測(cè)程序判斷數(shù)據(jù)不符合本福特定律,但余弦相似性約為0.89,在數(shù)據(jù)量遠(yuǎn)小于圖1的情況下,手機(jī)評(píng)價(jià)的余弦相似性仍高于上述手機(jī)殼,相似程度分值為0。其中,評(píng)價(jià)日期尾數(shù)為1、2、3、4的小數(shù)值占比與本福特分布的標(biāo)準(zhǔn)值偏差較大,且尾數(shù)為1、2的評(píng)價(jià)日期占比顯著高于標(biāo)準(zhǔn)值。
圖2 某款手機(jī)天貓官網(wǎng)用戶(hù)評(píng)價(jià)日期的本福特定律檢測(cè)結(jié)果
隨機(jī)選擇一款淘寶推薦的熱銷(xiāo)女裝,打開(kāi)該款女裝的售賣(mài)網(wǎng)店,將該店所有商品按銷(xiāo)量排序,記錄成交量千位和百位兩位數(shù)字,共計(jì)199組數(shù)據(jù),可得到如圖3所示的本福特定律檢測(cè)結(jié)果。雖然檢測(cè)程序判斷數(shù)據(jù)不符合本福特定律,但余弦相似性約為0.94,相似程度分值為43,成交量尾數(shù)為1的數(shù)字占比顯著高于本福特分布標(biāo)準(zhǔn)值,其它數(shù)值分布的誤差均在5%左右。
圖3 某網(wǎng)紅女裝店月成交量的本福特定律檢測(cè)結(jié)果
再選擇一家曾經(jīng)因虛假宣傳某品牌女包而下架該品牌箱包類(lèi)產(chǎn)品的電商。該電商雖然不再售賣(mài)某品牌女包,而是改賣(mài)其他女性用品,但依舊經(jīng)常被淘寶平臺(tái)強(qiáng)力推廣其直播間,在其直播間,可以發(fā)現(xiàn)同一件商品月銷(xiāo)量數(shù)據(jù)顯示上萬(wàn)件,而真正付款的只有600多件,雖然這種顯著異常情況在該網(wǎng)店所有在售商品中占比不高,但仍可以在本福特定律檢測(cè)結(jié)果中體現(xiàn)出來(lái),如圖4所示。檢測(cè)結(jié)果顯示該店所有在售商品月成交量的余弦相似性?xún)H約為0.83,相似程度分值為0,成交量尾數(shù)為1、2、5、6的數(shù)字占比均與本福特分布標(biāo)準(zhǔn)值相差較大,其中,成交量尾數(shù)為1的數(shù)值顯著低于標(biāo)準(zhǔn)值。
圖4 某直播網(wǎng)店月成交量的本福特定律檢測(cè)結(jié)果
通過(guò)檢驗(yàn)其他類(lèi)型網(wǎng)紅和天貓電商數(shù)據(jù),發(fā)現(xiàn)結(jié)果和上述4例相似,即應(yīng)用本福特定律可以初步檢測(cè)電商的銷(xiāo)售量和評(píng)價(jià)數(shù)據(jù)是否異常,檢測(cè)結(jié)果最好根據(jù)余弦相似性及尾數(shù)為1的數(shù)據(jù)占比是否低于本福特標(biāo)準(zhǔn)值進(jìn)行評(píng)價(jià)。關(guān)于余弦相似性用于判斷真假的數(shù)值,應(yīng)通過(guò)大量計(jì)算同類(lèi)商家的數(shù)據(jù)后進(jìn)行選擇判斷。如果能結(jié)合商家的銷(xiāo)量和成交量之間的差異綜合考慮,評(píng)價(jià)結(jié)果將更有證明力。此外,還要注意考量數(shù)據(jù)量及某些商品受季節(jié)性降價(jià)促銷(xiāo)時(shí)段等可能的影響因素。
目前,常見(jiàn)的本福特定律檢測(cè)程序在刷單行為方面的檢測(cè)還不夠準(zhǔn)確和智能,不能給出適合大多數(shù)網(wǎng)店銷(xiāo)量和評(píng)價(jià)值的擬合結(jié)果,只能人工通過(guò)對(duì)比同類(lèi)商家進(jìn)行初步判斷。此外,一旦該檢測(cè)方法被廣泛應(yīng)用,不法商家完全有可能通過(guò)編輯算法,自動(dòng)生成符合本福特定律的大批量數(shù)據(jù),實(shí)現(xiàn)符合統(tǒng)計(jì)學(xué)規(guī)律的刷單造假。
本福特定律檢測(cè)程序可以方便快捷地檢測(cè)電商銷(xiāo)量和評(píng)價(jià)數(shù)據(jù)的異常,對(duì)電商平臺(tái)的數(shù)據(jù)質(zhì)量進(jìn)行初步研判,為相關(guān)案件的電子物證痕跡檢測(cè)提供依據(jù),且所檢測(cè)數(shù)據(jù)均為公開(kāi)性質(zhì)的,不侵犯隱私權(quán),相關(guān)部門(mén)可以合法地大批量獲得,為實(shí)現(xiàn)大數(shù)據(jù)治理刷單行為提供借鑒和參考。常見(jiàn)的本福特定律檢測(cè)程序在KS和Z檢驗(yàn)上設(shè)定過(guò)于嚴(yán)格,不符合大多數(shù)網(wǎng)店正常銷(xiāo)售的實(shí)情,必須通過(guò)余弦相似性結(jié)果及尾數(shù)為1的數(shù)據(jù)占比進(jìn)行綜合判斷。另外,相似程度分值和數(shù)據(jù)組數(shù)通常不產(chǎn)生根本性影響。本福特定律檢測(cè)程序的編程人員可以進(jìn)一步改進(jìn)程序設(shè)計(jì),使之更適合刷單行為的智能化檢測(cè),便于相關(guān)部門(mén)利用大數(shù)據(jù)對(duì)不法交易行為進(jìn)行更精準(zhǔn)的研判和處置,實(shí)現(xiàn)對(duì)電商平臺(tái)生態(tài)環(huán)境的大數(shù)據(jù)治理。