摘 要:商圈在居民日常生活中占據(jù)重要的地位,而數(shù)字化管理已成為實(shí)現(xiàn)商圈運(yùn)營優(yōu)化的重要環(huán)節(jié)。目前,商圈店鋪分類的研究仍然主要依賴于統(tǒng)計(jì)分析方法和人為經(jīng)驗(yàn)判斷,缺少較為準(zhǔn)確、系統(tǒng)的模型方法作為決策支撐。針對此現(xiàn)狀,本文提出一種基于聚類模型的店鋪布局方法和基于關(guān)聯(lián)規(guī)則模型的店鋪引流方法。另外,本文還對當(dāng)前比較流行的5種聚類算法在商圈店鋪分類問題的使用效果進(jìn)行對比。試驗(yàn)結(jié)果證明,當(dāng)數(shù)據(jù)量波動(dòng)時(shí),與傳統(tǒng)的K-Means算法相比,層次聚類算法的輪廓系數(shù)穩(wěn)定在0.55~0.6,明顯優(yōu)于其余聚類算法;層次聚類算法平均運(yùn)行時(shí)間與K-Means算法相比可縮短80%~90%,運(yùn)行效率和分類效果均為最優(yōu),因此最適合用于商圈店鋪聚類分析。
關(guān)鍵詞:商圈決策;機(jī)器學(xué)習(xí);聚類模型;關(guān)聯(lián)規(guī)則模型
中圖分類號:TP 391 " " " " " " 文獻(xiàn)標(biāo)志碼:A
商圈在日常生活中占據(jù)了重要的地位,它是城市商業(yè)活動(dòng)的核心區(qū)域和促進(jìn)消費(fèi)升級的重要平臺(tái)。商圈的繁榮與管理者的運(yùn)營密切相關(guān),數(shù)字化管理已成為實(shí)現(xiàn)商圈運(yùn)營優(yōu)化的重要環(huán)節(jié)。因此,合理的商圈規(guī)劃愈加關(guān)鍵。在金融、醫(yī)療以及無人駕駛等領(lǐng)域,人工智能和機(jī)器學(xué)習(xí)已經(jīng)得到深入應(yīng)用[1-3]。在商圈店鋪規(guī)劃領(lǐng)域,以上技術(shù)尚未得到充分應(yīng)用,仍然依賴于傳統(tǒng)的統(tǒng)計(jì)分析方法和經(jīng)驗(yàn)判斷。因此,將人工智能和機(jī)器學(xué)習(xí)技術(shù)應(yīng)用于商圈店鋪分析,以提高運(yùn)營效率和決策準(zhǔn)確性,具有重要的研究意義和應(yīng)用價(jià)值。常用的商圈店鋪分類方法主要是基于K-means算法和DBSCAN算法的聚類方法。另外,層次聚類算法(Hierarchical Clustering)和基于密度的聚類算法(Density-based Clustering)在商圈店鋪分類中也有一定的應(yīng)用。目前,仍然存在一些挑戰(zhàn),例如,不同的聚類算法在商圈店鋪聚類分析中孰優(yōu)孰劣、不同聚類算法的適用場景、當(dāng)數(shù)據(jù)量較大時(shí)如何提高模型的運(yùn)行效率等問題。同時(shí),大部分研究者在進(jìn)行商圈分析的過程中只使用一種或兩種聚類算法,且沒有給出系統(tǒng)的操作說明。
1 一種基于機(jī)器學(xué)習(xí)的商圈店鋪分析方法
1.1 數(shù)據(jù)預(yù)處理
本文認(rèn)為影響商圈店鋪分類和定位的因素除了包括客單價(jià)和一日中交易時(shí)段外,還應(yīng)考慮交易發(fā)生日期是否在周末、一段時(shí)間內(nèi)的交易總金額和交易總次數(shù)。在數(shù)據(jù)預(yù)處理環(huán)節(jié),統(tǒng)計(jì)每個(gè)店鋪在一段時(shí)間內(nèi)的客單價(jià)、一日中各交易時(shí)段(上午、中午、晚上)交易次數(shù)、交易分別發(fā)生在周末和周中的次數(shù)、交易總金額和交易總次數(shù)。
1.2 基于機(jī)器學(xué)習(xí)的聚類建模
在進(jìn)行第2.1節(jié)的操作后,使用多種聚類模型算法進(jìn)行分析,應(yīng)決定聚類分析中簇的個(gè)數(shù)。本文根據(jù)當(dāng)前常用的價(jià)格定位分類方法,將商圈中的店鋪分為高端奢侈品店、中檔品牌店以及平價(jià)快消品店。由此確定,聚類分析模型中簇的個(gè)數(shù)為3。
1.2.1 K-Means聚類
K-Means算法是一種常用的無監(jiān)督機(jī)器學(xué)習(xí)算法,用于將1組數(shù)據(jù)點(diǎn)分成不同的類別或簇。它基于數(shù)據(jù)點(diǎn)之間的相似性進(jìn)行聚類,用歐式距離作為衡量數(shù)據(jù)對象間相似度的指標(biāo),相似度與數(shù)據(jù)對象間的距離成反比,相似度越大,距離越小[4]。算法的核心思想是將數(shù)據(jù)點(diǎn)分配到K個(gè)簇中,使每個(gè)數(shù)據(jù)點(diǎn)與所屬簇內(nèi)的其他數(shù)據(jù)點(diǎn)更相似,與其他簇的數(shù)據(jù)點(diǎn)更不相似。通過迭代的方式,K-means聚類算法會(huì)不斷更新簇的中心點(diǎn),并重新分配數(shù)據(jù)點(diǎn),直到達(dá)到收斂條件。最終,每個(gè)數(shù)據(jù)點(diǎn)都會(huì)被分配到一個(gè)簇中,形成了聚類結(jié)果。K-means聚類在數(shù)據(jù)挖掘、圖像分析以及文本聚類等領(lǐng)域有廣泛應(yīng)用。一般K-Means算法的核心步驟如下。
算法一:K-Means聚類算法
輸入:數(shù)據(jù)集D={x1,x2,…,xN},聚類數(shù)目K。
輸出:每個(gè)數(shù)據(jù)點(diǎn)的聚類分配。1)隨機(jī)初始化K個(gè)聚類中心 cl,c2,…,cK。2)重復(fù) 直到收斂。3)將每個(gè)數(shù)據(jù)點(diǎn)xi分配給最近的聚類中心 ci。4)更新每個(gè)聚類中心ci為分配給它的所有數(shù)據(jù)點(diǎn)的平均值。5)結(jié)束重復(fù)循環(huán)。
1.2.2 層次聚類
層次聚類(Hierarchical Clustering)是一種將數(shù)據(jù)點(diǎn)逐步劃分或合并的聚類方法[5],將一組數(shù)據(jù)點(diǎn)按照層次結(jié)構(gòu)進(jìn)行分組。它通過計(jì)算數(shù)據(jù)點(diǎn)之間的相似性或距離來確定它們的層次關(guān)系,從而形成樹狀結(jié)構(gòu)的聚類結(jié)果。在層次聚類中,每個(gè)數(shù)據(jù)點(diǎn)最初被視為一個(gè)單獨(dú)的簇,然后根據(jù)其相似性逐步合并為更大的簇,直到所有數(shù)據(jù)點(diǎn)都被合并為一個(gè)簇或滿足某個(gè)停止準(zhǔn)則為止。層次聚類算法的核心步驟如下。
算法二:層次聚類算法
輸入:輸入數(shù)據(jù)集 D={x1,x2,…,xN},鏈接準(zhǔn)則L。
輸出:聚類的樹狀圖。1)將每個(gè)數(shù)據(jù)點(diǎn)初始化為單獨(dú)的聚類。2)當(dāng)聚類的數(shù)目大于1時(shí)執(zhí)行以下步驟。3)根據(jù)鏈接準(zhǔn)則L 找到2個(gè)最近的聚類。4)將這2個(gè)聚類合并成一個(gè)新的聚類。5)結(jié)束循環(huán)。6)返回 聚類的樹狀圖。
1.2.3 DBSCAN聚類
DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一種基于密度的聚類算法[6],它能夠發(fā)現(xiàn)任意形狀和大小的聚類,并且可以識(shí)別噪聲數(shù)據(jù)點(diǎn)。DBSCAN將數(shù)據(jù)點(diǎn)分為核心點(diǎn)、邊界點(diǎn)和噪聲點(diǎn),并通過密度可達(dá)性來構(gòu)建聚類。
DBSCAN聚類算法的核心步驟如下。
算法三:DBSCAN聚類算法
輸入:輸入數(shù)據(jù)集D={x1,x2,…,xN},鄰域半徑e,聚類中的最小點(diǎn)數(shù)MinPts。
輸出:每個(gè)數(shù)據(jù)點(diǎn)的聚類分配。1)將所有數(shù)據(jù)點(diǎn)初始化為未訪問狀態(tài)。2)對于數(shù)據(jù)集中的每個(gè)未訪問數(shù)據(jù)點(diǎn)xi。①將xi標(biāo)記為已訪問。②檢索xi鄰域內(nèi)的所有數(shù)據(jù)點(diǎn)使用半徑ε。③如果檢索到的點(diǎn)的數(shù)量大于或等于MinPtsi)創(chuàng)建一個(gè)新的聚類 C。④通過遞歸地添加滿足密度條件的鄰居點(diǎn)來擴(kuò)展聚類w。⑤如果檢索到的點(diǎn)的數(shù)量小于MinPts,則將xi標(biāo)記為噪聲。3)重復(fù)步驟2,直到所有未訪問的數(shù)據(jù)點(diǎn)都被訪問并分配到1個(gè)聚類中,或者標(biāo)記為噪聲。
1.2.4 譜聚類
譜聚類(Spectral Clustering)是一種基于圖論和線性代數(shù)的聚類算法,它通過對數(shù)據(jù)的相似度矩陣進(jìn)行特征分解,將數(shù)據(jù)轉(zhuǎn)化為低維特征空間,然后使用傳統(tǒng)的聚類算法(如K-means)對低維特征空間進(jìn)行聚類[7]。
譜聚類算法的核心步驟如下。
算法四:譜聚類算法
輸入:D={x1,x2,…,xN}, 聚類數(shù)k。
輸出:每個(gè)數(shù)據(jù)點(diǎn)的聚類標(biāo)簽。1)基于D構(gòu)建相似度矩陣W。2)計(jì)算歸一化圖拉普拉斯矩陣L。3)計(jì)算L的前k個(gè)特征向量U。4)使用K-Means算法將U的行聚類成k個(gè)簇。5)將聚類標(biāo)簽分配給數(shù)據(jù)點(diǎn)。
1.2.5 高斯混合模型聚類
高斯混合模型(Gaussian Mixture Model,GMM)是一種常用的聚類算法,它假設(shè)數(shù)據(jù)是由多個(gè)高斯分布組合。GMM的目標(biāo)是通過最大化似然函數(shù)來估計(jì)數(shù)據(jù)點(diǎn)的類別和參數(shù)。
高斯混合模型聚類算法的核心步驟如下。
Algorithm 5高斯混合模型聚類算法
輸入:D={x1,x2,…,xN},聚類數(shù)k
輸出:每個(gè)數(shù)據(jù)點(diǎn)的聚類標(biāo)簽。1)初始化k個(gè)高斯分布的參數(shù)。2)當(dāng)未收斂。3)期望步驟:計(jì)算每個(gè)高斯分布對于每個(gè)數(shù)據(jù)點(diǎn)的責(zé)任度。4)最大化步驟:基于責(zé)任度更新每個(gè)高斯分布的參數(shù)。5)結(jié)束循環(huán)。6)根據(jù)具有最高責(zé)任度的高斯分布為數(shù)據(jù)點(diǎn)分配聚類標(biāo)簽。
1.2.6 不同聚類模型效果評估
以上5種聚類模型在不同情況下各有優(yōu)劣,需要對不同聚類模型的聚類效果進(jìn)行評估,以此來選定最優(yōu)的模型進(jìn)行商圈店鋪聚類分析。
輪廓系數(shù)(Silhouette Coefficient)是一種用于評估聚類質(zhì)量的指標(biāo),它結(jié)合了聚類內(nèi)部的緊密度和聚類之間的分離度。通常情況下,輪廓系數(shù)較高說明聚類質(zhì)量較好。
以散點(diǎn)圖的形式對聚類結(jié)果進(jìn)行可視化分析,可以直觀地看到不同聚類簇的分布情況和邊界。如果聚類效果好,那么不同簇的數(shù)據(jù)點(diǎn)相對緊密,且邊界明顯;如果聚類效果差,那么簇內(nèi)散亂、簇間重疊。根據(jù)散點(diǎn)圖進(jìn)行聚類效果評價(jià),存在較大的主觀性,本文以輪廓系數(shù)作為主要的評價(jià)指標(biāo),對于輪廓系數(shù)相同或相近的模型,再根據(jù)散點(diǎn)圖上不同聚類的數(shù)據(jù)點(diǎn)相互分離程度和聚類內(nèi)部數(shù)據(jù)點(diǎn)的緊密程度對聚類效果予以評估。
1.3 基于機(jī)器學(xué)習(xí)的關(guān)聯(lián)規(guī)則模型
關(guān)聯(lián)規(guī)則模型是機(jī)器學(xué)習(xí)中的一種模型,通過分析大量數(shù)據(jù)集,找出其中的頻繁項(xiàng)集和關(guān)聯(lián)規(guī)則,以幫助人們理解數(shù)據(jù)之間的關(guān)系和模式。關(guān)聯(lián)規(guī)則模型的核心概念包括支持度、置信度和提升度。支持度表示一個(gè)規(guī)則在數(shù)據(jù)集中出現(xiàn)的頻率,置信度表示在前提條件下結(jié)論出現(xiàn)的概率,而提升度表示結(jié)論發(fā)生的概率。在關(guān)聯(lián)規(guī)則模型中的Apriori算法是一種基于頻繁項(xiàng)集的生成方法,通過迭代生成頻繁項(xiàng)集,并使用支持度和置信度篩選關(guān)聯(lián)規(guī)則。
2 試驗(yàn)驗(yàn)證
為驗(yàn)證第二節(jié)中的方法,選取某商圈的交易數(shù)據(jù)進(jìn)行分析。
2.1 原始數(shù)據(jù)聚類分析
按照第三節(jié)中的方法進(jìn)行數(shù)據(jù)預(yù)處理。得出該商圈60家店鋪的各時(shí)段(周中、周末、上午、下午、晚上)交易次數(shù)、客單價(jià)、交易總次數(shù)和交易總金額。進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化后,選取KMeans聚類、層次聚類、DBSCAN聚類、譜聚類和高斯混合模型聚類5種算法進(jìn)行聚類分析,分別進(jìn)行聚類效果可視化和計(jì)算輪廓系數(shù)。試驗(yàn)結(jié)果如圖1和圖2所示。
由圖1和表1顯示的試驗(yàn)結(jié)果可知,K-Means聚類和譜聚類的輪廓系數(shù)最高,達(dá)到0.42;層次聚類和高斯混合模型聚類稍次,輪廓系數(shù)分別為0.35和0.34;DBSCAN聚類的聚類效果最差,不僅輪廓系數(shù)最低,只有0.14,而且散點(diǎn)圖中的不同聚類數(shù)據(jù)點(diǎn)互相嵌合。由圖1散點(diǎn)圖分類情況,在輪廓系數(shù)最高的K-Means聚類和譜聚類模型中,K-Means不同聚類數(shù)據(jù)點(diǎn)的嵌合較譜聚類稍多,譜聚類模型的散點(diǎn)圖上不同聚類的數(shù)據(jù)點(diǎn)相互分離程度和聚類內(nèi)部數(shù)據(jù)點(diǎn)的緊密程度比K-Means聚類好;在輪廓系數(shù)相近的層次聚類和高斯混合模型聚類中,層次聚類的散點(diǎn)圖上數(shù)據(jù)點(diǎn)的區(qū)分效果明顯優(yōu)于高斯混合模型聚類。
綜上所述,從該試驗(yàn)數(shù)據(jù)研究結(jié)果可知,譜聚類模型的聚類效果是最好的。
2.2 不同聚類算法模型試驗(yàn)效果對比
試驗(yàn)研究了不同數(shù)據(jù)量、不同聚類算法的聚類效果和運(yùn)行效率。由于DBSCAN聚類算法在3.1節(jié)中的效果較差,因此將其略去,不進(jìn)行研究。不同數(shù)據(jù)量的4種聚類算法計(jì)算得出的輪廓系數(shù)如圖2所示。
試驗(yàn)計(jì)算每次單個(gè)聚類算法的運(yùn)行時(shí)間,由于時(shí)間結(jié)果因計(jì)算機(jī)的硬件和負(fù)載而異,因此在試驗(yàn)數(shù)據(jù)集上運(yùn)行了50次,并取平均時(shí)間。每種聚類算法在每個(gè)數(shù)據(jù)集上運(yùn)行的平均時(shí)間如圖3所示。
當(dāng)數(shù)據(jù)量變化時(shí),輪廓系數(shù)波動(dòng)較小,且維持在較高的水平、運(yùn)行時(shí)間曲線平穩(wěn)且相對較短的模型在現(xiàn)實(shí)商圈分析場景中更優(yōu)秀。綜合圖2和圖3的結(jié)果,當(dāng)數(shù)據(jù)量變化時(shí)譜聚類聚類效果很差,而且當(dāng)數(shù)據(jù)量較大時(shí)運(yùn)行耗費(fèi)時(shí)間較長,不推薦在聚類分析中使用。層次聚類和K-Means聚類在不同數(shù)據(jù)量的聚類效果較穩(wěn)定,輪廓系數(shù)均穩(wěn)定在0.55~0.60。由表2可知,層次聚類運(yùn)行耗時(shí)更短,綜合分析,層次聚類是最佳聚類算法模型。
2.3 基于關(guān)聯(lián)規(guī)則模型的商圈店鋪規(guī)劃
對試驗(yàn)數(shù)據(jù)進(jìn)行數(shù)據(jù)處理,規(guī)定每天交易次數(shù)較多的店鋪為頻繁項(xiàng)集。然后使用第三節(jié)關(guān)聯(lián)規(guī)則模型中Apriori算法對試驗(yàn)數(shù)據(jù)進(jìn)行分析,設(shè)置支持度閾值為0.2,置信度閾值為0.6,得到100組規(guī)則項(xiàng)集。選取支持度與提升度前三的規(guī)則項(xiàng)集見表3。
由表3可以發(fā)現(xiàn),部分項(xiàng)的支持度與置信度較高,代表相應(yīng)店鋪的客流量較大,為“網(wǎng)紅”店鋪,如試驗(yàn)數(shù)據(jù)中序號為6、7、11、44、51和56等的店鋪;另外,這類店鋪對應(yīng)的項(xiàng)集提升度也較高,說明其能夠提升商圈整體客流量。綜上所述,通過關(guān)聯(lián)規(guī)則模型對商圈交易數(shù)據(jù)的分析能夠找到部分客流量較大的“網(wǎng)紅店鋪”,商圈決策者可以采用這類店鋪?zhàn)饨饍?yōu)惠、優(yōu)先選址等策略為商圈引流,另外,可以將支持度較高項(xiàng)集對應(yīng)的店鋪集中規(guī)劃選址,或者采用品牌聯(lián)動(dòng)、商品捆綁銷售等策略以進(jìn)一步提高這類店鋪營收和流量。
3 結(jié)語
本文基于機(jī)器學(xué)習(xí)中聚類模型與關(guān)聯(lián)規(guī)則模型提出一種實(shí)用的商圈智能決策方法,以實(shí)現(xiàn)更精細(xì)化和智能化的商圈運(yùn)營管理效果。主要貢獻(xiàn)如下:1)本文將5種主流的聚類算法在實(shí)際商圈交易數(shù)據(jù)上進(jìn)行聚類分析并比較其試驗(yàn)效果,進(jìn)而給出這些聚類算法在商圈店鋪聚類分析上的優(yōu)劣和各自適用場景。試驗(yàn)結(jié)果表明,層次聚類算法在中等規(guī)模樣本上最好。2)本文提出利用關(guān)聯(lián)規(guī)則模型尋找“網(wǎng)紅”店鋪的方法,并且按照支持度、置信度與提升度的現(xiàn)實(shí)意義為商圈決策提供參考。
參考文獻(xiàn)
[1]王磊,劉曉慧,吳磊.基于人工智能的金融風(fēng)險(xiǎn)管理研究綜述[J].金融研究,2019(9): 1-18.
[2]劉文.基于人工智能的醫(yī)療影像診斷研究綜述[J].中國醫(yī)療設(shè)備,2019(1):68-70.
[3]張偉,王磊.基于人工智能的無人駕駛技術(shù)研究綜述[J].交通信息與安全,2019(2):57-61.
[4]劉建華,劉鵬,王成軍.基于K-means算法的數(shù)據(jù)挖掘方法研究[J].計(jì)算機(jī)科學(xué),2009, 36(7):248-250.
[5]張曉東,張明.層次聚類算法綜述[J].計(jì)算機(jī)工程與應(yīng)用,2009,45(23):1-4.
[6]趙建華,李瑞華,鄭建偉.基于DBSCAN算法的聚類分析研究[J].計(jì)算機(jī)應(yīng)用與軟件, 2017, 34(11):127-130.
[7]潘勇,鄧小鐵,陳宇.譜聚類算法綜述[J].計(jì)算機(jī)科學(xué),2011,38(8):34-38.