摘要:網(wǎng)絡(luò)技術(shù)的更新與進(jìn)步,為電子商務(wù)行業(yè)的可持續(xù)性發(fā)展提供了基礎(chǔ)條件,尤其是在網(wǎng)絡(luò)購物已經(jīng)成為當(dāng)下主流購物方式的背景下,電商平臺(tái)交易量表現(xiàn)出急速增長的整體趨勢,而過程中將會(huì)積累較多的用戶評(píng)論數(shù)據(jù),從中反映出較多的產(chǎn)品缺陷信息與用戶對(duì)產(chǎn)品功能改進(jìn)的切實(shí)需求。本文簡述了基于云計(jì)算的大數(shù)據(jù)存儲(chǔ)技術(shù)的主要內(nèi)容,對(duì)電商平臺(tái)大數(shù)據(jù)挖掘流程進(jìn)行深入分析,闡述電商平臺(tái)的大數(shù)據(jù)挖掘系統(tǒng)的設(shè)計(jì)算法(聚類算法),希望能夠?yàn)橥袠I(yè)工作者提供一些幫助。
關(guān)鍵詞:電商平臺(tái);大數(shù)據(jù)挖掘系統(tǒng);設(shè)計(jì)算法
引言
電子商務(wù)在經(jīng)濟(jì)全球化發(fā)展背景下獲得了越來越多人的關(guān)注,輕松便捷的商務(wù)模式正在潛移默化地改變著人們的生活習(xí)慣與購物方式。從電商平臺(tái)的應(yīng)用特點(diǎn)來看,改變了以往只能夠通過詢問獲得商品性能與質(zhì)量等相關(guān)信息的購物模式,并擺脫了時(shí)間與空間的限制,讓用戶獲得了良好的購物體驗(yàn)。無論是商家還是平臺(tái)均對(duì)具有價(jià)值的商品購買反饋信息有較為迫切的需求,這也是擴(kuò)大用戶群體并提升用戶口碑的關(guān)鍵因素,因此針對(duì)評(píng)論數(shù)據(jù)采取深入挖掘模式具有極為重要的現(xiàn)實(shí)意義。
1. 基于云計(jì)算的大數(shù)據(jù)存儲(chǔ)技術(shù)
1.1 Hadoop框架
作為一類具有分布式并行編程特點(diǎn)的開源框架,Hadoop真正實(shí)現(xiàn)了模型計(jì)算,并能夠在MapReduce基礎(chǔ)上適應(yīng)計(jì)算機(jī)模型所處的分布式環(huán)境,執(zhí)行大數(shù)據(jù)存儲(chǔ)與處理任務(wù),同時(shí)可根據(jù)需要連接上千臺(tái)機(jī)器進(jìn)行功能拓展,提供給使用者本地計(jì)算與相應(yīng)數(shù)據(jù)存儲(chǔ)的關(guān)鍵條件。MapReduce屬于基于云計(jì)算的一類核心計(jì)算模式,該種編程模式實(shí)際上已經(jīng)經(jīng)過簡化處理,在分布式運(yùn)算技術(shù)的協(xié)助下可解決固定問題,并能夠?qū)栴}進(jìn)行自動(dòng)分割[1]。程序員能夠基于Hadoop編寫相應(yīng)的使用程序,從而保證海量數(shù)據(jù)的處理及時(shí)性。Hadoop同樣能夠?yàn)槭褂萌藛T提供數(shù)據(jù)存儲(chǔ)的固定地點(diǎn),讓其能夠根據(jù)實(shí)際需要對(duì)計(jì)算節(jié)點(diǎn)中的分布式文件系統(tǒng)信息進(jìn)行部署或儲(chǔ)存,從而充分發(fā)揮分布式數(shù)據(jù)庫的應(yīng)用優(yōu)勢。在Hadoop與云計(jì)算等新技術(shù)的共同幫助下,即使是大規(guī)模數(shù)據(jù)也能夠確保處理的及時(shí)性與完整性,并能夠在所搭建的云計(jì)算框架中融入HDFS與HBase,基于所設(shè)計(jì)的云計(jì)算分布式與并行計(jì)算方案,實(shí)現(xiàn)預(yù)期的數(shù)據(jù)處理與存儲(chǔ)的相關(guān)工作目標(biāo)。
1.2 以云計(jì)算為基礎(chǔ)的數(shù)據(jù)存儲(chǔ)模型
基于海量數(shù)據(jù)的應(yīng)用特點(diǎn),能夠聯(lián)系云計(jì)算等相關(guān)技術(shù)構(gòu)建海量的數(shù)據(jù)存儲(chǔ)模型,其中包含各個(gè)存儲(chǔ)節(jié)點(diǎn)與主服務(wù)器集群,配合使用HDFS與HBase即可實(shí)現(xiàn)針對(duì)所需求的數(shù)據(jù)資源的實(shí)時(shí)存儲(chǔ)與需求控制[2]。HDFS與HBase在這一過程中所起到的主要作用,是將需求的數(shù)據(jù)在各個(gè)計(jì)算節(jié)點(diǎn)上部署和存儲(chǔ),并能夠借助MapReduce與Hadoop框架實(shí)現(xiàn)對(duì)數(shù)據(jù)的實(shí)時(shí)調(diào)度與科學(xué)維護(hù),從而避免出現(xiàn)系統(tǒng)阻塞或框架使用故障等不良現(xiàn)象[3]。而使用者同樣能夠在Hadoop框架下,通過對(duì)節(jié)點(diǎn)數(shù)據(jù)的直接存取達(dá)到預(yù)期的交互操作目的。
2. 電商平臺(tái)大數(shù)據(jù)挖掘框架的構(gòu)建
結(jié)合電商平臺(tái)大數(shù)據(jù)挖掘的實(shí)際特點(diǎn),所執(zhí)行的數(shù)據(jù)挖掘任務(wù)的根本目的在于為所組織的電商活動(dòng)提供更有價(jià)值的活動(dòng)信息與相應(yīng)的平臺(tái)支持。由于保證了信息提供的準(zhǔn)確性與響應(yīng)的及時(shí)性,所以組建出基于電商平臺(tái)的大數(shù)據(jù)挖掘框架,主要包含六個(gè)層級(jí):
第一是數(shù)據(jù)來源層。該層次主要包括電商平臺(tái)、移動(dòng)終端、社交網(wǎng)絡(luò)以及供應(yīng)商;
第二是數(shù)據(jù)收集層。該層級(jí)主要包括針對(duì)數(shù)據(jù)進(jìn)行全面收集、針對(duì)文件進(jìn)行全面收集以及各類消息與事件的及時(shí)響應(yīng);
第三是數(shù)據(jù)組織層。該層級(jí)主要包括過濾實(shí)施分析與接收分析,其中過濾實(shí)施分析對(duì)應(yīng)結(jié)構(gòu)化數(shù)據(jù),接收分析則對(duì)應(yīng)半/非結(jié)構(gòu)化數(shù)據(jù)。通過對(duì)數(shù)據(jù)的過濾轉(zhuǎn)化與抽取注解實(shí)現(xiàn)關(guān)聯(lián)分類,其中的數(shù)據(jù)映射又可分為三個(gè)對(duì)應(yīng)節(jié)點(diǎn),包括語言庫、索引以及構(gòu)建的工作模型等[4];
第四是數(shù)據(jù)存儲(chǔ)層。該層級(jí)主要包括企業(yè)級(jí)的數(shù)據(jù)庫、數(shù)據(jù)倉庫以及元數(shù)據(jù)管理等相關(guān)內(nèi)容;
第五是數(shù)據(jù)分析層。數(shù)據(jù)分析需基于所提供的搜索引擎,在明確需要后進(jìn)行普通或高級(jí)分析,用以構(gòu)建相應(yīng)的預(yù)測模型,可提供給用戶可視化查詢的相應(yīng)條件[5];
第六是數(shù)據(jù)應(yīng)用層。該層級(jí)主要面對(duì)的是各類電商平臺(tái)的實(shí)際應(yīng)用軟件/網(wǎng)頁,并陸續(xù)開發(fā)出針對(duì)商家與個(gè)人用戶的應(yīng)用級(jí)數(shù)據(jù)軟件。
3. 電商平臺(tái)大數(shù)據(jù)挖掘流程
作為電商平臺(tái)維持正常運(yùn)營狀態(tài)的重要基礎(chǔ),電商數(shù)據(jù)的重要性毋庸置疑。基于海量的電商數(shù)據(jù)能夠關(guān)聯(lián)其他的業(yè)務(wù)類型,從而對(duì)用戶在平臺(tái)所產(chǎn)生的一系列消費(fèi)行為進(jìn)行深入分析,基于數(shù)據(jù)挖掘技術(shù)能夠進(jìn)一步提升平臺(tái)的自我競爭性,進(jìn)而全面提高商業(yè)價(jià)值[6]。在大數(shù)據(jù)深入挖掘的背景下,平臺(tái)同樣能夠進(jìn)行主動(dòng)與自我學(xué)習(xí),并在人工智能算法與科學(xué)的機(jī)器學(xué)習(xí)方式幫助下,獲取更多的學(xué)習(xí)數(shù)據(jù),將過程中所學(xué)習(xí)到的所有內(nèi)容自動(dòng)儲(chǔ)存到相應(yīng)的知識(shí)庫中,為后續(xù)的學(xué)習(xí)以及平臺(tái)運(yùn)營提供基礎(chǔ)條件,奠定海量數(shù)據(jù)應(yīng)用與挖掘分析的基礎(chǔ)。
首先由電商網(wǎng)站對(duì)用戶的數(shù)據(jù)進(jìn)行收集,主要包括電商平臺(tái)數(shù)據(jù)、移動(dòng)終端數(shù)據(jù)以及社交網(wǎng)絡(luò)數(shù)據(jù);隨后進(jìn)入數(shù)據(jù)預(yù)處理環(huán)節(jié)。分為數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)轉(zhuǎn)化以及數(shù)據(jù)抽取三部分。數(shù)據(jù)準(zhǔn)備包括交易數(shù)據(jù)、觀測數(shù)據(jù)以及互動(dòng)數(shù)據(jù),根據(jù)實(shí)際需要進(jìn)行解析與重構(gòu)[7];數(shù)據(jù)轉(zhuǎn)化則主要對(duì)結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行處理,包括對(duì)數(shù)據(jù)進(jìn)行過濾與映射;數(shù)據(jù)抽取主要為數(shù)據(jù)關(guān)聯(lián)與數(shù)據(jù)融合;接著進(jìn)入數(shù)據(jù)挖掘過程。需要對(duì)關(guān)聯(lián)的規(guī)則進(jìn)行分析,做好分類與相應(yīng)的聚類分析處理后,即可構(gòu)建相應(yīng)的數(shù)據(jù)模型,為后續(xù)的挖掘數(shù)據(jù)全面應(yīng)用奠定基礎(chǔ);最后是挖掘數(shù)據(jù)的正式應(yīng)用。可根據(jù)客戶的實(shí)際需要推薦計(jì)劃展示頁面,借助網(wǎng)頁數(shù)據(jù)挖掘與相應(yīng)的商品內(nèi)容搜索,保證客戶能夠獲得更為全面的平臺(tái)服務(wù)。過程中一旦發(fā)現(xiàn)異常情況即可進(jìn)行自動(dòng)定位,并將異常數(shù)據(jù)上傳至云端網(wǎng)絡(luò),由相應(yīng)的工作人員進(jìn)行快速處理。
過程中所收集的所有數(shù)據(jù)均需要進(jìn)行預(yù)處理,具有簡單化與獨(dú)立性特點(diǎn)的數(shù)據(jù)在解析與重構(gòu)后即可進(jìn)行數(shù)據(jù)轉(zhuǎn)換,并在數(shù)據(jù)過濾與科學(xué)抽取的條件下,解析出具有分析意義的相應(yīng)數(shù)據(jù),從而明確各個(gè)用戶群體的實(shí)際數(shù)據(jù)特點(diǎn),獲取到具有更高價(jià)值的知識(shí)數(shù)據(jù)[8]。該過程為將知識(shí)數(shù)據(jù)的應(yīng)用價(jià)值進(jìn)一步體現(xiàn),需要根據(jù)客戶的行為習(xí)慣以及電商平臺(tái)的學(xué)習(xí)特點(diǎn),展開對(duì)專業(yè)知識(shí)的解釋與數(shù)據(jù)的深入挖掘工作,并應(yīng)根據(jù)實(shí)際需要選擇使用合適的數(shù)據(jù)挖掘應(yīng)用方法,從而將大數(shù)據(jù)應(yīng)用優(yōu)勢予以全面發(fā)揮。
4. 基于MapReduce的聚類方法分析
4.1 聚類算法的分類
現(xiàn)階段未能出現(xiàn)一類能夠?qū)Χ嗑S數(shù)據(jù)及所呈現(xiàn)各類結(jié)構(gòu)進(jìn)行揭示的算法類型,一般使用聚類分析計(jì)算方法明確聚類模型、聚類密度以及對(duì)應(yīng)的使用網(wǎng)格。
首先是劃分方法。這種方法的應(yīng)用原理簡單來說就是聚類一堆散點(diǎn),需要達(dá)到的聚類效果是同類點(diǎn)足夠近或不同類點(diǎn)足夠遠(yuǎn),在過程最為常見的使用算法為K-means算法。此種算法的應(yīng)用優(yōu)勢在于可針對(duì)大型數(shù)據(jù)集進(jìn)行高效處理,無論是時(shí)間還是空間的復(fù)雜度均相對(duì)較低,但同樣具有優(yōu)先選擇k點(diǎn)較為敏感的應(yīng)用缺陷。
其次是基于層次的方法。這種方法一般包括層次聚類與分裂層次聚類,其核心原理在于各個(gè)點(diǎn)均作為底層聚類,并對(duì)聚類間的距離進(jìn)行計(jì)算,合并相近聚類并在達(dá)到終止條件后結(jié)束[9];分裂層次聚類以包含全部數(shù)據(jù)點(diǎn)的聚類為起點(diǎn),并能夠依據(jù)一定距離將子聚類進(jìn)行分裂,且能夠持續(xù)推進(jìn)分裂進(jìn)程,直至分裂為每個(gè)聚類只有一個(gè)對(duì)應(yīng)的數(shù)據(jù)點(diǎn)后即可結(jié)束,此過程最為常見的代表算法為BIRCH算法。從實(shí)際的算法應(yīng)用情況來看,不僅具有較好的可解釋性,且聚類所產(chǎn)生的數(shù)據(jù)質(zhì)量相對(duì)較高,但同樣有著較高的時(shí)間復(fù)雜度,即使在進(jìn)行后續(xù)的改進(jìn)處理后仍無法降低。
4.2 在評(píng)論語句聚類前所使用的關(guān)鍵技術(shù)
從當(dāng)下的大數(shù)據(jù)應(yīng)用環(huán)境來看,由于數(shù)據(jù)量相對(duì)較為龐大,因此想要將運(yùn)算效率進(jìn)一步提升需要針對(duì)數(shù)據(jù)展開相應(yīng)的分類與挖掘處理工作。一般需要聯(lián)合使用MapReduce框架,這也是需要在電商平臺(tái)中使用基于MapReduce語句聚類方法的主要原因。
獲得相應(yīng)的評(píng)論數(shù)據(jù)集后,即可展開相應(yīng)的預(yù)處理工作,可獲得經(jīng)過精練簡化處理的語句,用以將特征詞全部提取出來,包括分詞與過濾兩種操作。隨后即可對(duì)特征詞權(quán)重?cái)?shù)據(jù)進(jìn)行計(jì)算,該過程一般選擇使用TF-IDF計(jì)算方法,配合相似度計(jì)算方案即可在向量空間模型的幫助下,將獲取到的相似度數(shù)據(jù)轉(zhuǎn)化為相應(yīng)的距離,最后即可展開相應(yīng)的聚類操作[10]。通常使用K-means算法進(jìn)行聚類,并在MapReduce框架下達(dá)到并行處理的相應(yīng)目的。針對(duì)選取語句間的相似度方法,一般采取向量空間模型法,需要相關(guān)人員在對(duì)文本進(jìn)行向量化處理后,基于所獲得的向量夾角余弦值最終確定文本語句之間的相似度。
4.2.1 特征詞的選取
在對(duì)文本向量化進(jìn)行評(píng)價(jià)處理時(shí),一般不將全部的詞匯在向量中表示,以免浪費(fèi)性能,只需要顯示出能夠?qū)⒄Z句含義全部表達(dá)的詞語即可,該部分分詞也被稱為特征詞。
第一是分詞。分詞的操作簡單來說就是將原本完整的語句劃分為多個(gè)字或詞,一般使用軟件實(shí)現(xiàn)分詞操作。若想要將分詞準(zhǔn)確度進(jìn)一步提升,建議最大限度地將產(chǎn)品的屬性詞與相關(guān)領(lǐng)域的詞匯予以保留,從而使得保留的詞匯具有一定的語句意義,使得經(jīng)過處理后的詞匯仍然能夠表達(dá)出相應(yīng)的語句含義,這也是保證最終聚類效果的重要基礎(chǔ);
第二是去助詞、介詞及連詞。此類詞匯通常為虛詞,并不具備實(shí)際意義,因此在將相應(yīng)的語句去除后并不會(huì)影響語句的本身含義。此種方法可在將向量維度降低后仍能夠保證語句的語義信息,起到了運(yùn)算量簡化的重要作用;
第三是去代詞。雖然代詞并非虛詞,但代詞自身并不具有相應(yīng)的準(zhǔn)確含義,主要用于對(duì)某個(gè)主語進(jìn)行指代。因此在后續(xù)操作過程中,所使用的軟件算法并不會(huì)將其放在相應(yīng)的語境中獲取到相應(yīng)的指代含義,建議在對(duì)此語進(jìn)行過濾時(shí)選擇將其去除。
4.2.2 文本向量化表示
文本向量化簡單來說就是針對(duì)文本中的特征詞匯的句子向量的分量。在進(jìn)行分詞處理時(shí)需要基于所組建的過濾詞庫將不需要的部分完全去除,所獲得的特征詞集合則是構(gòu)建相似度計(jì)算模型的重要基礎(chǔ)。后續(xù)則需要對(duì)特征值在文本中所占據(jù)的權(quán)重進(jìn)行計(jì)算,從而明確空間向量的相應(yīng)數(shù)值,達(dá)到評(píng)論文本向量化的目的。
4.2.3 特征值權(quán)重
作為一種被經(jīng)常應(yīng)用的統(tǒng)計(jì)方法,TF-IDF被用于數(shù)據(jù)挖掘的加權(quán)過程,能夠?qū)σ活愇募凶衷~的重要程度進(jìn)行評(píng)估。一般來說文件中字詞的出現(xiàn)次數(shù)越多,則表示其重要性越高。TF為詞頻,簡單來說就是在文檔中所出現(xiàn)的語句頻率,在計(jì)算時(shí)需要將特征詞匯出現(xiàn)的次數(shù)除以文檔的總字?jǐn)?shù)。一般來說建議使用MapReduce框架,在Map階段統(tǒng)計(jì)各個(gè)節(jié)點(diǎn)所存儲(chǔ)的詞句,并在后續(xù)的Reduce階段完成對(duì)結(jié)果的匯總與計(jì)算。如此,不僅能夠?qū)⑦\(yùn)算速度進(jìn)一步加快,也能夠省略重復(fù)計(jì)算過程,縮短了權(quán)重的運(yùn)算時(shí)間,將算法的整體執(zhí)行效率全面提升。
結(jié)語
綜上所述,電子商務(wù)平臺(tái)在信息技術(shù)快速發(fā)展的背景下具備了強(qiáng)勢崛起的基礎(chǔ)條件,但需要注意的是互聯(lián)網(wǎng)仍然存在著自身的局限性。對(duì)于顧客來說,只能通過商家的宣傳了解產(chǎn)品的質(zhì)量,在無法辨別產(chǎn)品實(shí)際使用效果的情況下可能會(huì)出現(xiàn)一定的經(jīng)濟(jì)損失。為此需選擇使用針對(duì)海量評(píng)論數(shù)據(jù)的處理方案,將真正具有價(jià)值的信息進(jìn)行充分挖掘,為客戶提供商品選擇關(guān)鍵引導(dǎo)條件,從而保證平臺(tái)與商家的權(quán)益,這也是需要特別關(guān)注基于電商平臺(tái)大數(shù)據(jù)挖掘系統(tǒng)設(shè)計(jì)流程的主要原因。
參考文獻(xiàn):
[1]宋文智,白洪林,官潼筑,等.基于數(shù)據(jù)挖掘的跨境電商RCEP國別用戶畫像研究[J].中國新通信,2021,23(19):66-67.
[2]秦宇.基于人工智能的電商大數(shù)據(jù)分類與挖掘算法[J].電子技術(shù)與軟件工程,2021(14):146-147.
[3]郭燕萍.電商客戶數(shù)據(jù)挖掘中的模糊運(yùn)算聚類算法分析[J].現(xiàn)代電子技術(shù),2021,44(13):130-134.
[4]王治博.基于Hadoop的電商平臺(tái)用戶數(shù)據(jù)挖掘研究[D].北京:華北電力大學(xué),2021.
[5]賈咪雪.基于差分進(jìn)化粒子群算法的電商評(píng)論數(shù)據(jù)挖掘研究[D].上海:華中師范大學(xué),2021.
[6]楊晨.基于數(shù)據(jù)挖掘技術(shù)的電商用戶購買行為預(yù)測研究[D].南京:南京大學(xué),2021.
[7]吳濤.基于數(shù)據(jù)挖掘的電商客戶流失預(yù)測建模方法研究[J].安徽水利水電職業(yè)技術(shù)學(xué)院學(xué)報(bào),2021,21(1):37-40.
[8]張書月.數(shù)據(jù)挖掘技術(shù)在電商情感規(guī)律分析中的應(yīng)用研究[J].電腦知識(shí)與技術(shù),2021,17(5):258-259.
[9]劉洪博.基于數(shù)據(jù)挖掘的電商網(wǎng)紅帶貨向量影響因素分析與預(yù)測[D].北京:對(duì)外經(jīng)濟(jì)貿(mào)易大學(xué),2020.
[10]鐘磊.基于電商消費(fèi)大數(shù)據(jù)的客戶忠誠度預(yù)測方法研究[D].深圳:深圳大學(xué),2020.
作者簡介:索紅升,碩士研究生,研究方向:軟件工程。