楊維娜,姜軍霞
(西安汽車(chē)職業(yè)大學(xué),陜西 西安 710600)
近年來(lái),隨著交通事業(yè)快速發(fā)展,二手車(chē)交易市場(chǎng)日益火爆,在互聯(lián)網(wǎng)時(shí)代背景下,二手車(chē)交易信息系統(tǒng)逐漸成為買(mǎi)賣(mài)雙方彼此進(jìn)行交易的重要平臺(tái),但在二手車(chē)交易系統(tǒng)中,往往存在諸多復(fù)雜、大規(guī)模的冗余信息,如車(chē)輛出售信息、拍賣(mài)信息、交易信息等,這些信息對(duì)于某些特定用戶來(lái)講,都有著重要參考價(jià)值,基于此,本文希望通過(guò)二手車(chē)交易系統(tǒng)中數(shù)據(jù)挖掘技術(shù)應(yīng)用研究,挖掘掌握其中的數(shù)據(jù)規(guī)律,為二手車(chē)交易提供參考。
數(shù)據(jù)挖掘是指從大規(guī)模、海量的數(shù)據(jù)中提取或挖掘有價(jià)值的信息或知識(shí),數(shù)據(jù)挖掘的過(guò)程可以理解為從數(shù)據(jù)集中挖掘潛在有用信息并對(duì)其進(jìn)行高級(jí)處理的過(guò)程,其中包含了大量規(guī)律、模式、概念、規(guī)則、約束、條件等內(nèi)容,通過(guò)數(shù)據(jù)挖掘,可以幫助用戶進(jìn)行決策。
數(shù)據(jù)挖掘是一項(xiàng)系統(tǒng)的工程,它一般分為數(shù)據(jù)選擇(從邏輯數(shù)據(jù)庫(kù)中選擇被挖掘數(shù)據(jù))、數(shù)據(jù)預(yù)處理、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)挖掘和數(shù)據(jù)分析幾個(gè)步驟,首先在數(shù)據(jù)挖掘前需要定義業(yè)務(wù)對(duì)象,然后根據(jù)關(guān)聯(lián)規(guī)則,從不同數(shù)據(jù)源中整理數(shù)據(jù),在數(shù)據(jù)準(zhǔn)備階段,需要進(jìn)行數(shù)據(jù)選擇,數(shù)據(jù)的預(yù)處理,數(shù)據(jù)的轉(zhuǎn)換,最終才能實(shí)現(xiàn)知識(shí)的同化。其中,關(guān)聯(lián)規(guī)則為用戶進(jìn)行數(shù)據(jù)篩選提供了合適的支持度和置信度,以便于在數(shù)據(jù)挖掘中可以發(fā)現(xiàn)和找出所有頻繁項(xiàng)集,根據(jù)預(yù)設(shè)條件自動(dòng)生成強(qiáng)關(guān)聯(lián)規(guī)則,并輸出關(guān)聯(lián)規(guī)則集合。
基于FP樹(shù)的頻繁項(xiàng)目集挖掘算法又稱(chēng)“FP-growth算法”,它是由韓家煒等人在Apriori算法基礎(chǔ)上提出的一種新的算法,這種算法的基本思想和原理是,在同一棵FP樹(shù)上壓縮所有的原始數(shù)據(jù)集,并進(jìn)行二次掃描。與傳統(tǒng)的算法相比,F(xiàn)P-growth算法在數(shù)據(jù)挖掘中,并不產(chǎn)生候選項(xiàng)目集,所以數(shù)據(jù)挖掘效率和質(zhì)量更高。
FP-growth算法在數(shù)據(jù)挖掘過(guò)程中,通常分為兩個(gè)階段,首先需要對(duì)數(shù)據(jù)庫(kù)D進(jìn)行掃描,并構(gòu)造FP-tree,得到結(jié)果集L,其次,要對(duì)根節(jié)點(diǎn)null進(jìn)行創(chuàng)建,選擇頻繁項(xiàng)進(jìn)行結(jié)果集排序,然后再進(jìn)行FP-tree挖掘。這種數(shù)據(jù)挖掘方法基于頻繁模式進(jìn)行遞歸挖掘,省去了數(shù)據(jù)挖掘中的候選測(cè)試環(huán)節(jié),數(shù)據(jù)庫(kù)無(wú)須重復(fù)掃描,結(jié)構(gòu)緊湊,搜索開(kāi)銷(xiāo)較低,數(shù)據(jù)挖掘效率較高,因此將其運(yùn)用到二手車(chē)交易系統(tǒng)數(shù)據(jù)挖掘中是切實(shí)可行的,具體步驟流程如圖1所示。
圖1 算法步驟
本研究采用的二手車(chē)交易系統(tǒng)數(shù)據(jù)挖掘技術(shù)操作工作平臺(tái)為“Windows 11”系統(tǒng),使用的數(shù)據(jù)挖掘計(jì)算機(jī)處理語(yǔ)言為“C#”語(yǔ)言,應(yīng)用的計(jì)算機(jī)開(kāi)發(fā)平臺(tái)為Microsoft Visual Studio 2015,計(jì)算機(jī)處理系統(tǒng)的實(shí)際運(yùn)行內(nèi)存為4 GB,CPU為intel 2.6 GHz,在數(shù)據(jù)挖掘過(guò)程中,本研究主要采用FP-growth算法(基于FP樹(shù)的頻繁項(xiàng)目集挖掘算法),對(duì)某二手車(chē)交易系統(tǒng)數(shù)據(jù)庫(kù)中的相關(guān)使用年限、行駛里程、車(chē)載人數(shù)、車(chē)輛價(jià)格、車(chē)輛品牌等相關(guān)數(shù)據(jù)進(jìn)行挖掘。
本研究在數(shù)據(jù)挖掘前,搜集整理了某二手車(chē)交易系統(tǒng)數(shù)據(jù)庫(kù)從2020年3月—2022年5月中旬的所有數(shù)據(jù)信息,這些數(shù)據(jù)主要包含訂單信息、車(chē)輛管理信息、車(chē)輛拍賣(mài)信息以及二手車(chē)基本信息等。
在數(shù)據(jù)挖掘前,本研究考慮到該二手車(chē)交易平臺(tái)中交易系統(tǒng)數(shù)據(jù)庫(kù)中的相關(guān)原始數(shù)據(jù)信息均未經(jīng)過(guò)數(shù)據(jù)處理,因此有些數(shù)據(jù)存在信息冗余和失真情況,比如二手車(chē)的顏色、類(lèi)型、品牌、價(jià)格、年限、出售人姓名以及車(chē)載人數(shù)、車(chē)輛使用年限、保養(yǎng)狀況等,這些信息中,有些數(shù)據(jù)并沒(méi)有實(shí)際的使用價(jià)值,如二手車(chē)出售人的地址、姓名、電話信息等,均毫無(wú)數(shù)據(jù)挖掘價(jià)值,對(duì)于這些無(wú)用的數(shù)據(jù)信息來(lái)講,如果不加以排除和預(yù)處理,必然會(huì)影響到數(shù)據(jù)挖掘的效率和準(zhǔn)確性,因此在數(shù)據(jù)挖掘前,必須要針對(duì)這些冗余無(wú)用信息數(shù)據(jù)進(jìn)行預(yù)處理。以下為具體應(yīng)用步驟。
3.2.1 將無(wú)效數(shù)據(jù)刪除
(1)將二手車(chē)交易系統(tǒng)數(shù)據(jù)庫(kù)中無(wú)用的數(shù)據(jù)屬性刪除,如二手車(chē)出售人模塊中的出售人姓名、地址、電話及購(gòu)車(chē)人模塊中的購(gòu)車(chē)人姓名、地址、電話等,這些數(shù)據(jù)信息對(duì)于本研究數(shù)據(jù)挖掘工作而言,沒(méi)有實(shí)際意義,因此可以將其從無(wú)效數(shù)據(jù)字段中予以刪除。
(2)將二手車(chē)交易系統(tǒng)各表中的臟數(shù)據(jù)、無(wú)用數(shù)據(jù)及不一致數(shù)據(jù)、不完整數(shù)據(jù)全部刪除。例如,購(gòu)車(chē)人、車(chē)輛出售人等相關(guān)用戶注冊(cè)信息模塊中前后不一致、錯(cuò)誤及不完整的數(shù)據(jù)信息均可刪除。
3.2.2 對(duì)部分?jǐn)?shù)據(jù)進(jìn)行整理、歸類(lèi)和轉(zhuǎn)換
在數(shù)據(jù)預(yù)處理階段,需要針對(duì)某二手車(chē)交易數(shù)據(jù)庫(kù)中的部分?jǐn)?shù)據(jù)進(jìn)行整理、歸類(lèi)和轉(zhuǎn)換,其中包含二手車(chē)車(chē)輛品牌、顏色、類(lèi)型、里程、價(jià)格、人數(shù)、保養(yǎng)狀況、年限、購(gòu)車(chē)人職業(yè)、性別和年齡等??紤]到該二手車(chē)交易數(shù)據(jù)庫(kù)中的原始數(shù)據(jù)表中的有些數(shù)據(jù)不屬于“布爾型”數(shù)據(jù)結(jié)構(gòu),因此與關(guān)聯(lián)規(guī)則挖掘算法基本規(guī)則明顯不符,為了確保數(shù)據(jù)庫(kù)中的相關(guān)數(shù)據(jù)信息與本研究采用的關(guān)聯(lián)規(guī)則挖掘算法保持對(duì)應(yīng)和一致,需要對(duì)其中的原始數(shù)據(jù)進(jìn)行離散化轉(zhuǎn)換處理:
(1)二手車(chē)交易數(shù)據(jù)庫(kù)中原始數(shù)據(jù)量化屬性區(qū)間化和離散化?!癋P-growth關(guān)聯(lián)規(guī)則挖掘算法”要求將二手車(chē)交易數(shù)據(jù)庫(kù)中的部分?jǐn)?shù)值型原始數(shù)據(jù)進(jìn)行量化屬性區(qū)間化和離散化處理。比如,根據(jù)“布爾型”二手車(chē)交易數(shù)據(jù)庫(kù)中原始數(shù)據(jù)的實(shí)際取值分布規(guī)律,對(duì)二手車(chē)交易數(shù)據(jù)庫(kù)中數(shù)值型的屬性行駛里程進(jìn)行區(qū)間化和離散化,即表示為:20(≤3萬(wàn)千米)、21(3萬(wàn)~7萬(wàn)千米)、22(7萬(wàn)~11萬(wàn)千米)、23(11萬(wàn)~19萬(wàn)千米)、24(19萬(wàn)~29萬(wàn)千米)、25(29萬(wàn)~39萬(wàn)千米)、26(39萬(wàn)~49萬(wàn)千米)、27(49萬(wàn)~59萬(wàn)千米)、28(59萬(wàn)千米以上),由此類(lèi)推,本二手車(chē)交易數(shù)據(jù)庫(kù)中的其他部分?jǐn)?shù)值也可按照此方法進(jìn)行數(shù)值屬性轉(zhuǎn)化,將數(shù)值型的屬性數(shù)據(jù)劃分為分別包含幾個(gè)區(qū)間的布爾型數(shù)據(jù),最終均轉(zhuǎn)化為數(shù)字。
(2)二手車(chē)交易數(shù)據(jù)庫(kù)中原始數(shù)據(jù)類(lèi)別屬性轉(zhuǎn)化。在數(shù)據(jù)挖掘過(guò)程中,二手車(chē)交易數(shù)據(jù)庫(kù)中原始數(shù)據(jù)的“備選屬性”同樣也需要進(jìn)行類(lèi)別轉(zhuǎn)換,例如,二手車(chē)交易數(shù)據(jù)庫(kù)中的性別屬性原始數(shù)據(jù),在數(shù)據(jù)挖掘前,也需要全部轉(zhuǎn)換為包含幾個(gè)具體區(qū)間的布爾類(lèi)型數(shù)據(jù),如67(男)、68(女),按照此方法由此類(lèi)推,本二手車(chē)交易數(shù)據(jù)庫(kù)中的其他部分?jǐn)?shù)值也可按照此方法進(jìn)行數(shù)值屬性轉(zhuǎn)化,將數(shù)值型的屬性數(shù)據(jù)劃分為分別包含幾個(gè)區(qū)間的布爾型數(shù)據(jù),最終均轉(zhuǎn)化為數(shù)字。接下來(lái),本文就此舉例展開(kāi)具體分析和說(shuō)明,本二手車(chē)交易數(shù)據(jù)庫(kù)中一些備選項(xiàng)屬性記錄的字段名含義、屬性名稱(chēng)對(duì)應(yīng)關(guān)系以及經(jīng)數(shù)據(jù)轉(zhuǎn)換后的事務(wù)數(shù)據(jù)統(tǒng)計(jì)如表1至表3所示。
表1 二手車(chē)交易數(shù)據(jù)字段名
表2 二手車(chē)交易數(shù)據(jù)對(duì)應(yīng)關(guān)系
表3 二手車(chē)交易數(shù)據(jù)挖掘轉(zhuǎn)換后的事務(wù)數(shù)據(jù)
基于上述算法關(guān)聯(lián)對(duì)應(yīng)規(guī)則,本研究通過(guò)對(duì)經(jīng)整理與轉(zhuǎn)換后的二手車(chē)交易系統(tǒng)預(yù)處理數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,以上數(shù)據(jù)經(jīng)合并、整合和數(shù)據(jù)預(yù)處理,分類(lèi)為消費(fèi)者行為偏好、滿意度、忠誠(chéng)度、個(gè)人信息四部分,如圖2所示。
圖2 二手車(chē)交易系統(tǒng)“消費(fèi)者行為偏好”數(shù)據(jù)
我們研究所需要的挖掘數(shù)據(jù)除了部分客戶個(gè)人統(tǒng)計(jì)特征數(shù)據(jù)、行為偏好數(shù)據(jù)、滿意數(shù)據(jù)、忠誠(chéng)度數(shù)據(jù)之外,還需將轉(zhuǎn)換后的事務(wù)數(shù)據(jù)輸入數(shù)據(jù)挖掘計(jì)算機(jī)系統(tǒng)中,分別設(shè)定最小支持度和最小置信度,其中=7%,=28%,由此基于FP樹(shù)的頻繁項(xiàng)目集挖掘算法輸出頻繁項(xiàng)集,并得到如表4所示的數(shù)據(jù)挖掘結(jié)果。
表4 基于FP—growth算法的二手車(chē)交易系統(tǒng)數(shù)據(jù)挖掘結(jié)果
通過(guò)數(shù)據(jù)挖掘整理,根據(jù)表4中數(shù)據(jù)統(tǒng)計(jì)結(jié)果可以看出,二手車(chē)交易數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則A表示黑色奔馳MPV汽車(chē)行駛里程在5~9千米范圍之內(nèi)的二手車(chē)比較受二手車(chē)購(gòu)買(mǎi)車(chē)主的歡迎,而二手車(chē)交易數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則B表示寶馬SAV行車(chē)年限在3~5年之內(nèi)的汽車(chē)比較受男性車(chē)主的歡迎,規(guī)則C表示行駛里程在3~7年的路虎轎車(chē)更受女性購(gòu)車(chē)主的青睞,規(guī)則D表示行駛里程在50~90千米的白色捷達(dá)轎車(chē)更受男性購(gòu)車(chē)者的青睞,規(guī)則E表示行駛年限在3~7年,并且汽車(chē)行駛里程在30~100千米之內(nèi)的銀色別克轎車(chē)更受女性購(gòu)車(chē)主的歡迎,規(guī)則F則表示行駛年限在1~2年的MPV紅旗轎車(chē)比較受男士的青睞,而且在二手車(chē)交易市場(chǎng)中成交數(shù)量較大。
本研究基于P樹(shù)的頻繁項(xiàng)目集挖掘算法,對(duì)某二手車(chē)交易系統(tǒng)中的車(chē)輛品牌、顏色、類(lèi)型、行駛里程、行駛年限、買(mǎi)售人性別等相關(guān)數(shù)據(jù)信息進(jìn)行分析和對(duì)比,基于FP-growth和FP-tree算法關(guān)聯(lián)規(guī)則,挖掘和總結(jié)其中的數(shù)據(jù)分布規(guī)律,從而為二手車(chē)市場(chǎng)中售車(chē)主與購(gòu)買(mǎi)者雙方的信息交互提供了良好的價(jià)值載體。本研究認(rèn)為,在數(shù)據(jù)挖掘過(guò)程中,基于算法關(guān)聯(lián)規(guī)則對(duì)二手車(chē)交易系統(tǒng)中的數(shù)據(jù)信息進(jìn)行挖掘時(shí),必須要充分做好數(shù)據(jù)挖掘前的數(shù)據(jù)篩選和數(shù)據(jù)準(zhǔn)備及數(shù)據(jù)選擇工作,結(jié)合數(shù)據(jù)挖掘目標(biāo),通過(guò)設(shè)定核實(shí)的最小置信度和支持度,從而為合理地進(jìn)行數(shù)據(jù)挖掘提供基礎(chǔ)。如果數(shù)據(jù)挖掘的參數(shù)值設(shè)定過(guò)大或過(guò)小,都會(huì)對(duì)最終的數(shù)據(jù)挖掘結(jié)果產(chǎn)生影響,從而不利于關(guān)聯(lián)規(guī)則的運(yùn)行,由此可能會(huì)導(dǎo)致資源浪費(fèi),數(shù)據(jù)冗余,只有基于數(shù)據(jù)挖掘原理與算法進(jìn)行數(shù)據(jù)預(yù)處理,經(jīng)過(guò)數(shù)據(jù)量化屬性離散化、類(lèi)別屬性轉(zhuǎn)化,才能對(duì)整理和轉(zhuǎn)換后的二手車(chē)交易信息進(jìn)行有效性挖掘。