李支元
摘 要:闡述了大數(shù)據(jù)時(shí)代數(shù)據(jù)挖掘的重要意義,介紹了大數(shù)據(jù)挖掘的一般常用方法,分析了相關(guān)系數(shù)與偏相關(guān)系數(shù)的計(jì)算過(guò)程,提出了偏相關(guān)技術(shù)在大數(shù)據(jù)挖掘中的應(yīng)用,通過(guò)大學(xué)城學(xué)生訂餐系統(tǒng)證明了偏相關(guān)技術(shù)在大數(shù)據(jù)挖掘中更能體現(xiàn)客觀性、準(zhǔn)確性。
關(guān)鍵詞:大數(shù)據(jù);訂餐系統(tǒng);偏相關(guān)分析技術(shù)
中圖分類號(hào):TP3-05 文獻(xiàn)標(biāo)識(shí)碼:A
Application of Ordering Meal System Partial Correlation
Analysis Technique Based on the Big Data
LI Zhiyuan
(Jiangsu College of Finance & Accounting,Lianyungang 222061,China)
Abstract:Significance of the era of big data mining are described in this paper.Introduces the data mining,and the commonly used methods,analyzes the calculation process of the correlation coefficient and partial correlation coefficient,proposed the partial correlation technique in data mining application,through the University City students ordering system prove the partial related technologies in data mining can reflect the objectivity and accuracy.
Keywords:big data;ordering system;partial correlation analysis technique
1 引言(Introduction)
當(dāng)前社會(huì)已經(jīng)進(jìn)入大數(shù)據(jù)時(shí)代,各種信息都可能產(chǎn)生海量數(shù)據(jù),分析大數(shù)據(jù)蘊(yùn)含的規(guī)律的過(guò)程和方法稱為數(shù)據(jù)挖掘,數(shù)據(jù)挖掘可理解為資料探勘、數(shù)據(jù)采礦,它是對(duì)包含海量信息的數(shù)據(jù)庫(kù)進(jìn)行知識(shí)發(fā)現(xiàn)的一個(gè)過(guò)程與步驟。數(shù)據(jù)挖掘的傳統(tǒng)方法有許多種,偏相關(guān)方法在數(shù)據(jù)挖掘中的應(yīng)用可以更好地體現(xiàn)挖掘結(jié)果的客觀性與準(zhǔn)確性[1]。
2 大數(shù)據(jù)挖掘的常用方法(Common methods for
big data mining)
大數(shù)據(jù)的挖掘涉及眾多學(xué)科,各種算法層出不窮,目前比較經(jīng)典的數(shù)據(jù)挖掘算法有:決策樹(shù)算法(C4.5算法):使用信息增益率進(jìn)行決策樹(shù)的構(gòu)造,能夠把連續(xù)性的信息數(shù)據(jù)轉(zhuǎn)變?yōu)殡x散的值,對(duì)不完整信息數(shù)據(jù)進(jìn)行處理。聚類算法(K-Means算法):基本思想是先選擇一組對(duì)象作為聚類中心,然后以這些對(duì)象為標(biāo)準(zhǔn),進(jìn)行相似度分配,要求各聚類內(nèi)部最大限度緊湊,而聚類之間最大限度的離散。向量機(jī)算法(SVM算法):核心思想就是要找出一個(gè)最好的分類線或面,使之相鄰的樣本中其最遠(yuǎn)。關(guān)聯(lián)算法(Apriori算法):通過(guò)支持度和置信度二個(gè)量進(jìn)行工作,通過(guò)頻繁項(xiàng)集減少算法的復(fù)雜度,另外還有分類回歸樹(shù)算法(CART算法)、最大期望算法(EM算法)、迭代算法(AdaBoos算法)、樸素貝葉斯算法(NB算法)、最近算法(KNN算法)、佩奇算法(PageRank算法)等。不同算法在大數(shù)據(jù)挖掘中各有側(cè)重點(diǎn),根據(jù)用戶需求選擇適合的算法技術(shù)[2]。
3 偏相關(guān)分析技術(shù)的算法過(guò)程(Algorithm process
of partial correlation technique)
偏相關(guān)技術(shù)也稱為“凈相關(guān)技術(shù)”,是指當(dāng)二個(gè)變量同時(shí)與第三個(gè)變量有關(guān)系時(shí),將第三個(gè)變量的影響去除,只計(jì)算二個(gè)變量之間相關(guān)程度的方法[3]。偏相關(guān)技術(shù)在分析某二個(gè)因素的相關(guān)程度時(shí),固定其他因素,可以得出更客觀準(zhǔn)確的結(jié)果。偏相關(guān)技術(shù)的核心指標(biāo)是偏相關(guān)系數(shù)。偏相關(guān)系數(shù)剔除其他因素的影響下,計(jì)算某二個(gè)因素之間的相關(guān)程度系數(shù),其絕對(duì)值的大小,反映了這二個(gè)因素之間相關(guān)程度的高低。
3.1 相關(guān)系數(shù)
假設(shè)有三個(gè)相互影響的因素,且之間的相關(guān)系數(shù)分別用表示。
可以得出,任意二個(gè)因素XY之間的相關(guān)系數(shù)可表示為[4]:
3.2 偏相關(guān)系數(shù)
同樣,假設(shè)有三個(gè)相互影響的因素,用表示不變時(shí)的偏相關(guān)系數(shù),表示不變時(shí)的偏相關(guān)系數(shù),表示不變時(shí)的偏相關(guān)系數(shù)。
可以得出,當(dāng)有q個(gè)因素時(shí),q階偏相關(guān)系數(shù)可表示為[5]:
4 偏相關(guān)分析技術(shù)在訂餐系統(tǒng)的實(shí)例分析(Partial
correlation analysis technology in instance
ordering meal system)
江蘇省連云港市花果山大道附近分布著多家高校,雖然各家高校都有自己的食堂,但滿足不了學(xué)生就餐多樣性的需求,某公司開(kāi)通了網(wǎng)上訂餐系統(tǒng),并通過(guò)對(duì)訂餐者的回訪、投票評(píng)價(jià)等活動(dòng),采集大量數(shù)據(jù),建立學(xué)生訂餐情況數(shù)據(jù)庫(kù),應(yīng)用偏相關(guān)技術(shù)對(duì)待數(shù)據(jù)挖掘,選取有代表性的100個(gè)樣本進(jìn)行分析。數(shù)據(jù)庫(kù)包含訂餐者的口味輕重,菜品的價(jià)格、份量、顏色、味道、外觀、衛(wèi)生、營(yíng)養(yǎng)、創(chuàng)意,送餐的速度、態(tài)度,各因素以10分制計(jì)算。
前期數(shù)據(jù)統(tǒng)計(jì)結(jié)果:口味的平均值為7.56,標(biāo)準(zhǔn)差為0.5463,價(jià)格的平均值為6.38,標(biāo)準(zhǔn)差為0.5219,份量的平均值為5.64,標(biāo)準(zhǔn)差為0.2697,顏色的平均值為3.79,標(biāo)準(zhǔn)差為0.2318,味道的平均值為5.61,標(biāo)準(zhǔn)差為0.3916,外觀的平均值為4.22,標(biāo)準(zhǔn)差為0.6145,衛(wèi)生的平均值為4.67,標(biāo)準(zhǔn)差為0.6158,營(yíng)養(yǎng)的平均值為3.97,標(biāo)準(zhǔn)差為0.5486,創(chuàng)意的平均值為8.29,標(biāo)準(zhǔn)差為0.1341,速度的平均值為6.21,標(biāo)準(zhǔn)差為0.1297,態(tài)度的平均值為9.48,標(biāo)準(zhǔn)差為0.6285。
根據(jù)上述數(shù)據(jù),使用偏相關(guān)系數(shù)公式,利用專門的計(jì)算軟件,計(jì)算各因素的偏相關(guān)系數(shù)表。
根據(jù)上表,不難看出,價(jià)格、份量、味道、衛(wèi)生、營(yíng)養(yǎng)、速度、態(tài)度幾個(gè)變量因素與評(píng)價(jià)結(jié)果的系數(shù)較高,分別是0.86、0.67、0.94、0.79、0.84、0.67、0.71這些因素對(duì)評(píng)價(jià)結(jié)果起著主要的影響,學(xué)生在訂餐過(guò)程中比較關(guān)注價(jià)格貴不貴、份量多不多、味道好不好,衛(wèi)生狀況如何、營(yíng)養(yǎng)價(jià)值如何、送餐速度快不快、服務(wù)人員態(tài)度好不好,與我們?cè)谏钪兴芨惺艿膶?shí)際情況相符;另外,還可以看出,味道與口味的偏相關(guān)系數(shù)較大,學(xué)生口味重的喜歡一種味道,口味輕的又喜歡另一種味道,還有價(jià)格與份量、營(yíng)養(yǎng)、創(chuàng)意的偏相關(guān)系數(shù)較大,顏色與外觀、創(chuàng)意的偏相關(guān)系數(shù)較大,外觀與創(chuàng)意的偏相關(guān)系數(shù)較大等等,某公司可以根據(jù)這些影響較大的因素進(jìn)行市場(chǎng)分析,調(diào)整菜品各項(xiàng)指標(biāo),更好地迎合訂餐的喜好,取得更好的經(jīng)營(yíng)成果。
5 結(jié)論(Conclusion)
闡述了大數(shù)據(jù)時(shí)代背景下海量信息中數(shù)據(jù)挖掘的重要意義,介紹了數(shù)據(jù)挖掘一些經(jīng)典算法,分析了相關(guān)系數(shù)與偏相關(guān)系數(shù)的計(jì)算過(guò)程,提出了偏相關(guān)技術(shù)在大數(shù)據(jù)挖掘中的應(yīng)用,并通過(guò)大學(xué)城學(xué)生訂餐系統(tǒng)實(shí)例研究,證明了偏相關(guān)技術(shù)在大數(shù)據(jù)挖掘中更能體現(xiàn)客觀性、準(zhǔn)確性,從而為經(jīng)營(yíng)決策提供更科學(xué)的參考。
參考文獻(xiàn)(References)
[1] 劉慶.基于大數(shù)據(jù)的數(shù)據(jù)挖掘基本技術(shù)探究[J].現(xiàn)代工業(yè)經(jīng)濟(jì)與信息化,2015(7):79-81.
[2] 李國(guó)晶,王景強(qiáng).數(shù)據(jù)挖掘技術(shù)與數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn)[J].科技咨詢,2006(28):17-19.
[3] 黃解軍,潘和平,萬(wàn)幼川.數(shù)據(jù)挖掘技術(shù)的應(yīng)用研究[J].計(jì)算機(jī)工程與應(yīng)用,2003(2):35-37.
[4] 倪德友,孫愛(ài)峰,高芳.偏相關(guān)分析在教育研究中的應(yīng)用[J].衛(wèi)生職業(yè)教育,2003(21):47-48.
[5] 嚴(yán)麗坤.相關(guān)系數(shù)與偏相關(guān)系數(shù)在相關(guān)分析中的應(yīng)用[J].云南財(cái)貿(mào)學(xué)院學(xué)報(bào),2003(3):78-80.