王致遠(yuǎn)
摘 要:本文對數(shù)據(jù)挖掘技術(shù)進(jìn)行簡要介紹,并對技術(shù)特點(diǎn)進(jìn)行分析,最后闡述其在研究生招生信息挖掘中的應(yīng)用流程與方法,通過確定目標(biāo)、數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘、數(shù)據(jù)評估等對有意義、有價(jià)值的統(tǒng)計(jì)信息進(jìn)行挖掘,力求能夠?qū)?jīng)濟(jì)統(tǒng)計(jì)有所幫助。
關(guān)鍵詞:數(shù)據(jù)挖掘技術(shù);經(jīng)濟(jì)統(tǒng)計(jì);應(yīng)用方法
一、數(shù)據(jù)挖掘技術(shù)簡介
數(shù)據(jù)挖掘技術(shù)的應(yīng)用原理較為簡單,主要是將原本復(fù)雜的數(shù)據(jù)進(jìn)行精簡,然后將有價(jià)值的、滿足實(shí)際需求的信息提取出來,經(jīng)過整理與分析后進(jìn)行利用,達(dá)到提高數(shù)據(jù)利用率的目的。該技術(shù)在應(yīng)用中需要先進(jìn)技術(shù)的支持,如模糊概念、模塊識(shí)別、數(shù)據(jù)庫系統(tǒng)、知識(shí)篩選技術(shù)等,通過相應(yīng)算法的應(yīng)用,使原始數(shù)據(jù)得到有效的挖掘整理,最終形成一套簡潔明了的統(tǒng)計(jì)數(shù)據(jù),為使用者的數(shù)據(jù)提取與應(yīng)用提供極大的便利[1]。
二、經(jīng)濟(jì)統(tǒng)計(jì)中數(shù)據(jù)挖掘技術(shù)的特點(diǎn)
(一)工作效率較高
在經(jīng)濟(jì)統(tǒng)計(jì)方面,數(shù)據(jù)挖掘技術(shù)的應(yīng)用具有較大優(yōu)勢,受該技術(shù)自身特點(diǎn)影響,與其他技術(shù)相比,在工作效率方面的優(yōu)勢較為顯著。該技術(shù)作為一種新型的數(shù)據(jù)深加工技術(shù),自身的目的性較強(qiáng),在實(shí)際應(yīng)用中,通常以兩種形式展現(xiàn),一是對經(jīng)濟(jì)類數(shù)據(jù)的高效處理,二是對現(xiàn)有數(shù)據(jù)的高效處理,無論二者中的哪一種,均可在經(jīng)濟(jì)統(tǒng)計(jì)領(lǐng)域中得以充分體現(xiàn),呈現(xiàn)出較強(qiáng)的高效性。
(二)擁有充足的數(shù)據(jù)支持
將數(shù)據(jù)挖掘技術(shù)引入經(jīng)濟(jì)統(tǒng)計(jì)中,其對宏觀數(shù)據(jù)具有較強(qiáng)的適應(yīng)性,如同擁有一個(gè)展示功能的平臺(tái),以更加新穎、高效的方式展示自身特性。在經(jīng)濟(jì)統(tǒng)計(jì)領(lǐng)域中,對數(shù)據(jù)分析的準(zhǔn)確性有嚴(yán)格的要求,并且在處理速度方面也有規(guī)定,而挖掘技術(shù)的應(yīng)用剛好能滿足這一條件,它擁有充足的數(shù)據(jù)支持,經(jīng)過分析和統(tǒng)計(jì)的數(shù)據(jù)更加科學(xué)高效。
(三)綜合應(yīng)用性良好
現(xiàn)階段,數(shù)據(jù)挖掘技術(shù)逐漸滲透到諸多領(lǐng)域,具有較強(qiáng)的綜合應(yīng)用性能,主要體現(xiàn)在數(shù)據(jù)物理分析、經(jīng)濟(jì)統(tǒng)計(jì)、數(shù)學(xué)統(tǒng)計(jì)等方面。該技術(shù)蘊(yùn)含較大的挖掘能力、統(tǒng)計(jì)能力,還具有強(qiáng)大的自動(dòng)分析與統(tǒng)計(jì)作用,可幫助使用者良好高效地完成數(shù)據(jù)處理工作。將該技術(shù)應(yīng)用到經(jīng)濟(jì)統(tǒng)計(jì)中,在經(jīng)濟(jì)數(shù)據(jù)挖掘、整理與歸類等方面發(fā)揮極大作用,為使用者的工作帶來極大的便利[2]。
三、經(jīng)濟(jì)統(tǒng)計(jì)中數(shù)據(jù)挖掘技術(shù)的應(yīng)用
(一)應(yīng)用流程
1.確定目標(biāo)。在數(shù)據(jù)挖掘技術(shù)應(yīng)用的初始時(shí)期,應(yīng)由經(jīng)濟(jì)領(lǐng)域的專家學(xué)者對被挖掘的數(shù)據(jù)進(jìn)行目標(biāo)定位,定位效果對數(shù)據(jù)挖掘結(jié)果具有決定性作用??梢姡跏寄繕?biāo)確定不可忽視,應(yīng)在定義的過程中,對算法進(jìn)行推算,確保目標(biāo)準(zhǔn)確無誤。此外,定義要求是在現(xiàn)實(shí)需求的基礎(chǔ)上推理而成。
2.數(shù)據(jù)準(zhǔn)備。在挖掘技術(shù)應(yīng)用中,數(shù)據(jù)準(zhǔn)備十分關(guān)鍵,且花費(fèi)的時(shí)間最長,主要分為三個(gè)階段來完成,即數(shù)據(jù)選取、數(shù)據(jù)處理與變化分析。在數(shù)據(jù)選取方面,可將宏觀數(shù)據(jù)庫中的全部信息進(jìn)行篩選,并定義為目標(biāo)區(qū)數(shù)據(jù);在數(shù)據(jù)處理中,對排列后的信息進(jìn)行初步篩選,所選擇的數(shù)據(jù)應(yīng)與要求相符;在變換分析方面,針對選取出的數(shù)據(jù)進(jìn)行精簡,屬于數(shù)據(jù)深入選取,最后得出與目標(biāo)相符的信息。
3.數(shù)據(jù)挖掘。該階段的主要目標(biāo)在于預(yù)定算法,利用合理的算法對變換的數(shù)據(jù)源進(jìn)行選擇后,再進(jìn)行深入挖掘。在算法初步預(yù)定完成后,便可開展數(shù)據(jù)模塊計(jì)算,該流程需要專家與專業(yè)挖掘人員來完成,因此該項(xiàng)工作也是挖掘的核心所在。
4.數(shù)據(jù)評估。通過上述步驟的實(shí)施得出最終結(jié)果,由使用者對該結(jié)果進(jìn)行分析,將分析結(jié)果全面展示出來,并對數(shù)據(jù)價(jià)值進(jìn)行評估,經(jīng)過嚴(yán)格的選取后將有意義、有價(jià)值的信息保存下來,將無效信息剔除。若經(jīng)過上述操作后得出的數(shù)據(jù)與要求不符,系統(tǒng)將自動(dòng)返回上一步,如此反復(fù)循環(huán),直至數(shù)據(jù)與要求相符。
(二)對研究生招生信息的挖掘
在本文研究中對浙江寧波考點(diǎn)的報(bào)考數(shù)據(jù)(2015—2019年)進(jìn)行數(shù)據(jù)挖掘與分析,主要采用以下幾種挖掘技術(shù)。
1.預(yù)處理方法。在應(yīng)用預(yù)處理方法時(shí),需結(jié)合數(shù)據(jù)挖掘技術(shù),才可實(shí)現(xiàn)預(yù)期目標(biāo),對當(dāng)?shù)匮芯可猩畔⑦M(jìn)行深入有效的挖掘。在數(shù)據(jù)預(yù)處理過程中,可采用均值處理的方式,將數(shù)據(jù)中的噪聲和數(shù)據(jù)點(diǎn)空值剔除,數(shù)據(jù)中的空白得到彌補(bǔ)。當(dāng)挖掘系統(tǒng)的基礎(chǔ)數(shù)據(jù)結(jié)構(gòu)完善時(shí),統(tǒng)計(jì)分析數(shù)據(jù)的真實(shí)準(zhǔn)確性才可得到切實(shí)保障,數(shù)據(jù)點(diǎn)取值公式為:
式中,Ci代表的是數(shù)據(jù)點(diǎn)空值;k代表的是實(shí)際權(quán)值。在采用平滑法進(jìn)行數(shù)據(jù)處理時(shí),可對數(shù)據(jù)空值與噪聲值進(jìn)行統(tǒng)一計(jì)算,并與加權(quán)平均數(shù)機(jī)制融合,對數(shù)據(jù)影響權(quán)重值進(jìn)行提取,確保實(shí)際計(jì)算結(jié)果真實(shí)可靠。
2.集成處理法。該方法主要體現(xiàn)在兩個(gè)層面,一是冗余問題,二是模式集成。在挖掘研究生招生信息時(shí)會(huì)對數(shù)據(jù)進(jìn)行集成處理,為后續(xù)工作提供便利。同時(shí),對于經(jīng)過預(yù)處理后的信息應(yīng)進(jìn)行冗余清除,確保數(shù)據(jù)庫中信息量處于較低的水平。對模式集成來說,經(jīng)濟(jì)活動(dòng)中的數(shù)據(jù)量龐大、類型眾多,應(yīng)系統(tǒng)地對經(jīng)濟(jì)數(shù)據(jù)集成結(jié)果進(jìn)行處理,在應(yīng)用挖掘技術(shù)時(shí),對比元數(shù)據(jù)模塊,使識(shí)別率得到切實(shí)的保障,與質(zhì)量標(biāo)準(zhǔn)規(guī)定相符合。在冗余問題方面,從本質(zhì)上來看,數(shù)據(jù)挖掘?qū)儆谏罴庸み^程,要想提高信息價(jià)值,應(yīng)構(gòu)建技術(shù)模型,對正向關(guān)系進(jìn)行精簡,對冗余屬性進(jìn)行綜合分析,使數(shù)據(jù)得到細(xì)化處理。以研究生招生信息為例,利用報(bào)考學(xué)位類別與生源地進(jìn)行計(jì)算,需要對數(shù)據(jù)進(jìn)行精簡,公式為:
式中,rAB代表的是冗余屬性;A與B屬性的平均值可用與來表示;σA與σB代表的是A與B屬性的標(biāo)準(zhǔn)方差。如若所得的rAB數(shù)值超過0,則二者屬性為正比例關(guān)系;如若rAB的數(shù)值為0,說明二者無直接聯(lián)系,即處于獨(dú)立狀態(tài);如若所得的rAB數(shù)值小于0,則二者屬性為反比例關(guān)系,且rAB的絕對值越大,說明二者間的關(guān)系越緊密。
3.決策樹法。決策樹屬于應(yīng)用較為頻繁的方法,先利用訓(xùn)練集構(gòu)建決策樹,在此基礎(chǔ)上進(jìn)行數(shù)據(jù)分類,還應(yīng)做好后面的“剪枝”工作。在決策樹結(jié)構(gòu)建立時(shí),可從兩個(gè)方面著手:一方面,構(gòu)建數(shù)據(jù)輸出模型,利用訓(xùn)練集建立決策樹,并對其進(jìn)行精簡;另一方面,針對已經(jīng)建成的決策樹,應(yīng)進(jìn)行數(shù)據(jù)分類,從樹根處開始,由下至上到達(dá)樹枝。在應(yīng)用過程中,應(yīng)充分發(fā)揮訓(xùn)練集的作用,立足于實(shí)際問題與參數(shù),科學(xué)有效地構(gòu)建可行性的分析方法,在較短的時(shí)間內(nèi)構(gòu)建數(shù)據(jù)分析模型。同時(shí),還應(yīng)利用決策樹對數(shù)據(jù)進(jìn)行歸類,使遞歸優(yōu)勢得到充分發(fā)揮,可輸出與歸類要求相符的數(shù)據(jù)。通過數(shù)據(jù)挖掘可知,在報(bào)考專業(yè)碩士學(xué)位中,主要集中在以下幾個(gè)專業(yè):工程碩士為53%,教育碩士為5.3%,公共管理碩士為6.0%,法律碩士為7.7%,農(nóng)業(yè)推廣為6.0%。值得注意的是,歸類條件較為嚴(yán)格,在節(jié)點(diǎn)數(shù)據(jù)的級(jí)別相同時(shí),處于停止條件,在具有分類屬性時(shí),對輸入數(shù)據(jù)進(jìn)行二次分割,即停止分類。在此過程中,利用決策樹完成數(shù)據(jù)統(tǒng)計(jì),定期進(jìn)行“剪枝”,規(guī)避起伏影響,最大限度地提高數(shù)據(jù)穩(wěn)定性與實(shí)效性。
綜上所述,在現(xiàn)代化經(jīng)濟(jì)發(fā)展中,經(jīng)濟(jì)統(tǒng)計(jì)價(jià)值逐漸提升,需要積極引入數(shù)據(jù)挖掘技術(shù),立足于市場實(shí)際情況,挖掘和分析有意義、有價(jià)值的信息,構(gòu)建有效性較強(qiáng)的經(jīng)濟(jì)決策,為經(jīng)濟(jì)統(tǒng)計(jì)活動(dòng)的開展提供充足的信息支持,促進(jìn)數(shù)據(jù)挖掘技術(shù)的不斷更新優(yōu)化,為國內(nèi)市場經(jīng)濟(jì)穩(wěn)健發(fā)展貢獻(xiàn)更多的力量。
參考文獻(xiàn)
[1]董靜.試析數(shù)據(jù)挖掘技術(shù)在經(jīng)濟(jì)統(tǒng)計(jì)中的應(yīng)用[J].商,2018(31):227-228.
[2]張麗麗.試析數(shù)據(jù)挖掘技術(shù)在經(jīng)濟(jì)統(tǒng)計(jì)中的應(yīng)用[J].中國商貿(mào),2018(01):13-14.