周宏印 南京萊斯信息技術(shù)股份有限公司
導(dǎo)言:計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)的出現(xiàn)時(shí)間較短,但是應(yīng)用范圍擴(kuò)展特別迅速,這是一項(xiàng)結(jié)合計(jì)算機(jī)技術(shù)和統(tǒng)計(jì)學(xué),以及最新的云設(shè)施的新技術(shù),所以不能把它簡(jiǎn)單歸類在統(tǒng)計(jì)技術(shù)或計(jì)算機(jī)技術(shù)中。在信息化時(shí)代,信息數(shù)量在成幾何數(shù)字增加,但是對(duì)于數(shù)據(jù)的檢索卻變得十分困難,原有的搜素引擎只能搜索到小部分?jǐn)?shù)據(jù)。但是想要更多的數(shù)據(jù)就要采用數(shù)據(jù)挖掘的手段。數(shù)據(jù)搜索采用多個(gè)方面的搜素,首先對(duì)信息對(duì)象的文件屬性,特征查找,然后對(duì)信息的不同角度進(jìn)行處理。
所謂數(shù)據(jù)挖掘技術(shù),就是幫助人們?cè)诒姸嘈畔⒅胁檎页鏊枰畔⒌囊环N技術(shù),該技術(shù)在我國(guó)出現(xiàn)的時(shí)間比較晚,但卻以其特殊的功能得到了快速發(fā)展。該技術(shù)不僅具備計(jì)算機(jī)技術(shù)的特性,同時(shí)還兼具了統(tǒng)計(jì)學(xué)功能。在信息數(shù)量不斷增加的今天,想要從中搜索到需要的信息不是一件簡(jiǎn)單的事,計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)成功地為人們解決了這個(gè)困擾,受到了越來(lái)越多人的歡迎。
所謂有了目標(biāo)才有方向,因此在進(jìn)行數(shù)據(jù)挖掘之前,我們必須先明確目標(biāo),確定數(shù)據(jù)挖掘技術(shù)需要解決的現(xiàn)實(shí)問(wèn)題到底是什么,從而根據(jù)問(wèn)題和目的意義,尋找適宜的手段,根據(jù)我們需要解決的問(wèn)題梳理思路和方法,從眾多數(shù)據(jù)挖掘方法中選取最適合的挖掘方法,并確定數(shù)據(jù)挖掘的數(shù)據(jù)庫(kù)。接下來(lái)根據(jù)問(wèn)題從數(shù)據(jù)庫(kù)中提取適合數(shù)據(jù)挖掘的目標(biāo)數(shù)據(jù),并進(jìn)行初步的數(shù)據(jù)處理,除去無(wú)關(guān)信息,方便后面讀取數(shù)據(jù)處理的速度,也在這個(gè)預(yù)處理過(guò)程中有效的檢驗(yàn)數(shù)據(jù)是否有誤,通常金融類數(shù)據(jù)需要填補(bǔ)空缺值處理、對(duì)數(shù)收益率計(jì)算等相關(guān)處理,讓數(shù)據(jù)序列精簡(jiǎn)有用,這是數(shù)據(jù)處理當(dāng)中,非?;竞捅匾囊徊?,對(duì)之后的深入研究和挖掘起決定性作用。在對(duì)數(shù)據(jù)進(jìn)行了初步預(yù)處理之后,我們根據(jù)數(shù)據(jù)列進(jìn)行數(shù)據(jù)挖掘。通常在數(shù)據(jù)挖掘算法中需要構(gòu)建數(shù)學(xué)模型,并在計(jì)算機(jī)上使用數(shù)學(xué)模型和算法,進(jìn)行編程計(jì)算獲得相應(yīng)結(jié)果。得到結(jié)果之后,需要對(duì)結(jié)果進(jìn)行檢驗(yàn),檢驗(yàn)其是否能達(dá)到數(shù)據(jù)挖掘的目的,數(shù)據(jù)結(jié)果是否符合相對(duì)應(yīng)的現(xiàn)實(shí)意義,如果結(jié)果不符合要求將重新選擇數(shù)據(jù)挖掘算法和模型。最后將結(jié)果用于說(shuō)明實(shí)際問(wèn)題并指導(dǎo)實(shí)際工作,從而獲得數(shù)據(jù)挖掘的現(xiàn)實(shí)價(jià)值。
要想得到有效的信息,就需要從計(jì)算機(jī)系統(tǒng)中獲得的信息入手,但是當(dāng)前的網(wǎng)絡(luò)信息中存在不少的隱性信息,這些信息的獲得就要依靠計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)。采用計(jì)算機(jī)挖掘技術(shù)可以有效的抓取隱性信息的某些特征,當(dāng)利用散點(diǎn)圖的方式將這些隱性信息表現(xiàn)出來(lái)。所以可視化技術(shù)是計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)開(kāi)發(fā)項(xiàng)目中的一個(gè)重點(diǎn)。
網(wǎng)絡(luò)是復(fù)雜的,其中的網(wǎng)絡(luò)信息和數(shù)據(jù)更是十分的龐雜,要想快速、準(zhǔn)確的抓取到自己想要的信息,需要依靠聯(lián)機(jī)分析出不同地域和時(shí)段的多維數(shù)據(jù),聯(lián)機(jī)分析處理方式需要依靠用戶的配合。在處理多維數(shù)據(jù)時(shí),需要所有計(jì)算機(jī)用戶自行的使用或者篩選出分析算法,利用這些分析算法對(duì)數(shù)據(jù)做處理,這樣對(duì)探索數(shù)據(jù)也有巨大的推動(dòng)作用。
計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)的開(kāi)發(fā)中需要對(duì)決策樹(shù)進(jìn)行規(guī)則化建立,決策樹(shù)是一項(xiàng)重要的開(kāi)發(fā)項(xiàng)目,因?yàn)闆Q策樹(shù)的作用是發(fā)揮預(yù)測(cè)和分類的功能,對(duì)所處理的數(shù)據(jù)信息進(jìn)行具體的預(yù)測(cè)和分類。目前開(kāi)發(fā)的決策樹(shù)算法已經(jīng)有很多種,主要有SLIQ、SPRINT、ID3、C4.5等,SLIQ算法具備連續(xù)性屬性,還可以對(duì)數(shù)據(jù)做出具體的分類,SPRINT算法與SLIQ算法有同樣的功能屬性,并且這兩種算法可以通過(guò)大型訓(xùn)練集對(duì)決策時(shí)做出歸納。
現(xiàn)代消費(fèi)者在購(gòu)物的時(shí)候,利用POS機(jī)刷卡結(jié)賬的行為非常普遍,而在這個(gè)過(guò)程中,關(guān)于這些消費(fèi)者的一些信息就可以被銷售商所采集,并且消費(fèi)者越多,銷售商所采集到的有用信息就越多,這些信息對(duì)于市場(chǎng)營(yíng)銷具有非常重要的作用。不同的銷售商或者生產(chǎn)商,可以根據(jù)所采集到的有用信息,分析消費(fèi)者的各種不同需求、購(gòu)物習(xí)慣,從而進(jìn)一步分析消費(fèi)者的消費(fèi)心理,最終對(duì)消費(fèi)者的下一步消費(fèi)行為進(jìn)行推斷。例如,企業(yè)可以利用消費(fèi)者使用信用卡的情況分析商品的銷售情況,也可以通過(guò)某些促銷活動(dòng),確認(rèn)消費(fèi)者的消費(fèi)意向等等。以上種種分析結(jié)果,都離不開(kāi)計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù),由此可見(jiàn),計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)不僅能夠幫助相關(guān)企業(yè)了解顧客需求,而且還能夠?yàn)槠髽I(yè)進(jìn)行重大商業(yè)決策提供準(zhǔn)確數(shù)據(jù)信息,大大增強(qiáng)了企業(yè)的市場(chǎng)競(jìng)爭(zhēng)力。
投資評(píng)估與股票交易市場(chǎng)預(yù)測(cè)是金融分析的典型領(lǐng)域,一般以模型預(yù)測(cè)法來(lái)進(jìn)行分析,包括統(tǒng)計(jì)回歸技術(shù)等,因?yàn)榻鹑谕顿Y是一個(gè)風(fēng)險(xiǎn)較大的領(lǐng)域,在進(jìn)行投資前一定要進(jìn)行各種數(shù)據(jù)分析,對(duì)于各種風(fēng)險(xiǎn)進(jìn)行有效規(guī)避,選擇最佳的投資方向。由于事物的發(fā)展都有一定的趨勢(shì),可以進(jìn)行預(yù)測(cè),從投資評(píng)估到股票市場(chǎng)預(yù)測(cè),對(duì)于數(shù)據(jù)的分析都可以從中推理出一定的發(fā)展情況,對(duì)于已有數(shù)據(jù)進(jìn)行處理,根據(jù)數(shù)據(jù)之間的關(guān)系進(jìn)行深入挖掘,根據(jù)一定的模式進(jìn)行合理的預(yù)測(cè)。鑒別潛在的欺詐行為,許多商業(yè)銀行經(jīng)常發(fā)生的惡意詐騙行為、惡意透支行為,對(duì)于銀行來(lái)說(shuō)都是非常嚴(yán)重的威脅,預(yù)測(cè)這些詐騙行為將有助于降低銀行的風(fēng)險(xiǎn),一般采用對(duì)比分析正常行為與詐騙行為的方式來(lái)鑒別,分析詐騙行為的獨(dú)特性,對(duì)比正常行為與詐騙行為,一旦出現(xiàn)需要警惕的現(xiàn)象時(shí)提醒決策人員,目前許多公司都研發(fā)了這一類的軟件,針對(duì)商業(yè)銀行的欺詐進(jìn)行評(píng)估,對(duì)于有風(fēng)險(xiǎn)的交易行為予以探究。對(duì)與日漸猖獗的洗錢活動(dòng)等犯罪,數(shù)據(jù)挖掘技術(shù)都可以極大的提高其預(yù)防效果。
金融企業(yè)是具有一定風(fēng)險(xiǎn)的企業(yè),其重要的就是要對(duì)投資的風(fēng)險(xiǎn)做出評(píng)估,這樣,才能在我們金融企業(yè)進(jìn)行投資時(shí)把風(fēng)險(xiǎn)降到最低。這時(shí),金融企業(yè)就利用計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)對(duì)我們的投資項(xiàng)目進(jìn)行評(píng)估預(yù)測(cè)。如:在企業(yè)收購(gòu)股票時(shí),就要根據(jù)這只股票歷史走向的數(shù)據(jù)做,從而做出評(píng)估,在做出較為精準(zhǔn)的判斷和選擇。在金融業(yè)涉及到借貸款的問(wèn)題時(shí),企業(yè)要根據(jù)貸款對(duì)象日常的誠(chéng)信做出調(diào)查,然后再進(jìn)行數(shù)據(jù)的挖掘統(tǒng)計(jì),從而判斷出貸款對(duì)象是屬于低風(fēng)險(xiǎn)還是高風(fēng)險(xiǎn)。由此可見(jiàn),計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)對(duì)金融企業(yè)的投資、貸款有著重要的作用。
結(jié)語(yǔ):數(shù)據(jù)挖掘是一個(gè)重要的工具與方法,雖然不是萬(wàn)能的,但是對(duì)于一些潛在的客戶、風(fēng)險(xiǎn)都可以加以挖掘,即使其不能告知為什么形成這些潛在的利益或風(fēng)險(xiǎn),但是卻可以使得這些潛在的用戶變?yōu)楝F(xiàn)實(shí)。數(shù)據(jù)挖掘技術(shù)在諸多領(lǐng)域都得到了廣泛的應(yīng)用,隨著數(shù)據(jù)庫(kù)以及計(jì)算機(jī)技術(shù)的迅猛發(fā)展,對(duì)于許多過(guò)去較為棘手的問(wèn)題現(xiàn)在通過(guò)數(shù)據(jù)挖掘技術(shù)都可以得到良好的解決。