陳佶福建龍溪軸承(集團(tuán))股份有限公司
探討基于SQLServer 2000的數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘
陳佶
福建龍溪軸承(集團(tuán))股份有限公司
針對(duì)SQL Server 2000的數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘進(jìn)行分析,介紹了數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)。并詳細(xì)分析了數(shù)據(jù)挖掘方法,方法主要有:OLEDB數(shù)據(jù)挖掘,利用SQLServen2000實(shí)施數(shù)據(jù)挖掘兩種。
數(shù)據(jù)倉(cāng)庫(kù);數(shù)據(jù)挖掘;OLEDB數(shù)據(jù)源
數(shù)據(jù)挖掘中的物理結(jié)構(gòu),對(duì)客戶應(yīng)用程序和數(shù)據(jù)挖掘模型之間的相互作用做出了描述。在OLEDB for DM中,數(shù)據(jù)挖掘模型是其中的一個(gè)概念,其中一個(gè)數(shù)據(jù)挖掘模型,就代表著一個(gè)容器。
對(duì)結(jié)構(gòu)進(jìn)行選擇,主要是以數(shù)據(jù)源的大小以及對(duì)這一數(shù)據(jù)挖掘的模型發(fā)布預(yù)測(cè)查詢頻率進(jìn)行的。同時(shí)以其應(yīng)用特點(diǎn)作為依據(jù),可以直接對(duì)兩層體系結(jié)構(gòu)或者三層體系結(jié)構(gòu)方案進(jìn)行使用[1]。
如果數(shù)據(jù)挖掘任務(wù)進(jìn)一步提高,客戶機(jī)所使用的挖掘結(jié)果需求量逐漸增大,可以對(duì)其中的三層體系結(jié)構(gòu)進(jìn)行選用。針對(duì)這一結(jié)構(gòu)而言,從總體上分析,需要使用一個(gè)性能較高的服務(wù)器,將其放在中間夾層當(dāng)中,充當(dāng)一個(gè)數(shù)據(jù)挖掘引擎,而數(shù)據(jù)倉(cāng)庫(kù)將會(huì)被放置在最后端。其中的中間負(fù)責(zé)層主要是進(jìn)行數(shù)據(jù)的挖掘。
2.1 OLEDB數(shù)據(jù)挖掘
在一定程度上,可以將其看成通過(guò)不同數(shù)據(jù)類型所構(gòu)成的一種關(guān)系表,這在并不會(huì)對(duì)原始數(shù)據(jù)進(jìn)行儲(chǔ)存,而是通過(guò)儲(chǔ)存數(shù)據(jù)挖掘算法在關(guān)系表當(dāng)中所發(fā)現(xiàn)的一種模式。為了構(gòu)建這一數(shù)據(jù)模型,通過(guò)OLEDB for DM對(duì)SQL中創(chuàng)建表的語(yǔ)法進(jìn)行使用,如CREATE語(yǔ)句。
2.1.1 數(shù)據(jù)挖掘模型測(cè)試
構(gòu)建出一個(gè)數(shù)據(jù)挖掘模型后,其僅僅是以一個(gè)空的容器形式存在的。對(duì)其進(jìn)行具體測(cè)試過(guò)程中,數(shù)據(jù)挖掘算法分析輸入的事件以及挖掘模型已經(jīng)發(fā)現(xiàn)的模式。以針對(duì)數(shù)據(jù)所挖掘的OLEDB作為依據(jù),得到的測(cè)試數(shù)據(jù)可以來(lái)源于各種表格數(shù)據(jù)源,只要其在OLEDB驅(qū)動(dòng)器存在,就不必用戶從關(guān)系數(shù)據(jù)源中將數(shù)據(jù)進(jìn)行導(dǎo)出,這種情況下,促使數(shù)據(jù)挖掘過(guò)程得到有效簡(jiǎn)化??梢詫?duì)SQL中的數(shù)據(jù)插入句法進(jìn)行使用,如INSERT INTO語(yǔ)句,或者Openrowset命令,進(jìn)而從其中的一個(gè)OLEDB數(shù)據(jù)源,進(jìn)行遠(yuǎn)程數(shù)據(jù)的訪問(wèn)。
2.1.2 數(shù)據(jù)挖掘預(yù)測(cè)
數(shù)據(jù)挖掘預(yù)測(cè)屬于數(shù)據(jù)挖掘工作中的一個(gè)重要任務(wù),這一任務(wù)的完成,需要一個(gè)測(cè)試過(guò)的數(shù)據(jù)挖掘模式以及一系列的新鮮事件,所得出的預(yù)測(cè)結(jié)果形成了一個(gè)新的記錄集,這一記錄集中包含了預(yù)測(cè)列的值,同時(shí)還有其他輸入列的值。在這一過(guò)程中,和關(guān)系連接十分相似,其并不是聯(lián)系兩個(gè)表,而是對(duì)數(shù)據(jù)挖掘模型以及輸入表進(jìn)行連接。此外,可以使用SQL中的查表語(yǔ)法,例如SELECT等。
由此可知,OLEDB和標(biāo)準(zhǔn)SQL之間緊密結(jié)合,能夠較為快速并準(zhǔn)確的開展相應(yīng)的查詢處理,但是其中的SQL Serven2000數(shù)據(jù)創(chuàng)建性數(shù)據(jù),同時(shí)也是數(shù)據(jù)挖掘過(guò)程中的一種相對(duì)有效的方案。
2.2 利用SQL Serven2000實(shí)施數(shù)據(jù)挖掘
對(duì)基本數(shù)據(jù)挖掘OLDDB進(jìn)行使用過(guò)程中,可以從不同數(shù)據(jù)挖掘中的不同數(shù)據(jù)挖掘算法,較為容易的在用戶應(yīng)用中嵌入[2]。而對(duì)于這些數(shù)據(jù)挖掘算法中的軟件包當(dāng)中,一共存在兩個(gè)數(shù)據(jù)挖掘算法,其中有Microsoft決策樹,同時(shí)有Microsoft集群。對(duì)于數(shù)據(jù)挖掘提供者而言,屬于分析服務(wù)2000的一部分,其和Microsoft的OLAP服務(wù)存在著相同之處,而SQLServen2000中存在的數(shù)據(jù)挖掘組件,主要是以DBA為核心的。其中的Analysis Sevices是通過(guò)OLP以及數(shù)據(jù)挖掘共同組成的,其屬于一種數(shù)據(jù)分析技術(shù)。屬于Analysis Services中的一種數(shù)據(jù)挖掘工具。對(duì)于這些工具而言,具有一定的模型建立導(dǎo)向和模型編輯器。此外,還存在著瀏覽器和DTS預(yù)測(cè)任務(wù)。
對(duì)這一應(yīng)用進(jìn)行建立之前,需要先建立一個(gè)數(shù)據(jù)挖掘模型,同時(shí)對(duì)這一模型進(jìn)行訓(xùn)練,實(shí)現(xiàn)這一任務(wù),存在著多種形式,其中比較容易的一種形式就是借助Analysis Services的數(shù)據(jù)模型向?qū)?,這一導(dǎo)向會(huì)產(chǎn)生一定的數(shù)據(jù)挖掘模型以及訓(xùn)練查詢[3]。同時(shí)借助OLEDB for DM接口將查詢指示發(fā)送給數(shù)據(jù)挖掘供應(yīng)者。還有一種方式便是,對(duì)程序進(jìn)行自行編寫,例如借助面向?qū)ο缶幊碳夹g(shù),對(duì)一些VB或者VC程序進(jìn)行編寫。此后借助DSD或者ADO對(duì)數(shù)據(jù)挖掘供應(yīng)者進(jìn)行連接,然后向著這一供應(yīng)者對(duì)文本查詢進(jìn)行發(fā)布。這種方式,類似于數(shù)據(jù)庫(kù)開發(fā)者對(duì)數(shù)據(jù)庫(kù)進(jìn)行處理和查詢。從Analysis Services中擴(kuò)展了DSO模型,進(jìn)一步為數(shù)據(jù)挖掘提供了支持。在這種情況下,借助DSO連接數(shù)據(jù)挖掘供應(yīng)者,使用DSO對(duì)象相連方式,使用相對(duì)簡(jiǎn)單的ADO方式進(jìn)行比較,存在較大的優(yōu)越性。例如,能夠十分安全的控制這一模型,能夠支持遠(yuǎn)程數(shù)據(jù)服務(wù)和挖掘的倉(cāng)庫(kù)[4]。但是,對(duì)DSO進(jìn)行使用,需要實(shí)現(xiàn)更多的編碼工作,與此同時(shí),相應(yīng)開發(fā)者必須對(duì)不同列的對(duì)象以及挖掘模型對(duì)象的屬性進(jìn)行描述。
以SQLServer 2000為依據(jù),分析了數(shù)據(jù)挖掘的具體方式。數(shù)據(jù)庫(kù)和數(shù)據(jù)分析解決方案的完整性,需要符合易用性,功能需滿足要求。隨著我國(guó)科學(xué)技術(shù)的不斷發(fā)展,相信會(huì)出現(xiàn)更加方便可靠的產(chǎn)品。
[1]俞蘭芳,石梅.高校管理信息系統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)研究[J].科技通報(bào),2012,02:190-192.
[2]李凱.某出版社數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].無(wú)線互聯(lián)科技,2012,05:60-61.
[3]尚虎平.我國(guó)地方政府績(jī)效評(píng)估指標(biāo)數(shù)據(jù)倉(cāng)庫(kù)的代表性對(duì)象選取和構(gòu)建——以江蘇四市為研究點(diǎn)[J].甘肅行政學(xué)院學(xué)報(bào), 2012,04:4-15+127.
[4]賀明,賀海平.新病案首頁(yè)數(shù)據(jù)倉(cāng)庫(kù)的構(gòu)建和應(yīng)用[J].中國(guó)數(shù)字醫(yī)學(xué),2014,11:83-85.