• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于Web條件下數(shù)據(jù)挖掘算法與數(shù)據(jù)倉庫的接口設計與實現(xiàn)

      2016-03-07 11:39魏革
      電腦知識與技術 2015年35期
      關鍵詞:接口數(shù)據(jù)倉庫數(shù)據(jù)挖掘

      魏革

      摘要:隨著社會經(jīng)濟的快速發(fā)展,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘研究行業(yè)的發(fā)展也越來越快。現(xiàn)階段,這方面的研究熱點,也已經(jīng)集中在對于數(shù)據(jù)庫的分析技術方面,比如對數(shù)據(jù)倉庫數(shù)據(jù)挖掘等方面。該文首先對數(shù)據(jù)倉庫系統(tǒng)做了概述;而后,對數(shù)據(jù)挖掘進行了描述;最后,對基于Web的數(shù)據(jù)挖掘算法與數(shù)據(jù)倉庫接口的設計與應用做了詳細的概述。

      關鍵詞:數(shù)據(jù)挖掘;接口;算法;數(shù)據(jù)倉庫

      中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2015)35-0003-02

      隨著科學技術的發(fā)展,基于Web的數(shù)據(jù)挖掘系統(tǒng)已經(jīng)逐步實行了與計算機技術和數(shù)據(jù)挖掘技術的融合,可以利用瀏覽器對企業(yè)所存放的數(shù)據(jù)進行科學有效的分析,對企業(yè)當中的一些決策可以起到?jīng)Q定性的作用。但是,在數(shù)據(jù)挖掘系統(tǒng)中,需要在Web環(huán)境下對企業(yè)中的倉庫數(shù)據(jù)進行挖掘并且輸出結果。因此,需要在Web條件下,對數(shù)據(jù)挖掘算法和數(shù)據(jù)管理系統(tǒng)進行接口設計,以便于企業(yè)對數(shù)據(jù)進行更加方便的管理,以利于企業(yè)的發(fā)展。

      1 數(shù)據(jù)倉庫系統(tǒng)

      現(xiàn)階段,有許許多多的各種數(shù)據(jù)源,比如管理系統(tǒng)、文件系統(tǒng)等含有WEB數(shù)據(jù)的數(shù)據(jù)源,這些數(shù)據(jù)源在質量、種類上也有很多不同的特點和特性,這些因素是直接導致數(shù)據(jù)來源不統(tǒng)一的主要原因,造成了數(shù)據(jù)集成極大的不方便性。在數(shù)據(jù)模式的設計、數(shù)據(jù)的清晰、數(shù)據(jù)的轉換以及導入更新等方面,也都存在著很大程度的難點。在數(shù)據(jù)清理方面,必須要準確地發(fā)現(xiàn)重復的數(shù)據(jù)并且判斷出是否需要刪除。在這個過程當中,數(shù)據(jù)源是多種多樣的,也存在著很多的重復數(shù)據(jù)。與此同時,每個數(shù)據(jù)源的質量和錄入的方式也是不同的。因此,就需要在數(shù)據(jù)錄入的時候,將重復的數(shù)據(jù)一一找出并且進行刪除處理,保證數(shù)據(jù)的可靠性。在這個過程當中,就需要用到一些高效的辦法來對數(shù)據(jù)進行有效判斷,對數(shù)據(jù)的層次以及語義進行判別認知。通常情況下,數(shù)據(jù)源當中的數(shù)據(jù)可以分為關系數(shù)據(jù)庫、XML半結構化數(shù)據(jù)等,這些數(shù)據(jù)在訪問方式、數(shù)據(jù)模式等方面都是不相同的。在數(shù)據(jù)裝入數(shù)據(jù)庫的時候,在保證數(shù)據(jù)不丟失的情況下,還要保證原本數(shù)據(jù)模式語義的一致性。我們就需要將數(shù)據(jù)轉換成一種方便轉換的統(tǒng)一形式,再把數(shù)據(jù)裝入數(shù)據(jù)倉庫中[1]。

      2 數(shù)據(jù)挖掘

      數(shù)據(jù)挖掘,可以稱之為數(shù)據(jù)庫中的知識發(fā)現(xiàn),即從大量的數(shù)據(jù)當中篩查挖掘出有用的信息。數(shù)據(jù)挖掘的用途主要是用來從指定數(shù)據(jù)挖掘任務當中找出模式類型,數(shù)據(jù)的挖掘可以分為描述和預測兩類。數(shù)據(jù)挖掘具有自動預測趨勢以及行為、關聯(lián)分析、聚類、概念描述以及偏差檢測這五個功能[2]。

      3 基于Web的數(shù)據(jù)挖掘算法和數(shù)據(jù)倉庫接口的設計和應用

      3.1 接口設計

      基于Web的數(shù)據(jù)挖掘算法,是在挖掘算法集成大B/S機構的數(shù)據(jù)挖掘系統(tǒng)之后形成的一種數(shù)據(jù)挖掘算法。數(shù)據(jù)挖掘算法一般可以利用C/C++、Java以及Delphi等多種計算機語言來編寫,每一種算法都可以實現(xiàn)各自的挖掘功能。在系統(tǒng)當中,算法需要在C#開發(fā)的NET平臺下運行,但并不是所有算法都可以被C#調(diào)用。因此,就需要將系統(tǒng)當中的算法編譯成獨立的組件,多個組件就組成了一個算法庫。用戶在進行操作的時候,就可以根據(jù)用戶需求從算法庫當中選擇相對應的算法組件。算法的輸入數(shù)據(jù)可以分為兩種來源,分別是ODBC/ADO獲取到的數(shù)據(jù)庫當中的數(shù)據(jù)和文件當中的數(shù)據(jù)。算法的輸出方式也可以有兩種。在基于Web的數(shù)據(jù)挖掘系統(tǒng)當中,挖掘數(shù)據(jù)來自于數(shù)據(jù)倉庫,而算法是需要與數(shù)據(jù)倉庫進行接口操作,才能實現(xiàn)挖掘功能的。

      在圖1的算法當中,算法庫的輸入接口有兩個,分別是與Web服務器連接的輸入接口和數(shù)據(jù)挖掘庫的接口。在此算法當中,Web服務器可以調(diào)用指定的挖掘算法組件,調(diào)用的方式是通過接口向算法庫傳遞。在算法庫中,可以通過與數(shù)據(jù)挖掘庫的接口處來向算法庫傳遞輸入的數(shù)據(jù),此時的算法用ODBC/ADC和數(shù)據(jù)挖掘庫進行連接,對數(shù)據(jù)庫進行操作的時候則是利用SQL語句。其中的數(shù)據(jù)挖掘庫則是在瀏覽器端的用戶字段上來對數(shù)據(jù)倉庫當中的數(shù)據(jù)進行有效的篩查選擇。在算法庫接收到輸入的數(shù)據(jù)之后,需要進行相關的運行計算,最終的結果會返回到Web的服務器當中,之后通過瀏覽器再傳遞到用戶的網(wǎng)頁當中,再根據(jù)用戶的選擇來進行儲存或者刪除。

      運用此種算法的優(yōu)點是能夠直接對數(shù)據(jù)庫進行操作,操作更加方便快捷,可以實時獲得相對應的數(shù)據(jù),在整個操作的過程中不需要緩沖,這樣就可以在最大程度上加快相應的速度,對較小的開銷進行連續(xù)執(zhí)行,達到改善性能的效果;并且接口的形式簡單,數(shù)據(jù)庫當中的數(shù)據(jù)更新是由數(shù)據(jù)庫進行直接控制的;與此同時,Web的負荷也是相對較小的,系統(tǒng)的穩(wěn)定性可以在很大程度上得到改善。但是,采用此種方式的算法對內(nèi)存的要求也是相對較高的,當其中的數(shù)據(jù)過多的時候,就會影響內(nèi)存的響應速度;并且對算法的設計要求也會相應的提高,對于數(shù)據(jù)格式的設計要依賴于數(shù)據(jù)庫,如果在算法成熟的情況下,就需要重新對算法進行設計。

      接獲得數(shù)據(jù)挖掘庫的數(shù)據(jù)

      在圖2的算法中,Web服務器上的文本或者其他格式的文件是此種算法的輸入接口。其中Web的服務器會與數(shù)據(jù)倉庫相連,需要根據(jù)用戶選擇的調(diào)用數(shù)量來對倉庫當中的數(shù)據(jù)進行挖掘操作,之后就可以反饋到Web服務器中。Web服務器向算法庫傳遞的挖掘指令、輸入數(shù)據(jù)流以及輸入的參數(shù)是利用兩者之間的文本或者文件接口來進行的。算法庫的輸出接口也是通過Web服務器上的文本或者文件來進行的。在算法運行之后,會將計算結果輸出到文本或者文件當中,然后再將數(shù)據(jù)傳遞到用戶的Web瀏覽器的界面上,最后就會根據(jù)用戶的選擇來對數(shù)據(jù)進項儲存或者刪除。

      采用此種算法,不管數(shù)據(jù)庫運行速度快慢,數(shù)據(jù)的提取速度是相當快的,從計算機的硬盤當中對數(shù)據(jù)的提取通常會比從數(shù)據(jù)庫當中檢索的數(shù)據(jù)要快。即使數(shù)據(jù)過多,也不會影響運行的速度,系統(tǒng)會將數(shù)據(jù)以文本或者文件的形式存儲在服務器的硬盤上,方便操作。與此同時,輸入也相對來說較為簡單,對于數(shù)據(jù)的篩選問題是不用考慮的,只需要根據(jù)用戶的選擇來進行動態(tài)選擇。但是采用此種方式,在很大程度上也增加了服務器內(nèi)存的操作次數(shù),讀取數(shù)據(jù)時需要對內(nèi)存進行多次操作,并且每增加一種算法,就需要為算法開發(fā)出獨立的輸入與輸出的格式,適用于每種不同的算法的輸出輸入需要。

      3.2 實現(xiàn)應用

      1)如果采用直接對數(shù)據(jù)挖掘庫進行操作算法的模式來對數(shù)據(jù)庫進行操作,此時的算法在集成進入系統(tǒng)的時候就需要以動態(tài)鏈接庫的形式進入,而算法當中的DLL文件則需要對接口的入口函數(shù)與算法的運算函數(shù)進行調(diào)用,在對數(shù)據(jù)庫進行操作的時候,語句可以用分配環(huán)境句柄、分配鏈接句柄、鏈接數(shù)據(jù)源、分配語句句柄、對數(shù)據(jù)庫進行操作并且選擇數(shù)據(jù)、斷開鏈接以及最后的釋放ODBC環(huán)境[3]。

      2)如果采用通過Web服務器的文件接口來間接獲得數(shù)據(jù)挖掘庫的數(shù)據(jù)的算法來進行操作,就不能對數(shù)據(jù)庫進行直接操作,需要通過服務器端的文件接口來對輸入的數(shù)據(jù)進行獲取最后輸出結果到文件上。系統(tǒng)當中的算法如果要進入集成的系統(tǒng)當中,就需要以動態(tài)鏈接庫的形式來進行集成,在算法中的DLL文件就需要對輸入、輸出的名稱以及服務器上的物理地址進行精確的定義。算法還可以對文件的形式集成進行有效的執(zhí)行,在Web服務器與文件接口進行連接的時候,需要首先對ADO庫的文件進行引入并且定義,而后,利用SQLConnection對象進行數(shù)據(jù)倉庫的連接,充分建立好連接。在連接過程當中,需要利用Command進行SQL命令的執(zhí)行,將挖掘數(shù)據(jù)用文件流的語句形式導入到算法的輸入文件當中去,用戶可以對其結果進行選擇。最后,就需要關閉連接,釋放對象了[4]。

      4 結語

      綜上所述,運用基于Web的數(shù)據(jù)挖掘系統(tǒng),可以很好地將算法和倉庫數(shù)據(jù)進行有效的連接,最大限度地解決了算法與數(shù)據(jù)倉庫的集成問題。算法是利用接口的技術在計算機的環(huán)境之下進行企業(yè)的倉庫數(shù)據(jù)管理,運用此種方式,可以對企業(yè)在管理決策上進行行之有效的管理,為企業(yè)的系統(tǒng)增添更多的新算法,保障了系統(tǒng)的延伸擴展性,增強對數(shù)據(jù)的挖掘性,提高企業(yè)的管理經(jīng)營效益,推動企業(yè)經(jīng)濟發(fā)展。

      參考文獻:

      [1] 王慶福.談數(shù)據(jù)倉庫與數(shù)據(jù)挖掘教學研究[J].中國科教創(chuàng)新導刊,2012(28):179.

      [3] 劉新穎,王麗亞.基于Web的數(shù)據(jù)挖掘算法與數(shù)據(jù)倉庫的接口設計[J].計算機工程,2006(21):88-90.

      [3] 阮夢黎.基于半結構化分割的Web熱點數(shù)據(jù)挖掘算法[J].科技通報,2015(4):115-117.

      [4] 張艷格,高麗燕.一種基于云計算的海量web數(shù)據(jù)挖掘算法[J].中國電子商務,2012(18):64-65.

      猜你喜歡
      接口數(shù)據(jù)倉庫數(shù)據(jù)挖掘
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
      基于數(shù)據(jù)倉庫的住房城鄉(xiāng)建設信息系統(tǒng)整合研究
      基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應用
      分布式存儲系統(tǒng)在液晶面板制造數(shù)據(jù)倉庫中的設計
      某電站工程設計管理與施工、質量控制接口關系研究
      脫硝數(shù)據(jù)傳輸系統(tǒng)遠程無線監(jiān)控技術的研發(fā)與應用
      西門子SPPA—T3000在委內(nèi)瑞拉燃機電廠中的應用與接口
      探析電力系統(tǒng)調(diào)度中數(shù)據(jù)倉庫技術的應用
      中俄網(wǎng)絡語言編碼接口問題的研究
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務及應用
      土默特右旗| 色达县| 开远市| 湖南省| 邵东县| 宁蒗| 通州区| 景德镇市| 玛多县| 本溪市| 高阳县| 咸宁市| 交城县| 内黄县| 谷城县| 牡丹江市| 尚义县| 河池市| 上虞市| 广州市| 孟村| 台中县| 师宗县| 平湖市| 正宁县| 襄樊市| 云和县| 渝北区| 藁城市| 观塘区| 赣榆县| 克山县| 东辽县| 土默特右旗| 措勤县| 平山县| 长宁区| 太谷县| 周至县| 六安市| 玛沁县|