• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      大數(shù)據(jù)背景下數(shù)據(jù)挖掘技術的應用研究

      2022-05-30 03:29:09王赫楠岳慧平夏書劍
      計算機應用文摘·觸控 2022年15期
      關鍵詞:存儲系統(tǒng)開發(fā)數(shù)據(jù)挖掘

      王赫楠 岳慧平 夏書劍

      摘要:由于數(shù)據(jù)的格式、信息等十分復雜,不利于分析和決策,因此如何在海量數(shù)據(jù)的背景下挖掘出更為有效的信息,以幫助決策者分析和應用數(shù)據(jù),成為亟待解決的問題?;诖?,數(shù)據(jù)挖掘技術應運而生,其主要應用于數(shù)據(jù)集。文章主要研究了如何從海量數(shù)據(jù)集中挖掘出有價值、有規(guī)律的信息。

      關鍵詞:數(shù)據(jù)挖掘;系統(tǒng)開發(fā);存儲

      中圖法分類號:TP311文獻標識碼:A

      Research on application of data mining technology underbackground of big data

      WANG Henan, YUE Huiping,XIA Shujian

      (Liaoning University of Traditional Chinese Mledicine,Shenyang 110000,China)

      Abstract:Since the format and information of data are very complex, which is not conducive to analysis and decision-making, how to mine more effective information in the context of massive data to help decision-makers analyze and apply data has become an urgent problem to be solved. Based on this, data mining technology emerges as the times require. It is mainly used in data sets. How to mine valuable and regular information from massive data sets is the main content of data mining research.

      Key words: data mining, system development,storage

      1引言

      各行業(yè)都會產(chǎn)生海量的數(shù)據(jù),這是由于信息技術(云計算技術、移動計算技術、機器學習技術等)的不斷進步,以及硬件存儲能力、云平臺存儲能力的不斷提升所致。大量的數(shù)據(jù)背后蘊藏著有效的信息,這些信息將為教育、電商、醫(yī)療、科研等領域的發(fā)展提供參考依據(jù),研究者需要對其進行分析和整理。如何從這些數(shù)據(jù)中提取有價值、有規(guī)律的信息,以便在分析和決策的過程中發(fā)揮更為有效的作用,是研究者急須解決的問題。

      數(shù)據(jù)挖掘技術是指從海量的數(shù)據(jù)中挖掘出有用信息的一門技術。數(shù)據(jù)挖掘技術涉及統(tǒng)計學原理、知識工程技術、數(shù)據(jù)檢索技術、人工智能領域以及數(shù)據(jù)庫技術等[1~5],其應用范圍較廣。當下,教育、醫(yī)療、科學研究、傳統(tǒng)工業(yè)制造、金融分析等領域均可以利用數(shù)據(jù)挖掘技術挖掘和整理數(shù)據(jù)信息,對行業(yè)的發(fā)展產(chǎn)生了積極作用。

      2概述

      隨著技術不斷進步,人們可以方便地獲取和存儲大量數(shù)據(jù),企業(yè)的關注點從獲取數(shù)據(jù)信息轉(zhuǎn)變?yōu)樘崛?shù)據(jù)中有價值的信息,使其能夠掌握行業(yè)發(fā)展規(guī)律,以獲得更大的經(jīng)濟效益,從而擴大市場份額。

      數(shù)據(jù)挖掘技術的逐漸發(fā)展可以幫助各領域解決數(shù)據(jù)分析問題。數(shù)據(jù)挖掘技術涉及專業(yè)領域,如統(tǒng)計學知識、信息技術應用、分類聚類、人工智能技術等。如何利用各種技術和方法輔助數(shù)據(jù)挖掘技術更好地分析數(shù)據(jù)信息,是數(shù)據(jù)挖掘研究的重要方面。數(shù)據(jù)挖掘技術的逐漸發(fā)展為各行各業(yè)帶來了一定的經(jīng)濟效益。因此,數(shù)據(jù)挖掘技術的研究和應用受到了企業(yè)人士以及科研工作者的重點關注,成為研究的熱門領域[6]。

      利用數(shù)據(jù)挖掘技術可以對數(shù)據(jù)信息進行深度剖析,挖掘出有價值的內(nèi)容。其涉及范圍較廣,并且在逐漸發(fā)展和延續(xù)。目前,數(shù)據(jù)挖掘技術主要涉及以幾個方面,即分類和聚類、預測分析、關聯(lián)規(guī)則、序列發(fā)現(xiàn)等。為了實現(xiàn)數(shù)據(jù)挖掘功能,主要基于統(tǒng)計分析方法和其他方法。相關統(tǒng)計分析方法包括時間序列分析、聚類、判別因子和因子分析等。統(tǒng)計分析方法在數(shù)據(jù)挖掘領域的功能支持主要表現(xiàn)在高級多元統(tǒng)計方法。這些統(tǒng)計分析方法目前已經(jīng)較為常見,數(shù)據(jù)挖掘技術在統(tǒng)計分析方法的基礎上進行了擴展和延伸;其他方法主要指模糊邏輯、神經(jīng)網(wǎng)絡、決策樹等,數(shù)據(jù)挖掘領域?qū)@些方法的應用主要體現(xiàn)在工具研發(fā)和應用研究等方面。隨著技術的不斷發(fā)展和成熟,數(shù)據(jù)挖掘技術也成為各領域數(shù)據(jù)分析的主要手段和研究方向。

      近年來,大數(shù)據(jù)分析成為各領域研究的熱點。與此同時,不同的研究者給出的大數(shù)據(jù)定義也各不相同。目前,較為被公眾認可的定義是由維基百科、IBM 公司、高德納大數(shù)據(jù)研究部門、國際數(shù)據(jù)中心等提出的。由以上機構(gòu)給出的有關大數(shù)據(jù)的定義主要考慮大數(shù)據(jù)不同的特征,包括數(shù)據(jù)量大、數(shù)據(jù)種類的繁多、價值密度低、速度快等,給出了有關大數(shù)據(jù)的定義的不同說明。不論大數(shù)據(jù)的定義如何,其最終目的都是希望從各領域海量的數(shù)據(jù)中提取出對相關領域發(fā)展有價值的數(shù)據(jù)信息,除卻一些無意義的干擾數(shù)據(jù)信息,能夠?qū)崟r更新的數(shù)據(jù)保持處理的時效性,且要實時處理流式數(shù)據(jù)。

      3數(shù)據(jù)挖掘技術

      海量數(shù)據(jù)的背后離不開計算機技術的發(fā)展,也離不開數(shù)據(jù)搜集能力的提升。目前,在金融、醫(yī)療、商業(yè)、企事業(yè)單位辦公、研發(fā)及開發(fā)等領域已經(jīng)有很多成型的數(shù)據(jù)庫。這些數(shù)據(jù)庫中存儲的數(shù)據(jù)除了數(shù)據(jù)量大的特點外,還有不完善、有噪聲數(shù)據(jù)干擾、模糊、格式不統(tǒng)一、隨機等特點。那么,對于數(shù)據(jù)分析人員來說,如何從這些大體量數(shù)據(jù)中提取出有價值、有規(guī)律的數(shù)據(jù)信息,挖掘人們很難分析出的潛在規(guī)律,是一項具有挑戰(zhàn)性的研究工作。分析數(shù)據(jù)之前,我們需要對時間序列進行降維操作,這可以在保留較少數(shù)據(jù)的情況下,反應時間序列的主要形態(tài)特征,為之后的數(shù)據(jù)挖掘打下基礎。圖1為原始時間序列及壓縮后的對比。

      數(shù)據(jù)挖掘技術為實現(xiàn)數(shù)據(jù)信息的分類聚類、決策分析提供了依據(jù),數(shù)據(jù)挖掘方法如下。

      3.1 Decision tree

      Decision tree(決策樹)是數(shù)據(jù)挖掘技術的典型方法之一,其目的是對數(shù)據(jù)信息進行分類處理,其基于信息論原理。首先,創(chuàng)建一個決策樹,依據(jù)是已經(jīng)確定的數(shù)據(jù)集。其次,預測分析,根據(jù)創(chuàng)建好的決策樹展開工作。創(chuàng)建決策樹是為了形成數(shù)據(jù)規(guī)則。在這個過程中,實現(xiàn)數(shù)據(jù)規(guī)則可視化,由其得出的結(jié)果也更容易理解。決策樹的優(yōu)點較多,如較易理解、處理效率高、較高精確度。目前,決策樹是一種較為常用的數(shù)據(jù)挖掘方法。

      3.2 Neural network

      Neural network(神經(jīng)網(wǎng)絡)由若干個單元構(gòu)成,這些單元類似于人腦中的神經(jīng)元。我們將這些單元稱為節(jié)點,神經(jīng)網(wǎng)絡由這些節(jié)點在網(wǎng)絡中彼此連接構(gòu)成。一旦有數(shù)據(jù)輸入,節(jié)點彼此協(xié)同工作,以確定數(shù)據(jù)模式。輸入層、中間層、輸出層是組成神經(jīng)網(wǎng)絡的三個層次。

      3.3 Genetic algorithm

      Genetic algorithm 遺傳算法包含染色體的概念,這里的染色體不同于人體的染色體,其由問題可能的解按照一定的方式進行編碼產(chǎn)生。創(chuàng)建初始種群,根據(jù)選取的若干染色體計算適應值,根據(jù)預定的評價函數(shù)計算初始種群中染色體的適應值。具有高適應值的染色體代表其性能較好。對性能較好的染色體進行 copy,利用遺傳算子,生成性能更好的染色體,進而形成新的種群,直到最后形成一個性能最優(yōu)、最能適應環(huán)境的個體,即可形成最優(yōu)解。

      3.4數(shù)據(jù)可視化

      大體量的數(shù)據(jù)有時不能直觀反應其規(guī)律,很難直接觀察其規(guī)律,用于工作和科研。數(shù)據(jù)挖掘技術提供了可視化系統(tǒng)。利用多維數(shù)據(jù)中的關鍵點,可視化呈現(xiàn)數(shù)據(jù)的發(fā)展趨勢和形態(tài)特征??梢暬ぞ呔哂性鰪娫袌D形工具的效果,對于多維數(shù)據(jù)可進行可視化操作。

      3.5粗糙集法

      針對不完善、不精確、模糊的處理問題,我們可以使用粗糙集理論的方法。粗糙集理論的優(yōu)缺點如下:優(yōu)點—無須一些擴充的數(shù)據(jù)信息以及預備信息,算法十分簡單;缺點—需要先分類屬性,對于連續(xù)屬性處理效果不好。在粗糙集理論應用中,如何離散化連續(xù)的屬性是難點。粗糙集理論可以處理數(shù)據(jù)約簡、相關性挖掘、評估數(shù)據(jù)等問題,主要應用于預測模型創(chuàng)建、數(shù)字邏輯分析以及近似推理等方面。

      4大數(shù)據(jù)背景下的數(shù)據(jù)挖掘技術

      大數(shù)據(jù)挖掘技術的數(shù)據(jù)種類繁多、數(shù)據(jù)量大,因此不同于以往的數(shù)據(jù)挖掘方法。大數(shù)據(jù)挖掘技術不再過多依賴傳統(tǒng)數(shù)據(jù)挖掘技術的算法和模型。針對海量數(shù)據(jù),大數(shù)據(jù)挖掘技術的應用可以發(fā)揮較好的功效,幫助研究者提取出有用的數(shù)據(jù)信息,為研究提供有價值的參考。其挖掘方法如下:社會計算、數(shù)據(jù)演變分析、知識計算、深度學習等。并且,大數(shù)據(jù)挖掘技術針對不同領域的數(shù)據(jù)種類,可以利用不同的數(shù)據(jù)挖掘方法。流數(shù)據(jù)挖掘、Web 數(shù)據(jù)挖掘以及空間數(shù)據(jù)挖掘是大數(shù)據(jù)挖掘技術的三個分支。與傳統(tǒng)數(shù)據(jù)挖掘方法相比,大數(shù)據(jù)挖掘技術在數(shù)據(jù)處理流程上是有區(qū)別的。同時,大數(shù)據(jù)挖掘技術可以更加科學有效地處理數(shù)據(jù)挖掘問題。

      4.1相關技術

      針對流數(shù)據(jù)、空間數(shù)據(jù)以及互聯(lián)網(wǎng)數(shù)據(jù),大數(shù)據(jù)挖掘技術被分成流數(shù)據(jù)挖掘技術、空間數(shù)據(jù)挖掘技術以及 Web 數(shù)據(jù)挖掘技術。這三種數(shù)據(jù)挖掘技術應用在不同的場景。例如,零售數(shù)據(jù)、股票數(shù)據(jù)、車輛監(jiān)控數(shù)據(jù)等屬于流數(shù)據(jù)挖掘技術;互聯(lián)網(wǎng)領域的傳統(tǒng)數(shù)據(jù)挖掘?qū)儆?Web 數(shù)據(jù)挖掘技術領域;空間數(shù)據(jù)挖掘技術不同于流數(shù)據(jù)挖掘技術以及 Web 數(shù)據(jù)挖掘技術,其具有明顯的空間性,基于空間分析法,使用綜合屬性數(shù)據(jù)分析方法處理空間數(shù)據(jù)挖掘的問題。

      大數(shù)據(jù)挖掘技術同傳統(tǒng)數(shù)據(jù)挖掘技術一樣被應用于各行各業(yè),如金融行業(yè)的數(shù)據(jù)處理問題、教育行業(yè)的數(shù)據(jù)處理問題、道路交通領域的數(shù)據(jù)處理問題、電子商務領域的數(shù)據(jù)處理問題、醫(yī)療行業(yè)的數(shù)據(jù)處理問題、生物醫(yī)學領域的數(shù)據(jù)處理問題、郵政行業(yè)的數(shù)據(jù)處理問題等,應用十分廣泛。

      4.2發(fā)展趨勢

      如今,越來越多的研究者參與數(shù)據(jù)挖掘研究,數(shù)據(jù)挖掘技術也逐漸走向成熟。統(tǒng)一化、標準化數(shù)據(jù)挖掘語言、可視化方法開發(fā)、數(shù)據(jù)存儲類型匹配問題、應用研究、整合數(shù)據(jù)挖掘、數(shù)據(jù)庫以及 Web 數(shù)據(jù)庫系統(tǒng),是數(shù)據(jù)挖掘的主要研究方向。標準化是目前各個領域開發(fā)的基礎,數(shù)據(jù)挖掘技術也不例外。數(shù)據(jù)挖掘所使用語言的標準化,將有利于數(shù)據(jù)挖掘系統(tǒng)的開發(fā)和應用;可視化操作能夠使用戶更加直觀地了解數(shù)據(jù)變化的規(guī)律,更加容易理解。因此,可視化技術是數(shù)據(jù)挖掘技術的未來發(fā)展趨勢,能夠更友好的支持人機交互操作;數(shù)據(jù)類型多種多樣,其存儲類型也呈現(xiàn)出多樣化特征。研究與各種數(shù)據(jù)存儲類型匹配的問題,將成為研究的熱點之一;數(shù)據(jù)挖掘方法對于各領域的支持效果不盡相同。而目前,各行業(yè)對數(shù)據(jù)挖掘技術的依賴度逐年上升,都希望通過數(shù)據(jù)挖掘技術有效提取信息。所以,針對于某一領域的數(shù)據(jù)挖掘系統(tǒng)開發(fā)尤為重要。數(shù)據(jù)庫系統(tǒng)以及 Web 數(shù)據(jù)庫系統(tǒng)是數(shù)據(jù)挖掘領域不能忽視的兩個系統(tǒng),如何整合相關系統(tǒng),實現(xiàn)緊耦合[7],是數(shù)據(jù)挖掘技術需要解決的問題。

      5總結(jié)

      數(shù)據(jù)的來源渠道越來越多,其結(jié)構(gòu)越來越復雜,數(shù)據(jù)量越來越大、種類越來越豐富,并且其隱含的經(jīng)濟及科研價值也越來越大,這對數(shù)據(jù)挖掘技術提出了更高的要求。從各行業(yè)產(chǎn)生的海量數(shù)據(jù)中挖掘出有用的數(shù)據(jù)信息,可以指導行業(yè)發(fā)展以及為科研提供數(shù)據(jù)支撐。這需要越來越多的研究者投身其中,真正開發(fā)出一些實用、有效的軟件平臺來支撐數(shù)據(jù)分析、可視化、提取等。大數(shù)據(jù)挖掘技術是未來各領域必不可少的技術支撐,將吸引更多的研究者投身其中。

      參考文獻:

      [1]趙剛,蔣文麗.數(shù)據(jù)庫技術發(fā)展綜述[ J].黑龍江科學,2021,12(16):48?49.

      [2]黃心依.機器學習在數(shù)據(jù)挖掘中的應用研究[J].信息記錄材料,2021,22(8):121?123.

      [3]韓明.數(shù)據(jù)挖掘及其對統(tǒng)計學的挑戰(zhàn)[ J].統(tǒng)計研究,2001(8):55?57.

      [4]呂鳴劍.數(shù)據(jù)挖掘在知識工程中的應用研究[J].電腦知識與技術,2011,7(23):5550?5551.

      [5]王元卓,賈巖濤,劉大偉,等.基于開放網(wǎng)絡知識的信息檢索與數(shù)據(jù)挖掘[J].計算機研究與發(fā)展,2015,52(2):456?474.

      [6]吳昉,宋培義.數(shù)據(jù)挖掘的應用[ J].貴州科學,2012,30(3):54?56.

      [7]陶翠霞.淺談數(shù)據(jù)挖掘及其發(fā)展狀況[ J].科技信息(科學教研),2008(4):72+98.

      作者簡介:

      王赫楠(1986—),碩士,講師,研究方向:數(shù)據(jù)挖掘,計算機應用。

      岳慧平(1980—),碩士,副教授,研究方向:計算機應用。夏書劍(1984—),碩士,講師,研究方向:計算機應用。

      猜你喜歡
      存儲系統(tǒng)開發(fā)數(shù)據(jù)挖掘
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
      基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應用
      電力與能源(2017年6期)2017-05-14 06:19:37
      基于網(wǎng)絡數(shù)據(jù)分析的計算機網(wǎng)絡系統(tǒng)開發(fā)
      檔案管理中電子文件的存儲探究
      條形碼技術在涂裝生產(chǎn)中的應用
      變電站監(jiān)控信息接入驗收系統(tǒng)的研發(fā)與應用
      云計算與虛擬化
      發(fā)射機房運行監(jiān)控系統(tǒng)關鍵技術的解決方案
      基于開源系統(tǒng)的綜合業(yè)務數(shù)據(jù)采集系統(tǒng)的開發(fā)研究
      大型機電設備出口包裝防護
      通州区| 阜新市| 奇台县| 蓬溪县| 本溪市| 茌平县| 宜川县| 双城市| 阿拉善左旗| 云南省| 阿坝县| 赞皇县| 宁晋县| 怀安县| 五台县| 包头市| 涟水县| 山东省| 泰和县| 福清市| 格尔木市| 邛崃市| 湛江市| 廊坊市| 汾西县| 昌江| 六盘水市| 葫芦岛市| 香河县| 博兴县| 五寨县| 广饶县| 杭锦后旗| 甘德县| 周宁县| 藁城市| 宣恩县| 垦利县| 河源市| 苗栗市| 靖江市|