摘要:隨著計算機技術在新時代的發(fā)展,數(shù)據(jù)挖掘運用也越來越多,除了在銀行金融、生物醫(yī)學、電子商務等商業(yè)科研領域。在新時期,數(shù)據(jù)挖掘在公共管理領域也得到了進一步的運用。
關鍵詞:數(shù)據(jù)挖掘;新時期;運用
中圖分類號:G642? ? ? ? 文獻標識碼:A
文章編號:1009-3044(2019)25-0001-02
1 數(shù)據(jù)挖掘概述
1.1? 數(shù)據(jù)挖掘定義
數(shù)據(jù)挖掘(Data Mining,簡稱DM)是從不完整、大量有噪聲的數(shù)據(jù)中提取出有意義的模式知識的過程[1],挖掘分析的對象主要有數(shù)據(jù)庫或數(shù)據(jù)倉庫內(nèi)容以及其它多種數(shù)據(jù)源。主要涉及統(tǒng)計學、計算機科學、高性能計算等眾多學科,而分析是一個包含多步驟知識發(fā)現(xiàn)的過程[2],主要如圖1所示[3]。
1.2數(shù)據(jù)挖掘內(nèi)涵
數(shù)據(jù)挖掘是提取隱藏在數(shù)據(jù)集中的知識和信息,這些知識和信息尚未完全探索,雖然事先未知,但具有許多有用的知識,通過挖掘分析將其表示成最終能被人容易理解知識[4]。它不但能夠從大量隨機、有噪聲、不完全的數(shù)據(jù)中學習已有的知識,而且能夠發(fā)現(xiàn)未知的信息,所得到的知識既能容易理解,又便于應用、存儲,這些知識可以在管理信息、決策支持、預測趨勢、過程控制等許多領域發(fā)揮作用[5]。
2 商業(yè)及科研領域
數(shù)據(jù)挖掘研究具有廣泛的應用領域,主要在金融領域、生物醫(yī)學、電子商務中具有廣泛的運用。
2.1數(shù)據(jù)挖掘在金融領域中的應用
在數(shù)據(jù)挖掘技術發(fā)展的早期,它已經(jīng)應用于金融市場。早期在金融市場的運用主要是分析特定對象的演變或發(fā)展趨勢,進而采取相應預防措施,突出的應用在信用評估和防止欺詐。較早前,Robert Groth等運用Neural network對進行股票走勢預測[6],輔助客戶制定穩(wěn)健的投資策略。但隨著互聯(lián)網(wǎng)、第三方支付的發(fā)展與沖擊,非銀行金融機構借助網(wǎng)絡對銀行傳統(tǒng)業(yè)務大規(guī)?!靶Q食”,對銀行產(chǎn)生了較大沖擊,網(wǎng)絡信貸開始嶄露頭角,數(shù)據(jù)挖掘也開始在網(wǎng)絡金融借貸方面。陳等[7]以Weka為工具,運用數(shù)據(jù)挖掘?qū)2P網(wǎng)絡金融平臺借貸歷史挖掘分析,使用Weka已有的算法及數(shù)據(jù)模型,參考借出總金額、時間、總次數(shù)指標,以聚類結果為導向,將出款人分為8種類型。以類型判斷出款人的潛在價值,為管理者提供參考導向。而對于傳統(tǒng)銀行業(yè),也在積極運用數(shù)據(jù)挖掘來提升其在存、貸、匯等傳統(tǒng)業(yè)務的優(yōu)勢地位,進一步鞏固開拓市場。
2.2數(shù)據(jù)挖掘在生物醫(yī)學中的應用
數(shù)據(jù)挖掘在生物醫(yī)學領域也有著廣泛的應用。Vysis 采用Neural network為藥品開發(fā)進行蛋白質(zhì)分析[6]。在之前的研究中,數(shù)據(jù)挖掘主要是分析生物序列,試圖找出某種未知的規(guī)律。隨著深度學習的發(fā)展,數(shù)據(jù)挖掘在生物醫(yī)學上也出現(xiàn)了新的研究應用。可以通過對已有的疾病數(shù)據(jù)運用數(shù)據(jù)挖掘?qū)W習,實現(xiàn)對患者疾病分類,間接對醫(yī)生輔助診斷。張[8]等針對已有疾病數(shù)據(jù)的不均衡、多標記等特點,進行了不均衡、多標記分類研究,提高了相應的分類預測指標。洪等[9]結合目前深度學習在生物醫(yī)學數(shù)據(jù)的最新應用情況,運用循環(huán)神經(jīng)網(wǎng)絡、卷積神經(jīng)網(wǎng)絡等深度學習模型,數(shù)據(jù)預處理、模型構建等方面的解決方法的分析,指出了深度學習在生物醫(yī)學數(shù)據(jù)的發(fā)展前景。
2.3電子商務領域的運用
電子商務領域數(shù)據(jù)挖掘也有著較多的運用。隨著新時期大數(shù)據(jù)的發(fā)展,通過分析交易平臺歷史交易數(shù)據(jù),可挖掘出購物者在商品類型的偏好,對其實現(xiàn)精準推薦。同時,它可以協(xié)助電商平臺運營,調(diào)整平臺的銷售策略和商品,進一步為消費者提供個性化服務。李等[10]在Spark平臺基礎上,改進了協(xié)同過濾(Item-CF)算法商品推薦系統(tǒng)(此算法基于新物品),并將其應用在公開的MovieLens數(shù)據(jù)集上測試。結果表明,該系統(tǒng)提高了相應的推薦指標并且降低時間復雜度。沈等[11]基于隨機森林,設計了一個關于帖子瀏覽的推薦系統(tǒng)。該系統(tǒng)在數(shù)據(jù)處理、特征選擇和調(diào)整參數(shù)等前期基礎上,將實際問題與分類模型結合,形成新的新的分類模型,對用戶推薦感興趣的帖子,而且還對用戶瀏覽后是否會產(chǎn)生交互行為進行了預測。通過提高推薦精確度等相應技術指標,數(shù)據(jù)挖掘在電商得到進一步深入。
3公共管理領域的運用
數(shù)據(jù)挖掘除了在上述商業(yè)科研領域發(fā)揮著作用外,也開始在電子政務領域、政府決策領域、數(shù)字經(jīng)濟等公共管理領域開始發(fā)揮著重要作用。
3.1 電子政務領域
電子政務的核心建立在是以互聯(lián)網(wǎng)為基礎的將政府管理和服務,建設以群眾滿意為導向的政府服務體系[12]。雖然政府部門多年來積累了大量豐富的數(shù)據(jù),但是數(shù)據(jù)利用的頻率和效率都很低,而數(shù)據(jù)挖掘可以解決這個問題。利用數(shù)據(jù)挖掘分析,“挖掘”和“提煉”政府部門的數(shù)據(jù),使政府能夠有效地安排和指導政府服務。通過數(shù)據(jù)挖掘分析群眾在辦事過程中遇到的難點、賭點,有針對性地推出相應的政策,制定便民的服務流程、制度,讓“沉睡”的數(shù)據(jù)發(fā)揮更大的作用。讓政務服務更具有針對性、滿足更加個性化需求,這就是新時期電子政務的發(fā)展方向[13]。
3.2 政府決策領域
政府決策是公共管理中非常重要的組成部分,要充分滿足群眾在社會各項公共服務需求,體現(xiàn)人性化色彩,必須全面地了解社會公共服務的各方面數(shù)據(jù),深入地進行分析、匯總從而制定相應的決策。然而,社會服務涉及廣泛的數(shù)據(jù),并且相應的數(shù)據(jù)量很大。通過數(shù)據(jù)挖掘分析處理這些已有的社會服務數(shù)據(jù),從中挖掘出決策者想要的信息,有利于決策者更加科學、合理、有針對性的決策。利用基于數(shù)據(jù)挖掘的決策咨詢系統(tǒng),使政府能夠更加有效掌握經(jīng)濟和社會運行的具體情況,使決策更加科學。
孫等[14]采用5層架構,通過全面的數(shù)據(jù)采集、建立決策數(shù)據(jù)倉庫、采用適合數(shù)據(jù)挖掘算法,并根據(jù)用戶需要對數(shù)據(jù)進行主題分類,在結果上采用直觀的、可視化和支持查詢的顯示呈現(xiàn)。給用戶提供了更加方便、更加具有針對性的決策體驗。楊等[15]以數(shù)據(jù)倉庫為基礎,運用聯(lián)機分析處理(OLAP)和數(shù)據(jù)挖掘,建設了政府經(jīng)濟決策系統(tǒng),實現(xiàn)了對政府經(jīng)濟決策實現(xiàn)了有效的支持。
3.3數(shù)據(jù)挖掘在數(shù)字經(jīng)濟中的應用
數(shù)字經(jīng)濟是以數(shù)字資源為基礎,數(shù)字技術和信息技術是其重要的驅(qū)動力,通過信息網(wǎng)絡的連接形成了生產(chǎn)和消費等經(jīng)濟活動的總和。當前,隨著新技術的發(fā)展,通過智能手機不僅可以完成看病掛號、繳付水電費等一般事務,而且還可以參與舉報違法、糾正不實消息,報告重大險情、交通事故等,數(shù)字經(jīng)濟越來越多地用于民生領域。數(shù)據(jù)挖掘是數(shù)字經(jīng)濟智能化“引擎”,為數(shù)字經(jīng)濟的下一步發(fā)展提供了重要支持。
4結語
數(shù)據(jù)挖掘計算機領域中熱門的研究領域之一,同時也是一個隨著時代發(fā)展而不斷發(fā)展的學科,在未來的領域中,會有著更加廣泛的運用。本文主要從應用方面總結和闡述了當前數(shù)據(jù)挖掘運用的主要方向。在新時期,隨著大數(shù)據(jù)等技術發(fā)展,數(shù)據(jù)挖掘的運用領域也會越來越廣。
參考文獻:
[1]王光宏, 蔣平. 數(shù)據(jù)挖掘綜述[J]. 同濟大學學報, 2004, 32(2): 246-252.
[2]葉磊, 駱興國, 李建喜. 數(shù)據(jù)挖掘的應用和發(fā)展趨勢葉磊[J]. 電腦知識與技術, 2006(32): 26-27.
[3]Han J, Kamber M. Data Mining : Concepts and Technique[M]. 2005.
[4]Zaki M J, Yu J X, Ravindran B, et al. Advances in Knowledge Discovery and Data Mining[J], 2013, 5476(4): xviii.
[5]劉力揚. 數(shù)據(jù)挖掘與數(shù)據(jù)庫知識發(fā)現(xiàn)[J]. 河南廣播電視大學學報, 2000(3): 42-43.
[6]滕廣青, 毛英爽. 國外數(shù)據(jù)挖掘應用研究與發(fā)展分析[J]. 統(tǒng)計研究, 2005, 22(12): 68-70.
[7]陳雪改, 王飛. 基于P2P互聯(lián)網(wǎng)金融的數(shù)據(jù)挖掘技術研究[J]. 重慶理工大學學報, 2017, 31(7): 151-155.
[8]潘主強, 張林, 顏仕星, et al. 中醫(yī)臨床數(shù)據(jù)疾病分類機器學習方法研究[J]. 計算機工程與應用, 2017, 53(13): 146-154.
[9]洪浩, 伯曉晨, 醫(yī)學信息學雜志 李 J. 深度學習在生物醫(yī)學數(shù)據(jù)中的應用[J], 2018, 39(3): 2-9.
[10]李星, 李濤. 基于Spark的推薦系統(tǒng)的設計與實現(xiàn)[J]. 計算機技術與發(fā)展, 2018, 28(10): 201-205.
[11]沈晶磊, 虞慧群, 范貴生, et al. 基于隨機森林算法的推薦系統(tǒng)的設計與實現(xiàn)[J]. 計算機科學, 2017, 44(11): 164-167.
[12]劉典文. 數(shù)據(jù)挖掘技術在公共管理領域的應用[J]. 行政論壇, 2010, 17(2): 42-46.
[13]周民, 賈一葦. 推進“互聯(lián)網(wǎng)+政務服務”,創(chuàng)新政府服務與管理模式[J]. 電子政務, 2016(6): 73-79.
[14]孫道遠. 基于數(shù)據(jù)挖掘技術的政府決策咨詢系統(tǒng)的研究與設計[J]. 長春工程學院學報, 2017, 18(4).
[15]楊越. 數(shù)據(jù)挖掘在政府部門決策管理系統(tǒng)中的數(shù)據(jù)與應用[D]. 解放軍信息工程大學, 2012.
【通聯(lián)編輯:王力】