張一林 羅楊川云
?
大數(shù)據(jù)算法與數(shù)據(jù)分析技術(shù)探究
張一林 羅楊川云
貴州大學(xué)大數(shù)據(jù)與信息工程學(xué)院,貴州 貴陽 550000
隨著科學(xué)技術(shù)的發(fā)展,大數(shù)據(jù)在人工智能領(lǐng)域起著越來越重要的作用,基于大數(shù)據(jù)平臺(tái)的數(shù)據(jù)分析與挖掘已成為各科研單位的研究熱點(diǎn)。通過對大數(shù)據(jù)的發(fā)展、算法分析以及平臺(tái)設(shè)計(jì)進(jìn)行探究,對大數(shù)據(jù)平臺(tái)的應(yīng)用進(jìn)行了展望,力求為智能化技術(shù)的發(fā)展提供創(chuàng)新的思路。
大數(shù)據(jù);人工智能;算法設(shè)計(jì)
大數(shù)據(jù)指無法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合。大數(shù)據(jù)包括海量的數(shù)據(jù)信息與高強(qiáng)度的數(shù)據(jù)處理能力,是相對于傳統(tǒng)數(shù)據(jù)處理應(yīng)用程序不足以處理大型、復(fù)雜的數(shù)據(jù)集的新型處理模式,包括分析、捕獲、數(shù)據(jù)整理、搜索、共享、存儲(chǔ)、傳輸、可視化查詢、更新和信息管理。大數(shù)據(jù)通常僅指使用預(yù)測分析、用戶行為分析或某些其他高級數(shù)據(jù)的分析方法,這些方法從數(shù)據(jù)中提取價(jià)值,很少涉及特定大小的數(shù)據(jù)集。數(shù)據(jù)集分析可以發(fā)現(xiàn)新的聯(lián)系與信息。越來越成熟的概念更清楚地描述了大數(shù)據(jù)和人工智能之間的區(qū)別,人工智能使用具有高信息密度的數(shù)據(jù)的描述性統(tǒng)計(jì)來測量事物、檢測趨勢等。大數(shù)據(jù)使用歸納統(tǒng)計(jì)和來自非線性系統(tǒng)識(shí)別的概念,從具有低信息密度的大量數(shù)據(jù)集中推斷出法則,以揭示關(guān)系和依賴性或者進(jìn)行結(jié)果和行為的預(yù)測[1]。
2.1 神經(jīng)網(wǎng)絡(luò)算法
神經(jīng)網(wǎng)絡(luò)系統(tǒng)是由眾多的神經(jīng)元可調(diào)的連接權(quán)值連接而成,具有大規(guī)模并行處理、分布式信息存儲(chǔ)、良好的自組織自學(xué)習(xí)能力等特點(diǎn)。神經(jīng)網(wǎng)絡(luò)是一種計(jì)算方法,基于神經(jīng)單元的大集合,解決由軸突連接的生物神經(jīng)元的大群集的問題。 每個(gè)神經(jīng)單元與許多其他神經(jīng)單元連接,并且可以對所連接的神經(jīng)單元的激活狀態(tài)影響中實(shí)施抑制。每個(gè)單獨(dú)的神經(jīng)單元可以具有將所有其輸入的值組合在一起的求和功能。這些系統(tǒng)是自學(xué)習(xí)和訓(xùn)練的,而不是明確編程的,并且在傳統(tǒng)計(jì)算機(jī)程序中難以表達(dá)的。
2.2 灰色關(guān)聯(lián)度分析
灰色關(guān)聯(lián)分析方法,是根據(jù)因素之間發(fā)展趨勢的相似或相異程度,來進(jìn)行歸納和評價(jià),作為衡量因素間關(guān)聯(lián)程度的一種方法?;疑P(guān)聯(lián)度分析使用特定的信息概念。它定義沒有信息為黑色的情況以及具有完美信息為白色的情況,這些理想化的情況都不會(huì)出現(xiàn)在現(xiàn)實(shí)世界的問題中。事實(shí)上,這些過渡階段的情況被描述為灰色。因此,灰色系統(tǒng)意味著其中部分信息是已知的并且部分信息是未知的系統(tǒng)[2]。
3.1 平臺(tái)層
大數(shù)據(jù)分布式存儲(chǔ)系統(tǒng):研究大規(guī)模、非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)問題,突破大數(shù)據(jù)的存儲(chǔ)、管理和高效訪問關(guān)鍵技術(shù),當(dāng)前需要構(gòu)建至少 PB 級存儲(chǔ)能力的大數(shù)據(jù)平臺(tái)才能滿足一般的科研和應(yīng)用需求。
分布式數(shù)據(jù)挖掘運(yùn)行時(shí)系統(tǒng):突破 MapReduce 技術(shù)的局限,研究有效支持迭代、遞歸、層次及集成機(jī)制的海量數(shù)據(jù)挖掘編程模型和運(yùn)行時(shí)系統(tǒng),構(gòu)建大數(shù)據(jù)運(yùn)行時(shí)系統(tǒng)。
3.2 功能層
高可擴(kuò)展性大數(shù)據(jù)挖掘算法:基于云計(jì)算的分布式大數(shù)據(jù)處理與挖掘算法,構(gòu)建高可擴(kuò)展的大數(shù)據(jù)處理與挖掘算法庫,實(shí)現(xiàn) TB 級數(shù)據(jù)的建模能力。
分布式工作流引擎:基于云計(jì)算的分布式工作流調(diào)度、負(fù)載均衡技術(shù),構(gòu)建高效分布式工作流執(zhí)行引擎。
交互式可視化分析技術(shù):啟發(fā)式、人機(jī)交互、可視化數(shù)據(jù)挖掘新技術(shù),實(shí)現(xiàn)大數(shù)據(jù)挖掘的高度人機(jī)交互功能。
3.3 服務(wù)層
基于 Web 的大數(shù)據(jù)挖掘技術(shù):Web 的大數(shù)據(jù)挖掘方法和流程,實(shí)現(xiàn)易于使用的基于 Web 的大數(shù)據(jù)挖掘技術(shù),構(gòu)建基于 Web 的大數(shù)據(jù)分析環(huán)境。
基于Open API 的大數(shù)據(jù)挖掘技術(shù):采用Open API 的大數(shù)據(jù)挖掘方法,研究大數(shù)據(jù)挖掘開放接口、開放流程,構(gòu)建基于 Open API 的大數(shù)據(jù)分析模式[3]。
4.1 數(shù)據(jù)挖掘
數(shù)據(jù)挖掘是發(fā)現(xiàn)大數(shù)據(jù)數(shù)據(jù)規(guī)律的計(jì)算過程,涉及人工智能、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)和數(shù)據(jù)庫系統(tǒng)結(jié)合的方法,它是一個(gè)跨學(xué)科的計(jì)算機(jī)科學(xué)子領(lǐng)域。數(shù)據(jù)挖掘過程的總體目標(biāo)是從數(shù)據(jù)集中提取信息并將其轉(zhuǎn)換為可以理解的結(jié)構(gòu)以供進(jìn)一步使用。除了原始數(shù)據(jù)分析外,它涉及數(shù)據(jù)庫和數(shù)據(jù)管理方面、數(shù)據(jù)預(yù)處理、模型和推理、復(fù)雜性考慮、結(jié)構(gòu)整合處理、可視化和在線更新。數(shù)據(jù)挖掘是數(shù)據(jù)庫信息分析的過程。目標(biāo)是從大量數(shù)據(jù)中提取模式和信息,而不是數(shù)據(jù)本身的提取。數(shù)據(jù)挖掘是一個(gè)熱門的領(lǐng)域,并且經(jīng)常應(yīng)用于各種形式的大規(guī)模數(shù)據(jù)或信息處理,主要包括收集、提取、存儲(chǔ)、分析和統(tǒng)計(jì),以及計(jì)算機(jī)決策支持系統(tǒng)的應(yīng)用,包括人工智能、機(jī)器學(xué)習(xí)和商業(yè)智能。實(shí)際的數(shù)據(jù)挖掘任務(wù)是大量數(shù)據(jù)的自動(dòng)或半自動(dòng)分析,從而提取先前未知的數(shù)據(jù)存在模式,例如聚類分析、異常數(shù)據(jù)檢測和關(guān)聯(lián)規(guī)則挖掘、順序模式分析等,這通常涉及使用諸如數(shù)據(jù)索引的數(shù)據(jù)庫技術(shù)。
4.2 機(jī)器學(xué)習(xí)
機(jī)器學(xué)習(xí)是計(jì)算機(jī)科學(xué)的子領(lǐng)域,它使計(jì)算機(jī)能夠?qū)W習(xí)而不用明確編程,從模式識(shí)別和計(jì)算學(xué)習(xí)理論在人工智能的研究演變而來。機(jī)器學(xué)習(xí)探索學(xué)習(xí)對數(shù)據(jù)進(jìn)行預(yù)測算法的研究和構(gòu)建,這樣的算法克服了嚴(yán)格的靜態(tài)程序指令數(shù)據(jù)驅(qū)動(dòng)的預(yù)測或決策,通過從樣本輸入來建立一個(gè)模型。機(jī)器學(xué)習(xí)在一系列計(jì)算任務(wù)中使用,其中有著明確算法的設(shè)計(jì)和編程是不可行的,比如垃圾郵件過濾、檢測網(wǎng)絡(luò)入侵者或惡意內(nèi)部人員、光學(xué)字符識(shí)別、搜索引擎和計(jì)算機(jī)視覺,這些方面都沒有明確的算法表示。機(jī)器學(xué)習(xí)與計(jì)算統(tǒng)計(jì)密切相關(guān),并且經(jīng)常與計(jì)算統(tǒng)計(jì)重疊。計(jì)算統(tǒng)計(jì)也集中在通過使用計(jì)算機(jī)的預(yù)測中,它與數(shù)學(xué)優(yōu)化有著緊密的聯(lián)系,是將方法、理論和應(yīng)用領(lǐng)域傳遞到現(xiàn)場。機(jī)器學(xué)習(xí)有時(shí)與數(shù)據(jù)挖掘相結(jié)合,后者的子領(lǐng)域更側(cè)重于探索性數(shù)據(jù)分析。
大數(shù)據(jù)技術(shù)算法的創(chuàng)新是一條光明而曲折的路,在這條路上會(huì)出現(xiàn)很多難題與挑戰(zhàn),這個(gè)任務(wù)長期而又艱巨,需要結(jié)合實(shí)際經(jīng)驗(yàn),不斷地進(jìn)行總結(jié)歸納,為實(shí)現(xiàn)自身的長遠(yuǎn)發(fā)展而進(jìn)行大膽革新,利用創(chuàng)新思維進(jìn)行現(xiàn)代化建設(shè),從而大踏步地走向智能化的大數(shù)據(jù)發(fā)展目標(biāo)。
[1]陳曉,趙晶玲.大數(shù)據(jù)處理中混合型聚類算法的研究與實(shí)現(xiàn)[J].信息網(wǎng)絡(luò)安全,2015(4):15.
[2]楊婷婷,林昌露,劉憶寧,張勝元.基于多方排序協(xié)議的安全電子投票方案[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2015(8):15.
[3]文坤,廖瑛,楊雅君.帶有空間機(jī)械臂的航天器系統(tǒng)慣性參數(shù)辨識(shí)[J].飛行器測控學(xué)報(bào),2015(4):15.
Research on Large Data Algorithm and Data Analysis Technology
Zhang Yilin Luoyang Chuanyun
College of Big Data and Information Engineering of Guizhou University, Guizhou Quiyang 550000
With the development of science and technology, big data is playing an increasingly important role in the field of artificial intelligence. In this paper, the development of large data, algorithm analysis and platform design are explored, and the application of the big data platform is prospected.
Big Data; artificial intelligence; algorithm design
TP311.13
A
1009-6434(2017)02-0153-02