張昊
(湖北第二師范學(xué)院計(jì)算機(jī)學(xué)院,湖北 武漢 430205)
在互聯(lián)網(wǎng)和物聯(lián)網(wǎng)技術(shù)快速發(fā)展背景下,計(jì)算機(jī)存儲空間和計(jì)算能力都得到了明顯提高,可以實(shí)現(xiàn)持續(xù)獲取海量的數(shù)據(jù),這就意味著人們正式走入了大數(shù)據(jù)時代。大數(shù)據(jù)技術(shù)的價值是真實(shí)而又巨大的,為了能夠充分發(fā)揮出其中存在的優(yōu)勢,就必須要解決像數(shù)據(jù)采集和信息抽取處理以及數(shù)據(jù)分析等技術(shù)問題。在此影響下,對數(shù)據(jù)獲取、存儲和管理等數(shù)據(jù)安全服務(wù)和隱私保護(hù)工作都提出了十分嚴(yán)格的要求,各種云計(jì)算信息技術(shù)急需硬件設(shè)備支持來解決技術(shù)問題。
除此之外,計(jì)算智能代表著人工智能時代新時期,是一種綜合性問題解決方法總稱,與傳統(tǒng)人工智能技術(shù)不同,計(jì)算智能不需要建立符合自身問題的模型,也不只是單純的知識表達(dá),而是在數(shù)據(jù)觀測的基礎(chǔ)上進(jìn)行處理,這一特點(diǎn)很容易處理大數(shù)據(jù)當(dāng)中那些傳統(tǒng)人工智能技術(shù)無法解決的問題。從目前實(shí)際情況來看,計(jì)算機(jī)技術(shù)和人工智能技術(shù)都在快速發(fā)展,在圖像處理以及智能控制等多個領(lǐng)域的應(yīng)用都十分普遍,并收獲了非常理想的成果。然而在不斷更新?lián)Q代的大數(shù)據(jù)背景下,計(jì)算智能方法也面臨著一定的挑戰(zhàn)。
很多不確定的復(fù)雜問題通過計(jì)算智能方法都可以輕松解決,同時也非常適合應(yīng)用于多變且多樣化的大數(shù)據(jù)環(huán)境。計(jì)算智能方法也面臨著很多全新的挑戰(zhàn),大多數(shù)應(yīng)用于小數(shù)據(jù)層面的計(jì)算智能方法已無法適用于當(dāng)前海量且高速的大數(shù)據(jù)計(jì)算中,具體問題如下:受數(shù)據(jù)規(guī)模膨脹的影響,算法時空開銷也呈現(xiàn)出持續(xù)增漲的趨勢,能夠被小數(shù)據(jù)集所接受的計(jì)算難度,在大數(shù)據(jù)中也變得十分困難。其次,從大數(shù)據(jù)實(shí)際應(yīng)用情況來看,數(shù)據(jù)是不斷變化和更新的,它無法直接傳輸?shù)接?jì)算機(jī)主機(jī)存儲器當(dāng)中,也無法保留所有的樣本數(shù)據(jù),更不能像批量計(jì)算那樣構(gòu)建出無偏訓(xùn)練集。最后,在大數(shù)據(jù)時代環(huán)境中,數(shù)據(jù)采集能力和生產(chǎn)能力都在與日俱增,方法也越來越多樣,這也使得屬性數(shù)量在隨著數(shù)據(jù)規(guī)模不斷擴(kuò)大而明顯增加,數(shù)據(jù)信息表現(xiàn)出高維且系數(shù)的特征[1]。
對此,面對大數(shù)據(jù)為計(jì)算智能帶來的挑戰(zhàn),未來需要重點(diǎn)從以下幾個方面進(jìn)行研究:
一是要拓展計(jì)算智能算法,以此來更好地處理大規(guī)模業(yè)務(wù),在問題規(guī)模持續(xù)擴(kuò)增的同時,擴(kuò)展算法模型也會發(fā)生相應(yīng)的變化。由于大部分計(jì)算智能算法研究都是將大數(shù)據(jù)技術(shù)作為基本出發(fā)點(diǎn),因此這些方法并不只是分析大數(shù)據(jù)這么簡單,而且關(guān)于大數(shù)據(jù)性能方面的分析也少之又少,如何將存在于小數(shù)據(jù)集上的計(jì)算智能算法轉(zhuǎn)移到大數(shù)據(jù)集之上,是未來需要重點(diǎn)研究的問題。從目前實(shí)際情況來看,加強(qiáng)算法的可擴(kuò)展性是解決這類問題的主要手段,常見方法主要有線優(yōu)化、隨機(jī)算法、以哈希為基礎(chǔ)的算法和規(guī)模較大的集群分布式算法等四種。因此相關(guān)研究人員需要重點(diǎn)分析將這些措施與計(jì)算智能算法相結(jié)合的有效方法,同時還要考慮如何才能夠發(fā)展高擴(kuò)展性的計(jì)算智能新算法。在此基礎(chǔ)上還要將原始問題進(jìn)行簡化,在此期間,大規(guī)模復(fù)雜問題的解決措施就是分而治之,其關(guān)鍵就是如何抽象劃分問題。
二是粒計(jì)算的理論與計(jì)算模型可以從不同的角度和層次來進(jìn)行分析,進(jìn)而使問題能夠得到有效解決,為復(fù)雜問題的處理方式提供新思路[2]。粒計(jì)算在應(yīng)對大數(shù)據(jù)中復(fù)雜問題處理期間具有非常關(guān)鍵的作用,屬于一種規(guī)范化計(jì)算模式,在智能化信息發(fā)展領(lǐng)域十分重要,然而在后期實(shí)際應(yīng)用過程中,還需要探討如何告別當(dāng)前初始階段。
三是在分析大數(shù)據(jù)信息時,考慮是否會用到原數(shù)據(jù)集中的信息,如果不是,將如何豐富更加高效且豐富的手段,這是需要重點(diǎn)研究的問題。在一些應(yīng)用中,還需要對部分?jǐn)?shù)據(jù)進(jìn)行采樣處理,將滿足小數(shù)據(jù)集特點(diǎn)的傳統(tǒng)方式應(yīng)用于大數(shù)據(jù)集當(dāng)中,通過犧牲部分精確率來減少時空開銷。除此之外,在分析大數(shù)據(jù)集前提下來探索其中所存在的規(guī)律,也是一種十分可行的策略。
除了上述幾點(diǎn)研究發(fā)展之外,因?yàn)樵诤芏啻髷?shù)據(jù)應(yīng)用環(huán)境下,數(shù)據(jù)中所蘊(yùn)含的規(guī)律是不斷變化和發(fā)展的。例如,互聯(lián)網(wǎng)熱點(diǎn)新聞討論熱度會隨著時間推移而發(fā)生變化,在新聞傳播和消失等各個環(huán)節(jié)中都有不同的變化,因此大數(shù)據(jù)分析并不只對某一時段的事件進(jìn)行提前預(yù)測,還要體現(xiàn)數(shù)據(jù)的動態(tài)發(fā)展模式,這樣才可以充分體現(xiàn)數(shù)據(jù)中的潛在價值。另外,因?yàn)榇髷?shù)據(jù)價值密度不高,因此會經(jīng)常使異常模式突出較高的價值,比如日志數(shù)據(jù)的故障錯誤、輿情分析中的敏感事件以及金融業(yè)務(wù)中的敲詐行為等等。這些都需要應(yīng)用發(fā)展迅速且可靠的方法來進(jìn)行檢驗(yàn)。
計(jì)算智能一般可以認(rèn)為是人工神經(jīng)網(wǎng)絡(luò)、模糊系統(tǒng)以及演化計(jì)算三方面相互融合形成的全新計(jì)算方法。計(jì)算智能算法因其自身特點(diǎn)決定了在大數(shù)據(jù)分析過程中的重要價值。
首先,大數(shù)據(jù)本身復(fù)雜多樣且多變的特點(diǎn)決定了模型驅(qū)動方法存在本質(zhì)上的約束性,面對錯綜復(fù)雜的海量數(shù)據(jù)信息,通常很難建立精確模型完成演化計(jì)算[3]。同時大數(shù)據(jù)分析通常會隨著外界環(huán)境發(fā)生變化,這都是源自于系統(tǒng)本身和用戶的需求等方面在發(fā)生變化,傳統(tǒng)人工智能方式很難面對這樣的環(huán)境變化,這就導(dǎo)致最終算法失去了意義,而通過遺傳算法可以根據(jù)實(shí)際環(huán)境來優(yōu)化種群適應(yīng)程度。
其次,精度也是大數(shù)據(jù)環(huán)境下的一項(xiàng)重要因素,針對不確定問題的處理和管理需求都源自于數(shù)據(jù)采集措施和自然環(huán)境等其他因素的干擾,在此基礎(chǔ)上也有大數(shù)據(jù)不確定的特點(diǎn)。所以針對不確定數(shù)據(jù)的挖掘成為了當(dāng)前大數(shù)據(jù)分析過程中的重要問題。
最后,大數(shù)據(jù)的規(guī)模和復(fù)雜程度也需要分析較大的時空開銷,但是可能無法在精確的時間內(nèi)進(jìn)行分析。計(jì)算智能方法擁有一定的啟發(fā)性,可以模擬人類和其他生物智慧來得到想要的答案,具有較高的自組織性和自適應(yīng)性,能夠快速解決一些較為棘手的問題,規(guī)模龐大的問題處理也因此得到了有效手段。
人工神經(jīng)網(wǎng)絡(luò)是一種在模仿動物神經(jīng)系統(tǒng)前提下而實(shí)現(xiàn)的分布式信息處理模型,擁有良好的非線性映射能力和容錯性,是一種十分關(guān)鍵的計(jì)算智能算法。神經(jīng)網(wǎng)絡(luò)并不需要掌握任何先驗(yàn)知識,和傳統(tǒng)計(jì)算方式相比,約束條件相對較少。從大數(shù)據(jù)角度來看,像設(shè)備傳感器、社交網(wǎng)絡(luò)以及搜索引擎等,這些數(shù)據(jù)都是持續(xù)變化的,因此無法像學(xué)習(xí)算法一樣在過去數(shù)據(jù)中建立起訓(xùn)練集。另外,數(shù)據(jù)規(guī)模與產(chǎn)生的速度也會導(dǎo)致數(shù)據(jù)無法實(shí)現(xiàn)一次性導(dǎo)入。面對這樣的問題,需要利用深度在線學(xué)習(xí)方法,每次分析只需要一個樣本數(shù)據(jù)來更新目標(biāo)函數(shù)即可。在此基礎(chǔ)上,感知器也是一種十分傳統(tǒng)的在線學(xué)習(xí)模型,是人工神經(jīng)網(wǎng)絡(luò)的重要結(jié)構(gòu),對于任何一種訓(xùn)練樣本,感知器都可以準(zhǔn)通過預(yù)測結(jié)果來判斷是否更新和連接權(quán)重。如果預(yù)測結(jié)果正確,那么權(quán)重將會不變。否則,就需要結(jié)合輸入樣本特征來更新。在理論方面,這樣的更新手段擁有較低的錯誤率,經(jīng)過標(biāo)準(zhǔn)化之后的訓(xùn)練樣本將會與最短距離平方呈反比[4]。
在大數(shù)據(jù)使用過程中,數(shù)據(jù)很容易受精度和隨機(jī)性等非可控因素影響,最終會導(dǎo)致大部分?jǐn)?shù)據(jù)表現(xiàn)出一定的模糊性。除了在采集期間導(dǎo)入模糊性之外,在實(shí)際使用過程中數(shù)據(jù)也要具備固定模糊性,例如電商網(wǎng)站和服務(wù)點(diǎn)評網(wǎng)站等等,用戶可以根據(jù)自己的感受來發(fā)表言論,這些信息都很難用簡單邏輯來表達(dá),重點(diǎn)是要表達(dá)其中的不確定性,用語言來表述更加詳細(xì)的模糊概念[5]。對于模糊系統(tǒng)的研究屬于一種模糊現(xiàn)象,這樣的模糊性通常存在于事物的差異性方面,概念外延也因此具有一定的不分明性,使推理結(jié)果的可解釋性更強(qiáng),是一種應(yīng)用十分廣泛的計(jì)算智能算法。從語言變量描述角度來看擁有非常明顯的應(yīng)用價值。
以遺傳演算為基礎(chǔ)的演化計(jì)算和粒子群優(yōu)化等為代表的群體智能計(jì)算方法,是應(yīng)對復(fù)雜問題的重要手段。在實(shí)際應(yīng)用期間的優(yōu)點(diǎn)在于,它不僅可以快速解決一些十分困難的問題。同時還可以用于解決約簡問題當(dāng)中,進(jìn)而有效解決數(shù)據(jù)量龐大的困擾。
遺傳算法自身不需要先驗(yàn)知識,目前已廣泛應(yīng)用于解決復(fù)雜問題當(dāng)中。此外,遺傳算法還能夠進(jìn)行數(shù)據(jù)簡化,因?yàn)榧訌?qiáng)決策力和流程優(yōu)化能力是大數(shù)據(jù)分析過程中的重要目標(biāo)之一,所以計(jì)算智能算法擁有比傳統(tǒng)計(jì)算方法更廣的應(yīng)用空間,差異目標(biāo)優(yōu)化如今已成為演化計(jì)算的重要研究方向。
綜上所述,雖然大數(shù)據(jù)技術(shù)帶來了前所未有的發(fā)展機(jī)遇,但是對信息技術(shù)發(fā)展帶來了一定的挑戰(zhàn)。所以必須結(jié)合大數(shù)據(jù)技術(shù)特點(diǎn)進(jìn)行全面分析,并總結(jié)歸納其中的計(jì)算智能方法應(yīng)用措施,在分析缺陷問題的前提下,清楚了解未來主要研究方向,解決數(shù)據(jù)資源共享傳輸問題,利用豐富且開放的大數(shù)據(jù)技術(shù)最終發(fā)揮出計(jì)算智能算法的應(yīng)用潛力,解決各種復(fù)雜性問題。