,, , ,
(國網(wǎng)湖北省電力公司 信息通信公司,武漢 430000)
基于云計(jì)算的大數(shù)據(jù)自動(dòng)分類處理系統(tǒng)設(shè)計(jì)
羅弦,查志勇,徐煥,劉芬,詹偉
(國網(wǎng)湖北省電力公司信息通信公司,武漢430000)
隨著現(xiàn)代網(wǎng)絡(luò)技術(shù)不斷進(jìn)步,系統(tǒng)數(shù)據(jù)量也在逐漸增多;傳統(tǒng)的大數(shù)據(jù)自動(dòng)分類處理系統(tǒng)已經(jīng)無法滿足現(xiàn)階段用戶需求,其軟件與硬件的設(shè)計(jì)都比較單一,存在能源消耗大、分類速度慢、處理時(shí)間長、內(nèi)存占用率高等問題,為此,提出基于云計(jì)算的大數(shù)據(jù)自動(dòng)分類處理系統(tǒng)的設(shè)計(jì);首先設(shè)計(jì)系統(tǒng)硬件結(jié)構(gòu),主要包括數(shù)據(jù)采集器、數(shù)據(jù)處理器以及數(shù)據(jù)自動(dòng)存儲模塊,并詳細(xì)的介紹了各硬件結(jié)構(gòu);然后利用時(shí)域特征提取數(shù)據(jù)的算法對頻域特征數(shù)據(jù)進(jìn)行提取,從而實(shí)現(xiàn)數(shù)據(jù)自動(dòng)分類處理系統(tǒng)的軟件設(shè)計(jì);最后對兩種系統(tǒng)性能進(jìn)行對比實(shí)驗(yàn);實(shí)驗(yàn)結(jié)果證明,基于云計(jì)算的大數(shù)據(jù)自動(dòng)分類處理系統(tǒng)的資源不僅占用率低,內(nèi)存消耗小,而且數(shù)據(jù)庫內(nèi)存較大;該系統(tǒng)不但可以提高數(shù)據(jù)自動(dòng)分類精準(zhǔn)度,還能加快數(shù)據(jù)分類速度,從而使系統(tǒng)擁有更好的分類性能。
云計(jì)算;大數(shù)據(jù);自動(dòng)分類;數(shù)據(jù)處理;系統(tǒng)設(shè)計(jì)
近幾年隨著網(wǎng)絡(luò)技術(shù)的不斷進(jìn)步,各種系統(tǒng)中的數(shù)據(jù)量也在逐漸地增多,但是面對豐富的數(shù)據(jù)資源卻讓使用者很困惑,大量的數(shù)據(jù)呈現(xiàn)無序、分散的狀態(tài),從而增加了使用者對數(shù)據(jù)信息利用的難度[1-3]。傳統(tǒng)的大數(shù)據(jù)自動(dòng)分類處理系統(tǒng)的結(jié)構(gòu)具有單一性,其能源的消耗、分類的速度、處理的時(shí)間、內(nèi)存的占用率都不能滿足當(dāng)下大量數(shù)據(jù)分類的需求[4-5]。隨著時(shí)間的流逝,大量數(shù)據(jù)逐漸形成了特殊的特征趨勢,傳統(tǒng)大數(shù)據(jù)自動(dòng)分類處理系統(tǒng)的不穩(wěn)定性很難對數(shù)據(jù)進(jìn)行自動(dòng)的分類,因此,能否設(shè)計(jì)出優(yōu)于傳統(tǒng)大數(shù)據(jù)自動(dòng)分類處理的系統(tǒng),是數(shù)據(jù)自動(dòng)分類領(lǐng)域應(yīng)該重點(diǎn)關(guān)注的內(nèi)容[6-7]。
文獻(xiàn)[8]中提出了一種基于關(guān)聯(lián)規(guī)則的大數(shù)據(jù)自動(dòng)分類處理系統(tǒng)的設(shè)計(jì),該系統(tǒng)具體的數(shù)據(jù)挖掘過程是:利用迭代來獲取數(shù)據(jù)的全部項(xiàng)集,其支持的力度高于既定閾值的力度即可,通過對項(xiàng)集的頻繁搜索即可獲得符合使用者的最優(yōu)規(guī)則,并依據(jù)數(shù)據(jù)挖掘的關(guān)聯(lián)規(guī)則對大數(shù)據(jù)進(jìn)行自動(dòng)的分類處理。但是該設(shè)計(jì)方法受到系統(tǒng)硬件條件的制約,運(yùn)行的效果較差,能源消耗較多。文獻(xiàn)[9]中提出了一種基于向量的數(shù)據(jù)自動(dòng)分類處理系統(tǒng)的設(shè)計(jì),該系統(tǒng)設(shè)計(jì)的風(fēng)險(xiǎn)較小,不會(huì)受到數(shù)據(jù)維數(shù)的影響。其設(shè)計(jì)的過程中,分類的數(shù)據(jù)將置于兩種數(shù)據(jù)樣本之間距離較遠(yuǎn)的位置,并經(jīng)過高維空間的變化,低維線性存在的不可分的問題就迎刃而解了,從而實(shí)現(xiàn)大數(shù)據(jù)的自動(dòng)化分類,但是該系統(tǒng)的設(shè)計(jì)會(huì)嚴(yán)重造成數(shù)據(jù)分類的單一性,性能效果不佳。文獻(xiàn)[10]中提出了一種基于信息互動(dòng)的大數(shù)據(jù)特征提取系統(tǒng)的設(shè)計(jì),該系統(tǒng)以信息互動(dòng)為準(zhǔn)則,對數(shù)據(jù)特征進(jìn)行分類與對比,并利用迭代算法對系統(tǒng)的軟件進(jìn)行設(shè)計(jì),進(jìn)而對數(shù)據(jù)進(jìn)行準(zhǔn)確的分類。雖然該系統(tǒng)的準(zhǔn)確率較高,但是資源的占用率較少以及穩(wěn)定的性能較低。
針對上述存在的問題,我提出了基于云計(jì)算的大數(shù)據(jù)自動(dòng)分類處理系統(tǒng)的設(shè)計(jì)。首先設(shè)計(jì)了系統(tǒng)的硬件結(jié)構(gòu),主要有數(shù)據(jù)采集器、數(shù)據(jù)處理器以及數(shù)據(jù)自動(dòng)存儲模塊,并詳細(xì)的介紹了各硬件的結(jié)構(gòu);然后利用時(shí)域特征提取數(shù)據(jù)的算法對頻域特征數(shù)據(jù)進(jìn)行提取,從而實(shí)現(xiàn)數(shù)據(jù)自動(dòng)分類處理的軟件設(shè)計(jì);最后對兩種系統(tǒng)性能設(shè)計(jì)了對比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果證明,基于云計(jì)算的大數(shù)據(jù)自動(dòng)分類處理系統(tǒng)的設(shè)計(jì)不但提高了分類的精準(zhǔn)度,而且降低了能源的消耗,其系統(tǒng)應(yīng)用將會(huì)有更廣闊的前景。
大數(shù)據(jù)自動(dòng)分類處理系統(tǒng)的硬件是基于云計(jì)算設(shè)計(jì)的,云計(jì)算是在網(wǎng)絡(luò)相關(guān)服務(wù)的程序下,對資源提供動(dòng)態(tài)的易擴(kuò)展的方式,并根據(jù)使用者的需求,將大數(shù)據(jù)進(jìn)行分布式的配置,并以SOA組件模型的體系為基礎(chǔ),增加云計(jì)算的兼容性,從而提高大數(shù)據(jù)自動(dòng)分類處理的穩(wěn)定性。系統(tǒng)硬件的設(shè)計(jì)框圖如圖1所示。
圖1 系統(tǒng)硬件的設(shè)計(jì)框圖
1.1 數(shù)據(jù)采集器的設(shè)計(jì)
數(shù)據(jù)采集器的設(shè)計(jì)主要包括鈦網(wǎng)的管制的芯片以及單片機(jī),通過云計(jì)算的接口向大數(shù)據(jù)自動(dòng)處理器傳送采集到的數(shù)據(jù)。數(shù)據(jù)采集器的電源產(chǎn)生的是5 V的電壓,并經(jīng)過單片機(jī)的引腳傳送到單片機(jī)上方的電壓調(diào)節(jié)器中,為單片機(jī)上方的工作提供3 V的電壓。再將單片機(jī)上方的3 V電壓通過引腳傳送到其它剩余所需3 V電源的器件中供其使用。單片機(jī)經(jīng)過傳送的信息與引腳傳送電壓結(jié)束后與其它的單片機(jī)進(jìn)行信息之間的交換?;谠朴?jì)算的網(wǎng)絡(luò)信號經(jīng)過電路調(diào)整后,使用p25的引腳傳送到單片機(jī)上方的A/D轉(zhuǎn)換器當(dāng)中,并通過A/D轉(zhuǎn)換器將網(wǎng)絡(luò)信號轉(zhuǎn)換成數(shù)據(jù),從而實(shí)現(xiàn)了基于云計(jì)算環(huán)境下的大數(shù)據(jù)的采集。
1.2 數(shù)據(jù)處理器設(shè)計(jì)
基于云環(huán)境下的數(shù)據(jù)處理器主要用于對采集到的大數(shù)據(jù)進(jìn)行處理。處理器主要選用的是某網(wǎng)絡(luò)公司生產(chǎn)的IXP2400的處理器,采用共享效率高的數(shù)據(jù)線程以及微引擎的數(shù)據(jù)信號對收集到的數(shù)據(jù)進(jìn)行處理。通過控制處理器對采集到的數(shù)據(jù)進(jìn)行處理,這個(gè)過程是可完全編程的,處理器工作的模式也可以利用編程來實(shí)現(xiàn)。
1.3 數(shù)據(jù)自動(dòng)存儲模塊的設(shè)計(jì)
數(shù)據(jù)的存儲模塊采用的是C8051F系列的單片機(jī)來完成數(shù)據(jù)的存儲。C8051F系列的單片機(jī)集合成了完全混合的soc芯片,其內(nèi)置的FLASH存儲的程序具備較大的存儲空間。C8051F系列的單片機(jī)與AT45DB80的硬件工作原理如圖2所示。
圖2 單片機(jī)與硬件工作原理圖
由圖2可知,將C8051F系列的單片機(jī)P0.2、P0.3、P0.4引腳采用設(shè)置開關(guān)為MOSI的信號主線,每條主線都與AT45DB80的硬件的始終進(jìn)行串聯(lián)并將信號輸出。將P3.0、P3.1、P3.2和AT45DB80的硬件中的芯片連接,并進(jìn)行復(fù)位。C8051F系列的單片機(jī)采用的是存儲器瞬間開啟的一次性數(shù)據(jù)儲存,其過程是:先將串行外設(shè)接口的表示進(jìn)行清除,然后再向數(shù)據(jù)的自動(dòng)儲存器中輸入字節(jié),如果檢測出的串行外設(shè)接口由AT45DB80硬件組成,那么一次的數(shù)據(jù)自動(dòng)儲存結(jié)束。
基于云計(jì)算的大數(shù)據(jù)自動(dòng)分類處理系統(tǒng)的軟件設(shè)計(jì)需要對大數(shù)據(jù)進(jìn)行特征提取,然后進(jìn)行分類處理。雖然大數(shù)據(jù)的特性在數(shù)據(jù)處理的時(shí)候較為復(fù)雜,但是對于自動(dòng)分類處理的軟件設(shè)計(jì)過程來說是必不可少的。其過程為:首先將數(shù)據(jù)進(jìn)行人工的分類,來獲取數(shù)據(jù)的樣本,然后為了消除多余數(shù)據(jù)之間存在的可能性的矛盾對樣本進(jìn)行聚類,并對系統(tǒng)選取特征性的數(shù)據(jù),最后對性能改進(jìn)型評估,以便性能的改善。
2.1 基于時(shí)域特征提取數(shù)據(jù)算法的設(shè)計(jì)
時(shí)域的特征主要包括瞬時(shí)能量、平均方值的大小以及過零率以及高過零的幀數(shù)比。瞬時(shí)能量的單位為幀,對于大多的數(shù)據(jù)提取方法來說,一般參照瞬時(shí)能量每幀的點(diǎn)幅數(shù)值z的平方以及同一時(shí)間段的大數(shù)據(jù)增減的能量值E,公式為:
(1)
由公式(1)可以看出瞬時(shí)的能量均方根值(RMS)的表示式為:
(2)
其中:i為幀數(shù);I為參照的點(diǎn)數(shù)。
大數(shù)據(jù)的特征可分為語音數(shù)據(jù)與文字?jǐn)?shù)據(jù),都可以通過幀數(shù)的大小呈現(xiàn)出來,因此瞬時(shí)能量的表達(dá)式能夠準(zhǔn)確的將語音數(shù)據(jù)的特征通過上述的公式準(zhǔn)確的提取出來。
過零率Q的含義是能夠在特定的時(shí)間內(nèi)將大數(shù)據(jù)的正負(fù)幅度值的變化次數(shù)迅速的計(jì)算出來,其表示式為:
(3)
公式(3)中,sgn表示的是特定的參數(shù);若數(shù)據(jù)的變量大于等于0時(shí),特定的參數(shù)sgn的數(shù)值為1;若數(shù)據(jù)的變量小于0時(shí),特定的參數(shù)sgn的數(shù)值為-1。
高過零是在一定的時(shí)間內(nèi),其過零率的瞬時(shí)能量的數(shù)值超過其他平均數(shù)值的幀數(shù)的比(HZCRR),其表達(dá)式為:
(4)
公式(4)中:avQ代表的是過零率的平均數(shù)值;Q(i)表示的是幀數(shù)為i時(shí)的過零率。
大數(shù)據(jù)中語音信號的數(shù)據(jù)往往呈現(xiàn)的是交替形式的出現(xiàn),這就導(dǎo)致了過零率的波動(dòng)呈上升趨勢,高過零的幀數(shù)過大;而文字信號的數(shù)據(jù)波動(dòng)的情況并不明顯,高過零的幀數(shù)較小。根據(jù)上述的內(nèi)容可以對大數(shù)據(jù)的特征進(jìn)行分類。
2.2 基于頻域特征數(shù)據(jù)提取的設(shè)計(jì)
頻域特征主要運(yùn)用的是線性預(yù)測和梅爾頻率倒譜系數(shù)計(jì)算方法的數(shù)據(jù)提取,該方法能夠?qū)︻l率產(chǎn)生的瞬時(shí)能量進(jìn)行數(shù)據(jù)的輔助提取。
梅爾頻率倒譜系數(shù)是針對等距劃分頻帶數(shù)據(jù)提取特征應(yīng)用的一種計(jì)算方法,該方法擁有較高的抵抗干擾的能力,因此,常將該計(jì)算方法作為數(shù)據(jù)特征提取的主要手段之一。如果想要獲取梅爾頻率倒譜系數(shù),需要對大數(shù)據(jù)的軟件進(jìn)行加重、幀數(shù)分類、添窗等設(shè)計(jì),這時(shí)獲取到的幀數(shù)時(shí)域信號用W(i)表示。幀數(shù)的時(shí)域信號進(jìn)行經(jīng)過傅里葉的轉(zhuǎn)變之后即可獲取到離散的頻譜,并用W(k)來表示,那么表達(dá)離散頻譜的公式為:
(5)
式中,k為傅里葉變換點(diǎn)數(shù);e為頻率。
利用W(k)能夠計(jì)算出離散頻率的數(shù)值,即為W2(k),此時(shí)的輸出數(shù)據(jù)的能量為:
(6)
其中:H為處理后的輸出數(shù)據(jù)的能量值;M為處理的次數(shù)。根據(jù)數(shù)據(jù)分類處理的順序,可得到梅爾頻率倒譜系數(shù)計(jì)算的表達(dá)式為:
(7)
公式(7)中,m為數(shù)據(jù)處理的順序。由此可得出線性預(yù)測系數(shù)的表達(dá)式為:
(8)
公式(8)中,m為線性預(yù)測數(shù)據(jù)的階段;T′(k)為第k個(gè)序列實(shí)數(shù)的組合;i為自然數(shù)。通過上述的內(nèi)容,可完成系統(tǒng)軟件的設(shè)計(jì)。
為了驗(yàn)證大數(shù)據(jù)自動(dòng)分類處理系統(tǒng)設(shè)計(jì)的有效性進(jìn)行了實(shí)驗(yàn),其中數(shù)據(jù)來自于網(wǎng)絡(luò)知識庫,系統(tǒng)是由3臺計(jì)算機(jī)組成,其中系統(tǒng)的硬件配置有:Intel Dual-core 2.6 GHz型號的處理器、16 GB的內(nèi)存大小。
3.1 參數(shù)的設(shè)置
將實(shí)驗(yàn)的數(shù)據(jù)進(jìn)行編號,分別為:T0、T1、T2、T3、T4、T5、T6;數(shù)據(jù)的種類分別為:經(jīng)濟(jì)學(xué)數(shù)據(jù)、農(nóng)業(yè)經(jīng)濟(jì)數(shù)據(jù)、貿(mào)易經(jīng)濟(jì)數(shù)據(jù)、世界經(jīng)濟(jì)數(shù)據(jù)、工業(yè)經(jīng)濟(jì)數(shù)據(jù)、交通運(yùn)輸經(jīng)濟(jì)數(shù)據(jù);數(shù)據(jù)的大小分別為:1686、1789、1893、1595、1537、1678。
3.2 數(shù)據(jù)的分析
根據(jù)上述的參數(shù),分別對傳統(tǒng)的大數(shù)據(jù)自動(dòng)分類處理系統(tǒng)與基于云計(jì)算的大數(shù)據(jù)自動(dòng)分類處理系統(tǒng)的穩(wěn)定性進(jìn)行了分析。
由表1可知:傳統(tǒng)的大數(shù)據(jù)自動(dòng)分類處理系統(tǒng)在六次的實(shí)驗(yàn)中,其數(shù)據(jù)分類的準(zhǔn)確率隨著實(shí)驗(yàn)次數(shù)的增多,數(shù)據(jù)分類的準(zhǔn)確率和數(shù)據(jù)分類的預(yù)測值變高,而系統(tǒng)數(shù)據(jù)的召回率始終維持在91%左右。
由表2可知:基于云計(jì)算的大數(shù)據(jù)自動(dòng)分類處理系統(tǒng)在六次的實(shí)驗(yàn)中,其數(shù)據(jù)分類的準(zhǔn)確率隨著實(shí)驗(yàn)次數(shù)的增多,數(shù)據(jù)分類的準(zhǔn)確率和數(shù)據(jù)分類的預(yù)測值變高,而系統(tǒng)數(shù)據(jù)的召回率則高達(dá)99%。
表1 傳統(tǒng)的大數(shù)據(jù)自動(dòng)分類處理系統(tǒng)
表2 基于云計(jì)算的大數(shù)據(jù)自動(dòng)分類處理系統(tǒng)
3.3 實(shí)驗(yàn)結(jié)果
由上述的實(shí)驗(yàn)過程可以分析出大數(shù)據(jù)自動(dòng)分類實(shí)質(zhì)上就是一個(gè)映射的過程,根據(jù)數(shù)據(jù)特征的提取可以充分的體現(xiàn)出基于云計(jì)算的大數(shù)據(jù)自動(dòng)分類處理的準(zhǔn)確程度。一般情況下采用數(shù)據(jù)分類的準(zhǔn)確率與系統(tǒng)數(shù)據(jù)的召回率這兩個(gè)指標(biāo)作為對系統(tǒng)評估的判斷。由上述實(shí)驗(yàn)內(nèi)容中的表1與表2可以看出,采用基于云計(jì)算的大數(shù)據(jù)自動(dòng)分類處理系統(tǒng)對各種數(shù)據(jù)進(jìn)行了分類,并得到數(shù)據(jù)分類的準(zhǔn)確率與召回率的優(yōu)勢都明顯高于傳統(tǒng)的大數(shù)據(jù)自動(dòng)分類處理系統(tǒng)。
為了進(jìn)一步驗(yàn)證基于云計(jì)算的大數(shù)據(jù)自動(dòng)分類處理系統(tǒng)設(shè)計(jì)的有效性,對CPU的占用率與內(nèi)存占用率的情況進(jìn)行對比。
表3 兩種系統(tǒng)的資源占用率的對比結(jié)果
由表3可知:基于云計(jì)算的大數(shù)據(jù)自動(dòng)分類處理系統(tǒng)的CPU的占用率結(jié)果的范圍為:58%~69%,內(nèi)存占用率的范圍為:20%~35%;而傳統(tǒng)的大數(shù)據(jù)自動(dòng)分類處理系統(tǒng)的CPU的占用率結(jié)果的范圍為:62%~80%,內(nèi)存占用率的范圍為:35%~48%。
傳統(tǒng)的大數(shù)據(jù)自動(dòng)分類處理系統(tǒng)與基于云計(jì)算的大數(shù)據(jù)自動(dòng)分類處理系統(tǒng)在內(nèi)存的損耗與分類的速度上也大不相同,如圖3所示。
圖3 兩種系統(tǒng)能耗與速度的對比結(jié)果
由圖3可以看出,基于云計(jì)算的大數(shù)據(jù)自動(dòng)分類處理系統(tǒng)的內(nèi)存消耗明顯高于傳統(tǒng)的方法,其分類的時(shí)間比傳統(tǒng)的方法節(jié)省很多。
由此可得出實(shí)驗(yàn)結(jié)論為:基于云計(jì)算的大數(shù)據(jù)自動(dòng)分類處理系統(tǒng)的資源占用率低,內(nèi)存消耗較小,且數(shù)據(jù)庫的內(nèi)存較大,該設(shè)計(jì)方法不僅提高了數(shù)據(jù)自動(dòng)分類的準(zhǔn)確度,還加快了數(shù)據(jù)分類的速度,具有較好的分類性能。
基于云計(jì)算的大數(shù)據(jù)自動(dòng)分類處理系統(tǒng)的設(shè)計(jì)與傳統(tǒng)的大數(shù)據(jù)自動(dòng)分類處理系統(tǒng)相比具有良好的穩(wěn)定性,其資源的占用率也比較低,分類的速度較快。數(shù)據(jù)自動(dòng)處理后的顯示端是用戶直接應(yīng)用的端口,該端口的任務(wù)就是對大數(shù)據(jù)進(jìn)行收集與獲取結(jié)果進(jìn)行顯示并標(biāo)注分類。
對系統(tǒng)進(jìn)行硬件設(shè)計(jì)就是為大數(shù)據(jù)提供自動(dòng)分類處理數(shù)據(jù)的平臺,并將數(shù)據(jù)的特征進(jìn)行分類處理,將處理的結(jié)果傳
送給邏輯層的處理端。而系統(tǒng)的軟件設(shè)計(jì)就是為了實(shí)現(xiàn)數(shù)據(jù)自動(dòng)分類處理更加的準(zhǔn)確,為此使用了時(shí)域特征提取數(shù)據(jù)的算法,利用該算法對頻域特征數(shù)據(jù)進(jìn)行提取?;谠朴?jì)算的大數(shù)據(jù)自動(dòng)分類處理系統(tǒng)的設(shè)計(jì)不但提高了分類的精準(zhǔn)度,而且降低了能源的消耗,為我國未來的數(shù)據(jù)處理方式提供了強(qiáng)有力的依據(jù)。
[1] 肖乃慎,李 博,孔德詩,等.大數(shù)據(jù)背景下的電網(wǎng)客戶用電行為分析系統(tǒng)設(shè)計(jì)[J].電子設(shè)計(jì)工程,2016,24(17):61-63.
[2] 劉 莉,楊傲雷,屠曉偉,等.面向INS數(shù)據(jù)分類的魯棒性無監(jiān)督聚類方法[J].儀器儀表學(xué)報(bào),2016,37(1):152-160.
[3] 余 翔,白友良,李 成,等.多維有序聚類法在地質(zhì)數(shù)據(jù)分類中的應(yīng)用[J].計(jì)算機(jī)應(yīng)用,2015(s1):152-155.
[4] 陳學(xué)斌,王 師,董巖巖,等.面向大數(shù)據(jù)的并行分類混合算法研究[J].微電子學(xué)與計(jì)算機(jī),2016,33(4):138-140.
[5] 孟麗麗,宋 鋒.Web網(wǎng)絡(luò)大數(shù)據(jù)分類系統(tǒng)的設(shè)計(jì)與改進(jìn)[J].現(xiàn)代電子技術(shù),2016,39(22):36-40.
[6] 張 青,呂 釗,ZHANGQing,等.基于主題擴(kuò)展的領(lǐng)域問題分類方法[J].計(jì)算機(jī)工程,2016,42(9):202-207.
[7] 張明衛(wèi),朱志良,劉 瑩,等.一種大數(shù)據(jù)環(huán)境中分布式輔助關(guān)聯(lián)分類算法[J].軟件學(xué)報(bào),2015,26(11):2795-2810.
[8] 李 悅,孫 健,邱志祺.基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘技術(shù)的研究與應(yīng)用[J].現(xiàn)代電子技術(shù),2016,39(23):121-123.
[9] 蔣 亮,蒙祖強(qiáng),胡玉蘭,等.一種基于向量夾角的快速計(jì)算等價(jià)類算法[J].小型微型計(jì)算機(jī)系統(tǒng),2015,36(10):2360-2364.
[10] 張科星.網(wǎng)絡(luò)大數(shù)據(jù)平臺中的特征數(shù)據(jù)分類系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].現(xiàn)代電子技術(shù),2017,40(8):25-28.
DesignofLargeDataAutomaticClassificationandProcessingSystemBasedonCloudComputing
Luo Xian,Zha Zhiyong,Xu Huan,Liu Fen,Zhan Wei
(Information & Communication Branch, Hubei EPC,Wuhan 430000,China)
With the continuous improvement of modern network technology, the amount of data in the system is increasing gradually. Traditional big data automatic classification processing system has been unable to meet the needs of users, the software and hardware design are single, there exists large energy consumption, slow speed of classification, long processing time and memory usage rate is high, therefore, automatic classification is proposed based on cloud computing of large data processing system design. Firstly, the hardware structure of the system is designed, which mainly includes data collector, data processor and data automatic storage module, and introduces the structure of each hardware in detail. Then, the data is extracted using the time-domain feature extraction algorithm to realize the software design of data automatic classification and processing. Finally, two kinds of system performance design are compared. The results show that the resources of large data automatic classification and processing system based on cloud computing have low occupancy rate, small memory consumption and large memory of database. The design of this system can not only improve the accuracy of automatic classification of data, but also speed up the classification of data, so that the system has better classification performance.
cloud computing; big data; automatic classification; data processing; system design
2017-07-01;
2017-07-29。
羅 弦(1982-),男,湖北武漢人,碩士研究生,工程師,主要從事大數(shù)據(jù)與網(wǎng)絡(luò)安全方向的研究。
1671-4598(2017)10-0278-03
10.16526/j.cnki.11-4762/tp.2017.10.071
TP391
A