鐘若武+王惠平
摘 要: 為了提高對高校云計算管理系統(tǒng)的數(shù)據(jù)管理和信息調度能力,提出一種數(shù)據(jù)挖掘的高校云計算管理系統(tǒng)中特定數(shù)據(jù)查詢技術。分析高校云計算管理系統(tǒng)中的數(shù)據(jù)結構和分布狀態(tài)模型,采用數(shù)據(jù)流的互信息特征提取方法進行特定數(shù)據(jù)的關聯(lián)積分挖掘,采用定量遞歸分析方法進行數(shù)據(jù)降維,降低數(shù)據(jù)挖掘的計算開銷,實現(xiàn)特征數(shù)據(jù)的準確查詢。仿真結果表明,采用該方法進行高校云計算管理系統(tǒng)中特定數(shù)據(jù)查詢的查準率較高,數(shù)據(jù)挖掘的抗干擾性較強。
關鍵詞: 數(shù)據(jù)挖掘; 關聯(lián)積分挖掘; 云計算管理; 查詢技術; 數(shù)據(jù)管理; 信息調度
中圖分類號: TN911?34 文獻標識碼: A 文章編號: 1004?373X(2018)02?0130?03
Abstract: To improve the data management and information scheduling capability of the cloud computing management system in university, a data mining based specific data query technology for the cloud computing management system in university is proposed. Data structure and distribution status model of the cloud computing management system in university are analyzed. The data flow′s mutual information feature extraction method is adopted to perform correlation integral mining of specific data. The quantification recurrence analysis method is adopted for data dimension reduction to reduce computation cost of data mining and achieve accurate query of feature data. The simulation results show that the method has high query precision ratio for specific data query of cloud computing management system in university and strong anti?interference capability of data mining.
Keywords: data mining; correlation integral mining; cloud computing management; query technology; data management;information scheduling
0 引 言
隨著Web技術和云計算技術的不斷發(fā)展,各大高校逐漸構建和完善高校信息管理系統(tǒng),實現(xiàn)高校資源信息的智能管理[1]。在對高校信息管理中,需要對高校云計算管理系統(tǒng)中的特征數(shù)據(jù)進行準確檢索和信息查詢[2]。通過Web查詢接口跨平臺訪問這些高校云計算管理系統(tǒng)中的特定數(shù)據(jù),獲得教師和學生等用戶需要的高校管理信息,準確有效訪問是數(shù)據(jù)庫和云計算管理系統(tǒng)[3],提高數(shù)據(jù)信息的挖掘和檢索效率,實現(xiàn)高校資源信息的智能化管理。本文提出數(shù)據(jù)挖掘的高校云計算管理系統(tǒng)中特定數(shù)據(jù)查詢技術,提高數(shù)據(jù)挖掘和查詢的效率。最后進行仿真測試,展示了本文方法在優(yōu)化特征數(shù)據(jù)查詢準確性和效率方面的優(yōu)越性。
1 數(shù)據(jù)分布式結構分析
1.1 高校云計算管理系統(tǒng)的數(shù)據(jù)分布模型
云計算管理系統(tǒng)的數(shù)據(jù)分布結構模型主要分為基于位置結構的分布模型、層關聯(lián)分布模型、鏈路層分布模型、隱含層分布模型和相干匹配的分布結構模型[4]。根據(jù)高校云計算管理系統(tǒng)數(shù)據(jù)分布結構模型,進行資源信息匹配和特征數(shù)據(jù)的信息查詢鏈路分析[5],采用四元組描述云計算系統(tǒng)的特征數(shù)據(jù)結構組合模型[6],得到特征數(shù)據(jù)查詢最佳路徑為:
式中:表示管理系統(tǒng)中特定數(shù)據(jù)的元組數(shù);表示管理系統(tǒng)中特定數(shù)據(jù)集中滿足查詢屬性組合的元組數(shù)。在搜索空間中建立特點數(shù)據(jù)的特征匹配模型,假設待查詢數(shù)據(jù)序列的長度為,數(shù)據(jù)流之間的關聯(lián)積分為:
式中,數(shù)據(jù)挖掘點個數(shù)為,兩組數(shù)據(jù)信息流在整個管理系統(tǒng)空間距離為:
在數(shù)據(jù)結構和分布模型分析基礎上,根據(jù)數(shù)據(jù)分布的密度與終端位置進行定位挖掘和自適應特征匹配。
1.2 特定數(shù)據(jù)的特征提取
根據(jù)上述數(shù)據(jù)結構分析,采用數(shù)據(jù)流的互信息特征提取方法進行特征數(shù)據(jù)的關聯(lián)挖掘,得到互信息特征提取的判定函數(shù)為:
式中:為特定數(shù)據(jù)實參數(shù);分別為文本信息實體分布參數(shù)。
高校云計算管理系統(tǒng)中,根據(jù)采樣樣本數(shù)據(jù)的屬性值和用戶檢索的需求,結合語義特征提取方法進行文本信息匹配[7],根據(jù)特定數(shù)據(jù)的查詢條件,構建多元假設模型,得到數(shù)據(jù)查詢的二元統(tǒng)計函數(shù)為:
結合自相關特征匹配方法,通過數(shù)據(jù)挖掘,形成一個初始的查詢結果,對應的查詢數(shù)據(jù)信息流的特征向量為
2 數(shù)據(jù)查詢關鍵技術實現(xiàn)
2.1 數(shù)據(jù)挖掘技術
在進行高校云計算管理系統(tǒng)的數(shù)據(jù)分布模型設計和數(shù)據(jù)結構分析的基礎上,本文提出基于數(shù)據(jù)挖掘的高校云計算管理系統(tǒng)中特定數(shù)據(jù)查詢技術。采用最小均方誤差估計方法進行數(shù)值屬性權重評估[8],得到估計誤差為:
式中:表示管理系統(tǒng)中數(shù)據(jù)重復因素;表示數(shù)據(jù)挖掘的采樣時間間隔;表示信息篩選的控制變量,通過關聯(lián)積分挖掘方法[9],得到數(shù)據(jù)挖掘結果為:endprint
式中,兩次輸出結構分布在不同的查詢接口單元,時刻和時刻之間的輸出數(shù)據(jù)的查詢周期為,采用多元特征重組方法進行數(shù)據(jù)的級聯(lián)挖掘,采用時間衰減函數(shù)控制數(shù)據(jù)挖掘的連續(xù)性,以此提高數(shù)據(jù)查詢的準確度。
2.2 數(shù)據(jù)降維
為了降低數(shù)據(jù)挖掘和數(shù)據(jù)查詢的計算開銷,還需要進行數(shù)據(jù)降維處理,采用數(shù)據(jù)挖掘算法得到高校云計算管理系統(tǒng)中特定數(shù)據(jù)查詢數(shù)據(jù)的信息流R1為:
式中,μw為數(shù)據(jù)特征空間維數(shù)。采用定量遞歸分析方法進行數(shù)據(jù)降維,得到數(shù)據(jù)降維處理后特定數(shù)據(jù)挖掘的輸出結構模型為R2,可表示為:
式中,為高校云計算管理系統(tǒng)中特定數(shù)據(jù)差異查詢屬性值,采用包含匹配(Subsume)和相干匹配(Intersection)兩種方式[10]。
通過特征降維處理,最終得到特定數(shù)據(jù)查詢輸出為:
3 仿真分析
仿真試驗中,構建一組包含1 200組查詢數(shù)據(jù)屬性分布集數(shù)據(jù)結構模型。在云計算管理系統(tǒng)中進行特征數(shù)據(jù)查詢設計,采用Matlab仿真軟件進行算法設計。分析數(shù)據(jù)查詢的準確性和抗干擾性等性能。特征數(shù)據(jù)查詢節(jié)點個數(shù)為42個,數(shù)據(jù)采集容量為12 Gbit,數(shù)據(jù)的初始采樣頻率為120 kHz,云計算管理系統(tǒng)中存儲了100 TB的高校資源信息,每個分割間隔為1 MB。根據(jù)上述仿真環(huán)境和參量設定,進行數(shù)據(jù)挖掘查詢仿真分析,原始數(shù)據(jù)的采樣時間為0~50 ms,采用本文方法和傳統(tǒng)方法,測試特征數(shù)據(jù)查詢的查準率和的時間開銷對比,得到對比結果如圖1、圖2所示。
分析圖1結果得知,采用本文方法進行高校云計算管理系統(tǒng)中特定數(shù)據(jù)查詢,由于采用了互信息特征提取方法挖掘了特定數(shù)據(jù)的關聯(lián)積分,提高了數(shù)據(jù)的查準率。
分析圖2得出,隨著待挖掘數(shù)據(jù)規(guī)模的增大,計算時間開銷增大,本文方法的時間開銷總體低于傳統(tǒng)方法,提高了對云計算管理系統(tǒng)的特定數(shù)據(jù)訪問和挖掘的效率。
4 結 語
本文研究了高校云計算管理系統(tǒng)特定數(shù)據(jù)查詢問題,提出數(shù)據(jù)挖掘的高校云計算管理系統(tǒng)中特定數(shù)據(jù)查詢技術,采用數(shù)據(jù)流的互信息特征提取方法進行特定數(shù)據(jù)的關聯(lián)積分挖掘。為了降低計算開銷,還進行了數(shù)據(jù)降維處理,實現(xiàn)特征數(shù)據(jù)的準確查詢。研究得出結論,采用本文方法進行數(shù)據(jù)查詢的查準率較高,計算時間開銷較短,提高了高校云計算管理系統(tǒng)的特定數(shù)據(jù)查詢挖掘的準確性和效率,具有一定的應用價值。
參考文獻
[1] SUN L, GUO C H. Incremental affinity propagation clustering based on message passing [J]. IEEE transactions on knowledge and data engineering, 2014, 26(11): 2731?2744.
[2] 周唯,鄒東升,牛寶君.基于移動云計算的高校教學資源整合系統(tǒng)[J].計算機應用,2016,36(z1):33?36.
ZHOU W, ZOU D S, NIU B J. Teaching resources integration system for colleges and universities based on mobile cloud computing [J]. Journal of computer application, 2016, 36(z1): 33?36.
[3] 陳翔.面向云計算模型的高??蒲泄芾硇畔⑾到y(tǒng)實施策略研究[J].邵陽學院學報(自然科學版),2015,12(2):18?21.
CHEN X. Research on the implementation of university research management information system based on cloud computing model [J]. Journal of Shaoyang University (Natural science edition), 2015, 12(2): 18?21.
[4] MERNIK M, LIU S H, KARABOGA M D, et al. On clarifying misconceptions when comparing variants of the artificial bee colony algorithm by offering a new implementation [J]. Information sciences, 2015, 291(10): 115?127.
[5] 邢行,尚穎,趙瑞蓮,等.面向多目標測試用例優(yōu)先排序的蟻群算法信息素更新策略[J].計算機應用,2016,36(9):2497?2502.
XING X, SHANG Y, ZHAO R L, et al. Pheromone updating strategy of ant colony algorithm for multi?objective test case prioritization [J]. Journal of computer application, 2016, 36(9): 2497?2502.
[6] HAN J, KAMBER M. Data mining concepts and techniques [M]. 3rd ed. San Francisco: Morgan Kaufmann Publishers, 2012.
[7] KESHAVAMURTHY B N, KHAN A M, TOSHNIWAL D. Privacy preserving association rule mining over distributed databases using genetic algorithm [J]. Neural computing & applications, 2013, 22(1): 351?364.
[8] MORADI M, KEYVANPOUR M R. An analytical review of XML association rules mining [J]. Artificial intelligence review, 2015, 43(2): 277?300.
[9] 張嘯劍,孟小峰.面向數(shù)據(jù)發(fā)布和分析的差分隱私保護[J].計算機學報,2014,37(4):927?949.
ZHANG X J, MENG X F. Differential privacy in data publication and analysis [J]. Chinese journal of computers, 2014, 37(4): 927?949.
[10] 張磊,王鵬,黃焱,等.基于相空間的云計算仿真系統(tǒng)研究與設計[J].計算機科學,2013,40(2):84?86.
ZHANG L, WANG P, HUANG Y, et al. Research and design of cloud computing simulation system based on phase space [J]. Computer science, 2013, 40(2): 84?86.endprint