邱奕敏(武漢科技大學(xué)信息科學(xué)與工程學(xué)院,武漢 430081)
云計算的多源信息挖掘?qū)嶒灲虒W(xué)研究
邱奕敏
(武漢科技大學(xué)信息科學(xué)與工程學(xué)院,武漢430081)
信息服務(wù)對現(xiàn)代服務(wù)業(yè)起著支撐作用。但在云計算環(huán)境下,伴隨著信息的爆炸性增長,出現(xiàn)了信息異構(gòu)、冗余、沖突和不可信等諸多問題。針對這些熱門問題,通過實驗教學(xué)的方式輔助學(xué)生,利用多源信息挖掘的實驗來掌握整合資源的知識,為學(xué)生加深專業(yè)理解做鋪墊。
云計算;多源信息;數(shù)據(jù)挖掘;實驗教學(xué)
近年來,云計算技術(shù)越來越受到重視,得到了迅速的發(fā)展,在企業(yè)中的初步推廣和應(yīng)用收到了顯著的經(jīng)濟和社會效益,成為目前的研究熱點。云計算通常涉及互聯(lián)網(wǎng)來提供虛擬的信息資源[1,2]。它提供可用的、便捷的、按需的網(wǎng)絡(luò)訪問,將傳統(tǒng)的任務(wù)處理方式轉(zhuǎn)到網(wǎng)絡(luò),進入可以配置的計算資源共享來支持各類應(yīng)用。作為新世紀(jì)的人才,筆者所在的學(xué)院開設(shè)了有關(guān)云計算專業(yè)課程,以擴大學(xué)生的知識面,緊跟學(xué)科發(fā)展的腳步。
隨著應(yīng)用需求的不斷增加,用戶希望從海量信息源中快速獲取有用信息并進行處理,對軟硬件系統(tǒng)和信息源進行操作。然而,這些信息源物理上可能分布在異構(gòu)環(huán)境的多個自治域中,具有不同的數(shù)據(jù)格式、存儲方式、訪問控制策略,并在邏輯上存在著很大差異[3],這些差異可能是在數(shù)據(jù)模型中,或者是數(shù)據(jù)語義等方面。已有的各種異構(gòu)數(shù)據(jù)管理系統(tǒng),可以利用多源信息服務(wù)系統(tǒng)針對不同的訪問方法和用戶界面做處理,讓用戶能夠訪問多種異構(gòu)數(shù)據(jù)源,提供一個信息交互處理平臺來處理數(shù)據(jù)查詢結(jié)果。由于云計算不對用戶集中控制,因此用戶通過簡單的界面,可以得到他所需要的計算資源和信息服務(wù)[2,4]。因此,將云計算與多源信息結(jié)合起來,能夠便捷地實現(xiàn)不同設(shè)備間的數(shù)據(jù)和應(yīng)用共享,提高當(dāng)前計算資源的利用率,降低服務(wù)的能耗量,并且有效降低計算資源的出錯概率。
在云計算環(huán)境下,多源信息資源是通過互聯(lián)網(wǎng)找到可用的信息的。網(wǎng)頁和Web服務(wù)的集合是目前互聯(lián)網(wǎng)上的主要信息資源,隨著信息資源提供方式的改變,傳統(tǒng)的網(wǎng)頁集合變?yōu)閃eb服務(wù)[5]的集合,面向服務(wù)的方式變?yōu)槟壳暗闹匾绞健.?dāng)前信息資源的發(fā)現(xiàn)機制是基于語法上的和基于語義上的,前者利用關(guān)鍵詞精確匹配,后者利用語義本體。關(guān)鍵詞精確匹配的發(fā)現(xiàn)機制通過UDD I來實現(xiàn)?;谡Z義本體的發(fā)現(xiàn)機制則分為單獨建立語義和對UDD I進行語義擴展兩種。
由于技術(shù)的發(fā)展,許多領(lǐng)域都積累了海量數(shù)據(jù),通過數(shù)據(jù)挖掘才能將有用的數(shù)據(jù)發(fā)現(xiàn)和提取出來。因此我們開設(shè)云計算的多源信息挖掘?qū)嶒炚n程,用以幫助學(xué)生加深對數(shù)據(jù)庫、語義、體系結(jié)構(gòu)、網(wǎng)絡(luò)等領(lǐng)域的理解。將該實驗課作為一個輔助手段,提高學(xué)生的專業(yè)知識,其意義非常重大。
因此,需要從以下方面來加深理解:
(1)由于不同的數(shù)據(jù)有不同的特點,因此需要用與之相關(guān)的算法來挖掘,這就需要學(xué)生們在課下做好預(yù)習(xí)工作,了解常用的挖掘算法,并將其在計算機上用程序?qū)崿F(xiàn)。
(2)由于挖掘算法和需求的不同,例如有的可能獲取的是描述型、容易理解的知識(如,采用規(guī)則表示的挖掘方法優(yōu)于神經(jīng)網(wǎng)絡(luò)之類的方法),而有的獲取的是預(yù)測準(zhǔn)確度盡可能高的預(yù)測型知識。所以需要學(xué)生們根據(jù)自己的需要選擇挖掘算法,之后就可以實施數(shù)據(jù)挖掘操作,獲取有用的模式。
(3)了解了數(shù)據(jù)的特點和挖掘算法后,還需要使信息資源和用戶需求匹配,即用戶需求經(jīng)過語義處理后可以和信息資源通過本體匹配,實現(xiàn)用戶需求和信息資源的語義匹配。這就需要學(xué)生們實驗時對本體和匹配知識有一定的了解,查詢相關(guān)的概念和資源,幫助更好的實現(xiàn)多源信息挖掘?qū)嶒灐?/p>
(4)由于云計算的多源信息挖掘囊括了很多領(lǐng)域的知識,因此實驗教學(xué)的難度很大,需要教師和學(xué)生的默契配合,實驗教師應(yīng)該根據(jù)知識的特點,利用各式各樣的例題來幫助學(xué)生加強理解;學(xué)生也需要對書上的例題多加練習(xí),多在互聯(lián)網(wǎng)上查詢相關(guān)的資料。
多源信息是目前和未來互聯(lián)網(wǎng)環(huán)境中數(shù)據(jù)挖掘的重要研究點,云計算的多源信息挖掘機制能保證精準(zhǔn)高效的信息查詢。云計算的多源信息服務(wù)系統(tǒng)研究,雖然是一個較新的研究方向,但由于它的研究主要是從知識管理、軟件工程和信息檢索應(yīng)用技術(shù)發(fā)展起來的,其涉及到的機器學(xué)習(xí)、信息融合與信息集成已經(jīng)取得了眾多的研究成果。信息檢索、語義Web、本體學(xué)習(xí)、W ebServices的相關(guān)方法和技術(shù)都可以作為參考和借鑒。這些知識的融合可以幫助學(xué)生提高興趣,加深對專業(yè)領(lǐng)域的理解,并能夠作為相關(guān)知識的一個延續(xù),促使學(xué)生緊跟專業(yè)發(fā)展的腳步。
[1]Peter Fingar著,王靈俊譯.云計算21世紀(jì)的商業(yè)平臺[J].北京:電子工業(yè)出版社,2009(09).
[2]陳全,鄧倩妮.云計算及其關(guān)鍵技術(shù)[M].計算機應(yīng)用,29(09),2009,pp. 2562-2567.
[3]Anastasios Kementsietsidis, Marcelo Arenas. Data Sharing Through Query Translation in Autonomous Sources. In Proceedings of the 30th International Conference on Very Large Data Bases (VLDB 2004), Toronto, Canada, 2004:468-479.
[4]楊善林,羅賀,丁帥.基于云計算的多源信息服務(wù)系統(tǒng)研究綜述[N].管理科學(xué)學(xué)報,15(05),2012,pp.83-96.
[5]吳朱華.云計算核心技術(shù)剖析[J].人民郵電出版社,2011.