• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      改進(jìn)型迭代Web挖掘技術(shù)在信息門戶建設(shè)中的應(yīng)用研究

      2016-12-21 10:09:00劉嘯
      電腦知識與技術(shù) 2016年28期
      關(guān)鍵詞:并行算法

      摘要:高校在進(jìn)行信息化系統(tǒng)建設(shè)時,關(guān)注點放在信息門戶建設(shè)和優(yōu)化兩個方面。運用Web數(shù)據(jù)挖掘技術(shù),找到用戶真正關(guān)注、需要的內(nèi)容,就是系統(tǒng)設(shè)計人員所關(guān)心的信息門戶的優(yōu)化問題。該文通過引入本地計算思想,將迭代式的數(shù)據(jù)挖掘算法進(jìn)行擴(kuò)展。使用該數(shù)據(jù)挖掘算法,研究和設(shè)計了一種基于此算法的數(shù)據(jù)挖掘模型,并以某高校信息門戶中日志數(shù)據(jù)為數(shù)據(jù)源,進(jìn)行數(shù)據(jù)準(zhǔn)備,以本算法進(jìn)行熱門路徑分析和頻繁項目集挖掘。根據(jù)挖掘結(jié)果,進(jìn)行實際分析,提出完善信息門戶建設(shè)的建議。

      關(guān)鍵詞:信息門戶;Web挖掘;迭代算法;并行算法;本地計算

      中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2016)28-0006-03

      Abstract: In the information system construction in colleges and universities focus on information portal construction and optimization of two aspects. Use Web data mining technology, find out what users really concern, need, is the system designers care about information portal of optimization problems. In this paper, by introducing the local computation of ideas, to expand an iterative algorithm to data mining. Using the data mining algorithm, research and design a data mining model based on this algorithm, taking the university information portal log data as the data source, data preparation, this algorithm is a popular path analysis and frequent itemsets mining. According to the mining results, actual analysis, put forward the perfect Suggestions for the development of information portal.

      Key words: Information portal; Web mining; iterative algorithm; parallel algorithmic; local computing

      1 數(shù)字化校園與信息門戶建設(shè)的現(xiàn)狀

      數(shù)字化校園的概念是利用計算機(jī)、通訊、網(wǎng)絡(luò)等技術(shù),對學(xué)校中教學(xué)、科研、管理以及生活服務(wù)有關(guān)的所有信息資源進(jìn)行全面的數(shù)字化,進(jìn)而運用科學(xué)規(guī)范的管理對這些數(shù)字化資源進(jìn)行整合和集成,實現(xiàn)功能應(yīng)用、用戶信息管理、用戶權(quán)限和資源分配的統(tǒng)一[1]。進(jìn)入21世紀(jì),各個高校都開展了自己的數(shù)字化校園建設(shè)工程。

      數(shù)字化校園建設(shè)一般可分為三個階段。第一階段,主要是校園網(wǎng)建設(shè)和一些局部范圍的網(wǎng)絡(luò)應(yīng)用系統(tǒng)建設(shè)。第二階段,除了對校園網(wǎng)進(jìn)行全面升級,在管理信息系統(tǒng)和信息服務(wù)系統(tǒng)建設(shè)方面做了大量工作,在這一階段各種功能的系統(tǒng)如雨后春筍般應(yīng)運而生。通過第二階段的建設(shè),雖然高校管理信息化水平明顯提高,但是各種各樣的應(yīng)用系統(tǒng)、海量的信息以及眾多的服務(wù),讓用戶面對時顯得頭暈?zāi)X脹。有的時候一項工作往往涉及多個系統(tǒng),于是用戶需要反復(fù)登錄到不同的應(yīng)用系統(tǒng)中。同時,各個應(yīng)用系統(tǒng)之間又都是異構(gòu)的,無論是后臺操作系統(tǒng)、數(shù)據(jù)庫服務(wù)器,還是前臺的開發(fā)工具都存在很大差別。這樣的現(xiàn)狀對于提高管理水平、共享信息資源、實施科學(xué)管理都構(gòu)成了障礙。第三階段,信息化建設(shè)的全面規(guī)劃與建設(shè)階段。其中最為常見的做法就是規(guī)劃建設(shè)各個高校自己的信息門戶網(wǎng)站[2]。信息門戶能夠提供服務(wù)、進(jìn)行信息展示、實現(xiàn)外部訪問的接入。對各個信息應(yīng)用系統(tǒng)而言,門戶是一個出口,通過它各個應(yīng)用功能向用戶提供其所需的數(shù)據(jù)和服務(wù);而對于用戶來說,門戶就像通往整個信息化校園的一扇門,單點登錄功能使得用戶登錄門戶后獲得與身份相匹配的各功能子系統(tǒng)所提供的交互式服務(wù),同時還可完成與其他用戶的信息交流。個性化服務(wù)是門戶系統(tǒng)另一大優(yōu)勢,信息門戶應(yīng)該向不同屬性的用戶組別智能化地提供不同的信息資源,使得用戶能夠在最短時間內(nèi)獲得有效的服務(wù)。

      然而,隨著信息門戶的廣泛應(yīng)用,如何進(jìn)行有效的信息集成將會成為新的熱點。我們要不斷地根據(jù)不同用戶的需要進(jìn)行信息的組織,以實現(xiàn)精準(zhǔn)數(shù)據(jù)、用戶、權(quán)限、應(yīng)用、流程、內(nèi)容等各個方面的高度整合。信息門戶這個看似簡單的Web頁面背后蘊含了數(shù)字化校園建設(shè)的核心內(nèi)容。因此,如何將Web數(shù)據(jù)挖掘的思想和方法應(yīng)用到信息門戶中,幫助設(shè)計人員從海量的信息中發(fā)現(xiàn)抽取有價值的內(nèi)容,成為了高校信息門戶建設(shè)中的一個熱點方向。

      2 Web數(shù)據(jù)挖掘技術(shù)在信息門戶建設(shè)中的應(yīng)用分析

      數(shù)據(jù)挖掘(Data mining),又譯為資料探勘、數(shù)據(jù)采礦。它是數(shù)據(jù)庫知識發(fā)現(xiàn)(Knowledge-Discovery in Databases)中的一個步驟。數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程,其通過統(tǒng)計、在線分析處理、情報檢索、機(jī)器學(xué)習(xí)、專家系統(tǒng)和模式識別等諸多方法來實現(xiàn)上述目標(biāo)。

      Web數(shù)據(jù)挖掘(Web Data Mining)是建立在對大量的網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行分析的基礎(chǔ)上,進(jìn)行數(shù)據(jù)的提取、篩選、轉(zhuǎn)換、關(guān)聯(lián)規(guī)則挖掘和模式分析,最后做出經(jīng)驗性的判斷[3]。Web數(shù)據(jù)挖掘是面向發(fā)現(xiàn)的數(shù)據(jù)分析技術(shù),對文檔的內(nèi)容、可利用資源的使用以及資源之間的關(guān)系進(jìn)行分析,用以預(yù)測客戶的個性化行為以及用戶習(xí)慣,從而幫助進(jìn)行決策和管理,減少決策的風(fēng)險。

      Web數(shù)據(jù)挖掘技術(shù)的主要功能是實現(xiàn)網(wǎng)絡(luò)數(shù)據(jù)的智能化處理,從而能夠利用有效的數(shù)據(jù)挖掘技術(shù),收集、獲取感興趣的信息,得到和抽象出大量信息的關(guān)系模型,挖掘出更深層次的信息[3]。高校在進(jìn)行信息化建設(shè)時,關(guān)注點放在信息門戶的建設(shè)和優(yōu)化兩個方面。信息門戶網(wǎng)站是基于網(wǎng)絡(luò)技術(shù)的一種新的高校管理平臺構(gòu)架,平臺中的信息可以說是海量的。如何能從門戶頁面背后精準(zhǔn)地找到用戶真正關(guān)注、需要的內(nèi)容,就是系統(tǒng)設(shè)計人員所關(guān)心的信息門戶的優(yōu)化問題[4]。將數(shù)據(jù)挖掘的思想和方法應(yīng)用到高校信息門戶中,可以獲得各類型用戶的信息反饋、不同類型用戶的共同特征、頁面的訪問頻度、訪問時間、訪問路徑等信息,幫助信息門戶建設(shè)的設(shè)計人員從海量的信息中得到真正有價值的知識,以指導(dǎo)他們的決策,為提高信息門戶服務(wù)性提供依據(jù)。Web數(shù)據(jù)挖掘技術(shù),就旨在發(fā)現(xiàn)隱藏在Web數(shù)據(jù)中潛在的有價值的信息,通過對日志、內(nèi)容、結(jié)構(gòu)進(jìn)行數(shù)據(jù)挖掘,挖掘出有用的知識模式,從而為設(shè)計人員提供決策支持,進(jìn)而完善信息門戶建設(shè)。

      高校信息門戶是在不停發(fā)展的,大致分為四個階段:

      ① 單的門戶:只能集合單個的網(wǎng)絡(luò)地址

      ② 信息門戶:實現(xiàn)基于內(nèi)容過濾、定向搜索的信息平臺

      ③ 應(yīng)用集成門戶時代:實現(xiàn)應(yīng)用集成和單點登錄

      ④ 信息集成門戶時代:實現(xiàn)應(yīng)用整合、內(nèi)容整合、信息整合、流程整合以及用戶協(xié)作。

      由此可見,進(jìn)入信息集成門戶時代,如何做好整合工作就成為信息門戶建設(shè)領(lǐng)域中新興的研究熱點。為構(gòu)建一個好的信息門戶網(wǎng)站就要求設(shè)計者能夠根據(jù)不同類型使用者的需要來組織內(nèi)容,實現(xiàn)數(shù)據(jù)、用戶、權(quán)限、應(yīng)用、流程、內(nèi)容等各個方面的整合達(dá)到較高程度。

      信息門戶中,通常被用于Web數(shù)據(jù)挖掘的數(shù)據(jù)來源有:服務(wù)器日志數(shù)據(jù)、代理服務(wù)器端數(shù)據(jù)、Web頁面內(nèi)容以及Web頁面超鏈接關(guān)系信息以及用戶登記信息。

      ① 服務(wù)器日志數(shù)據(jù):用戶瀏覽Web服務(wù)器時,會產(chǎn)生Servicelogs、Errorlogs和Cookie logs三種類型的日志文件。

      ② 代理服務(wù)器端數(shù)據(jù):信息門戶的服務(wù)器日志記錄了用戶對信息門戶網(wǎng)站的訪問,而通過代理服務(wù)器日志,還可以了解用戶對其他網(wǎng)站的訪問情況。這有利于搜集用戶關(guān)心的信息,從而將這部分信息加入到門戶網(wǎng)站中,提高門戶網(wǎng)站的服務(wù)性和吸引力。

      ③ Web頁面內(nèi)容以及Web頁面超鏈接關(guān)系信息。

      ④ 用戶登記信息:高校信息門戶較一般的門戶網(wǎng)站,用戶分類較為明顯。包括學(xué)生用戶、教管用戶、教師用戶等,而這些都可以通過讓用戶直接填寫登記信息準(zhǔn)確掌握。如果將用戶登記信息與訪問日志相結(jié)合,將能更大提高數(shù)據(jù)挖掘的準(zhǔn)確度。

      搜集到這些數(shù)據(jù)后還不能直接進(jìn)行數(shù)據(jù)挖掘,需要對數(shù)據(jù)進(jìn)行預(yù)處理。通過數(shù)據(jù)預(yù)處理得到簡潔的精準(zhǔn)數(shù)據(jù)。數(shù)據(jù)預(yù)處理包括:

      ① 數(shù)據(jù)清理:消除無關(guān)項,縮小被挖掘?qū)ο蟮姆秶?。用戶在訪問過程中對圖片、視頻等資源的下載也會被記錄到日志中,在數(shù)據(jù)挖掘前對這些冗余的記錄進(jìn)行清理,采用刪除特定后綴的日志記錄方法。對采集的日志中擴(kuò)展名為.jPg,.CSS等日志記錄直接刪除。

      ② 用戶唯一性識別:用以識別使用同一主機(jī)或代理服務(wù)器的不同用戶。用戶口和日志中的Cookie logs雖然都可以用于分辨用戶,但在實際情況下以此不能準(zhǔn)確確定每個用戶。通過制定規(guī)則,簡化用戶唯一性的識別,規(guī)定將不同m的訪問認(rèn)為是不同用戶,相同m采用不同操作系統(tǒng)或瀏覽器視為不同用戶。由此,近似的實現(xiàn)用戶唯一性識別。

      ③ 用戶會話識別:用以將每個用戶的訪問信息劃分為對立的會話進(jìn)程。用戶會話S(user session)是一個二元組,其中userid是用戶標(biāo)識,RS是用戶在一段時間內(nèi)請求的Web頁面的集合。RS包含用戶請求頁面的標(biāo)識符Pid和請求時間。通過用戶會話可以得到用戶訪問頁面的一個序列,通過設(shè)定相鄰訪問請求之間的超時限值,一旦兩個頁面請求時間超值,就判定用戶開始了一個新的會話。

      ④ 完善訪問路徑:用以補(bǔ)充由于用戶通過本地緩存訪問網(wǎng)頁時造成的路徑信息不完整的情況。當(dāng)用戶請求的頁面與上一次請求的頁面之間無超鏈接,通過歷史引用日志判斷當(dāng)前請求來自的頁面。由此將沒有記錄的頁面請求補(bǔ)充到訪問序列中,完善訪問路徑。

      ⑤ 事務(wù)識別:用以根據(jù)挖掘任務(wù)的需求將事務(wù)作分割或合并處理。

      3 基于改進(jìn)型迭代算法的web數(shù)據(jù)挖掘思想

      1) MapReduce模型

      MapReduce是一種高效的編程模型,它依托于分布式計算系統(tǒng),能夠?qū)Υ笠?guī)模數(shù)據(jù)集的處理提供支持。為了實現(xiàn)合理的任務(wù)調(diào)度,該模型會對計算任務(wù)進(jìn)行進(jìn)一步的細(xì)化和分解,細(xì)化后的子任務(wù)能夠智能化地探測各節(jié)點的計算能力,選擇合適的節(jié)點來對分配的數(shù)據(jù)進(jìn)行處理,以提高整個系統(tǒng)的效率。

      2) 多服務(wù)器并行算法

      由于智能移動通信設(shè)備的普及,如今的網(wǎng)絡(luò)應(yīng)用數(shù)據(jù)量呈幾何級增長,使得Web挖掘面臨計算和傳輸?shù)碾p重壓力,在很多應(yīng)用場合單一的遠(yuǎn)程服務(wù)器已不堪重負(fù),多服務(wù)器并行計算勢在必行。多服務(wù)器并行算法的基本思路是,將所有的計算過程細(xì)化分解再分配到分布式服務(wù)器上,通過互聯(lián)網(wǎng),所有計算進(jìn)程以服務(wù)的方式對用戶需求進(jìn)行支持[7]。眾所周知,網(wǎng)絡(luò)傳輸速度和進(jìn)程計算速度不在同一個數(shù)量級,所以計算與存儲統(tǒng)一整合有利于網(wǎng)絡(luò)系統(tǒng)的數(shù)據(jù)處理,讓分布式集群本地保存輸入數(shù)據(jù),能夠大大降低數(shù)據(jù)傳輸開銷。

      3) 改進(jìn)型迭代算法

      關(guān)聯(lián)規(guī)則的挖掘通常包括2個步驟,一是頻繁項集的查詢,二是分析頻繁項集得到關(guān)聯(lián)規(guī)則[7]。本算法關(guān)注的是頻繁項集的查詢,過程如下。

      ① 設(shè)置置信度最低閥值和支持度最低閥值。

      ② 查詢空閑節(jié)點:分析并明確挖掘任務(wù)需求,任務(wù)調(diào)度中心向節(jié)點域請求節(jié)點計算性能情況,得到服務(wù)節(jié)點的信息。將得到的服務(wù)節(jié)點信息發(fā)送給算法存儲單元。

      ③ 獲取局部項集:服務(wù)節(jié)點對各個本地的數(shù)據(jù)庫進(jìn)行掃描,得到事物數(shù)目、項出現(xiàn)頻率,然后通過下面算法得到局部候選項集1:

      a) frequent=new find_frequent_1-itemsets();

      b) gen=new apriori_gen();

      c) L1=Frequent (D);

      d) for(k=2;Lk-1≠Φ ;k++) {

      e) Ck=gen(Lk-1, sup_min);

      f) for each node t ∈ D{

      g) Ct=subset(Ck,t);

      h) for each candidate c ∈ Ct

      i) c.count++;}Lk ={c ∈ Ck|c.count≥sup_min} }

      j) return L= ∪ k Lk;

      k) 其中,以k-itmeset代表K維項目集;LK代表具有最小支持度的最大項目集;Ck代表候選最大項目集。

      ④ 局部項集算法進(jìn)行迭代:上一步得到了局部候選項集1,將其發(fā)送至主控節(jié)點可以計算出全局項集1,再通過全局頻繁項集1,發(fā)送到服務(wù)節(jié)點得到精度更高的局部頻繁項集1,而局部項集2可以由局部項集1得到。再一次迭代執(zhí)行挖掘流程及局部項集算法,掃描本地數(shù)據(jù)庫,得到項的出現(xiàn)次數(shù),新局部候選項集2及結(jié)果發(fā)送至主控節(jié)點[7]。最終得到滿足所需的頻繁項集,根據(jù)置信度閾值得到關(guān)聯(lián)規(guī)則[7]。

      4) 基于改進(jìn)算法的Web 挖掘模型

      本模型中所有計算服務(wù)進(jìn)程通過主控節(jié)點進(jìn)行調(diào)度和管理,數(shù)據(jù)存儲節(jié)點負(fù)責(zé)提供具體的挖掘方法。服務(wù)節(jié)點的職責(zé)是將其可實現(xiàn)的功能及本節(jié)點的性能資源情況進(jìn)行統(tǒng)一模式化并存儲進(jìn)XML文件,并進(jìn)行智能化處理。主控節(jié)點掌控全局,根據(jù)服務(wù)節(jié)點的處理得到最終的結(jié)果。整個系統(tǒng)分為3層:信息層、算法層和執(zhí)行層。信息層對用戶挖掘需求進(jìn)行獲取、分析和研判,生成挖掘算法特性需求;算法層實現(xiàn)相應(yīng)的挖掘算法,并根據(jù)算法需求調(diào)取適用算法并傳遞給執(zhí)行層;執(zhí)行層進(jìn)行數(shù)據(jù)挖掘得到結(jié)果并返回給信息層主控節(jié)點[7]。模型如圖1所示。

      4 結(jié)論

      信息門戶建設(shè)工作目前在廣大高校中正迅速鋪開,但大多還處于起步階段。對于基礎(chǔ)數(shù)據(jù)的收集和共享數(shù)據(jù)庫的完善仍需要一段時間才能完成,在這項工作中必須要面對的一個問題就是數(shù)據(jù)的選擇問題,這也是數(shù)據(jù)挖掘的另一用武之地。

      本文基于傳統(tǒng)迭代方法原理,結(jié)合MapReduce和多服務(wù)器并行算法思維,提出了一種改進(jìn)型迭代算法,并根據(jù)此算法提出了一種網(wǎng)絡(luò)挖掘系統(tǒng)架構(gòu)模型,力求提高web數(shù)據(jù)挖掘效率,并運用此技術(shù)對門戶網(wǎng)站上的各種數(shù)據(jù)源進(jìn)行挖掘,找到相關(guān)的一些知識模式,以指導(dǎo)網(wǎng)站管理員更好地運作站點和向用戶提供更好的服務(wù)。

      參考文獻(xiàn):

      [1] 李軍懷, 周明全, 耿國華, 等. XML在異構(gòu)數(shù)據(jù)集成中的應(yīng)用研究[J].計算機(jī)應(yīng)用, 2002, 22(9): 10-12.

      [2] 程苗. 基于云計算的Web數(shù)據(jù)挖掘[J]. 計算機(jī)科學(xué), 2011(增1): 146-149.

      [3] 管憶軍, 王勇, 何德牛. 一種采用函數(shù)迭代運算的數(shù)據(jù)流挖掘方法[J].廣西民族大學(xué)學(xué)報, 2012, 18(1): 45-49.

      [4] 彭宏玉, 柴旭光, 陳曉紀(jì). 基于層次迭代思想的聚類算法的研究[J]. 唐山學(xué)院學(xué)報, 2011, 24(3): 86-87, 91.

      [5] 趙洪英, 蔡樂才, 李先杰. 關(guān)聯(lián)規(guī)則挖掘的Apriori算法綜述[J]. 四川理工學(xué)院學(xué)報: 自然科學(xué)版, 2011, 24(1): 66-70.

      [6] 趙虎. 云計算環(huán)境下的關(guān)聯(lián)數(shù)據(jù)挖掘算法實現(xiàn)[D]. 成都: 電子科技大學(xué), 2011.

      [7] 劉嘯,劉玉龍. 基于改進(jìn)型迭代算法的web數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘.科技導(dǎo)報,2015,33(3):90-94.

      猜你喜歡
      并行算法
      基于多線程的巖心圖像超維重建快速算法
      地圖線要素綜合化的簡遞歸并行算法
      試論全局通訊網(wǎng)絡(luò)模式的數(shù)據(jù)挖掘方法
      基于MPI并行算法的農(nóng)作物生長環(huán)境的數(shù)據(jù)分析
      并行計算與MPI研究
      基于GPU的GaBP并行算法研究
      循環(huán)Toeplitz矩陣逆矩陣的并行算法
      基于MapReduce的DBSCAN聚類算法的并行實現(xiàn)
      基于GPU的分類并行算法的研究與實現(xiàn)
      結(jié)構(gòu)分析與優(yōu)化設(shè)計的并行計算方法
      永修县| 宜州市| 南岸区| 探索| 九江县| 禄劝| 丽江市| 乐都县| 江山市| 邵武市| 三原县| 木兰县| 武强县| 浦江县| 高安市| 治多县| 枣庄市| 皋兰县| 鄂托克前旗| 杂多县| 甘南县| 鲁山县| 隆德县| 江门市| 拜泉县| 哈尔滨市| 海城市| 隆回县| 金堂县| 宣恩县| 海伦市| 资兴市| 泸西县| 阿拉尔市| 湖州市| 隆化县| 彰化市| 二手房| 涿鹿县| 通化市| 五家渠市|