• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      鏈接分析技術中Web聚類算法及歸類的應用研究

      2018-09-10 03:22:34許曉燕
      河南科技 2018年14期
      關鍵詞:聚類算法

      許曉燕

      摘 要:鏈接分析技術是優(yōu)化信息搜索速度與利用價值的網絡結構優(yōu)化發(fā)展途徑,在以往更加傾向于關鍵內容的數(shù)據(jù)信息特征歸類,而對于Web信息內容的特征屬性要求較低,因此會產生搜索主題不鮮明、搜索內容針對性差等問題?;诖?,本文針對鏈接分析技術提出了聚類算法的應用模式,以便為Web信息內容的歸類推薦提供理論參考。

      關鍵詞:鏈接分析技術;Web;聚類算法;歸類應用;子集特征

      中圖分類號:TP393.07 文獻標識碼:A 文章編號:1003-5168(2018)14-0024-03

      Application of Web Clustering Algorithm and Classification in

      Link Analysis Technology

      XU Xiaoyan

      (Sanmenxia Polytechnic,Sanmenxia Henan 472000)

      Abstract: The link analysis technology is the optimal way to optimize the network structure of information search speed and use. In the past, the characteristics of the data information which were more inclined to the key content were classified, and the characteristics of the Web information content were low, so the problem of the search theme was not distinct and the content of the search was poor. Based on this, this paper put forward the application mode of clustering algorithm for link analysis technology, so as to provide a theoretical reference for the classification and recommendation of Web information content.

      Keywords: link analysis technology;Web;clustering algorithm;categorization application;subset feature

      1 鏈接分析技術概述

      1.1 鏈接分析技術簡介

      鏈接分析是源于對Web結構中超鏈接的多維分析。其分析目標是強調網絡信息檢索、數(shù)據(jù)挖掘、網絡統(tǒng)計、Web結構建模等方面的技術優(yōu)化方案。長期以來,擁有高質量的外部鏈接都是搜索引擎必要的技術支撐[1]。在此方面,鏈接分析技術Google、百度、雅虎和搜狗等搜索引擎平臺提供了關鍵詞索引的技術方案。當反向鏈接或導入鏈接對關鍵詞匯的采集頻次較高,且達到了全網搜尋的效果之后,并不代表其中的索引信息都能呈現(xiàn)在Web頁面中,而是需要積極調取其中的特征屬性,繼而通過聚類分析算法明確具體的排名,才能將關聯(lián)度更高的信息、網址、域名進行歸類和排列。因此,鏈接分析技術所呈現(xiàn)的鏈接構建開辟了網絡終端收集信息的便捷性,而網站被搜尋到的概率也會相對更高且更為合理。因此,鏈接分析技術是關鍵詞查詢后影響搜索信息排名的關鍵因素,也決定了搜索引擎的常規(guī)應用效率與性能。

      1.2 鏈接分析的基本原理

      搜索引擎對網頁關聯(lián)度的排序,是基于鏈接分析技術支持完成的具體搜索操作。這一流程,既需要對關鍵詞本身的出現(xiàn)密度加以衡量,同時需要對比鏈接本身的流行度。當該網頁被瀏覽的頻次較高,其鏈接分析技術則會將該頁面推送到排名靠前的位置,相反,排名則較為靠后。通過鏈接分析,能讓搜索內容更為精準。一個Web頁面的反向鏈接越高,其可應用價值也會越大,基于這種原理支持其鏈接靠前便是鏈接分析技術的基本運行原理。因此,鏈接分析技術不僅提供了關于搜索信息的普遍解答[2],而且優(yōu)化了信息價值定位后所呈現(xiàn)出關聯(lián)度更高、應用價值更高及使用頻次更高的Web頁面,是最大限度優(yōu)化搜索信息權威性的技術支持。

      2 應用鏈接分析技術的優(yōu)勢

      鏈接分析技術在Web頁面的數(shù)據(jù)挖掘過程中具有極為廣泛的應用價值,分別為提升信息檢索質量、擴大網絡主題空間。

      2.1 提升信息檢索質量

      鏈接分析技術對于改善網絡信息檢索的速度及時效性具有重要作用。以Web頁面信息的檢索為對象,在采用了鏈接分析技術之后,其核心算法可以借助聚類分析模式彌補網絡信息關聯(lián)度不足的弊端,進而剔除線性存儲的局限性,并為終端用戶擴大搜索范圍,集中檢索空間。此外,在搜索引擎中的網絡瀏覽速度也會隨之加速,節(jié)省用戶的網絡瀏覽時間。在搜索引擎檢索到的信息中建立評價等級,從排序優(yōu)化條件中開發(fā)超鏈分析的推薦選項,進而加強信息檢索的排序效果。

      2.2 擴大網絡主題空間

      網絡主題是設置Web頁面信息時所融入的基礎元素,這一元素并不會由關鍵詞直接顯現(xiàn)。當關鍵詞不同時,部分Web頁面信息仍然傳遞出類似的結論、結果或研究內容,實質上也是對網絡信息的轉載或解釋。這種并不具備檢索要求的信息,反而有助于用戶逐步明確搜索方向,是認知網絡主題空間的引導。借助鏈接分析技術檢索Web頁面中的隱含信息,提供更加權威的質量評價,有助于邏輯性更強、權威性更高、主題更為鮮明的Web頁面被快速發(fā)掘。由此,數(shù)據(jù)發(fā)掘的價值得以保障,是擴大網絡主題空間檢索范圍的技術支持[3]。

      3 鏈接分析技術中Web聚類算法及歸類的應用

      3.1 鏈接分析技術中的歸類模式

      在搜索Web頁面信息時,多數(shù)關聯(lián)主題并不鮮明,存在模糊查詢的現(xiàn)象。運用鏈接分析技術,實質上也是逐步消解模糊狀態(tài)的方式,需要將關聯(lián)度較高的信息進行歸類,進而推送應用價值更高的Web頁面信息。此時,傳統(tǒng)的關鍵詞索引模式并不足以分析用戶的實質需求,因此關聯(lián)數(shù)據(jù)并未被快速發(fā)掘。例如,當關鍵詞為“蛟龍”時,其作為古代神話中的神獸并非用戶搜索意圖,而由我國自主研發(fā)的“蛟龍?zhí)栞d人潛水器”反而可能是用戶所需查詢的主題。如果搜索引擎無法滿足所有用戶對關聯(lián)主題的信息需求,實質上所呈現(xiàn)出的Web頁面應用價值也會相對較低。因此,搜索引擎首先需要加強關聯(lián)主題的歸類統(tǒng)計,然后將歸類內容分別呈現(xiàn)給用戶,才能達到預期的搜索與查詢效果。利用鏈接分析技術歸類其中的關聯(lián)主題,通過劃分Web頁面的歸類,從中計算出網絡信息的比例權重,這樣才能進一步提升查詢結果的針對性。

      3.2 聚類算法的分析流程

      首先,需要定義搜索范圍的有向圖[G=V,E],其中[V]代表了文檔集合,E為關系集合。假設P與Q的關聯(lián)主題均符合從P鏈接到Q,或從Q鏈接到P的條件。那么,G集合則涵蓋了[P,Q]無限趨向于E的特征表現(xiàn)。其節(jié)點[Iv]和 [Ov]也在不斷接近于節(jié)點集合。因此,在每個節(jié)點中都會明確具體的出度和入度,并保持相對的穩(wěn)定性。在G中存在n個節(jié)點,在得到[R0a,b=0]或1的情況下,[Rk+1a,b=RkIia,Ijb],[Limk→∞],則代表[Rka,b=Ra,b],那么[Ra,b]的鏈接相似度也會滿足用戶需求,并得到支持Web信息歸類的最終數(shù)據(jù)集合。

      3.3 構建網頁集合

      聚類分析的特點是將Web關聯(lián)信息中較為抽象的內容劃分為統(tǒng)一的屬性集合,在分組之后才涉及歸類應用。這種近似為智能行為的算法為鏈接分析提供了基礎條件,因此能依據(jù)描述信息的逐步清晰最終明確數(shù)據(jù)源分類。這一分類也是加強網頁集合構造的基礎條件,將突出關聯(lián)主題的鮮明度。在構建網頁集合的過程中,首先需要確定如下條件:網絡信息的出現(xiàn)頻次、集合信息的整體權威性、搜索范圍的明確度。當相關參數(shù)構筑了網頁信息的集成效果后,根集合R的Web信息集合條件也更為清晰,是諸多子集合滿足搜索條件的重要表現(xiàn),也是快速發(fā)掘用戶搜索需求規(guī)律的內容歸類[4]。

      3.4 Web頁面信息歸類

      當用戶所需的搜索范圍被界定,其中的字符串內容也會集中于網頁集合內,并表示出具體的鏈接強度關系。真正的鏈接強度是Web聚類算法得以支持予以分析結果明確的主要條件,是為了更為精準地調取網頁子集信息而設定的搜索條件。因此,網頁歸類的Web聚類算法也能快速建立頁面集合的特征,為用戶提供更為精準的搜索服務。通過分析頁面內容信息的關聯(lián)度,劃分集合屬性,使其達到歸類需求。一方面,需要生成初始類,并在網頁信息中隨機設定一個相似度較高的類,計算其中的相似度。將相似度最小的Web頁面信息作為第二個類,計算其余Web頁面信息與兩個網絡集合的關聯(lián)性,取二者之和中最小的參考值作為第三個類。以此類推,便產生了K個類,且每個類的特征屬性都并不相同,查詢其中的信息對比,或者關鍵詞內容,終端用戶便可以優(yōu)化網頁信息的主題特征鮮明度,令用戶了解每一類集合的主題特征。另一方面,需要針對網絡信息的迭代過程加以描述,參考網頁信息的隸屬度和關聯(lián)度,取其平均值作為聚類算法的終止條件,并將網頁信息聚集,呈現(xiàn)出不同意圖或特征的Web頁面信息以供用戶參考。

      3.5 信息權重計算

      在得到分類網頁特征數(shù)據(jù)之后,用戶可以在自己所需的主題中選擇子集合,并在歸類內容中查找契合度最高的信息內容。因此,聚類結果在用戶選擇的子集合中具有再利用價值,是鏈接分析技術得以實現(xiàn)的根本。在此基礎上,完成對網頁子集權重的設定,是進一步優(yōu)化排列效果的支持條件。聚類算法之所以能加強信息關聯(lián)度,是因為在相關信息中提取可量化的標準之后,優(yōu)化子集信息的特重度。例如,“百度快照”中將關聯(lián)詞通過不同顏色呈現(xiàn)給用戶,便是逐一顯現(xiàn)文檔內容信息的應用價值排列。這樣的內容推薦效果可以讓終端用戶快速識別關鍵信息的價值取向,從而明確所選主題內容的適應度。其計算信息權重主要為5個步驟。第一,需要設定所選內容信息的子集合鄰接圖為N,并以H[n]代表關聯(lián)度,以A[n]代表權威度。第二,需要初始化關聯(lián)度與全維度子集合的相關信息,設定其閾值為1。第三,需要在向量H和A并未收斂時進入計算流程,否則需要退出。第四,需要對N集合的所有節(jié)點閾值,得到[A=n,n,nHn,×auth_wtn,,n]。第五,需要對集合中的節(jié)點進行再次閾值,得到[H=n,n,nAn,×hub_wtn,,n],進而最終得到H與A的規(guī)范化結構,為Web頁面信息的搜索依據(jù)權重比例進行排序。相關研究表明,這種以聚類算法為核心的鏈接分析技術能滿足模糊主題的相關信息搜索需求,進而為用戶提供興趣度更高的Web頁面內容,是進一步優(yōu)化Web信息內容聚類條件和歸類應用的發(fā)展結果,能支持終端用戶在最短時限內完成對模糊信息的搜索,優(yōu)化搜索內容的精準度與時效性,并達到加快搜索速度的應用效果。

      4 結語

      Web頁面信息在利用了聚類分析算法之后,能將諸多特征子集充分提取和調集,并最終歸類為不同的主題內容以便為終端用戶提供數(shù)據(jù)信息的對比與參考。借助鏈接分析技術,能優(yōu)化Web頁面信息的歸類應用條件,從而提高快速查詢搜索結果的精準度,擴大適用范圍。基于此,可以利用聚類算法優(yōu)化鏈接分析技術的應用效果,并在歸類屬性中達到預期的搜索精度,為優(yōu)化Web頁面的信息整合度提供技術支持。

      參考文獻:

      [1]趙蓉英,魏緒秋.時空維度下的我國鏈接分析研究現(xiàn)狀分析[J].情報科學,2017(4):3-8.

      [2]高翔,吳萬琴.異質信息網絡中基于聚類及鏈接分析的多樣性挖掘技術[J].工業(yè)儀表與自動化裝置,2014(6):11-14,46.

      [3]屈玉閣.基于譜聚類與改進WEB鏈接分析HITS算法的多屬性群決策方法[J].統(tǒng)計與決策,2014(19):13-17.

      [4]孫建軍.鏈接分析:知識基礎、研究主體、研究熱點與前沿綜述——基于科學知識圖譜的途徑[J].情報學報,2014(6):659-672.

      猜你喜歡
      聚類算法
      一種基于詞嵌入與密度峰值策略的大數(shù)據(jù)文本聚類算法
      基于關聯(lián)規(guī)則和復雜系統(tǒng)熵聚類方法分析張學文治療肝熱血瘀證用藥規(guī)律
      數(shù)據(jù)挖掘算法性能優(yōu)化的研究與應用
      K—Means聚類算法在MapReduce框架下的實現(xiàn)
      軟件導刊(2016年12期)2017-01-21 14:51:17
      基于K?均值與AGNES聚類算法的校園網行為分析系統(tǒng)研究
      數(shù)據(jù)挖掘技術在識別可疑金融交易中的應用
      基于改進的K_means算法在圖像分割中的應用
      大規(guī)模風電場集中接入對電力系統(tǒng)小干擾穩(wěn)定的影響分析
      科技視界(2016年8期)2016-04-05 18:39:39
      基于彈性分布數(shù)據(jù)集的海量空間數(shù)據(jù)密度聚類
      基于MapReduce的DBSCAN聚類算法的并行實現(xiàn)
      景洪市| 利津县| 镇远县| 永兴县| 句容市| 隆安县| 巴林右旗| 横山县| 茌平县| 蓬安县| 泽普县| 晴隆县| 陇南市| 璧山县| 松江区| 承德县| 武强县| 金沙县| 留坝县| 当雄县| 吉安县| 贵州省| 宝坻区| 稷山县| 军事| 吉隆县| 中山市| 吉水县| 霍林郭勒市| 新巴尔虎右旗| 内丘县| 渝中区| 卢湾区| 读书| 昭平县| 华安县| 碌曲县| 津市市| 福建省| 琼中| 青阳县|