• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      淺析搜索引擎優(yōu)化技術(shù)及其應(yīng)用

      2017-05-30 07:16:42徐煒
      科技風(fēng) 2017年4期
      關(guān)鍵詞:優(yōu)化技術(shù)搜索引擎

      徐煒

      摘 要:文章分析了“船舶救生設(shè)備”的教學(xué)現(xiàn)狀,提出了信息化課堂教學(xué)的重要性,并介紹了信息化課堂教學(xué)在船舶救生設(shè)備教學(xué)中的具體應(yīng)用。

      關(guān)鍵詞:搜索引擎;優(yōu)化技術(shù);爬蟲軟件

      1 搜索引擎工作原理

      1.1 搜索引擎原理

      要了解搜索引擎優(yōu)化技術(shù),首先需要明白搜索引擎的工作原理。目前國(guó)內(nèi)外的搜索引擎較多,例如谷歌、百度、雅虎、必應(yīng)等等。雖然其具體的優(yōu)化和排序算法有一定的差異,但是其基本原理大致相同,一共可以分為五個(gè)主要的步驟,分別為網(wǎng)頁(yè)的抓取、信息的提取、關(guān)鍵字的搜索、建立關(guān)鍵字索引以及網(wǎng)頁(yè)的排序。其中最為關(guān)鍵的一步就是對(duì)于網(wǎng)頁(yè)的提取。對(duì)于搜索引擎而言,其主要目的是對(duì)于互聯(lián)網(wǎng)上的網(wǎng)頁(yè)進(jìn)行分析,而后結(jié)合用戶的搜索要求來(lái)實(shí)現(xiàn)匹配。而匹配的主要渠道則是通過(guò)用戶在搜索引擎的網(wǎng)站上輸入對(duì)應(yīng)的關(guān)鍵字,搜索引擎在獲取關(guān)鍵字以后根據(jù)相應(yīng)的優(yōu)化匹配算法降互聯(lián)網(wǎng)上的網(wǎng)頁(yè)按照其自身的規(guī)則進(jìn)行排序,從而最終展現(xiàn)在用戶界面上。

      1.2 爬蟲程序

      從上一小節(jié)的介紹中可以知道,對(duì)于搜索引擎而言,其最為主要的兩個(gè)部分是對(duì)于網(wǎng)頁(yè)的檢索和處理,其次則是搜索引擎的優(yōu)化匹配算法。對(duì)于不同的搜索引擎而言其優(yōu)化匹配的算法上可能存在一定的差異。例如用戶在google和百度上分別輸入對(duì)應(yīng)的關(guān)鍵字進(jìn)行搜索,由于其優(yōu)化匹配算法的不同,其搜索的結(jié)果就可能出現(xiàn)不一樣的情況。

      但是相對(duì)于優(yōu)化匹配算法而言,構(gòu)成搜索引擎運(yùn)行關(guān)鍵的另一個(gè)部分,即網(wǎng)頁(yè)的檢索以及處理部分則是基本相同的。這部分的工作由兩個(gè)部分構(gòu)成,第一是爬蟲程序完成對(duì)互聯(lián)網(wǎng)上網(wǎng)頁(yè)的檢索,第二則是對(duì)網(wǎng)頁(yè)內(nèi)容的處理從而形成關(guān)鍵詞的索引。目前主流的搜索引擎大多采用爬蟲程序來(lái)完成互聯(lián)網(wǎng)上網(wǎng)頁(yè)的檢索。爬蟲軟件在工作的過(guò)程中,在對(duì)互聯(lián)網(wǎng)上的網(wǎng)頁(yè)進(jìn)行檢索時(shí)主要對(duì)網(wǎng)頁(yè)的鏈接和內(nèi)容進(jìn)行分析。其具體如下圖1所示:

      如上圖1所示,爬蟲軟件在對(duì)網(wǎng)頁(yè)進(jìn)行處理的過(guò)程只能夠包含兩個(gè)主要的部分,第一是解析網(wǎng)頁(yè)中存在的鏈接,從而獲得其他互聯(lián)網(wǎng)上網(wǎng)頁(yè)的網(wǎng)址,為后續(xù)的網(wǎng)頁(yè)分析提供依據(jù)。否則不能找到新的網(wǎng)頁(yè)則失去了分析的對(duì)象,爬蟲程序也將終止。第二則是對(duì)于網(wǎng)頁(yè)的文本內(nèi)容進(jìn)行分析,了解網(wǎng)頁(yè)中文本描述的主體內(nèi)容。需要說(shuō)明的是,爬蟲程序?qū)τ谒阉饕娑允窃诤笈_(tái)一直運(yùn)行的一項(xiàng)程序,通過(guò)爬蟲軟件的不斷運(yùn)行實(shí)現(xiàn)對(duì)于互聯(lián)網(wǎng)上網(wǎng)頁(yè)檢索的動(dòng)態(tài)更新。無(wú)論是對(duì)網(wǎng)頁(yè)的內(nèi)容進(jìn)行更新還是對(duì)于網(wǎng)頁(yè)鏈接的更新(即新的網(wǎng)頁(yè)出現(xiàn)時(shí),更新網(wǎng)頁(yè)鏈接)。對(duì)于不同類型的網(wǎng)頁(yè)而言,爬蟲軟件的處理上也存在一定的差異,例如對(duì)于新聞網(wǎng)站的網(wǎng)頁(yè)而言,特別是其首頁(yè),網(wǎng)頁(yè)的網(wǎng)址和參數(shù)等都不會(huì)發(fā)生變化。但是網(wǎng)頁(yè)的文本內(nèi)容上則經(jīng)常會(huì)更新,因此爬蟲軟件在對(duì)這一類網(wǎng)頁(yè)進(jìn)行分析時(shí),來(lái)回瀏覽的頻率也會(huì)相對(duì)較高。

      2 搜索引擎優(yōu)化技術(shù)研究

      2.1 對(duì)爬蟲軟件的影響因素

      由上文對(duì)于搜索引擎工作原理的介紹可以知道,搜索引擎的工作基礎(chǔ)是爬蟲軟件對(duì)于互聯(lián)網(wǎng)上網(wǎng)頁(yè)的檢索和分析。因此影響爬蟲軟件瀏覽到互聯(lián)網(wǎng)網(wǎng)頁(yè)的因素都將影響搜索引擎對(duì)于網(wǎng)頁(yè)的排序。當(dāng)爬蟲軟件對(duì)于互聯(lián)網(wǎng)上的網(wǎng)頁(yè)進(jìn)行瀏覽時(shí),如果網(wǎng)頁(yè)不能正常打開也不會(huì)立即影響到搜索引擎對(duì)于該網(wǎng)頁(yè)的排序,但是會(huì)產(chǎn)生漸變的影響。這也是為什么用戶在通過(guò)搜索引擎搜索關(guān)鍵字時(shí),有時(shí)候搜索引擎提供的網(wǎng)站不能正常打開的原因。因?yàn)樵摼W(wǎng)站雖然不能正常打開了,但是由于爬蟲軟件對(duì)于該網(wǎng)頁(yè)有歷史瀏覽記錄,而搜索引擎對(duì)于網(wǎng)頁(yè)的排序則主要是依據(jù)爬蟲軟件的歷史記錄來(lái)進(jìn)行匹配的。因此網(wǎng)頁(yè)不能訪問(wèn)后則會(huì)逐步降低搜索引擎對(duì)于該網(wǎng)頁(yè)的排序。

      同理,影響爬蟲軟件訪問(wèn)的因素還包括以下幾點(diǎn):

      1)網(wǎng)頁(yè)不能正常打開。當(dāng)爬蟲軟件對(duì)于互聯(lián)網(wǎng)上的網(wǎng)頁(yè)進(jìn)行瀏覽時(shí),如果網(wǎng)頁(yè)不能正常打開也不會(huì)立即影響到搜索引擎對(duì)于該網(wǎng)頁(yè)的排序,但是會(huì)產(chǎn)生漸變的影響。這也是為什么用戶在通過(guò)搜索引擎搜索關(guān)鍵字時(shí),有時(shí)候搜索引擎提供的網(wǎng)站不能正常打開的原因。因?yàn)樵摼W(wǎng)站雖然不能正常打開了,但是由于爬蟲軟件對(duì)于該網(wǎng)頁(yè)有歷史瀏覽記錄。所以網(wǎng)頁(yè)不能正常打開的情況下,網(wǎng)頁(yè)的排序會(huì)逐漸落后,直至爬蟲軟件最終不再訪問(wèn)該網(wǎng)頁(yè)。

      2)頁(yè)面的內(nèi)容設(shè)置。之前關(guān)于爬蟲軟件的工作原理進(jìn)行過(guò)介紹。爬蟲軟件在對(duì)網(wǎng)頁(yè)進(jìn)行訪問(wèn)和分析的時(shí)候會(huì)采用一定的規(guī)則進(jìn)行分析。因而不適應(yīng)爬蟲軟件分析規(guī)則的網(wǎng)頁(yè)則不會(huì)將網(wǎng)頁(yè)需要表示的主題和內(nèi)容反映給爬蟲軟件。因此搜索引擎在進(jìn)行匹配時(shí)也不能與用戶實(shí)際搜索的關(guān)鍵字進(jìn)行匹配。

      3)超鏈接的錯(cuò)誤。爬蟲軟件在進(jìn)行網(wǎng)頁(yè)分析時(shí),第一時(shí)間就會(huì)處理網(wǎng)頁(yè)中的超鏈接。因此超鏈接將直接影響到爬蟲軟件的效率和分析結(jié)果。如果網(wǎng)頁(yè)中的鏈接出現(xiàn)錯(cuò)誤或者死鏈接,那么爬蟲則會(huì)陷入死循環(huán)中。在影響爬蟲軟件運(yùn)行效率的同時(shí)也會(huì)影響到該網(wǎng)頁(yè)的排序。

      2.2 關(guān)鍵詞位置與頻率的優(yōu)化

      目前互聯(lián)網(wǎng)網(wǎng)頁(yè)的傳輸是依靠網(wǎng)絡(luò)協(xié)議進(jìn)行傳輸。而對(duì)應(yīng)的網(wǎng)頁(yè)編碼和解碼則是需要根據(jù)既定的規(guī)則來(lái)進(jìn)行編碼和解碼。為了保持互聯(lián)網(wǎng)跨平臺(tái)共享信息的優(yōu)點(diǎn)則需要采用一種通用的語(yǔ)言可以讓各種不同操作系統(tǒng)或者平臺(tái)的軟件都可以較好的解釋網(wǎng)頁(yè)。因此則出現(xiàn)了HTML語(yǔ)言,這種語(yǔ)言是一種標(biāo)準(zhǔn)化的對(duì)象語(yǔ)言。其特點(diǎn)與XML數(shù)據(jù)庫(kù)相類似,HTML語(yǔ)言的核心思想是將網(wǎng)頁(yè)中所有的元素都轉(zhuǎn)換成一個(gè)個(gè)不同的對(duì)象,因此在對(duì)網(wǎng)頁(yè)進(jìn)行解釋和編碼的過(guò)程中則可以非常明確的指導(dǎo)不同元素所代表的內(nèi)容或者在網(wǎng)頁(yè)中的位置。

      從目前的網(wǎng)頁(yè)組成來(lái)說(shuō),一般都會(huì)存在幾個(gè)主要的部分。第一是title,即整個(gè)網(wǎng)頁(yè)的標(biāo)題。第二則是body,即整個(gè)網(wǎng)頁(yè)的主要部分,這這個(gè)部分包含了網(wǎng)頁(yè)中的主要內(nèi)容,包含文字的敘述內(nèi)容,或者是圖像化的圖片內(nèi)容等等。通常來(lái)講爬蟲軟件在對(duì)網(wǎng)頁(yè)進(jìn)行分析時(shí),提取其關(guān)鍵字主要是依靠?jī)蓚€(gè)方面來(lái)進(jìn)行關(guān)鍵詞的判斷,第一部分就是根據(jù)title中的內(nèi)容來(lái)分析該網(wǎng)頁(yè)的主體,第二部分則是根據(jù)網(wǎng)頁(yè)中body里含有的文字?jǐn)⑹鰜?lái)進(jìn)行分析。

      另外,爬蟲軟件在對(duì)網(wǎng)頁(yè)進(jìn)行分析時(shí),除了對(duì)于title的分析以外還會(huì)對(duì)于網(wǎng)頁(yè)中文字?jǐn)⑹鲞M(jìn)行分析。目前在這方面的分析算法中比較常見的方法則是關(guān)于文字處理的聚類算法等等。其中較為典型的則是DF-IFD算法。其原理是通過(guò)對(duì)于將不同網(wǎng)頁(yè)中的關(guān)鍵詞進(jìn)行統(tǒng)計(jì),而后在大量統(tǒng)計(jì)的基礎(chǔ)上建立不同類型文檔的典型特征向量。通過(guò)不同網(wǎng)頁(yè)中關(guān)鍵詞出現(xiàn)頻率的對(duì)比來(lái)提取最能表現(xiàn)一個(gè)網(wǎng)頁(yè)主體的關(guān)鍵詞,并將其作為其特征向量的“維度”。因此從這一方面來(lái)講影響網(wǎng)頁(yè)與搜索關(guān)鍵字排序結(jié)果的另一個(gè)主要因素則是關(guān)鍵詞出現(xiàn)的頻率。

      關(guān)于通過(guò)提高頻率來(lái)改變網(wǎng)頁(yè)排序的方式較為常用,因此也出現(xiàn)了針對(duì)這種辦法的懲罰措施。一般而言,通過(guò)提高頻率來(lái)改變網(wǎng)頁(yè)排序主要是依靠關(guān)鍵詞的不斷堆砌,而懲罰措施則是針對(duì)這種關(guān)鍵詞的堆砌進(jìn)行的一種懲罰。但是在合理的范圍內(nèi)增加關(guān)鍵詞在網(wǎng)頁(yè)中出現(xiàn)的頻率依然可以改變?cè)摼W(wǎng)頁(yè)在對(duì)應(yīng)關(guān)鍵詞下搜索時(shí)的排序結(jié)果。

      2.3 鏈接優(yōu)化策略

      超鏈接是爬蟲軟件在抓取網(wǎng)頁(yè)的主要途徑。如果整個(gè)互聯(lián)網(wǎng)上導(dǎo)入到該網(wǎng)頁(yè)的超鏈接越多,則該網(wǎng)頁(yè)被網(wǎng)絡(luò)爬蟲爬過(guò)的幾率則會(huì)大大提升,其排序的結(jié)果和權(quán)重也會(huì)相應(yīng)的越大。這種方式被稱為外部導(dǎo)入方式的鏈接優(yōu)化。其次,對(duì)于同一網(wǎng)站而言,其內(nèi)部的鏈接如果足夠優(yōu)化,那么網(wǎng)站內(nèi)部的所有頁(yè)面之間都可以方便的進(jìn)行互相訪問(wèn),而對(duì)應(yīng)的不同網(wǎng)頁(yè)之間也會(huì)存在包含站內(nèi)其他頁(yè)面的超鏈接地址,即在站內(nèi)通過(guò)合理的外部導(dǎo)入實(shí)現(xiàn)了鏈接的優(yōu)化。并且網(wǎng)絡(luò)爬蟲在對(duì)網(wǎng)站進(jìn)行評(píng)價(jià)時(shí)有其一套評(píng)價(jià)辦法,同一網(wǎng)站的評(píng)估可以通過(guò)pagerank值來(lái)進(jìn)行評(píng)估,并且在頁(yè)面跳轉(zhuǎn)的過(guò)程中可以將pagerank值直接帶入到站內(nèi)的其他頁(yè)面中。

      3 總結(jié)

      本文對(duì)于搜索引擎的工作原理進(jìn)行了介紹,指出網(wǎng)絡(luò)爬蟲程序是搜索引擎運(yùn)行的關(guān)鍵。因此針對(duì)網(wǎng)絡(luò)爬蟲程序的優(yōu)化方法可以達(dá)到優(yōu)化網(wǎng)頁(yè)在搜索引擎中排序的目的。由此本文對(duì)于網(wǎng)絡(luò)爬蟲軟件的運(yùn)行原理以及影響網(wǎng)絡(luò)爬蟲軟件抓取網(wǎng)頁(yè)的主要因素進(jìn)行了分析。最后從關(guān)鍵詞優(yōu)化和鏈接優(yōu)化兩個(gè)方面提出了搜索引擎優(yōu)化的主要辦法和措施。而這兩個(gè)方面的具體措施和方法則是下一步需要研究的重點(diǎn)。

      參考文獻(xiàn):

      [1] 陳偉雄.基于元搜索的中文搜索引擎的研究與實(shí)現(xiàn)[M].北京:清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系,2014.

      [2] JiaweiHan,Micheline Kamber著.范明,孟小峰譯.數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2013:290-295.

      猜你喜歡
      優(yōu)化技術(shù)搜索引擎
      結(jié)構(gòu)設(shè)計(jì)優(yōu)化技術(shù)在房建結(jié)構(gòu)設(shè)計(jì)中的運(yùn)用分析
      動(dòng)態(tài)電壓恢復(fù)器控制優(yōu)化電能質(zhì)量技術(shù)
      燃煤機(jī)組運(yùn)行監(jiān)測(cè)及優(yōu)化技術(shù)的現(xiàn)狀分析
      商情(2016年42期)2016-12-23 16:51:17
      優(yōu)化技術(shù)在土建結(jié)構(gòu)工程設(shè)計(jì)中的應(yīng)用分析
      火電廠鍋爐燃燒優(yōu)化技術(shù)分析
      網(wǎng)絡(luò)搜索引擎亟待規(guī)范
      基于串行法的新型EDA優(yōu)化技術(shù)的研究
      Nutch搜索引擎在網(wǎng)絡(luò)輿情管控中的應(yīng)用
      基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
      廣告主與搜索引擎的雙向博弈分析
      若尔盖县| 东光县| 三原县| 房产| 体育| 定结县| 旌德县| 高唐县| 贺兰县| 苍梧县| 闻喜县| 白山市| 奉新县| 青铜峡市| 乾安县| 宁阳县| 达尔| 子洲县| 扎赉特旗| 铜山县| 邢台市| 八宿县| 库尔勒市| 汉沽区| 固原市| 商河县| 萨嘎县| 叙永县| 咸宁市| 文水县| 左贡县| 通州市| 阿合奇县| 五大连池市| 夏河县| 镇坪县| 松潘县| 兴宁市| 保亭| 九寨沟县| 渑池县|