基于Python技術(shù)的校園網(wǎng)搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)

2019-11-05 07:45:15熊輝

科技視界 2019年28期

熊輝

【摘要】面對(duì)高速發(fā)展的經(jīng)濟(jì)以及科技新突破給我國帶來的翻天覆地變化，互聯(lián)網(wǎng)已經(jīng)普及國內(nèi)外，人們的生活也因科技的作用而便利了很多，但科技是一把“雙刃劍”，互聯(lián)網(wǎng)的高速發(fā)展與各種信息的傳播也讓給我們帶來了“信息污染”，一時(shí)間很難辨別信息的正確性。對(duì)于校園數(shù)字化建設(shè)來說，也同樣不可避免的會(huì)受到“信息污染”的干擾，各種無效信息使我們對(duì)正確信息的查找與定位變得艱難，而調(diào)查發(fā)現(xiàn)對(duì)于很多學(xué)校來說，大多是運(yùn)用很普通的搜索引擎檢索信息，而普通的搜索引擎難以搜集到有效、正確的信息。針對(duì)上述問題，為了還學(xué)校一個(gè)高效、清凈的信息環(huán)境，筆者將結(jié)合Python技術(shù)對(duì)校園網(wǎng)的搜索引擎進(jìn)行相關(guān)介紹和設(shè)計(jì)，設(shè)計(jì)方案僅供參考。

【關(guān)鍵詞】Python技術(shù);校園網(wǎng)搜索引擎;設(shè)計(jì);信息化;信息污染

中圖分類號(hào)： TP391.3;TP393.18文獻(xiàn)標(biāo)識(shí)碼： A文章編號(hào)： 2095-2457（2019）28-0173-002

DOI：10.19694/j.cnki.issn2095-2457.2019.28.079

【Abstract】In the face of the rapid development of the economy and new breakthroughs in science and technology to bring about great changes in our country， the Internet has been popularized at home and abroad， people's lives are also because of the role of science and technology and facilitate a lot， but science and technology is a "double-edged sword"， the rapid development of the Internet and the dissemination of various information has also brought us "information pollution"， It's hard to tell the correctness of information for a while. For the campus digital construction， is also inevitable by the "information pollution" interference， all kinds of invalid information makes us to find and locate the correct information become difficult， and the survey found that for many schools， most lying through a very common search engine to retrieve information， and ordinary search engines difficult to collect effective， The right information. In view of the above-mentioned problems， in order to return the school an efficient and clean information environment， the author will combine Python technology on the campus network search engine related introduction and design， design design for reference only.

【Key words】Python technology; Campus web search engine; Design; Information; Information pollution

21世紀(jì)是一個(gè)經(jīng)濟(jì)高速發(fā)展，高度信息化的社會(huì)，互聯(lián)網(wǎng)在我國境內(nèi)幾乎已經(jīng)全覆蓋，通過它人們不出門就能夠獲取各種各樣的信息，但如今隨著它的高速發(fā)展，各種各樣的網(wǎng)絡(luò)信息也隨處都是，人們有時(shí)候很難在第一時(shí)間找到自己想要的信息，因此要想讓自己的信息搜索效率提高就需要改進(jìn)搜索引擎，好的搜索引擎能夠極大的幫助人們獲取自己想要的信息。本文將主要針對(duì)校園網(wǎng)搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)進(jìn)行探討，而要將校園網(wǎng)搜索引擎設(shè)計(jì)好則需要運(yùn)用Python技術(shù)，筆者下文將對(duì)此展開分析，第一，從建立校園網(wǎng)搜索引擎的相關(guān)流程展開：首先構(gòu)建設(shè)計(jì)框架，然后再利用反向引擎進(jìn)行索引。第二，對(duì)scrapy爬蟲框架運(yùn)用于校園網(wǎng)搜索引擎的設(shè)計(jì)進(jìn)行詳細(xì)介紹：首先解釋Scrapy爬蟲框架的含義以及其運(yùn)行步驟，然后在Scrapy爬蟲對(duì)URL進(jìn)行查重種推薦更有效的算法進(jìn)行查重，最后對(duì)寫完爬蟲后要進(jìn)行相關(guān)的設(shè)置進(jìn)行簡單介紹。

1 建立搜索引擎的相關(guān)流程

1.1 首先建立框架

要想將校園搜索引擎建立好首先就要將設(shè)計(jì)的流程先分析好，然后再對(duì)Python語言中的Scrapy開源網(wǎng)絡(luò)爬蟲結(jié)構(gòu)進(jìn)行分析然后做設(shè)計(jì)，這之后要進(jìn)行分析以Python語言為基礎(chǔ)的Whoosh索引檢索庫，最后還要測試自己建構(gòu)的系統(tǒng)的實(shí)際效用。

1.2 什么是網(wǎng)絡(luò)爬蟲

網(wǎng)絡(luò)爬蟲的前身是“網(wǎng)絡(luò)漫游者”，1993年時(shí)已經(jīng)誕生?！熬W(wǎng)絡(luò)漫游者”被稱作網(wǎng)絡(luò)機(jī)器人，是全世界中第一個(gè)出現(xiàn)的網(wǎng)絡(luò)爬蟲程序。之所以將其網(wǎng)絡(luò)爬蟲是因?yàn)樗軌蚶脠D論程序中的遍歷算法將互聯(lián)網(wǎng)中充斥的信息下載下來，而若要建立搜索引擎，利用圖論程序中的遍歷算法先下載互聯(lián)網(wǎng)的信息這個(gè)步驟是必不可少的。此方法目的是要利用互聯(lián)網(wǎng)中的每個(gè)網(wǎng)頁中的超鏈接將每個(gè)網(wǎng)頁相互連接，即將互聯(lián)網(wǎng)比作一張巨大的網(wǎng)絡(luò)，里面的每個(gè)網(wǎng)頁比作一個(gè)點(diǎn)，然后利用網(wǎng)頁的超鏈接將每個(gè)網(wǎng)頁鏈接，這樣才能為搜索引擎的有效使用打好堅(jiān)實(shí)的基礎(chǔ)。

1.3 利用搜索引擎進(jìn)行索引

要進(jìn)行有效的索引必須進(jìn)行布爾集合運(yùn)算，這是所有搜索引擎的基礎(chǔ)，無論其設(shè)計(jì)的引擎有多么高端智能，都要運(yùn)用該運(yùn)算，總之布爾運(yùn)算是索引的核心。布爾運(yùn)算的三個(gè)運(yùn)算邏輯是and、or和not，O與I是該運(yùn)算主要使用的值。

索引包括正向索引和反向索引。其中正索引是先把每篇文章中的關(guān)鍵詞圈出并建立集合，然后再將關(guān)鍵詞提取出來，索引程序會(huì)將每一個(gè)關(guān)鍵詞出現(xiàn)的位置以及次數(shù)記下，進(jìn)行正索引時(shí)就能夠有效的對(duì)文檔中的關(guān)鍵詞進(jìn)行有效的查詢、索引、分析，注意正向索引以遍歷掃描為基礎(chǔ)，要掃描所有文檔關(guān)鍵詞得出結(jié)論，。而且這個(gè)過程會(huì)受到系列因素的限制，比如內(nèi)存、處理器和時(shí)間等，這就導(dǎo)致工作效率不高。因此我們實(shí)際工作中主要是對(duì)反向索引進(jìn)行設(shè)計(jì)和運(yùn)用，反向索引以“單詞——文檔矩陣”為結(jié)構(gòu)，可以通過關(guān)鍵詞快速的搜索自己想要查詢信息，因此對(duì)于校園網(wǎng)搜索引擎的設(shè)計(jì)，筆者是運(yùn)用反向索引程序進(jìn)行索引。

2 將scrapy爬蟲框架運(yùn)用于校園網(wǎng)搜索引擎中

2.1 Scrapy爬蟲框架的介紹以及運(yùn)行步驟

Scrapy是一種爬蟲框架，它的效用發(fā)揮需要以Python語言技術(shù)為基礎(chǔ)，這種爬蟲結(jié)構(gòu)進(jìn)入到網(wǎng)站數(shù)據(jù)中就能夠提取想要的數(shù)據(jù)信息。不僅如此，而且它對(duì)數(shù)據(jù)的挖掘、歷史數(shù)據(jù)的存儲(chǔ)、自動(dòng)測試和檢測以及信息的處理方面都起來重要的作用，應(yīng)用廣泛。

Scrapy的運(yùn)行步驟主要包括四步。第一，為了能夠?qū)ξ磥硇畔⑦M(jìn)行有效抓取，需要在基于Scrapy爬蟲框架的校園網(wǎng)搜索引擎的調(diào)度器中提取URL（連接）。第二，利用該引擎將連接（URL）變成一個(gè)請(qǐng)求通過下載器傳送并且通過下載器將其下載下來，之后嘴周會(huì)將其包裝變成相應(yīng)的回答。第三，scrapy爬蟲接受應(yīng)答。第四，爬蟲接收后若解讀出實(shí)體則將其交給管道進(jìn)行在處理，而如果解析出的是URL（連接）則將其床給調(diào)度器，最后信息就會(huì)被抓取。

2.2 利用Scrapy爬蟲框架對(duì)URL進(jìn)行查重

利用Scrapy爬蟲框架對(duì)URL進(jìn)行查重，主要是利用RFP Dupe Filter類進(jìn)行實(shí)現(xiàn)的，這個(gè)過程的實(shí)現(xiàn)需要輸入一系列代碼，這之后就能夠?qū)π畔⑦M(jìn)行有效的查重。這個(gè)過程中Scrapy有自帶的算法對(duì)URL查重，但是因?yàn)榫W(wǎng)頁數(shù)量的巨大，而且查重過程還會(huì)占用很大的內(nèi)存，因此該算法存在一定的缺陷，不太能適用。所以利用Scrapy爬蟲框架對(duì)URL進(jìn)行查重時(shí)推薦用Bloom Filter算法，筆者運(yùn)用此算法可以利用布隆過濾器節(jié)省大量的內(nèi)存。

2.3 寫完爬蟲后要進(jìn)行相關(guān)的設(shè)置

一般寫完爬蟲之后不做另外的設(shè)置的話，那么對(duì)網(wǎng)站訪問時(shí)就會(huì)被立刻禁止，所以寫完爬蟲不能直接默認(rèn)，要進(jìn)行相關(guān)設(shè)置，有兩種方法可供選擇。第一中方法可以在settings-py的文件中對(duì)download-delay程序進(jìn)行相關(guān)的設(shè)置，為了能夠有效降低爬蟲爬取頻率要對(duì)其賦值1s以上，不過這種方法的缺點(diǎn)是會(huì)使抓取目標(biāo)的時(shí)間延長。第二種方法可以運(yùn)用user agent池，筆者運(yùn)用這種設(shè)置方法后可以更加高效的縮短抓取目標(biāo)的時(shí)間，因此推薦在此過程中運(yùn)用第二種方法對(duì)爬蟲進(jìn)行相關(guān)設(shè)置，以免Scrapy爬蟲被禁止。

3 結(jié)語

綜合上述分析可知，要運(yùn)用python技術(shù)建立高效的校園網(wǎng)搜索引擎是一個(gè)科技含量高且難度大的工程，但為了校園網(wǎng)絡(luò)的清凈，筆者認(rèn)為學(xué)校還是很有必要跟上科技的潮流，對(duì)學(xué)校的相關(guān)搜索引擎進(jìn)行改善。本文針對(duì)如今“信息污染”嚴(yán)重化的問題對(duì)基于python技術(shù)的校園網(wǎng)搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)進(jìn)行了相應(yīng)的分析，主要是為同行提供了筆者認(rèn)為在索引中更加有效的方法，而且在實(shí)際的測試中通過相應(yīng)的技術(shù)改進(jìn)和正確的方法可以有效的控制索引更新的速度從而提高其更新的頻率，使校園網(wǎng)收取信息更及時(shí)，并且筆者利用Python技術(shù)使搜索程序簡單化、高效化。希望上述方法能給相關(guān)從業(yè)者提供有價(jià)值的參考，讓搜索引擎更加高效，還學(xué)校、社會(huì)一個(gè)更加清凈的“信息社會(huì)”。

【參考文獻(xiàn)】

[1]陳道存[1]，劉斌[2]，張鑫[3].高校FTP搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[J].蚌埠學(xué)院學(xué)報(bào)，2015（3）：1-5.

[2]楊國志，江業(yè)峰.基于python的聚焦網(wǎng)絡(luò)爬蟲數(shù)據(jù)采集系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].科學(xué)技術(shù)創(chuàng)新，2018（2）：73-74.

[3]陳蒙，王鋒，鄧輝，etal.基于Python的天文軟件命令行界面設(shè)計(jì)與實(shí)現(xiàn)[J].天文研究與技術(shù)，2015，12（2）：196-203.

[4]王天奇，管新潮.語料庫語言學(xué)研究的技術(shù)拓展——《Python文本分析：用可實(shí)現(xiàn)的方法挖掘數(shù)據(jù)價(jià)值》評(píng)介[J].外語電化教學(xué)，2017（05）：94-97.

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

基于Python技術(shù)的校園網(wǎng)搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)