基于醫(yī)療信息的網絡爬蟲系統的研究與設計

2019-09-10 07:22:44馮思度楊健葉韓煦

現代信息科技 2019年10期

馮思度楊健葉韓煦

摘? 要：醫(yī)療衛(wèi)生信息對于人們了解、獲取醫(yī)療資源十分重要，其準確性和實時性則尤其重要。為了方便準確而快速地檢索到醫(yī)療衛(wèi)生信息，需要建設一個和醫(yī)療衛(wèi)生信息相關的專題搜索網站。針對上述情況，首先設計基于主題的網絡爬蟲功能，然后采用MS SQL Server 2008作為數據存儲、Visual Studio.NET2010作為開發(fā)工具實現專題搜索網站及其網絡爬蟲的設計。經過實際測試與運行表明，該系統能夠滿足基本的醫(yī)療信息專題搜索的要求。

關鍵詞：搜索引擎;網絡爬蟲;醫(yī)療衛(wèi)生信息;專題網站

中圖分類號：TP311.1? ? ? ?文獻標識碼：A 文章編號：2096-4706（2019）10-0023-03

Abstract：The medical and health information is very important for people to understand and obtain medical resources，and its accuracy and real-time are particularly important. In order to retrieve medical and health information quickly and conveniently，a special search website related to medical and health information is needed. In view of the above situation，a search website with its web crawler of subject topic were designed，and then using MS SQL Server 2008 as DBMS and Visual Studio.NET 2010 as development tools develop these. Test and operation showed that the system meets the requirements of basic medical information subject search.

Keywords：search engine;web crawler;medical and health information;special subject website

0? 引? 言

隨著互聯網的信息的飛速增長，2018年《中國互聯網絡發(fā)展狀況統計報告》指出，截止至2017年12月，中國網站數量為533萬、增率為10.6%，中國網頁數量約為2604億個，年增長10.3%。如何從這些蘊含海量信息的互聯網中準確找到所需的相關內容是Web信息獲取的關鍵所在[1]。在此背景下，搜索引擎成為人們從互聯網快速檢索、獲取信息的重要手段[2]。搜索引擎對于信息的抓取基本上是以全面廣泛的方式，當使用關鍵詞進行搜索的時候，它會展現出很多與之相關的信息。但是這種方式也有著一些不足之處。當需要對某些專題信息，如醫(yī)療衛(wèi)生信息、畢業(yè)生招聘信息等進行搜索時，綜合搜索引擎就不能很好地滿足要求[1，3，4]。因此需要為某一專題建立針對性的專題搜索網站。而設計一個專題搜索網站的核心問題之一是搜索引擎中的網絡爬蟲的設計與實現，以便自動進行萬維網網頁的抓取并將其保存下來用于搜索引擎之后生成索引供用戶搜索[5]。此外，針對醫(yī)療衛(wèi)生信息建立一個專題搜索網站，有助于人們獲取及時準確的醫(yī)療衛(wèi)生信息，這對人們就醫(yī)、診療等有著很好的現實意義。

針對醫(yī)療衛(wèi)生信息主題搜索的需求，本文設計開發(fā)了一個醫(yī)療信息相關搜索引擎的網絡爬蟲模塊。爬蟲專門用于在互聯網上爬取與醫(yī)療相關的信息，從而可以更加專業(yè)化、定制化地檢索到所需要的醫(yī)療衛(wèi)生信息。

1? 網絡爬蟲的工作原理及關鍵技術

網絡爬蟲（也稱網絡蜘蛛、網絡機器人）是用于抓取網絡資源的計算機程序，是搜索引擎的重要組成部分。網絡爬蟲通過全面和快速地向分析系統和索引系統提供網頁數據，起到搜索引擎的數據支撐作用[6]。網絡爬蟲通過網頁上的鏈接關系來分析和尋找網頁，讀取網頁內容，通過種子站點尋找下一個網頁，周而復始，直到把所需的所有網頁抓取完畢。

針對醫(yī)療衛(wèi)生方面的網絡爬蟲設計需要以下三個關鍵技術[7]：

（1）信息收集和存儲技術（即網頁抓取優(yōu)先策略，決定使用何種待爬行URL的訪問次序）;

（2）信息預處理技術（即關鍵詞的提取、倒排索引的建立）;

（3）信息檢索及處理技術。

2? 網絡爬蟲系統設計

2.1? 網絡爬蟲模塊的設計

網絡爬蟲程序可以實現對指定URL內容、標題和相應的鏈接的爬取，并根據爬取到的新鏈接進行迭代爬取工作。常用的爬取策略有廣度優(yōu)先遍歷和深度優(yōu)先遍歷。本網絡爬蟲采用廣度優(yōu)先遍歷的策略，主要基于以下三個原因：

（1）重要的網頁往往離種子比較近，就像用戶打開新聞網站的時候看到的往往都是最熱門的新聞，隨著不斷的深入瀏覽，用戶所看到的網頁的重要性越來越低;

（2）萬維網的實際深度并不深，而且橫向價值密度較高[8，9]。而且到達某一個網頁總會存在一個很短的路徑，廣度優(yōu)先遍歷會以很快的速度到達這個網頁;

（3）相對于深度優(yōu)先遍歷的策略來說，廣度優(yōu)先遍歷的策略不會存在短時間不斷地訪問同一臺服務器的問題，也不會輕易陷入無限循環(huán)的文檔樹之中[10]。

2.2? 網頁的預處理模塊設計

2.2.1? 索引網頁庫

網頁信息預處理的第一步就是為原始網頁建立索引，在實現索引網頁庫，有了索引之后，就可以為搜索引擎提供網頁快照的相關功能;第二步是針對索引網頁庫進行網頁切分，將每一篇網頁轉化為一組次的集合;最后一步是將網頁到索引詞的映射轉變成為索引詞到網頁的映射，這樣做之后形成倒排文件和相應的索引詞表，過程如圖1所示。

2.2.2? 網頁編碼的識別與分析

在網頁預處理的時候，對于中文的網頁我們需要對其進行切詞，在這之前我們需要對網頁的編碼進行識別。一般的幾種編碼識別方式有這幾種：第一種是從HTTP中head頭部里面的charset內容獲得相對應的編碼方式;第二種是從head頭部中的meta標簽的charset屬性獲得編碼方式;第三種是從網頁頁面的語言類型來推測一個編碼方式，這種方式的實現有些困難。

2.2.3? 分析網頁和建立倒排文件

首先進行網頁的正文信息提取和正文信息切分這兩個階段，在得到網頁的正文信息之后，系統調用相對應的切詞模塊可以獲得正向的索引，在建立完成正向的索引之后，使用相應的算法建立倒排索引和相應的倒排文件，處理過程如圖2所示。

2.3? 信息檢索服務模塊設計

在完成前面的網頁抓取和網頁的預處理之后，就是信息檢索服務的模塊了。檢索服務包括獲取用戶輸入的關鍵詞、對關鍵詞進行相應的檢索、最后獲得與關鍵詞相匹配的結果并且以一定的排序方法顯示給用戶。比較典型的排序方法就是谷歌的PageRank（PR）和百度的競價排名方法。本網絡爬蟲設計采用的是一種基于谷歌PR方法和實際的醫(yī)療衛(wèi)生信息情況相結合的方法。

2.4? 數據庫關鍵表邏輯結構設計

數據庫中表用于爬取到的網頁信息，本系統中部分主要表結構如表1、2所示。

3? 網絡爬蟲系統的實現

首先利用網絡爬蟲程序來爬取和醫(yī)療相關的信息。在指定爬取的URL和爬取獲取的文件保存位置后，就可以爬取網頁信息了，在完成爬取后進行網頁文件的存儲。然后將獲取到的網頁的標題和鏈接插入到數據庫中，建立專業(yè)化、定制化索引表，如圖3所示，便于下一步的用戶查詢使用。在完成這些工作以后，用戶就可以利用這些進行相關信息檢索了，在如圖所示的界面中，如圖4所示，用戶在關鍵詞輸入框中輸入檢索的關鍵詞，單擊確定即可使輸入的關鍵詞匹配索引數據庫中的內容，并將得到的結構以超鏈接的形式顯示在網頁下方，單擊鏈接即可跳轉到對應的網頁。

4? 結? 論

隨著互聯網信息的急劇增長和互聯網信息使用人數的飛增，網絡爬蟲的使用也越來越多，對它性能的要求也越來越高。本文的設計在網絡爬蟲的爬取策略方面，只實現了基本的廣度優(yōu)先策略，因此在網絡爬蟲爬取策略、網頁相關度分析、動態(tài)網頁的爬取等方面還可以進行進一步研究。

在爬取后的內容索引建立方面，完成了基本的內容獲取以及標題、鏈接的獲取與使用。但是在檢索和建立索引的時候，還有很多更加復雜的切詞、插入、排序等方法有待研究和加入使用。

在最后的用戶檢索模塊，可以設計出一種基于PR算法和實際醫(yī)療衛(wèi)生信息專題網站相結合的排序算法，來更好地滿足網站的需求。

總之，在完成了基本的網絡爬蟲程序以后，可以在以后進一步完善和加強，能夠使網絡爬蟲程序、搜索引擎程序更加滿足人們對于互聯網信息檢索獲取的需要。

參考文獻：

[1] 唐志，王成良.遺傳算法在主題Web信息采集中的應用研究 [J].計算機科學，2006（7）：71-74.

[2] 王繼成，蕭嶸，孫正興，等.Web信息檢索研究進展 [J].計算機研究與發(fā)展，2001（2）：187-193.

[3] 左楠.個性化搜索引擎的設計與實現 [D].石家莊：河北科技大學，2013.

[4] 張博，蔡皖東.面向主題的網絡蜘蛛技術研究及系統實現 [J].微電子學與計算機，2009，26（5）：52-55.

[5] 印鑒，陳憶群，張鋼.搜索引擎技術研究與發(fā)展 [J].計算機工程，2005（14）：54-56+104.

[6] 劉金紅，陸余良.主題網絡爬蟲研究綜述 [J].計算機應用研究，2007（10）：26-29+47.

[7] 周立柱，林玲.聚焦爬蟲技術研究綜述 [J].計算機應用，2005（9）：1965-1969.

[8] 王彥博，樊營，高潛.大數據時代網絡爬蟲技術在商業(yè)銀行中的應用 [J].銀行家，2016（6）：114-116.

[9] 張晶，肖智斌，容會，等.改進型遺傳算法在網絡蜘蛛上的應用 [J].山東大學學報（理學版），2015，50（5）：1-6.

[10] 羅剛，王振東.自己動手寫網絡爬蟲 [M].北京：清華大學出版社，2010.

作者簡介：馮思度（1998-），男，漢族，江蘇徐州人，本科在讀，研究方向：數據庫技術、醫(yī)學信息工程。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

基于醫(yī)療信息的網絡爬蟲系統的研究與設計