• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      醫(yī)藥科研信息網(wǎng)絡(luò)抓取方法研究

      2017-10-12 03:35:22◆曾
      關(guān)鍵詞:源文件關(guān)鍵字網(wǎng)址

      ◆曾 凱

      (天津市醫(yī)藥科學研究所聯(lián)合辦 天津 300020)

      醫(yī)藥科研信息網(wǎng)絡(luò)抓取方法研究

      ◆曾 凱

      (天津市醫(yī)藥科學研究所聯(lián)合辦 天津 300020)

      本文介紹了醫(yī)藥科研信息抓取系統(tǒng)中用到的數(shù)據(jù)抓取方法。為了高效地抓取網(wǎng)頁內(nèi)容,該方法采用帶偏好的寬度優(yōu)先遍歷方式訪問網(wǎng)頁,將待訪問的網(wǎng)址存放于高效的內(nèi)存數(shù)據(jù)庫BerKeley DB中,用布隆過濾器過濾已經(jīng)抓取過的網(wǎng)址。通過Delphi xe7開發(fā)系統(tǒng)提供的WebBrowser控件和微軟公司的MSHTML組件獲取網(wǎng)頁文本,將待提取數(shù)據(jù)文本劃分成數(shù)據(jù)行,將數(shù)據(jù)行及相應(yīng)的鏈接存入到對象數(shù)組中,用關(guān)鍵字在對象數(shù)組中匹配搜索時可實現(xiàn)精確和模糊搜索兩種方式。并利用計算機的多線程技術(shù)提高網(wǎng)頁抓取速度,利用多核優(yōu)勢帶來的并行編程技術(shù)提高對網(wǎng)頁內(nèi)容中關(guān)鍵字的搜索速度。以萬方醫(yī)學網(wǎng)和中國知網(wǎng)為實際案例,闡述了數(shù)據(jù)抓取過程及結(jié)果,并提供了簡化的Delphi xe7示例程序,結(jié)果表明,該方法能有效方便地應(yīng)用于醫(yī)藥科研信息的采集。

      網(wǎng)頁內(nèi)容識別;數(shù)據(jù)采集;寬度優(yōu)先遍歷算法;內(nèi)存數(shù)據(jù)庫;布隆過濾器;多線程技術(shù);多核并行編程技術(shù)

      0 引言

      在醫(yī)藥領(lǐng)域中從事科研工作,經(jīng)常需要從互聯(lián)網(wǎng)上獲取大量的醫(yī)學及醫(yī)藥方面的信息,服務(wù)科研工作。這些信息涉及范圍廣、更新快,需要科研人員經(jīng)常從眾多的網(wǎng)站中查找,費時費力。如果借助計算機技術(shù),根據(jù)他們提供的關(guān)鍵詞在其關(guān)注的科研網(wǎng)站上自動搜尋相關(guān)信息,自動抓取數(shù)據(jù),存入數(shù)據(jù)庫,進行加工處理,成為服務(wù)醫(yī)藥科研工作的“數(shù)據(jù)平臺”,為醫(yī)藥科研領(lǐng)域?qū)嵤┛茖W管理和科學研究提供重要的信息資源,就可以為科研工作者分析、利用信息資源進行科學管理、決策和開展大規(guī)模、高水平醫(yī)藥研究提供了有力的技術(shù)工具。如Butler,Leone,willenborg[1],以及Antweiler與Frank[2]等都利用互聯(lián)網(wǎng)網(wǎng)頁抓取技術(shù)獲取數(shù)據(jù),很好地服務(wù)于研究工作。本文詳細闡述網(wǎng)頁內(nèi)容抓取的實現(xiàn)技術(shù)、驗證窗口自動登錄的方法和先進的并行編程技術(shù),以詳實的編程代碼展示實現(xiàn)方法,該方法能簡單、方便地獲取網(wǎng)上信息資源。此外,簡要介紹帶偏好的寬度優(yōu)先遍歷算法、布隆過濾器的工作原理、內(nèi)存數(shù)據(jù)庫的優(yōu)勢及多線程爬蟲的結(jié)構(gòu)。

      1 互聯(lián)網(wǎng)數(shù)據(jù)采集一般過程

      互聯(lián)網(wǎng)數(shù)據(jù)采集是指利用互聯(lián)網(wǎng)搜索引擎技術(shù)實現(xiàn)有針對性、行業(yè)性、精準性的數(shù)據(jù)抓取,并按照一定規(guī)則和篩選標準進行數(shù)據(jù)歸類,并形成數(shù)據(jù)庫文件的一個過程[3]?;ヂ?lián)網(wǎng)擁有海量的數(shù)據(jù),每日更新得非???。網(wǎng)頁一般由文本、圖片、Flash動畫、表格、聲音等元素組成。網(wǎng)頁數(shù)據(jù)具有分布廣、格式多樣、非完全結(jié)構(gòu)化或半結(jié)構(gòu)化等大數(shù)據(jù)的典型特點。因此,在定位和訪問網(wǎng)頁內(nèi)某數(shù)據(jù)項時,需根據(jù)網(wǎng)頁各元素的特征進行,可通過采集者的分析指引靈活進行[4-5]。數(shù)據(jù)抓取過程一般包括以下幾個步驟:

      (1)確定抓取目標網(wǎng)址。先進入關(guān)注的網(wǎng)站,找到含有所需數(shù)據(jù)的網(wǎng)頁,判斷數(shù)據(jù)的準確性及抓取的難易程度,避免應(yīng)用了防采集措施的網(wǎng)站。

      (2)仔細分析頁面內(nèi)容及其組織方式,確定抓取規(guī)則。由于網(wǎng)頁含有的元素和特性的數(shù)量十分巨大,除文字信息外,還有大量的頁面元素和其它多媒體數(shù)據(jù)。抓取前須了解網(wǎng)頁元素特點,確定所尋找的數(shù)據(jù)在網(wǎng)頁源文件代碼中的識別規(guī)則??筛鶕?jù)網(wǎng)頁源文件代碼進行分析。規(guī)則是:網(wǎng)址規(guī)則;網(wǎng)頁各元素的識別規(guī)則;數(shù)據(jù)行。

      (3)借助數(shù)據(jù)抓取軟件或編程,依據(jù)規(guī)則抓取數(shù)據(jù)。

      2 醫(yī)藥科研信息采集系統(tǒng)涉及到的幾項關(guān)鍵技術(shù)

      2.1 網(wǎng)站遍歷

      對網(wǎng)站的遍歷采用的是帶偏好的寬度優(yōu)先遍歷方式。

      對網(wǎng)站的遍歷可分為寬度優(yōu)先和深度優(yōu)先遍歷兩種方式。深度優(yōu)先遍歷在深度遍歷子網(wǎng)頁時容易陷入“黑洞”。所以本系統(tǒng)采用帶偏好的寬度優(yōu)先遍歷。寬度優(yōu)先遍歷(BFS)算法是用分層搜索的方式遍歷網(wǎng)頁,將網(wǎng)站首頁作為起始點,采用層次遍歷的方式,逐層訪問網(wǎng)頁[6]。帶偏好的寬度優(yōu)先遍歷算法比傳統(tǒng)的寬度優(yōu)先遍歷算法有更高的效率。在訪問同一層的網(wǎng)頁時,把重要網(wǎng)頁的 URL鏈接地址從隊列中“挑”出來優(yōu)先抓取該網(wǎng)頁內(nèi)容。為了判斷該網(wǎng)頁是否重要,需要用到鏈接分析方法。本系統(tǒng)采用的是Google使用的PageRank算法,該算法并不是簡單地根據(jù)指向網(wǎng)頁的鏈接總數(shù)來計算,而是采用了運算法則:

      PR(A)=(1-d)+d(PR(T1)/C(T1)+…+PR(Tn)/C(Tn))。

      PR(A):網(wǎng)頁A的PageRank值;

      PR(Ti):鏈接到A的Ti網(wǎng)頁的PageRank值;

      C(Ti):網(wǎng)頁Ti的出站鏈接數(shù)量;

      d:阻尼系數(shù),0

      由于本系統(tǒng)訪問的網(wǎng)站擁有數(shù)量巨大的網(wǎng)頁,所以為獲得網(wǎng)頁的重要性PR(A),使用了近似的計算方法來計算。即給每個網(wǎng)頁一個初始值,例如:PR(A)為1,再按照PageRank算法,循環(huán)進行有限次運算,得到近似的PR(A)值。

      2.2 數(shù)據(jù)結(jié)構(gòu)

      本系統(tǒng)網(wǎng)絡(luò)爬蟲使用最關(guān)鍵的數(shù)據(jù)結(jié)構(gòu)是非常流行的內(nèi)存數(shù)據(jù)庫,即Berkeley DB。

      網(wǎng)絡(luò)爬蟲要訪問的網(wǎng)頁鏈接地址通常存放于隊列中,即內(nèi)存數(shù)據(jù)結(jié)構(gòu)。當面臨的網(wǎng)頁鏈接可能成千上萬時,內(nèi)存數(shù)據(jù)結(jié)構(gòu)就不適合這些應(yīng)用了。而本系統(tǒng)使用的內(nèi)存數(shù)據(jù)庫Berkeley DB可以解決該問題[7-8]。它能存儲大量數(shù)據(jù),當數(shù)據(jù)超出內(nèi)存容量時,能把它存儲在硬盤上;存取數(shù)據(jù)速度非??欤荒軌蛑С侄嗑€程訪問[9-10]。

      2.3 使用布隆過濾器構(gòu)建Visited表

      在網(wǎng)絡(luò)爬蟲訪問網(wǎng)頁時,為了判斷該網(wǎng)址是否訪問過,需將該網(wǎng)址與 Visited表(即存放訪問過的網(wǎng)址)中的網(wǎng)址做比較,如果存在,說明訪問過了,就跳過該網(wǎng)址。計算機中的集合Visited表采用哈希表的方式存放。優(yōu)點是快速,缺點是占用較多的存儲空間。如果哈希表巨大,它存儲效率低的問題就突顯了。而布隆過濾器只需哈希表1/8至1/4的大小就能解決問題[11]。

      布隆過濾器是一個很長的二進制向量和一系列隨機映射函數(shù)。工作原理是,假定Visited表里存儲了2億個網(wǎng)址,先建立一個20億二進制常量,它們的初始值為0。對于每個網(wǎng)址,用8個不同隨機數(shù)產(chǎn)生器產(chǎn)生8個信息指紋(f1,f2,…,f8)。再用一個隨機數(shù)產(chǎn)生器G把這8個信息指紋映射到20億中的8個二進制位中g(shù)1,g2,…,g8。這8個二進制位全部設(shè)置為1。所有網(wǎng)址都按此算法存放,節(jié)省存儲空間的布隆過濾器就建立好了。

      布隆過濾器如何判斷某網(wǎng)址是否訪問過?用8個隨機數(shù)產(chǎn)生器(F1,F2,…,F8)對這個網(wǎng)址產(chǎn)生8個信息指紋,然后將這8個指紋對應(yīng)到布隆過濾器的8個二進制位,分別是T1,T2,…,T8。如果網(wǎng)址在Visited表中,則T1,T2,…,T8對應(yīng)的8個二進制位一定是1。

      布隆過濾器的不足之處是它有極小的可能將一個未訪問過的網(wǎng)址判斷為已訪問過了。因為有可能某個網(wǎng)址正巧對應(yīng)8個都被設(shè)置成1的二進制位。不過這種出錯的概率為萬分之一以下??梢越⒁粋€名單,存儲容易誤判的網(wǎng)址[12]。

      2.4 使用多線程技術(shù)提高爬蟲的抓取速度

      采用多線程并行抓取能同時獲得同一個網(wǎng)站的多個網(wǎng)頁,能極大地減少抓取網(wǎng)站的時間[13-15]。Delphi中有一個線程類TThread是用來實現(xiàn)多線程編程的。多線程爬蟲的結(jié)構(gòu)見圖1。

      3 醫(yī)藥科研信息采集過程

      醫(yī)藥科研人員將需要搜索的信息作為關(guān)鍵字存入關(guān)鍵字數(shù)據(jù)庫中。將他們平常關(guān)注的網(wǎng)站的網(wǎng)址存入網(wǎng)址數(shù)據(jù)庫中。如果需關(guān)注的網(wǎng)站有用戶身份驗證需求,就需要將用戶名和密碼事先存入數(shù)據(jù)庫中,以便自動登錄完成驗證。網(wǎng)頁搜索方式可設(shè)定為當前網(wǎng)頁搜索和子網(wǎng)頁搜索。準備工作做好后,操作時選擇關(guān)注的網(wǎng)址、需搜索的關(guān)鍵字和網(wǎng)頁搜索方式,點擊開始。系統(tǒng)會依次進入各網(wǎng)站,進入到網(wǎng)站后獲取網(wǎng)頁,提取文本,搜索關(guān)鍵字,如果找到了,將關(guān)鍵字所在的語句和相關(guān)的鏈接存入數(shù)據(jù)庫中。顯示查看結(jié)果時,在界面左則中選擇感興趣的關(guān)鍵字,右則窗口上半部顯示含有該關(guān)鍵字的多個標題,點擊某個標題,右則下半部就顯示該標題所在的網(wǎng)頁。結(jié)果見圖2。

      圖2 顯示搜索結(jié)果

      3.1 網(wǎng)頁源文件內(nèi)容獲取

      自動輸入用戶名和密碼,實現(xiàn)網(wǎng)頁的自動登錄。

      在訪問含論文及綜述類信息資源的網(wǎng)站時,如天津圖書館電子網(wǎng)站、中國知網(wǎng)等,這類網(wǎng)站往往需要用戶名及密碼。本系統(tǒng)可以找到輸入框,將存入數(shù)據(jù)庫中的用戶名及密碼分別帶入到輸入框中,完成自動登錄。代碼如下:

      WebBrowser1.OleObject.document.all.item(

      “username”,0).value:=’0001’//找到用戶名的輸入框,輸入用戶名

      WebBrowser1.OleObject.document.all.item(

      “password”,0).value:=’AAAA’//找到密碼的輸入框,輸入密碼

      3.2 下載網(wǎng)頁內(nèi)容并解析

      目前網(wǎng)站開發(fā)技術(shù)很多,網(wǎng)頁格式因此各不相同,如流行的格式有html、xml、asp、jsp等,但無論如何,它們都是通過HTTP協(xié)議將數(shù)據(jù)傳輸?shù)娇蛻魹g覽器的。

      獲取網(wǎng)頁源文件內(nèi)容的過程是,先實現(xiàn)對網(wǎng)頁的下載,再解析網(wǎng)頁。本系統(tǒng)在 Delphi xe7應(yīng)用程序開發(fā)環(huán)境中調(diào)用WebBrowser 控件實現(xiàn)網(wǎng)頁信息的獲取功能,達到下載目的。通過 WebBrowser 控件的 Document文檔接口對象實現(xiàn)對網(wǎng)頁的解析,方法簡單實用,分以下幾個步驟:(1)創(chuàng)建WebBrowser 控件;(2)通過控件方法Navigate連接到指定的網(wǎng)址;(3)通過控件屬性Document獲取對控件內(nèi)顯示網(wǎng)頁的訪問途徑。(4)通過as將 WebBrowser.Document轉(zhuǎn)換為 Ihtmldocument2接口類型,用Ihtmldocument2接口訪問網(wǎng)頁Html的源文件文本。因為MSHTML是微軟公司的一個COM組件,該組件封裝了HTML語言中的所有元素及其屬性,通過其提供的標準接口,可以訪問指定網(wǎng)頁的所有元素.Ihtmldocument2接口是 MSHTML里的一個對象,用Ihtmldocument2的InnerHTML屬性可以獲得網(wǎng)頁源文件內(nèi)容。

      例如,下述為基于Delphi用于讀取網(wǎng)頁源文件的部分代碼。它返回指定網(wǎng)頁源文件文本。

      WebBrowser1.Navigate(Trim(Edit4.Text));//用 WebBrowser控件打開網(wǎng)頁,Edit4.Text指定網(wǎng)址

      str_html:=(webBrowser1.Document as IHtmlDocument2).Body.innerHTML;//將網(wǎng)頁內(nèi)容存入str_html字符串變量中。

      3.3 判斷網(wǎng)頁中是否含有所需的關(guān)鍵字

      通過查找關(guān)鍵字,判斷網(wǎng)頁中是否含有所需要的內(nèi)容,有兩種方法可以實現(xiàn)。(1)采用正則表達式,搜索關(guān)鍵字。優(yōu)點:善于捕獲字符串,尤其是匹配url,email這種純文本的字符。缺點:只適合匹配文本字面,不適合匹配文本意義;貪婪匹配符號很容易造成大量的回溯,性能有時候會有上百萬倍的下降;正則的替換功能較差:甚至沒有基本的截取字符串或者把首字母改變大小寫的功能。該方法用于在不常用的網(wǎng)站中搜索內(nèi)容。(2)通過自編的代碼實現(xiàn)類似的功能,在特定的環(huán)境中具有針對性、實用性和靈活性。該方法用于在常用的網(wǎng)站中搜索內(nèi)容。

      (1)為了采用正則表達式,在Delphi中使用第三方正則組件PerlRegEx。

      部分代碼:

      Uses PerlRegEx;

      ………

      RegEx := TPerlRegEx;

      Try

      RegEx.Subject := str_html;// str_html 存放網(wǎng)頁源文件內(nèi)容。

      RegEx.RegEx :=’分子靶向|兒童食道|結(jié)直腸腫瘤’;

      if RegEx.Match then ....

      finally

      RegEx.free

      end;

      有時想獲取網(wǎng)頁中符合特定格式的鏈接,用正則表達式實現(xiàn)的效果最好。

      圖1 多線程爬蟲的結(jié)構(gòu)

      想捕獲的鏈接是“ ”

      正則表達式為:<[aA] s+ [hH] [rR] [eE] [fF]=s*(“|’)?(.*)(1)(s[^>]*)*?>(.*?)< /[aA]>

      (2)通過自編的代碼實現(xiàn)類似的功能。從源文件內(nèi)容中去除代碼,提取文字內(nèi)容。

      例如為了從醫(yī)學文獻網(wǎng)站上搜尋相關(guān)的信息,就要在獲取源文件內(nèi)容后,對數(shù)據(jù)進行提取并解析。源文件代碼中經(jīng)常會包含、、、等標簽,文字內(nèi)容會顯示在一對標簽的中間,如?!皟和车喇愇锏闹委煵呗浴笔菐в墟溄拥奈谋荆撐谋镜那懊嬗幸粋€標識是“>”,可以作為執(zhí)行提取文本操作的開始標識,后面有一個“<”,可作為結(jié)束標識。獲得文本后,還需要獲得相關(guān)鏈接。該文本前面的“href="”可作為鏈接地址的開始標識,鏈接地址后面的“"”可作為鏈接地址的結(jié)束標識,從而提取完整的鏈接地址。將文本和鏈接地址分別存入到對象數(shù)組中,以便查尋結(jié)果時使用。見圖3,圖4。

      圖3 萬方醫(yī)學網(wǎng)首頁

      圖4 首頁部分源代碼

      聲名類TKey_Link,存放文本和鏈接地址

      TKey_Link=class(Tpersistent)

      public

      Fkey:string; 存放文本

      FLink:string; 存放該文本的鏈接地址

      end;

      用函數(shù) GetKey_Link提取文本和鏈接地址,存入對象數(shù)組FGroupKey_Link中。該函數(shù)用到了pos函數(shù),pos的功能是得到子串在父串中第一次出現(xiàn)的位置,用pos分別獲得開始標識“>”和結(jié)束標識“<”的位置,這兩個位置中間的內(nèi)容就是文本內(nèi)容。代碼如下:

      Function TForm1.GetKey_Link(webBrowser:TwebBrowser) :TObjectList;

      var

      ……

      FGroupKey_Link:TObjectList; //定義對象數(shù)組

      FKey_Link:TKey_Link;

      begin

      FGroupKey_Link:=TObjectList.Create;//定義對象數(shù)組

      str_html:=(webBrowser.Document as IHtmlDocument2).Body.innerHTML;//將網(wǎng)頁源文件內(nèi)容存入str_html字符串變量中。

      p1:=pos('>',str_html);//獲得開始標識的位置

      while (p1>0) do

      begin

      str_front:=copy(str_html,1,p1);//獲得開始標識之前的內(nèi)容,含標識符

      str_html:=copy(str_html,p1+1,length(str_html)-p1);獲得開始標識之后的內(nèi)容

      if (copy(str_html,1,4)='',str_html);

      str_html:=copy(str_html,p5+Length('-->'),Length(str_html)-(p5+Length('-->')-1));

      end;

      p2:=pos('<',str_html);獲得結(jié)束標識的位置

      str_chart:=trim(copy(str_html,1,p2-1));截取兩標識之間的文本內(nèi)容

      if (length(str_chart)>0) then

      begin

      FKey_Link:=Tkey_Link.Create;

      strPress:='';

      for j:=1 to Length(str_chart) do

      strPress:=strPress+trim(copy(str_chart,j,1));

      str_chart:=strPress;

      FKey_Link.Fkey:=str_chart;將截取的文本內(nèi)容存入對象的屬性Fkey中。

      str_Link:='';

      p3:=pos('href="',str_front);//該文本如果含鏈接地址,就將地址存入str_Link中

      if(p3>0) then

      begin

      str_front:=copy(str_front,p3+Length('href="'),Length(str_front)-(p 3+Length('href="'))+1);

      p4:=pos('"',str_front);

      if (p4>0) then

      begin

      str_Link:=copy(str_front,1,p4-1);

      end;

      end;

      if (Length(trim(str_Link))>0) then

      begin

      ……去掉地址中無用的字符。

      FKey_Link.FLink:=str_Link;將地址存入對象的屬性Flink中

      end;

      FGroupKey_Link.Add(FKey_Link);//將對象存入對象數(shù)組

      end;

      str_html:=copy(str_html,p2+1,length(str_html)-p2);//截取結(jié)束標識之后的文本,以便繼續(xù)搜索

      p1:=pos('>',str_html);

      end;

      Result:=FGroupKey_Link;

      end;

      (3)利用計算機的多核優(yōu)勢,在提取的文字內(nèi)容中以并行方式搜索關(guān)鍵字,提取所需數(shù)據(jù)。

      獲得網(wǎng)頁文本后,根據(jù)定義的關(guān)鍵字,對網(wǎng)頁文本進行匹配搜索以提取所需數(shù)據(jù)。

      定義FKeyName為字符串數(shù)組,存放關(guān)鍵字,如FKeyName[0]:='分子靶向'; FKeyName [1]:='兒童食道';……FKeyName [7]:=’結(jié)直腸腫瘤' 。"

      將FkeyName數(shù)組的元素分別帶入到isExist函數(shù)中,用isExist函數(shù)在存放網(wǎng)頁文字內(nèi)容的對象數(shù)組FGroup中遍歷查詢關(guān)鍵字,若找到,返回真,將含有關(guān)鍵字的語句和鏈接地址存入數(shù)據(jù)庫中[16]。

      本系統(tǒng)在isExist函數(shù)中采用了先進的并行編程技術(shù)?,F(xiàn)在計算機都有多個 CPU單元,在開發(fā)中利用多核優(yōu)勢進行并行編程[17-18],可以節(jié)約系統(tǒng)的運行時間,提高工作效率[19-20]。在Delphi xe7中,有一個簡化并行運行任務(wù)的庫,叫做并行編程庫。并行編程庫在System.Threading單元中,其中提供了很多有用的特性。使用并行庫,應(yīng)把for循環(huán)用類函數(shù)TParallel.For替代,并傳遞一個匿名方法[21]。

      關(guān)鍵代碼如下:function

      TForm1.isExist(str:string;webBrowser:TMozillaBrowser;isAll:Boolean=true):Boolean;

      var

      i,j:integer;

      FGroup:TObjectList;

      isExist:Boolean;

      begin

      isExist:=false;

      FGroup:=GetKey_Link(webBrowser);//從網(wǎng)頁中獲取文本內(nèi)容,存入對象數(shù)組中

      TParallel.For(1,FGroup.Count-1,procedure(I: Integer)//在數(shù)組中做關(guān)鍵字的遍歷查詢,找到返回真

      begin

      if (isAll=true) then

      begin

      if (str=TKey_Link(FGroup[i]).Fkey) then//完全匹配

      begin

      isExist:=true;

      break;

      end;

      end

      else

      begin

      if (pos(str,TKey_Link(FGroup[i]).Fkey)>0) then//部分匹配

      begin

      isExist:=true;

      break;

      end;

      end;

      end);

      FreeAndNil(FGroup);

      Result:=isExist;

      end;

      4 結(jié)束語

      醫(yī)藥科學研究的一個關(guān)鍵環(huán)節(jié)是數(shù)據(jù)獲取?;ヂ?lián)網(wǎng)蘊含的海量數(shù)據(jù)具有免費、實時等特點,是重要的數(shù)據(jù)來源渠道。本文介紹的數(shù)據(jù)抓取技術(shù),可有效從互聯(lián)網(wǎng)大量的信息中找到所需信息收集起來以供研究。所提供的Delhpi xe7示例代碼簡單、實用,可使人們依據(jù)需要,便捷準確地定制抓取方案,成為數(shù)據(jù)獲取的得力助手。

      [1]Marty Butler,Andrew J Leone,Michael Willenborg.An empirical analysis of auditor reporting and its association with abnormal accruals[J].Journal of Accounting and Economics,2004.

      [2]Werner Antweiler,Murray Z Frank.Is all that talk just noise?The information content of Internet stock message boards[J].Journal of Finance,2004.

      [3]楊鎧懋.搜索引擎的研究與設(shè)計[D].電子科技大學,2010

      [4]周立柱,林玲.聚焦爬蟲技術(shù)研究綜述[J].計算機應(yīng)用,2005.

      [5]劉金紅,陸余良.主題網(wǎng)絡(luò)爬蟲研究綜述[J].計算機應(yīng)用研究,2007.

      [6]李浩.網(wǎng)絡(luò)蜘蛛的研究與實現(xiàn)[J].科技信息,2012.

      [7]萬瑪寧,關(guān)永,韓相軍.嵌入式數(shù)據(jù)庫典型技術(shù)SQLite與BerKeley DB的研究[J].微計算機信息,2006.

      [8]宋麗娜.嵌入式數(shù)據(jù)庫典型技術(shù)-SQLite和BerKeley DB的研究[J].科技信息(學術(shù)研究),2008.

      [9]虞珊,周彩蘭,郭鳳玲.BerKeley DB在網(wǎng)絡(luò)信息挖掘中的應(yīng)用[J].計算機與現(xiàn)代代,2008.

      [10]劉巍巍,徐成,李仁發(fā).嵌入式數(shù)據(jù)庫Berkeley DB的原理與應(yīng)用[J].科學技術(shù)與工程,2005.

      [11]徐娜,劉四維,汪翔,倪衛(wèi)明.基于Bloom Filter的網(wǎng)頁去重算法[J].微型電腦應(yīng)用,2011.

      [12]于振國.基于Bloom Filter的大規(guī)模網(wǎng)頁去重策略研究[J].現(xiàn)代圖書情報技術(shù),2008.

      [13]李建宏,何玉珠.多線程技術(shù)在復(fù)雜數(shù)據(jù)采集系統(tǒng)中的應(yīng)用.電子測量技術(shù),2008.

      [14]眭俊華,劉慧娜,王建鑫等.多核多線程技術(shù)綜述[J].計算機應(yīng)用,2013.

      [15]李鵬.多線程技術(shù)在數(shù)據(jù)通信中的應(yīng)用[J].信息產(chǎn)業(yè),2013.

      [16]盧超,梅衛(wèi)峰,陳俊良等.基于感興趣度的WWW個性化信息發(fā)現(xiàn)[J].計算機科學,2002.

      [17]吳繼燕.多核技術(shù)及發(fā)展趨勢[J].哈爾濱軸承,2007.

      [18]李曉明,王韜,劉東,杜江凌.走進多核時代[J].計算機科學與探索,2008.

      [19]周偉明.多核計算與程序設(shè)計[M].武漢:華中科技大學出版社,2008.

      [20]Akhter S.多核程序設(shè)計技術(shù)[M].李寶峰,譯.北京:電子工業(yè)出版社,2008.

      [21]多核系列教材編寫組.多核程序設(shè)計[M].北京:清華大學出版社,2007.

      猜你喜歡
      源文件關(guān)鍵字網(wǎng)址
      2023年6月全宅影音器材編輯推薦
      履職盡責求實效 真抓實干勇作為——十個關(guān)鍵字,盤點江蘇統(tǒng)戰(zhàn)的2021
      華人時刊(2022年1期)2022-04-26 13:39:28
      本刊網(wǎng)址變更通知
      成功避開“關(guān)鍵字”
      網(wǎng)絡(luò)社區(qū)劃分在軟件質(zhì)量問題分析中的應(yīng)用
      基于源文件可疑度的軟件缺陷定位方法研究
      LKJ基礎(chǔ)數(shù)據(jù)源文件自動編制系統(tǒng)的研究
      本刊網(wǎng)址變更通知
      本刊網(wǎng)址更改通知
      誤寫C源文件擴展名為CPP的危害
      彰化市| 尤溪县| 利津县| 辽中县| 安义县| 精河县| 苗栗县| 东乡| 油尖旺区| 寿光市| 类乌齐县| 湾仔区| 祁门县| 云南省| 额尔古纳市| 蒙自县| 黑山县| 乐昌市| 犍为县| 柯坪县| 井陉县| 扎兰屯市| 从化市| 蓬安县| 湾仔区| 开封县| 闽侯县| 郑州市| 梅河口市| 农安县| 枣强县| 博野县| 巍山| 麟游县| 惠州市| 洛川县| 遂平县| 平阳县| 靖边县| 荆门市| 凤城市|