• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于互聯(lián)網(wǎng)的信息采集系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

      2010-11-07 07:16:34方自金
      關(guān)鍵詞:字符串標(biāo)引后綴

      孫 樂,方自金

      (1.河北大學(xué) 管理學(xué)院,河北 保定 071002;2.國(guó)家圖書館參考咨詢部,北京 100081)

      基于互聯(lián)網(wǎng)的信息采集系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

      孫 樂1,方自金2

      (1.河北大學(xué) 管理學(xué)院,河北 保定 071002;2.國(guó)家圖書館參考咨詢部,北京 100081)

      互聯(lián)網(wǎng)資源越來越豐富,而從中獲取所需要信息的難度卻越來越大。本文介紹了一種在 NET環(huán)境下開發(fā)的信息自動(dòng)采集系統(tǒng),有效地提高了情報(bào)人員獲取指定信息的速度和準(zhǔn)確性,為以后信息的進(jìn)一步加工和分析,打下了良好的基礎(chǔ)。

      信息采集;正則表達(dá)式;中文分詞

      隨著 Internet的普及與發(fā)展,網(wǎng)絡(luò)已經(jīng)深入到了人們生活的各個(gè)方面,成為經(jīng)濟(jì)、文化、社會(huì)、教育以及娛樂等幾乎所有領(lǐng)域的重要組成部分。同時(shí),網(wǎng)絡(luò)也以驚人的速度在全球蔓延,據(jù)統(tǒng)計(jì),全球目前網(wǎng)頁(yè)數(shù)已經(jīng)超過 200億,并每天以數(shù)百萬(wàn)張的速度在增長(zhǎng),在如此浩瀚的信息海洋中尋找自己需要的資源,無疑是大海撈針。

      雖然現(xiàn)在搜索引擎技術(shù)的發(fā)展日新月異,提供了很多種便捷的搜索方法,但由于各種原因,專業(yè)情報(bào)人員并不能通過百度、Google等搜索引擎迅速獲取并掌握與自己所關(guān)心領(lǐng)域密切相關(guān)的所有資源。為此,就需要有一個(gè)專門的互聯(lián)網(wǎng)信息采集工具來幫助情報(bào)人員獲取所關(guān)心的信息。

      一、正則表達(dá)式

      IEEE Std 1003.1(2004 Edition)對(duì)正則表達(dá)式的定義為:“正則表達(dá)式是一種上下文無關(guān)的語(yǔ)法,它能夠表達(dá)各種各樣的字符集合以及集合中字符的順序,并且這些字符集是按照當(dāng)前語(yǔ)言 /區(qū)域設(shè)置被解釋的”。除此之外,對(duì)于正則表達(dá)式,還有其他一些定義,當(dāng)前比較正式的定義主要有:“正則表達(dá)式是一種語(yǔ)言,它可以明確描述文本字符串中的模式”、“正則表達(dá)式是用來描述字符串模式的符號(hào)”、“正則表達(dá)式是一個(gè)字符串,它按照特定的語(yǔ)法規(guī)則描述或匹配字符串集”等等。

      正則表達(dá)式提供了一種從字符集合中搜尋特定字符串的機(jī)制,它可以讓用戶通過使用一系列的特殊字符構(gòu)建匹配模式,然后把匹配模式與數(shù)據(jù)文件、程序輸入等目標(biāo)對(duì)象進(jìn)行比較,根據(jù)目標(biāo)對(duì)象中是否包含匹配模式,執(zhí)行相應(yīng)的程序。因此,正則表達(dá)式恰恰適應(yīng)了讀者從互聯(lián)網(wǎng)上海量信息中準(zhǔn)確提取有效信息的要求。

      正則表達(dá)式有以下幾個(gè)主要功能:數(shù)據(jù)有效性驗(yàn)證功能,用于測(cè)試字符串的某個(gè)模式是否有效;替換文本功能,用于在文檔中使用匹配模式來標(biāo)識(shí)特定文字,然后將其刪除或進(jìn)行替換;提取子字符串功能,用于根據(jù)模式匹配,從字符串中提取一個(gè)子字符串。

      它主要有四類字符:首先是匹配字符,包含了需要搜索匹配的對(duì)象;其次是重復(fù)操作符,描述了查找一個(gè)特定字符的次數(shù);還有錨字符,它指定了所要匹配的格式,有“$”、“^”等;另外有一些保留字符,需要用反斜杠來替換它們,比如 “ (”號(hào),是個(gè)保留字符,如果要在表達(dá)式里表示這個(gè)特定的字符,就得用 “ (”這種形式。

      二、中文自動(dòng)分詞

      漢語(yǔ)不同于英語(yǔ),詞與詞之間沒有明顯的界限進(jìn)行分割,因此,有效的信息采集就必不可回避有效的分詞。然而,對(duì)于漢語(yǔ)的分詞一直是中文信息處理中的熱點(diǎn)和難點(diǎn)。目前,中文分詞的傳統(tǒng)方法是基于詞典的分詞,也就是將文章中的詞與詞典進(jìn)行對(duì)照,從而找出描述詞。在此基礎(chǔ)上,出現(xiàn)了很多種分詞方法,如在文本的掃描順序上有正向掃描、逆向掃描、正向逆向掃描等,在匹配原則上有最長(zhǎng)匹配、最常匹配等原則。但是這些方法都沒有從根本上解決歧義詞的問題,而且使用詞典匹配法,不容易發(fā)現(xiàn)某領(lǐng)域中最新出現(xiàn)的知識(shí)。由此,產(chǎn)生了無詞典分詞方法,讓計(jì)算機(jī)決定去拆分哪些詞,其基本原則是,如果一個(gè)詞在文章中重復(fù)出現(xiàn),那么這個(gè)詞便是一個(gè)有意義的詞。本文所介紹的系統(tǒng)就是基于這樣的思想,利用后綴數(shù)組算法來對(duì)文章進(jìn)行無詞典拆分和標(biāo)引的。

      (一)后綴數(shù)組

      后綴數(shù)組是作為一種文本索引結(jié)構(gòu)提出的,這種結(jié)構(gòu)記錄了一個(gè)字符串中各后綴的字典序索引,通過對(duì)字符串的編碼,可以利用后綴數(shù)組進(jìn)行字符串集序列的處理。Manber和Myers給出了一個(gè)利用 O(N)的額外空間,在O(N lgN)時(shí)間內(nèi)同時(shí)構(gòu)造出后綴數(shù)組及最長(zhǎng)公共前綴信息數(shù)組 LCP(language conversion program)的算法。通過這種方法,可以將一個(gè)字符串中所有的后綴取出,并得到這些后綴的公共前綴的長(zhǎng)度,從而為基于后綴數(shù)組的分詞做準(zhǔn)備。

      (二)基于后綴數(shù)組的無詞典分詞算法

      將字符串的后綴全部取出后,得到后綴數(shù)組 SA,按字母順序進(jìn)行排序,并得到后綴數(shù)組的最長(zhǎng)公共前綴數(shù)組LCP,最后將這些后綴字符串兩兩比較,得到第一次分詞的結(jié)果。此次結(jié)果可能會(huì)出現(xiàn)很多重復(fù)字符串,并會(huì)出現(xiàn)有的字符串是另外字符串子串的現(xiàn)象。

      在此基礎(chǔ)上,算出結(jié)果中每個(gè)詞在文中的詞頻,并得到詞與詞之間的置信度 (confidence(W2,W1) =TF(W2)/TF(W1),其中 TF(W2)是詞W2的詞頻,TF(W1)是詞W1的詞頻),令置信度的上限為 0.9,下限為 0.3,若置信度高于 0.9,則可以去除W1,若置信度低于 0.3,則可以去除W2。經(jīng)過這樣處理后,就可以把文章中的詞抽取出來了。

      三、采集原理

      現(xiàn)在越來越多的網(wǎng)站使用動(dòng)態(tài)頁(yè)面來顯示文章內(nèi)容,在這種情況下,每個(gè)網(wǎng)站所顯示的文章內(nèi)容,在網(wǎng)頁(yè)上的格式基本上是一致的,這就給應(yīng)用正則表達(dá)式采集網(wǎng)頁(yè)信息提供了很好的保證。每個(gè)網(wǎng)站只要設(shè)置固定的幾個(gè)正則表達(dá)式,就可以獲取相應(yīng)的信息,通過中文自動(dòng)分詞技術(shù),取出相應(yīng)的關(guān)鍵詞,并將采集結(jié)果和相關(guān)標(biāo)引信息以一定的格式存入數(shù)據(jù)庫(kù)中。整個(gè)程序的工作流程如圖 1所示。

      圖 1 系統(tǒng)工作流程

      四、系統(tǒng)實(shí)現(xiàn)

      (一)采集處理

      在進(jìn)行網(wǎng)絡(luò)采集的工作中,系統(tǒng)應(yīng)用了 NET框架的HttpWebRequest對(duì)象發(fā)送請(qǐng)求,使用 HttpWebResponse對(duì)象獲取服務(wù)器返回?cái)?shù)據(jù)流。并實(shí)現(xiàn)了一個(gè)WebQuery類,將這兩個(gè)對(duì)象封裝起來,提供 Post方法和 Get方法的請(qǐng)求,返回服務(wù)器數(shù)據(jù)。

      首先,獲取指定網(wǎng)站 URL,如果該網(wǎng)站需要登錄,那么可以通過預(yù)先設(shè)定好的用戶名和密碼,登錄網(wǎng)站,并保存 Session。

      其次,請(qǐng)求該網(wǎng)站指定文章列表頁(yè)面的 URL,并獲取文章列表頁(yè)面的 HT ML編碼,通過正則表達(dá)式處理,得到每篇文章鏈接的URL,放入數(shù)組中。

      最后,對(duì)數(shù)組中的 URL地址,分別請(qǐng)求,獲取文章詳細(xì)頁(yè)面的 HT ML編碼,并利用正則表達(dá)式,分離出標(biāo)題、日期、來源、全文等信息。

      過程如下:

      (二)后處理

      得到采集結(jié)果后,需要對(duì)采集結(jié)果進(jìn)行分詞標(biāo)引等后處理,目的是將文章中有意義的詞標(biāo)引出來,提高檢索的準(zhǔn)確性,以及方便對(duì)檢索結(jié)果進(jìn)行進(jìn)一步的聚類處理。

      自動(dòng)分詞的過程采用了基于后綴數(shù)組的無詞典分詞算法,在沒有任何詞典數(shù)據(jù)輔助的情況下,對(duì)新聞的標(biāo)題和全文進(jìn)行了分詞處理。一般地文章的標(biāo)題最能夠反映作者的意愿,所以,在分詞的過程中,對(duì)于標(biāo)題和全文都涉及到的詞,標(biāo)注為首選關(guān)鍵詞,對(duì)于標(biāo)題中沒有而全文中有的詞標(biāo)注為次要關(guān)鍵詞,并統(tǒng)一存放在數(shù)據(jù)庫(kù)中。這樣做的目的,一方面在檢索時(shí),先檢索首選關(guān)鍵詞,并將結(jié)果顯示出來,再檢索次要關(guān)鍵詞,這樣可以提高檢索的速度,還可以將最相關(guān)的文章排列在前面,便于用戶查看;另一方面,在進(jìn)行聚類處理時(shí),對(duì)于首先關(guān)鍵詞,可以加以高一點(diǎn)權(quán)重,使聚類結(jié)果更加準(zhǔn)確。

      主要處理方法分為兩步,首先將全文的所有后綴取出,并按字母順序排列,形成后綴數(shù)組 SA,計(jì)算最長(zhǎng)公共前綴數(shù)組 LCP。

      其次,進(jìn)行取詞操作,依據(jù) LCP[i]來進(jìn)行計(jì)算,代碼如下:

      五、需要改進(jìn)的問題

      本系統(tǒng)在實(shí)際使用的過程中,取得了較好的效果。程序可以根據(jù)用戶的定制,定期采集指定網(wǎng)站的新聞信息,通過自動(dòng)排重功能,只保留最新的信息,并對(duì)采集回本地的信息自動(dòng)標(biāo)引,但還有下面幾個(gè)問題有待改進(jìn)。

      (一)運(yùn)用 AJAX技術(shù)網(wǎng)站的處理

      AJAX技術(shù)是網(wǎng)頁(yè)數(shù)據(jù)的異步傳輸技術(shù),采用該技術(shù)后,頁(yè)面的提交和返回方式發(fā)生了改變。不再是提交和返回完整的 HT ML頁(yè)面,而是通過AJAX引擎,提交并返回頁(yè)面中的一部分?jǐn)?shù)據(jù)。這樣,所有的新聞詳細(xì)頁(yè)面的鏈接都隱藏在AJAX引擎中,直接使用正則表達(dá)式無法獲取詳細(xì)頁(yè)面的鏈接,也就無法得到該頁(yè)面的源文件字符串。增加對(duì)這種類型網(wǎng)站的特殊處理,將會(huì)大大提高軟件的采集范圍。

      (二)同義詞、近義詞的處理

      雖然軟件對(duì)文章進(jìn)行了標(biāo)引,并分配了不同的權(quán)重,但是在檢索時(shí),同義詞和近義詞會(huì)被忽略。如 “土豆”和“馬鈴薯”,“番茄”和 “西紅柿”都是同義詞,但是在檢索中,如果用戶只按 “土豆”檢索,就得不到關(guān)于“馬鈴薯”的新聞。一個(gè)常用的方法是在檢索時(shí),引入同義詞近義詞表,讓系統(tǒng)自動(dòng)根據(jù)用戶輸入的檢索詞去查找相關(guān)詞,再去檢索,提高查全率。

      (三)特殊文件格式的處理

      網(wǎng)頁(yè)文檔格式有時(shí)也會(huì)包含一定的信息,如 DOC、PDF、PPT等,如果在網(wǎng)絡(luò)采集時(shí)按照格式進(jìn)行標(biāo)引,在檢索時(shí)分門別類地將不同的文件格式顯示出來,會(huì)更加方便用戶的使用。

      (四)系統(tǒng)網(wǎng)絡(luò)架構(gòu)的改進(jìn)

      系統(tǒng)目前采用 C/S結(jié)構(gòu),用戶需要在機(jī)器上安裝該軟件才能使用,如果用戶數(shù)量過多,維護(hù)起來將會(huì)比較麻煩。使用 B/S、C/S結(jié)合的模式,采集引擎采用 C/S結(jié)構(gòu),分布在多個(gè)機(jī)器中,以減輕服務(wù)器的負(fù)擔(dān)。采集獲取的數(shù)據(jù)可以放在服務(wù)器中,并建立Web服務(wù)器,用戶只需要在瀏覽器中就可以進(jìn)行檢索。這樣,不僅便于系統(tǒng)的維護(hù),而且便于用戶使用。

      互聯(lián)網(wǎng)上有海量的信息,但信息的無序排列給我們獲取和利用帶來了一定的難度,本文介紹的Web信息自動(dòng)采集系統(tǒng),可以快速準(zhǔn)確地獲取信息的原文,并以統(tǒng)一的數(shù)據(jù)庫(kù)格式存放,大大提高了情報(bào)人員獲取指定領(lǐng)域信息的效率和準(zhǔn)確性,為信息的進(jìn)一步分析挖掘提供了堅(jiān)實(shí)的基礎(chǔ)。

      [1]張米雅.利用 Net技術(shù)實(shí)現(xiàn) Web信息的采集 [J].科技信息,2006(5):135.

      [2]程 沖,黃水清.利用正則表達(dá)式解析新聞網(wǎng)頁(yè)的算法研究 [J].農(nóng)業(yè)圖書情報(bào)學(xué)刊,2005(4):5-8.

      [3]邵曉良,劉 紅.Web信息采集中軍事主題信息的識(shí)別 [J].情報(bào)技術(shù),2004(7):14-16.

      [4]吳麗輝,王 斌,張 剛.一個(gè)個(gè)性化的 Web信息采集模型 [J].計(jì)算機(jī)工程,2005(22):86-88.

      [5]朱 華.淺談網(wǎng)絡(luò)信息資源采集技術(shù) [J].國(guó)家圖書館學(xué)刊,2004(2):38-40.

      [6]張長(zhǎng)利,郝楓林,左萬(wàn)利.一種基于后綴數(shù)組的無詞典分詞方法 [J].吉林大學(xué)學(xué)報(bào) (理學(xué)版),2004(4):548-553.

      G202

      A

      1008-6471(2010)04-0126-02

      2010-10-01

      孫樂 (1978—),男,河北保定人,河北大學(xué)管理學(xué)院圖書館學(xué) 2008級(jí)在職碩士研究生;國(guó)家圖書館總務(wù)處館員。

      猜你喜歡
      字符串標(biāo)引后綴
      檔案主題標(biāo)引與分類標(biāo)引的比較分析
      本刊對(duì)來稿中關(guān)鍵詞標(biāo)引的要求
      河北霸州方言后綴“乎”的研究
      TalKaholic話癆
      本刊對(duì)來稿中關(guān)鍵詞標(biāo)引的要求
      說“迪烈子”——關(guān)于遼金元時(shí)期族名后綴問題
      一種基于后綴排序快速實(shí)現(xiàn)Burrows-Wheeler變換的方法
      一種新的基于對(duì)稱性的字符串相似性處理算法
      本刊對(duì)來稿中關(guān)鍵詞標(biāo)引的要求
      依據(jù)字符串匹配的中文分詞模型研究
      巴中市| 睢宁县| 新乐市| 吉林省| 漠河县| 南平市| 邳州市| 明水县| 广丰县| 天峻县| 巴林左旗| 正阳县| 怀宁县| 虹口区| 靖州| 舞钢市| 将乐县| 五寨县| 酒泉市| 库尔勒市| 务川| 叶城县| 日照市| 新巴尔虎左旗| 白水县| 乌什县| 连山| 南川市| 内江市| 右玉县| 芷江| 哈密市| 闻喜县| 永登县| 凯里市| 庆城县| 高阳县| 西充县| 海口市| 望城县| 兰溪市|