• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      個(gè)性化推薦系統(tǒng)的采集模塊研究

      2014-04-29 02:07:01詹茂森秦勇
      電腦知識(shí)與技術(shù) 2014年10期
      關(guān)鍵詞:爬蟲網(wǎng)頁頁面

      詹茂森 秦勇

      摘要:在基于社會(huì)計(jì)算的個(gè)性化推薦系統(tǒng)設(shè)計(jì)中,采集模塊的設(shè)計(jì)是數(shù)據(jù)的源頭,也是系統(tǒng)數(shù)據(jù)分析的基礎(chǔ),關(guān)系到系統(tǒng)的質(zhì)量。因此,采集模塊作為個(gè)性化推薦系統(tǒng)的一個(gè)部分,有著舉足輕重的作用,該文對該模塊進(jìn)行了詳細(xì)的研究,為后面模塊的設(shè)計(jì)提供了理論基礎(chǔ),也為相關(guān)系統(tǒng)的開發(fā)設(shè)計(jì)提供一定的借鑒經(jīng)驗(yàn)。

      關(guān)鍵詞:采集;模塊;系統(tǒng)

      中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2014)10-2446-04

      Abstract: On the base of social computing personalized recommendation system design, design of the acquisition module is a data source, but also the basis for system data analysis, related to the quality of the system. Therefore, a collection module as a personalized recommendation system, play a decisive role, this paper makes a detailed study of the module, which provides a theoretical foundation for designing the back modules, and also provides some useful experience in development and design for the system.

      Key words: acquisition; module; system

      基于社會(huì)計(jì)算的個(gè)性化推薦系統(tǒng)的采集模塊,關(guān)系到系統(tǒng)的質(zhì)量,為系統(tǒng)的性能指標(biāo)提供可靠的保證。采集模塊實(shí)現(xiàn)了對網(wǎng)頁文檔信息的自動(dòng)采集“爬蟲”功能,能夠基于用戶的信息關(guān)鍵詞來搜索。

      采集模塊由網(wǎng)頁文檔信息采集模塊、lucene索引建立模塊和搜索推薦主干模塊構(gòu)成,分別從模塊的描述、功能、輸入項(xiàng)、輸出項(xiàng)、流程邏輯和接口詳細(xì)介紹了其實(shí)現(xiàn)的原理。

      1 網(wǎng)頁文檔信息采集模塊

      1)模塊描述

      本模塊的重點(diǎn)之一是網(wǎng)絡(luò)爬蟲的編制。網(wǎng)絡(luò)爬蟲需要實(shí)現(xiàn)自動(dòng)地抓取網(wǎng)頁文檔,提取網(wǎng)頁地址,并且循環(huán)進(jìn)行。盡管網(wǎng)絡(luò)資源在同一個(gè)域之內(nèi),但為了提高爬取效率,還需要實(shí)現(xiàn)多線程才能保證更新的效率。另外,對于抓取到的文本存儲(chǔ)路徑相對于網(wǎng)頁的網(wǎng)址,必須進(jìn)行轉(zhuǎn)換,才能更快速地在本地?cái)?shù)據(jù)庫中搜尋到該網(wǎng)頁。而對于 IP地址則要做一個(gè)判斷,以實(shí)現(xiàn)在規(guī)定范圍的搜索。

      2)模塊功能

      主要功能由start函數(shù)實(shí)現(xiàn),其原型為:Start(UribaseURI ,intthreads) ,UribaseURI參數(shù)是表示需要下載的鏈接,后面的函數(shù)表示線程數(shù)量。路徑的轉(zhuǎn)換則需要通過轉(zhuǎn)換字符實(shí)現(xiàn)?;竟δ苋绫?網(wǎng)頁文檔信息采集功能表所示:

      3)模塊輸入項(xiàng)

      模塊輸入主要是對爬蟲參數(shù)的設(shè)置,爬蟲參數(shù)的設(shè)置要求如表2爬蟲參數(shù)設(shè)置說明表所示:

      4)模塊輸出項(xiàng)

      本系統(tǒng)主要進(jìn)行新浪博客的網(wǎng)頁文檔抓取,數(shù)據(jù)采集結(jié)果主要包括該博客網(wǎng)頁文檔以及該博客的地址,博客的題目、內(nèi)容、作者以及采集的時(shí)間等。

      5)模塊邏輯流程

      本模塊的邏輯流程:首先分析源地址,然后獲得地址列表,接下來反復(fù)循環(huán)每個(gè)地址,并調(diào)用相關(guān)方法來獲取內(nèi)容,通過計(jì)算,并得到文章相關(guān)信息,最后將獲得的信息保存在數(shù)據(jù)庫中。

      6)模塊接口

      數(shù)據(jù)的采集是從新浪服務(wù)端將博客網(wǎng)頁文檔數(shù)據(jù)存儲(chǔ)到本地?cái)?shù)據(jù)庫的過程,模塊的接口如圖1所示。

      2 lucene索引建立模塊

      1)模塊描述

      索引建立模塊獨(dú)立于運(yùn)行平臺(tái),實(shí)現(xiàn)了文檔的解析和索引的創(chuàng)建,在本系統(tǒng)中解析的文檔類型主要是html文檔。

      以 IndexWriter 建立索引 IndexWriter 的構(gòu)造函數(shù)有三種接口,針對目錄 Directory 文件 File文件路徑 String 三種情況在索引結(jié)束時(shí)使用 Lucene 的 wirter. optimize( ) 方法優(yōu)化索引。

      2)模塊功能

      實(shí)現(xiàn)模塊功能之前需要利用IKAnalyzer中文分詞器對文檔內(nèi)容進(jìn)行分詞。分詞器IKAnalyzer可以進(jìn)行文檔的篩選,獲取目標(biāo)文檔,無用部分則剔除掉。其常用接口有org ,apache, Lucene, analysis,Analyzer 虛構(gòu)類。

      在該模塊中主要利用格式轉(zhuǎn)換類的方法,對格式文件采用與其相對應(yīng)的解析方式來實(shí)現(xiàn)格式的轉(zhuǎn)換,HTML文檔利用 POI 解析。下一步則是將實(shí)現(xiàn)了轉(zhuǎn)換的文件作為分詞器的輸入,對其進(jìn)行處理,最后編寫框架為所有文檔實(shí)現(xiàn)索引的創(chuàng)建,通過為字節(jié)流創(chuàng)建索引來實(shí)現(xiàn)為所有文檔建立索引的目標(biāo),如表3索引建立模塊功能表所示。

      3)模塊輸入項(xiàng)

      a)采用IKAnalyzer分析器進(jìn)行目標(biāo)文檔篩選;

      b)利用POI對HTML文檔進(jìn)行解析;

      a)后臺(tái)管理頁面數(shù)據(jù)輸入手動(dòng)操作,下達(dá)“索引創(chuàng)建”命令;

      d)執(zhí)行框架語句,通過為字節(jié)流創(chuàng)建索引來實(shí)現(xiàn)為所有文檔建立索引。

      4)模塊輸出項(xiàng)

      此模塊的操作是通過登入系統(tǒng)后臺(tái)管理,在建立索引頁面下達(dá)命令,進(jìn)行索引的創(chuàng)建,自動(dòng)生成,如圖2 索引創(chuàng)建界面圖所示。

      5)模塊邏輯流程

      本模塊的邏輯流程是:首先從本地?cái)?shù)據(jù)庫中獲取數(shù)據(jù),得到待篩選文檔,通過判斷該文檔信息是否為目標(biāo)文檔。如果不是的話,就剔除,重新原有的操作,如果是目標(biāo)文檔,則將目標(biāo)文檔進(jìn)行格式轉(zhuǎn)換,從而來建立索引。

      6)模塊接口

      從模塊邏輯流程可以知道,本模塊的接口也是由本地?cái)?shù)據(jù)庫,通過后臺(tái)管理程序來自動(dòng)完成索引的建議,其模塊的接口如圖3所示。

      3 搜索推薦主干模塊

      1)模塊描述

      模塊中包含服務(wù)器 Action 類, Action 類有對應(yīng)的 Service 類和 Lucene 搜索類。連接應(yīng)用服務(wù)器,下達(dá)命令之后可以從索引文件中搜尋出目標(biāo)文檔,其整體框架如圖4搜索推薦主干模塊整體框架圖所示。

      服務(wù)器接收命令,傳遞給對應(yīng)的 Action 類, 然后Action 類調(diào)用對應(yīng)的 Service 類,再利用 Lucene 搜索類從找到目標(biāo)文檔,最后在JSP 頁面顯示搜索結(jié)果。此過程中采用 Action 類解析方法,把字節(jié)流以JSP 頁面高亮顯示出來,檢索目標(biāo)文檔則是利用 Lucene 的檢索接口 Query 與QueryParser 實(shí)現(xiàn)。采用QueryParser.parse 完成對搜索結(jié)果的排序,通過org.apache.Lucene.search.Sort 實(shí)現(xiàn),。

      2)模塊功能

      服務(wù)器可以利用搜索模塊傳遞文檔 URL,進(jìn)而搜尋到文檔的位置,并采用文件系統(tǒng)將文檔解析到一個(gè)動(dòng)態(tài)頁面,即一個(gè)可以顯示不同文檔內(nèi)容的頁面。最后是將搜索結(jié)果,即找到的目標(biāo)文檔 URL 集合倒排展示,并且對輸入的關(guān)鍵詞,以及關(guān)鍵詞出現(xiàn)次數(shù)等,以高亮顯示出來,如表4搜索推薦主干功能表所示。

      3)模塊輸入項(xiàng)

      a)前臺(tái)頁面數(shù)據(jù)輸入:名稱:搜索關(guān)鍵詞;標(biāo)識(shí):keyword;數(shù)據(jù)類型:varchar;數(shù)據(jù)來源:用戶鍵盤輸入。

      b)模塊類調(diào)用命令:

      服務(wù)器識(shí)別用戶提交的關(guān)鍵詞,傳遞給對應(yīng)的 Action 類,Action 類再調(diào)用對應(yīng)的的 Service 類,然后交給 Lucene 的搜索類處理。

      4)模塊輸出項(xiàng)

      Jsp界面將搜索結(jié)果推薦出來,以高亮顯示博客作者,搜索關(guān)鍵詞以及關(guān)鍵詞出現(xiàn)次數(shù)等,如圖5搜索結(jié)果推薦頁面圖所示:

      5) 模塊流程邏輯

      本模塊的邏輯流程是:首先從接收搜索命令獲得搜索的目標(biāo),傳遞給Action類,從而找出其對應(yīng)的Service類,再通過Lucene搜索類來實(shí)現(xiàn)目標(biāo)文檔的推薦,最后以設(shè)置好的高量度形式顯示出來。

      6) 模塊接口

      本模塊主要是把數(shù)據(jù)存儲(chǔ)層的數(shù)據(jù),通過業(yè)務(wù)邏輯層的業(yè)務(wù)處理,來實(shí)現(xiàn)表示層的表示,從而實(shí)現(xiàn)目標(biāo)文檔的搜索推薦功能,其接口如圖6 搜索推薦主干模塊接口圖所示。

      4 模塊管理

      為了更好的實(shí)現(xiàn)資源的統(tǒng)一管理,將其設(shè)計(jì)在后臺(tái)統(tǒng)一界面進(jìn)行管理,其管理頁面結(jié)構(gòu)如圖7統(tǒng)一管理結(jié)構(gòu)圖所示。

      參考文獻(xiàn):

      [1] 詹茂森.基于社會(huì)計(jì)算的個(gè)性化推薦系統(tǒng)的設(shè)計(jì)[J].電腦知識(shí)與技術(shù),2013,12.

      [2] 梁弼,王光瓊,鄧小青.基于 Lucene 的全文檢索系統(tǒng)模型的研究及應(yīng)用[J].微型機(jī)與應(yīng)用,2011,30 (1).

      [3] 黃明,梁旭.JSP信息系統(tǒng)設(shè)計(jì)與開發(fā)實(shí)例[D].北京:機(jī)械工業(yè)出版社,2004.

      猜你喜歡
      爬蟲網(wǎng)頁頁面
      大狗熊在睡覺
      利用網(wǎng)絡(luò)爬蟲技術(shù)驗(yàn)證房地產(chǎn)灰犀牛之說
      刷新生活的頁面
      基于Python的網(wǎng)絡(luò)爬蟲和反爬蟲技術(shù)研究
      基于CSS的網(wǎng)頁導(dǎo)航欄的設(shè)計(jì)
      電子制作(2018年10期)2018-08-04 03:24:38
      利用爬蟲技術(shù)的Geo-Gnutel la VANET流量采集
      電子測試(2018年1期)2018-04-18 11:53:04
      基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
      電子制作(2017年2期)2017-05-17 03:54:56
      大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲技術(shù)
      電子制作(2017年9期)2017-04-17 03:00:46
      網(wǎng)頁制作在英語教學(xué)中的應(yīng)用
      電子測試(2015年18期)2016-01-14 01:22:58
      10個(gè)必知的網(wǎng)頁設(shè)計(jì)術(shù)語
      永丰县| 常宁市| 大理市| 邵武市| 海晏县| 隆尧县| 冷水江市| 遂宁市| 隆德县| 镇江市| 南汇区| 会昌县| 满洲里市| 闸北区| 德惠市| 吴桥县| 大兴区| 奇台县| 丹寨县| 华蓥市| 古蔺县| 云霄县| 波密县| 增城市| 普洱| 延津县| 宁阳县| 邯郸市| 雷山县| 宝山区| 肥乡县| 昌乐县| 边坝县| 衡东县| 双峰县| 江安县| 景谷| 布拖县| 阆中市| 巴南区| 犍为县|