• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      一種基于圖模型的Web數(shù)據(jù)庫(kù)采樣方法研究

      2015-06-01 14:20:13何康樂(lè)
      中國(guó)信息技術(shù)教育 2015年9期
      關(guān)鍵詞:采樣

      何康樂(lè)

      摘要:在Web數(shù)據(jù)庫(kù)中,有著大量豐富的信息數(shù)據(jù),這些信息并不能直接看到,只有進(jìn)行特定的查詢才能看到。由于這一特點(diǎn),對(duì)Web數(shù)據(jù)庫(kù)的實(shí)時(shí)更新及其分布特征的了解成了一個(gè)問(wèn)題,進(jìn)而也會(huì)阻礙到Deep Web數(shù)據(jù)庫(kù)的進(jìn)一步集成。針對(duì)這一困難,本文提出了一種新型的采樣方法,在查詢時(shí)能夠從Web數(shù)據(jù)庫(kù)獲取近似隨機(jī)的增量樣本并記錄,并在此基礎(chǔ)上進(jìn)行下一次查詢,并不會(huì)受到查詢接口的屬性限制,能夠在獲取高質(zhì)量樣本的同時(shí)降低代價(jià)。

      關(guān)鍵詞:Web數(shù)據(jù)庫(kù);采樣;圖模型

      中圖分類號(hào):G434 ? 文獻(xiàn)標(biāo)識(shí)碼:A ? 論文編號(hào):1674-2117(2015)09-0076-02

      伴隨著Web的飛速發(fā)展,其作為一個(gè)信息源覆蓋了越來(lái)越多的信息,根據(jù)其所蘊(yùn)含的具體信息深度,我們可以將整個(gè)Web分為兩大部分,包括Deep Web以及Surface Web。[1]所謂的Surface Web指的是能夠采用傳統(tǒng)的普通搜索引擎就能直接索引出的信息內(nèi)容。相對(duì)地,不能直接采用搜索引擎搜索到的信息數(shù)據(jù)內(nèi)容就被放在Deep Web中,其具體內(nèi)容被存儲(chǔ)在能夠進(jìn)行在線訪問(wèn)的Web數(shù)據(jù)庫(kù)之中。由于Deep Web數(shù)據(jù)庫(kù)中存在著海量的信息,可以達(dá)到Surface Web的550倍[2],想要從中快速獲取想要的信息也成了一個(gè)問(wèn)題。

      ● Deep Web概述

      網(wǎng)絡(luò)中諸多能夠進(jìn)行在線訪問(wèn)的數(shù)據(jù)庫(kù),統(tǒng)稱為Web數(shù)據(jù)庫(kù),將全部Web數(shù)據(jù)庫(kù)整合到一起,就統(tǒng)一成了Deep Web,也被稱作是Hidden Web。[3]想要訪問(wèn)Deep Web,就必須從查詢接口進(jìn)行訪問(wèn),在網(wǎng)頁(yè)上查詢接口是通過(guò)表單表現(xiàn)出來(lái)的,用戶具體需要做的就是輸入一定的條件在表單中,進(jìn)而便可以查詢相關(guān)信息。[4]

      ● Web數(shù)據(jù)庫(kù)采樣

      Web數(shù)據(jù)庫(kù)中信息的質(zhì)量參差不齊,想要對(duì)其進(jìn)行有效研究,傳統(tǒng)做法通常是將全部數(shù)據(jù)庫(kù)進(jìn)行完全的統(tǒng)計(jì)分析。但,由于Web數(shù)據(jù)庫(kù)中的數(shù)據(jù)類型頗為廣泛,本地研究并不需要完整的數(shù)據(jù)庫(kù),只需要構(gòu)建出一個(gè)具有針對(duì)性的本地?cái)?shù)據(jù)庫(kù)即可。然而,本地?cái)?shù)據(jù)庫(kù)構(gòu)建出來(lái)以后,由于網(wǎng)絡(luò)信息一直在實(shí)時(shí)更新,相應(yīng)地,本地?cái)?shù)據(jù)庫(kù)中的信息也需要實(shí)時(shí)更新,同時(shí),這會(huì)為本地儲(chǔ)存增加相當(dāng)大的負(fù)擔(dān),進(jìn)而付出更多的代價(jià)。[5]針對(duì)這一問(wèn)題,我們可以不將所有的信息都從Web數(shù)據(jù)庫(kù)中提取出來(lái),僅從中抽取想要的數(shù)據(jù)樣本,通過(guò)具有代表性的樣本進(jìn)行數(shù)據(jù)庫(kù)研究。

      傳統(tǒng)的采樣方法采集數(shù)據(jù)是通過(guò)數(shù)據(jù)庫(kù)直接獲取信息,進(jìn)行隨機(jī)采樣。隨機(jī)采樣技術(shù)有直方圖法和近似查詢法,但是這類方法都要求數(shù)據(jù)庫(kù)具備無(wú)限制訪問(wèn)接口。所以,在Web數(shù)據(jù)庫(kù)采樣中,這種方法并不適用。參考搜索引擎,也有專家學(xué)者提出可以通過(guò)文檔進(jìn)行隨機(jī)采樣,可以從搜索引擎中隨機(jī)抽取樣本。但是,由于文檔并不能代替查詢表單,所以該方法也不適用于Web數(shù)據(jù)庫(kù)。綜合考慮Deep Web的特點(diǎn),筆者提出了一種基于圖模型的數(shù)據(jù)采樣方法,該方法摒棄了查詢接口屬性的限制,能夠通過(guò)關(guān)鍵詞進(jìn)行快速查詢。

      ● 基于圖模型的Web數(shù)據(jù)庫(kù)采樣

      1.基本思想

      基于圖模型的Web數(shù)據(jù)庫(kù)采樣的基本思想主要可以分成四個(gè)環(huán)節(jié),首先,從任意的有效查詢中查詢;其次,根據(jù)查詢到的結(jié)果抽取一些進(jìn)行記錄;再次,將記錄好的內(nèi)容放置到本地的樣本數(shù)據(jù)庫(kù)中;最后,根據(jù)樣本庫(kù)的信息,抽取一個(gè)記錄進(jìn)行下一次查詢,達(dá)成循環(huán)(如下頁(yè)圖)。

      想要完成Web數(shù)據(jù)庫(kù)采樣,需要解決兩個(gè)問(wèn)題。第一,采集到的樣本存在一定的偏差,必須進(jìn)行修正,保證數(shù)據(jù)分布能夠和Web數(shù)據(jù)庫(kù)相同;第二,獲取樣本相應(yīng)地需要付出一定的代價(jià),要降低代價(jià),可以通過(guò)減少查詢次數(shù)來(lái)達(dá)成這一目的。

      2.圖模型WG概述

      根據(jù)Web數(shù)據(jù)庫(kù)特征建立的一種全新模型,圖模型可以借由圖游歷的形式進(jìn)行采樣。在改樣過(guò)程中,模型中的各個(gè)頂點(diǎn)和邊都被定義了唯一的特征查詢,同時(shí),查詢后的記錄集合中每個(gè)頂點(diǎn)都有其專門的對(duì)應(yīng)記錄,對(duì)于各個(gè)邊來(lái)說(shuō),也有著邊上自帶兩點(diǎn)的對(duì)應(yīng)集合記錄。WG能夠提供的具體能力與WDB中的具體查詢接口有關(guān),因?yàn)橹灰遣樵儯捅仨氂胁樵兘涌?。所以,要想判斷WG中的邊上兩個(gè)頂點(diǎn)是否存在兩個(gè)記錄,就要確定是否存在某個(gè)查詢接口能夠滿足邊上兩點(diǎn)的查詢記錄要求。

      3.WG采樣方法

      由圖可知,Web數(shù)據(jù)庫(kù)采樣需要解決的主要問(wèn)題是:獲取樣本、選擇查詢以及終止條件。由于我們并不能調(diào)出所有的WDB記錄,那么也很難構(gòu)建出一個(gè)真正意義上的WG,所以,可以根據(jù)當(dāng)前的WG,隨機(jī)抽取一個(gè)點(diǎn)開始游歷,進(jìn)行采樣,基本過(guò)程為:①隨機(jī)抽取一個(gè)Q0,將其遞交給WDB;②將查詢后所得的具體結(jié)果記錄到RL中,并根據(jù)已有的RL建立起對(duì)應(yīng)的WGL;③判斷是否終止,若滿足終止條件,則終止,若不滿足,則繼續(xù)進(jìn)行下一步驟;④對(duì)構(gòu)建出WGL的進(jìn)行分析,然后在RL中找出合適的記錄繼續(xù)進(jìn)行查詢,回到第①步驟進(jìn)行。

      (1)WDB-Sampler算法

      WDB-Sampler算法主要對(duì)采樣的整體過(guò)程進(jìn)行具體的形式化描述。

      (2)記錄選擇

      想要進(jìn)行持續(xù)查詢,完成實(shí)時(shí)更新,必須在已經(jīng)基本形成的本地記錄合集中選出合適的某個(gè)記錄進(jìn)行下一步查詢,這就是記錄選擇這一環(huán)節(jié)需要完成的內(nèi)容。采樣WG進(jìn)行具體解釋,就是根據(jù)目前的WGL選出一個(gè)頂點(diǎn)v,根據(jù)v查詢之前沒有查詢到的其他頂點(diǎn),豐富WGL。

      (3)查詢生成

      選擇好頂點(diǎn)以后,可以選出具體的某個(gè)記錄,然后完成下一環(huán)節(jié)的查詢。一個(gè)記錄可以獲得多個(gè)查詢,所以,針對(duì)每個(gè)RL中的記錄都要構(gòu)建出對(duì)應(yīng)的統(tǒng)計(jì)信息。

      (4)采樣終止

      圖模型若是沒有設(shè)計(jì)終止程序,可想而知,數(shù)據(jù)采樣將會(huì)持續(xù)進(jìn)行下去,雖然在理論上這樣做可以得到所有想要的記錄,但是我們事實(shí)上并不需要所有的信息,只是需要其中某些樣本。所以,應(yīng)該設(shè)計(jì)出常量nq>1、0<<1表示若是查詢中連續(xù)nq次的結(jié)果都超出了的重復(fù)記錄,就代表采樣結(jié)束。通常我們將nq值設(shè)計(jì)在5~10之間,設(shè)在5%~15%之間。

      (5)偏差修正

      因?yàn)椴樵冎形覀兪菍L當(dāng)做樣本進(jìn)行采樣的,那么采樣結(jié)束后往往會(huì)造成較大的偏差。針對(duì)這一問(wèn)題,可以通過(guò)采樣中的查詢記錄數(shù)量和過(guò)程中的Q{}進(jìn)行樣本偏差修正。

      ● 結(jié)語(yǔ)

      筆者提出的基于圖模型的WDB-Sample采樣方法,能夠?qū)eb數(shù)據(jù)庫(kù)轉(zhuǎn)變?yōu)閳D形進(jìn)行增量采樣,該方法能夠脫離屬性限制,保證高質(zhì)量采集樣本的同時(shí)降低代價(jià),在教育領(lǐng)域中的應(yīng)用應(yīng)該有無(wú)限廣闊的前景。

      參考文獻(xiàn):

      [1]劉偉,孟小峰,凌妍妍.一種基于圖模型的Web數(shù)據(jù)庫(kù)采樣方法[J].軟件學(xué)報(bào),2008(02).

      [2]吳雨.基于圖模型的Web數(shù)據(jù)庫(kù)取樣方法的解析[J].科技創(chuàng)新與應(yīng)用,2013(20).

      [3]王曉玲.一種基于圖模型的Web數(shù)據(jù)庫(kù)采樣方法分析[J].計(jì)算機(jī)光盤軟件與應(yīng)用,2013(13).

      [4]趙琳.Web數(shù)據(jù)庫(kù)特征表示和抽取方法的研究[D].濟(jì)南:山東財(cái)經(jīng)大學(xué),2012.

      [5]董永權(quán).Deep Web數(shù)據(jù)集成關(guān)鍵問(wèn)題研究[D].濟(jì)南:山東大學(xué),2010.

      猜你喜歡
      采樣
      淺談水質(zhì)采樣對(duì)監(jiān)測(cè)結(jié)果的影響
      分析環(huán)境監(jiān)測(cè)現(xiàn)場(chǎng)采樣的質(zhì)量控制措施
      淺談環(huán)境監(jiān)測(cè)采樣過(guò)程中的質(zhì)量控制
      PWM逆變器采樣通路傳導(dǎo)噪聲的分析與抑制
      談食品安全事故的調(diào)查取證
      祖國(guó)(2017年5期)2017-03-22 13:06:04
      基層動(dòng)物抗體監(jiān)測(cè)采樣注意事項(xiàng)
      農(nóng)業(yè)地質(zhì)調(diào)查中土壤樣品采集淺析
      一種煤炭機(jī)械化采制樣裝置的設(shè)計(jì)
      科技視界(2016年22期)2016-10-18 15:44:39
      鍋爐智能監(jiān)控儀表在參數(shù)自動(dòng)檢測(cè)中的應(yīng)用
      一種基于采樣法的LCR測(cè)量?jī)x的研制
      曲周县| 蒲城县| 中山市| 五常市| 宜良县| 临漳县| 亳州市| 静宁县| 达日县| 集贤县| 宁化县| 许昌县| 米易县| 伽师县| 清镇市| 灵山县| 吉木萨尔县| 五莲县| 鹤峰县| 泌阳县| 珲春市| 四子王旗| 肥城市| 青冈县| 尼勒克县| 江安县| 文登市| 墨玉县| 紫金县| 绥江县| 永定县| 保靖县| 崇信县| 永泰县| 云梦县| 丰都县| 昌江| 都匀市| 天全县| 富宁县| 贺州市|