• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于文檔關(guān)系改進(jìn)的向量空間模型

      2020-07-23 04:47:16何丹丹吳樹芳徐建民
      關(guān)鍵詞:基準(zhǔn)文檔檢索

      何丹丹,吳樹芳,徐建民

      (1.河北大學(xué) 網(wǎng)絡(luò)空間安全與計(jì)算機(jī)學(xué)院,河北 保定 071002;2.河北大學(xué) 管理學(xué)院,河北 保定 071002)

      向量空間模型是一種經(jīng)典的信息檢索模型,目前對(duì)該模型的改進(jìn)主要是查詢擴(kuò)展.查詢擴(kuò)展[1]的基本思想是利用與查詢術(shù)語相關(guān)的詞語對(duì)用戶原始查詢進(jìn)行擴(kuò)展,現(xiàn)有研究方法主要包括基于詞典的方法[2]、基于反饋的方法[3-5]和基于語義的方法[6]等.基于詞典的方法通常用同義詞典作為擴(kuò)展源,給出與原始查詢?cè)~相關(guān)的擴(kuò)展詞,如文獻(xiàn)[2]利用語義詞典與詞向量相結(jié)合的方法進(jìn)行查詢擴(kuò)展.基于反饋的方法是從用戶認(rèn)為相關(guān)的文檔或者前n篇文檔中選擇與查詢?cè)~相關(guān)的詞語,從而實(shí)現(xiàn)對(duì)查詢?cè)~的擴(kuò)展.如文獻(xiàn)[5]將抽取的維基百科文章作為反饋文檔,提出了基于偽相關(guān)反饋的監(jiān)督查詢擴(kuò)展方法和無監(jiān)督查詢擴(kuò)展方法.基于語義的方法是指最大程度上保留原始查詢?cè)~的語義信息,選擇與查詢?cè)~語義相近的擴(kuò)展詞.如文獻(xiàn)[6]以查詢?cè)~作為根節(jié)點(diǎn),與其有語義關(guān)系的詞作為子節(jié)點(diǎn),構(gòu)建概念語義空間,實(shí)現(xiàn)擴(kuò)展研究.這些方法都是基于查詢端來研究的,且均取得了一定效果,此外還可以從文檔端的角度展開研究.

      合理利用文檔關(guān)系可以提高模型的檢索性能[7].Balinski等[8]充分利用了文檔間的距離關(guān)系,并根據(jù)這些距離修改文檔的初始相關(guān)性權(quán)重,實(shí)現(xiàn)檢索結(jié)果重新排序.Plansangke等[9]根據(jù)文檔與查詢?cè)~之間的相關(guān)性,并利用文檔關(guān)系,對(duì)文檔進(jìn)行分類,然后重新對(duì)文檔進(jìn)行排序.Acid等[10]在簡(jiǎn)單貝葉斯網(wǎng)絡(luò)檢索模型中合理利用文檔關(guān)系,實(shí)現(xiàn)對(duì)模型的擴(kuò)展研究,提高了查詢效果.徐建民等[7]通過在基本的信念網(wǎng)絡(luò)檢索模型中增加一層文檔節(jié)點(diǎn),利用文檔間存在的相似關(guān)系對(duì)基本模型進(jìn)行擴(kuò)展研究,使得檢索效果有所提高,進(jìn)而得到更加合理的相關(guān)文檔排序結(jié)果.然而目前利用文檔關(guān)系對(duì)傳統(tǒng)向量空間模型進(jìn)行改進(jìn)尚未研究.

      基于此,本文提出一種基于文檔關(guān)系改進(jìn)的向量空間模型,該模型將初始檢索結(jié)果中排名靠前的高相關(guān)文檔組成基準(zhǔn)集,通過計(jì)算初始檢索結(jié)果集中每篇文檔與基準(zhǔn)集的相似度,來修正文檔與查詢的相似度,作為最終的相似度,實(shí)現(xiàn)對(duì)向量空間模型的改進(jìn),并通過實(shí)驗(yàn)驗(yàn)證了方法的有效性.

      1 文檔關(guān)系的度量

      文檔之間的關(guān)系主要包括相關(guān)關(guān)系和相似關(guān)系,分別可以通過相關(guān)度和相似度來衡量.相關(guān)度一般是指語義相關(guān)度,即2個(gè)概念間的相關(guān)程度[11],其主要采用基于本體結(jié)構(gòu)的語義相關(guān)度方法來度量;相似度是指2個(gè)或多個(gè)文檔中出現(xiàn)的詞語、句子、段落或者篇章的吻合程度,2篇文檔在詞語、句子、段落或者篇章上相似部分越多,代表這2篇文檔的相似度越高[12].相似度是相關(guān)度的一種特殊情況,相似度越高,則相關(guān)度越大,但是相關(guān)度越大并不能說明相似度越高[11].

      本文以相似度為例度量文檔間關(guān)系.文檔相似度的研究既可以從文檔內(nèi)容的角度,也可以從文檔間結(jié)構(gòu)的角度來進(jìn)行,其中,基于文檔內(nèi)容的研究方法主要有向量空間模型的方法和集合運(yùn)算模型的方法;基于文檔間結(jié)構(gòu)的方法主要有基于文檔結(jié)構(gòu)的方法和基于引文圖的方法.這幾種方法中應(yīng)用較為普遍的是向量空間模型方法,故本文采用該方法來計(jì)算文檔間的相似度,實(shí)現(xiàn)對(duì)文檔關(guān)系的度量.為了方便表述本文的改進(jìn)細(xì)節(jié),下面對(duì)向量空間模型方法作一些簡(jiǎn)單介紹.

      在向量空間模型(VSM,vector space model)中,假設(shè)文檔集D中包含M個(gè)特征項(xiàng),分別用k1,k2,…,kM表示,di=(wi1,wi2,…,wiM)表示文檔集中的第i篇文檔,wit表示特征項(xiàng)kt在文檔di中的權(quán)重,計(jì)算方法如公式(1)所示.

      (1)

      其中,tfit表示在文檔di中特征項(xiàng)kt出現(xiàn)的頻率,idft表示逆文檔頻率,N表示系統(tǒng)中所有文檔的數(shù)量,pt表示存在特征項(xiàng)kt的文檔數(shù).

      用戶的查詢q表示為q=(wq1,wq2,…,wqM),wqt為特征項(xiàng)kt在查詢q中的權(quán)重.查詢q和文檔di的相似度用文檔向量和查詢向量的夾角余弦值來衡量,如公式(2)所示.

      (2)

      2 基于文檔關(guān)系改進(jìn)的向量空間模型

      2.1 基本過程

      本文提出的基于文檔關(guān)系改進(jìn)的向量空間模型的基本過程主要包括3個(gè)階段,由圖1所示.

      圖1 基于文檔關(guān)系改進(jìn)的向量空間模型的基本過程Fig.1 Basic process of vector space model improved based on document relationship

      1) 利用查詢術(shù)語實(shí)現(xiàn)查詢,并將文檔集的查詢結(jié)果進(jìn)行降序排列,取前n篇文檔作為初始檢索結(jié)果集S={d1,d2,…,dn}.

      2)從初始檢索結(jié)果集S中選取前m篇文檔組成相關(guān)文檔的基準(zhǔn)集B={d1,d2,…,dm},其中m取排名靠前的高相關(guān)文檔數(shù)(m

      3)通過計(jì)算集合S中每篇文檔dj與基準(zhǔn)集B的相似度sim(dj,B),用來修正原模型中文檔dj與查詢q的相似度,得到最終的相似度,從而實(shí)現(xiàn)對(duì)檢索結(jié)果的重排序,得到改進(jìn)的向量空間模型.如果某篇文檔與查詢的相似度不高,但是與基準(zhǔn)集的相似度高,則該文檔與查詢可能也是相關(guān)的,因此利用文檔與基準(zhǔn)集的相似度來修正文檔與查詢的相似度,這樣可以使在前n篇之外的相關(guān)文檔排名靠前.同樣,基準(zhǔn)集中的每篇文檔也用文檔與基準(zhǔn)集的相似度來修正文檔與查詢的相似度,如果某篇文檔與查詢的相似度高,但是與基準(zhǔn)集的相似度低,則該文檔與查詢可能不相關(guān),利用該方法進(jìn)行計(jì)算可以使得在前n篇文檔中相關(guān)度低的文檔排名靠后.

      2.2 改進(jìn)的向量空間模型

      上述3個(gè)階段中,最關(guān)鍵的一步為第3步,當(dāng)計(jì)算文檔與基準(zhǔn)集的相似度時(shí),如果直接利用文檔與基準(zhǔn)集中每篇文檔的相似度來計(jì)算,存在一定的不足:基準(zhǔn)集中每篇文檔與查詢的相關(guān)程度是不同的,故其權(quán)重理應(yīng)是不同的.為解決該問題,將基準(zhǔn)集中每篇文檔與查詢的初始相似度作為該文檔權(quán)重,結(jié)合權(quán)重來計(jì)算文檔與基準(zhǔn)集的相似度,并給出了具體的計(jì)算方法,如公式(3)所示.

      (3)

      其中,文檔di∈B;sim(dj,di)表示文檔dj與文檔di的相似度,sim(di,q)表示文檔di與查詢q的相似度,均采用向量空間模型方法來計(jì)算.

      本文首先利用公式(3)度量出文檔間關(guān)系,然后在傳統(tǒng)的向量空間模型的基礎(chǔ)上融入文檔關(guān)系,實(shí)現(xiàn)對(duì)模型的改進(jìn).

      檢索結(jié)果的前m篇文檔一般可以更好地表達(dá)用戶的查詢意圖,故利用集合S中的文檔dj與基準(zhǔn)集B的相似度,來修正文檔dj與查詢q的相似度,實(shí)現(xiàn)對(duì)VSM模型的改進(jìn),如公式(4)所示,把這種檢索方法稱之為VSM_Improve模型.

      sim_improve(dj,q)=αsim(dj,q)+(1-α)sim(dj,B),

      (4)

      其中,α為調(diào)和參數(shù),sim(dj,q)為文檔dj與查詢q的相似度,sim_improve(dj,q)為文檔dj與查詢q改進(jìn)后的相似度.

      3 實(shí)驗(yàn)

      3.1 實(shí)驗(yàn)數(shù)據(jù)集

      在信息檢索評(píng)測(cè)領(lǐng)域,目前沒有構(gòu)建標(biāo)準(zhǔn)的中文信息檢索測(cè)試集[15].文獻(xiàn)[15]建立的中文信息檢索數(shù)據(jù)集,適合一般的小型實(shí)驗(yàn)測(cè)試,并且在一些實(shí)驗(yàn)中多次使用,因此本文采用該數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)驗(yàn)證.該數(shù)據(jù)集中共有1 578篇中文文檔,文本內(nèi)容主要是與計(jì)算機(jī)相關(guān)的一些領(lǐng)域,其中主要包括5個(gè)查詢主題,每個(gè)查詢主題有各自的相關(guān)文檔集.專家已經(jīng)對(duì)相關(guān)文檔集進(jìn)行了相關(guān)性評(píng)分,評(píng)分取值為{0,0.1,0.2,…,1},評(píng)分的值越大文檔越相關(guān),其中,1表示完全相關(guān),0表示毫不相關(guān).

      3.2 評(píng)價(jià)標(biāo)準(zhǔn)

      論文采用信息檢索中常用的2種評(píng)價(jià)指標(biāo)來檢測(cè)改進(jìn)模型的有效性,分別是折損累計(jì)增益(discounted cumulative gain,DCG)和準(zhǔn)確率-召回率曲線.

      DCG值[16]既考慮檢索結(jié)果中文檔的相關(guān)性,也考慮文檔在檢索結(jié)果中出現(xiàn)的位置,它是依據(jù)相關(guān)文檔在檢索結(jié)果中排序的位置來給出該文檔的分?jǐn)?shù),DCG值越大則說明排序結(jié)果越合理.假設(shè)相關(guān)文檔排序靠前,則其價(jià)值較高,否則價(jià)值較低,相應(yīng)地做出貢獻(xiàn)則較少.DCG值計(jì)算方法如公式(5)所示.

      (5)

      其中,|k|表示檢索結(jié)果按照相關(guān)性從大到小依次排列,取前k個(gè)結(jié)果組成的集合.Si表示結(jié)果列表前k個(gè)文檔集合中第i個(gè)文檔的相關(guān)性得分,它的取值為0~1.Si=0表示第i個(gè)文檔與查詢毫無關(guān)系,Si=1表示第i個(gè)文檔與查詢完全相關(guān).

      準(zhǔn)確率-召回率曲線用來說明檢索結(jié)果中的相關(guān)文檔是否準(zhǔn)確和全面[17].準(zhǔn)確率(Precision)和召回率(Recall)的計(jì)算公式分別如公式(6)和公式(7)所示.

      (6)

      (7)

      其中,|A|表示該系統(tǒng)中檢索到的所有文檔的數(shù)目,|B|表示該系統(tǒng)中與查詢有關(guān)的所有相關(guān)文檔數(shù)目,|R|表示該系統(tǒng)中檢索到的相關(guān)文檔數(shù)目.

      3.3 實(shí)驗(yàn)結(jié)果及分析

      3.3.1 相關(guān)參數(shù)的確定

      1)相關(guān)文檔的數(shù)量m值的確定

      基準(zhǔn)集B中相關(guān)文檔的數(shù)量m的確定非常關(guān)鍵,如果選取的相關(guān)文檔太少,則文檔之間的關(guān)系無法充分發(fā)揮作用,便會(huì)遺漏掉一些相關(guān)信息;如果選取的相關(guān)文檔太多,不相關(guān)文檔的數(shù)量也會(huì)增多,則會(huì)引入大量噪聲.為了探討合適的基準(zhǔn)集B,進(jìn)行了參數(shù)訓(xùn)練,分別計(jì)算出當(dāng)相關(guān)文檔m的取值為5、10、15、20時(shí),查詢?cè)跀?shù)據(jù)集中的平均DCG值,如表1所示.

      表1 m不同取值下查詢的平均DCG值

      從表1可以看出,當(dāng)m=5時(shí),查詢的平均DCG值較高.通過觀察初始查詢結(jié)果可以發(fā)現(xiàn),查詢的前5篇文檔大部分是相關(guān)的,而隨著文檔數(shù)量的增多,會(huì)出現(xiàn)相關(guān)度不高的文檔以及不相關(guān)文檔,進(jìn)而會(huì)引入噪聲.故對(duì)于本測(cè)試集來說,將相關(guān)文檔m的數(shù)量設(shè)定為5較好.

      2)參數(shù)α的確定

      為合理地將文檔與查詢的相似度、文檔與基準(zhǔn)集的相似度進(jìn)行融合,實(shí)驗(yàn)對(duì)參數(shù)α的取值進(jìn)行訓(xùn)練.在α分別取0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9、1.0時(shí),分別計(jì)算查詢?cè)跀?shù)據(jù)集中的平均DCG值,實(shí)驗(yàn)結(jié)果如表2所示.

      表2 參數(shù)α的不同取值下查詢的平均DCG值

      從表2可以看出,當(dāng)參數(shù)α=0.3時(shí),查詢的平均DCG值達(dá)到較高值.由于基準(zhǔn)集中包含了與查詢相關(guān)的術(shù)語,所以如果參數(shù)α取值較大,則在檢索結(jié)果中無法合理體現(xiàn)文檔關(guān)系的用途;而如果參數(shù)α取值較小,則用戶的初始查詢意圖無法很好地起到相應(yīng)的作用.故本文將參數(shù)α的值設(shè)定為0.3.

      3.3.2 實(shí)驗(yàn)性能比較及分析

      為驗(yàn)證VSM_Improve模型的有效性和準(zhǔn)確性,通過構(gòu)建10個(gè)查詢,即在每個(gè)查詢主題下分別構(gòu)建2個(gè)查詢,然后分別將VSM模型和VSM_Improve模型的檢索結(jié)果降序排列,并用DCG值、準(zhǔn)確率-召回率曲線對(duì)這2個(gè)模型進(jìn)行性能評(píng)價(jià).

      1)DCG值的比較

      對(duì)于構(gòu)建的10個(gè)查詢,分別在VSM模型和VSM_Improve模型中計(jì)算每篇文檔與查詢的匹配程度.由于用戶在查看搜索引擎結(jié)果時(shí),用戶只關(guān)注前20~30個(gè)查詢結(jié)果[4],如果用戶在這其中未找到所需要的內(nèi)容,用戶將會(huì)重新構(gòu)造查詢.因此分別計(jì)算出這3種模型檢索結(jié)果的TOP-10、TOP-20、TOP-30的平均DCG值.圖2為10個(gè)查詢結(jié)果的TOP-10、TOP-20、TOP-30下的平均DCG對(duì)比圖.

      從圖2可以看出, VSM_Improve模型的平均DCG值在TOP-10、TOP-20、 TOP-30下均高于VSM模型.產(chǎn)生這種結(jié)果的原因是:一般情況下,符合查詢需求的文檔排序比較靠前,換言之,查詢結(jié)果的前幾篇文檔更能充分表達(dá)用戶的查詢意圖;利用文檔關(guān)系,找出與基準(zhǔn)集相似度高的文檔,這些文檔更能體現(xiàn)用戶的查詢需求,與簡(jiǎn)短的查詢?cè)~相比,會(huì)使得查詢結(jié)果更加準(zhǔn)確和全面.故文中用文檔與基準(zhǔn)集的相似度來修正文檔與查詢的相似度,得到文檔的最終相似度,實(shí)現(xiàn)對(duì)檢索結(jié)果的重排序.若某篇文檔與基準(zhǔn)集相似并且與查詢匹配程度也較高時(shí),則該文檔的排名會(huì)靠前,反之若與其中一個(gè)相似度較低時(shí),文檔的排名則會(huì)靠后,因此VSM_Improve模型會(huì)提高相關(guān)文檔的排名,同時(shí)會(huì)剔除不相關(guān)的文檔.

      圖2 2種模型的查詢結(jié)果在Top-10、Top-20、Top-30的DCG對(duì)比Fig.2 DCG comparison of query results of two models in Top-10、Top-20、Top-30

      2)準(zhǔn)確率和召回率的比較

      這部分實(shí)驗(yàn)分別計(jì)算了基本模型和改進(jìn)模型在10個(gè)查詢下,當(dāng)召回率的值為10%、20%、30%、40%、50%、60%、70%、80%、90%和100%時(shí),其相應(yīng)的準(zhǔn)確率,最后計(jì)算出這10個(gè)查詢的平均準(zhǔn)確率,并繪制出準(zhǔn)確率-召回率曲線,如圖3所示.

      圖3 準(zhǔn)確率-召回率曲線Fig.3 Curve of precision-recall

      由圖3可以發(fā)現(xiàn),在召回率相同的情況下, VSM_Improve模型的準(zhǔn)確率高于VSM模型.在召回率為10%、20%、30%、40%時(shí),雖然VSM_Improve模型的準(zhǔn)確率高于VSM模型,但是2個(gè)模型的準(zhǔn)確率相差不大,因此可以看出,檢索模型的前幾篇文檔一般情況下是滿足用戶查詢需求的.通過模型的改進(jìn)之后,會(huì)剔除一些排在前面的不相關(guān)文檔,并且提高相關(guān)文檔的檢索概率.產(chǎn)生這種結(jié)果的原因是:在實(shí)際信息檢索過程中,用戶輸入的查詢?cè)~一般比較簡(jiǎn)短且模糊,不能準(zhǔn)確表達(dá)自身的信息需求,因此會(huì)導(dǎo)致查詢的準(zhǔn)確率和召回率不理想.由于與查詢相關(guān)的文檔間會(huì)有一定的相似性,這些相關(guān)文檔在一定程度上可以很好地表達(dá)用戶的查詢意圖,故本文利用文檔間關(guān)系,通過找出與相關(guān)文檔集相似度較高的文檔,可以使得查詢結(jié)果更加全面和準(zhǔn)確.

      4 結(jié)束語

      考慮到用戶輸入的查詢?cè)~一般較少,對(duì)信息需求的表達(dá)往往不夠準(zhǔn)確和全面,導(dǎo)致查詢結(jié)果不理想的問題,本文提出一種改進(jìn)的向量空間模型,利用文檔間關(guān)系,找出與基準(zhǔn)集中的篇文檔均相似的文檔,進(jìn)而找出查詢的相關(guān)文檔,并將每篇文檔與基準(zhǔn)集的相似度、每篇文檔與查詢的相似度進(jìn)行融合,進(jìn)而提高了檢索效果,使得檢索結(jié)果更加合理.接下來將嘗試分析文檔間的其他關(guān)系,并在信息檢索模型中進(jìn)行實(shí)現(xiàn).

      猜你喜歡
      基準(zhǔn)文檔檢索
      有人一聲不吭向你扔了個(gè)文檔
      2019年第4-6期便捷檢索目錄
      基于RI碼計(jì)算的Word復(fù)制文檔鑒別
      專利檢索中“語義”的表現(xiàn)
      專利代理(2016年1期)2016-05-17 06:14:36
      明基準(zhǔn)講方法保看齊
      Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
      滑落還是攀爬
      巧用基準(zhǔn)變換實(shí)現(xiàn)裝配檢測(cè)
      河南科技(2014年15期)2014-02-27 14:12:35
      Imagination率先展示全新Futuremark 3DMark OpenGL ES3.0基準(zhǔn)測(cè)試
      不讓他人隨意下載Google文檔
      電腦迷(2012年4期)2012-04-29 06:12:13
      金阳县| 和顺县| 玉门市| 南郑县| 平潭县| 文成县| 冕宁县| 乐至县| 金塔县| 象州县| 蓬莱市| 陆丰市| 白银市| 隆子县| 镇坪县| 天气| 哈巴河县| 长武县| 曲周县| 呼伦贝尔市| 柳州市| 巴东县| 宁都县| 抚州市| 余姚市| 霸州市| 永善县| 靖安县| 方山县| 汉中市| 将乐县| 彭阳县| 漯河市| 应用必备| 天等县| 成安县| 邳州市| 鄂温| 定南县| 东港市| 晴隆县|