• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      網(wǎng)絡(luò)數(shù)據(jù)庫訪問中語義指向性算法優(yōu)化

      2016-04-12 00:00:00張光勇陳志偉
      現(xiàn)代電子技術(shù) 2016年16期

      摘 要: 為解決數(shù)據(jù)庫從高維單詞空間映射至低維隱含語義空間中,無法有效實(shí)現(xiàn)數(shù)據(jù)庫訪問語義指向性分析的問題,提出基于主題模型的數(shù)據(jù)庫訪問語義指向性算法,建立PLSA主體模型并對其進(jìn)行求解,通過PLSA主題模型獲取理想的潛在語義主題,在數(shù)據(jù)庫訪問關(guān)鍵詞上分布以及文檔在潛在語義主題上的分布,將其應(yīng)用于數(shù)據(jù)庫訪問語義指向性分析中,針對數(shù)據(jù)庫表現(xiàn)出來的文本特征和結(jié)構(gòu)特征建立PLSA主題模型,通過自適應(yīng)不對稱學(xué)習(xí)算法對不同的PLSA主題模型進(jìn)行集成和優(yōu)化,以實(shí)現(xiàn)數(shù)據(jù)庫訪問語義指向性分析,使數(shù)據(jù)庫訪問結(jié)果更加準(zhǔn)確。仿真實(shí)驗(yàn)結(jié)果表明所提算法具有很高的數(shù)據(jù)庫訪問效率及精度。

      關(guān)鍵詞: PLSA主題模型; 數(shù)據(jù)庫訪問; 語義指向性算法; 主題模型優(yōu)化

      中圖分類號: TN926?34; G350 文獻(xiàn)標(biāo)識碼: A 文章編號: 1004?373X(2016)16?0112?04

      Abstract: To solve the problem that the database is mapped from high?dimensional word space to low?dimensional implied semantic space, and can not effectively implement semantic directivity analysis of database access, the database access semantic directivity algorithm based on theme model is proposed, the PLSA subject model is established and is solved, by which the ideal latent semantic theme is obtained. The key distribution on the database access and document distribution on latent semantic subject are applied to the database access semantic directivity analysis to set up PLSA theme model according to the text feature and structure feature showed by database. The different theme PLSA models are integrated and optimized by adaptive asymmetry learning algorithm to realize the semantic directivity analysis for database access and make the database access results more accurate. The simulation results show that the proposed algorithm has high database access efficiency and accuracy.

      Keywords: PLSA theme model; database access; semantic directivity algorithm; theme model optimization

      0 引 言

      數(shù)據(jù)庫訪問語義指向性分析是信息推薦和數(shù)據(jù)挖掘領(lǐng)域的研究熱點(diǎn)[1]。在當(dāng)前數(shù)據(jù)庫訪問環(huán)境下,信息內(nèi)容具有動態(tài)交互和隨機(jī)性的特點(diǎn)。只有創(chuàng)新數(shù)據(jù)庫訪問語義指向性算法,才能提高內(nèi)容主題描述的準(zhǔn)確性。近年來,語義指向性算法受到相關(guān)專家學(xué)者的廣泛關(guān)注[2?4]。

      目前,數(shù)據(jù)庫訪問語義指向性算法的研究取得了一定的成果。文獻(xiàn)[5]提出一種基于MER 和文本聚類相融合的數(shù)據(jù)庫訪問語義指向性算法,在MER模型的基礎(chǔ)上,引入文本聚類分析,以實(shí)現(xiàn)數(shù)據(jù)庫訪問語義指向性分析,但該方法僅反映了主題內(nèi)容,未考慮用戶的個(gè)性化特征;文獻(xiàn)[6]提出基于語法解析和路徑分析技術(shù)的數(shù)據(jù)庫訪問語義指向性算法,首先對關(guān)鍵詞進(jìn)行解析,依據(jù)解析結(jié)果實(shí)現(xiàn)數(shù)據(jù)庫訪問頁面文檔的語義指向性分析,但該方法實(shí)現(xiàn)過程復(fù)雜,不適用于實(shí)際應(yīng)用;文獻(xiàn)[7]提出基于領(lǐng)域本體和主動學(xué)習(xí)法的數(shù)據(jù)庫訪問語義指向性算法,通過主動學(xué)習(xí)法對數(shù)據(jù)庫訪問頁面的內(nèi)容進(jìn)行學(xué)習(xí),依據(jù)學(xué)習(xí)結(jié)果建立數(shù)據(jù)庫訪問語義指向性模型,實(shí)現(xiàn)數(shù)據(jù)庫訪問語義指向性分析,該方法耗時(shí)長,效率較低;文獻(xiàn)[8]提出基于集成學(xué)習(xí)和二維關(guān)聯(lián)邊條件隨機(jī)場的數(shù)據(jù)庫訪問語義指向性算法,通過訓(xùn)練數(shù)據(jù)庫訪問頁面的特征統(tǒng)計(jì)與采集的先驗(yàn)知識融合,建立數(shù)據(jù)庫訪問指向性模型,該算法需要大量資源支撐,運(yùn)行成本過高;文獻(xiàn)[9]提出基于數(shù)據(jù)挖掘的數(shù)據(jù)庫訪問語義指向性算法,通過領(lǐng)域本體及數(shù)據(jù)挖掘技術(shù)對數(shù)據(jù)庫訪問頁面文本信息的語義進(jìn)行挖掘,利用聚類法實(shí)現(xiàn)數(shù)據(jù)庫訪問語義指向性的分析,但該方法未考慮數(shù)據(jù)庫訪問過程中的隨機(jī)性和動態(tài)性,誤差較大。

      1 基于主題模型的數(shù)據(jù)庫訪問語義指向性算法

      1.1 PLSA主題模型及求解過程

      數(shù)據(jù)庫訪問語義指向性即文本中句法結(jié)構(gòu)的某一成分在語義上和其他成分相匹配的概率,而這種匹配概率可通過PLSA(Probability Latent Semantic Analysis)主題模型進(jìn)行描述,利用PLSA主題模型獲取理想的潛在語義主題,在數(shù)據(jù)庫訪問關(guān)鍵詞上分布以及文檔在潛在語義主題上的分布,從而實(shí)現(xiàn)數(shù)據(jù)庫訪問語義指向性分析,使數(shù)據(jù)庫訪問結(jié)果更加準(zhǔn)確。

      1.1.1 PLSA主題模型構(gòu)建及參數(shù)調(diào)整

      在PLSA主題模型中,文本可通過共現(xiàn)矩陣[d,w]進(jìn)行描述。其中,[di,wj]用于描述文檔[di]和單詞[wj]共同出現(xiàn),即文檔標(biāo)號為[i]的文檔里面出現(xiàn)了單詞[j]??捎肹ndi,wj]描述文檔[di]中單詞[wj]出現(xiàn)的頻數(shù)。以此可以描述語料庫的共現(xiàn)矩陣:行代表文檔,列代表單詞。假設(shè)隱含語義空間(即主題)用隱含變量[z=z1,z2,…,zk]進(jìn)行描述,則定義以下幾個(gè)概率:[Pdi]用于描述從文檔中選中文檔編號為[i]的文檔的概率;[Pzkdi]用于描述在給定文檔[di]的條件下,文檔屬于第[k]個(gè)主題的概率;[Pwjzk]用于描述給定第[k]個(gè)主題的概率條件下,第[j]個(gè)單詞出現(xiàn)的概率,即第[j]個(gè)單詞對第[k]個(gè)主題的指向性程度。

      通過上述定義的概率,構(gòu)建基于概率的共現(xiàn)矩陣,也就是PLSA主題模型:

      [Pdi,wj=PdiPwjdi=Pdik=1KPwjzkPzkdi] (1)

      式中:[Pdi]代表以該概率選擇一篇文檔[di];[Pzkdi]代表以該概率選擇一個(gè)主題;[Pwjzk]代表以該概率選擇一個(gè)單詞。

      通過對式(1)的分析可知,PLSA為混合模型,針對給定的數(shù)據(jù)庫訪問主題[z],單詞[w]滿足一個(gè)多項(xiàng)分布,而針對給定的文檔[d],主題[z]則滿足另一個(gè)多項(xiàng)分布,即該模型的參數(shù)為[Pwz]和[Pzd],通過極大似然準(zhǔn)則對這兩個(gè)參數(shù)進(jìn)行調(diào)整,就能使該模型數(shù)據(jù)庫訪問語義指向性分析達(dá)到最佳。

      極大似然準(zhǔn)則函數(shù)對數(shù)可描述成:

      [L=i=1Nj=1Mndi,wjlogPdi,wj =i=1NndilogPdi+j=1Mndi,wjndilogk=1KPwjzkPzkdi] (2)

      式中,[ndi]為文檔[di]中全部單詞的數(shù)量。該目標(biāo)函數(shù)也可看作是使[Pwjdi]和[ndi,wjndi]兩個(gè)分布之間的容差性達(dá)到最小,因?yàn)閇ndi,wjndi]已知,所以[Pwjdi]能夠更加有效地描述共現(xiàn)矩陣的實(shí)際分布。

      1.1.2 模型的求解

      通過對PLSA主題模型進(jìn)行分析發(fā)現(xiàn):[ndi]并非模型參數(shù),因此,對式(2)進(jìn)行約簡,有:

      [L∝i=1Nj=1Mndi,wjlogk=1KPwjzkPzkdi] (3)

      通過對式(3)分析可知,僅需分析模型參數(shù)[Pwjzk]和[Pzkdi]對[L]的影響就能實(shí)現(xiàn)期望最大化算法對模型參數(shù)進(jìn)行求解。

      期望最大化算法由E步和M步實(shí)現(xiàn),其中E步主要負(fù)責(zé)對隱含變量關(guān)于觀測變量的后驗(yàn)概率進(jìn)行計(jì)算;M步將隱含變量看作是觀測變量,對隱含變量進(jìn)行修正,使目標(biāo)函數(shù)達(dá)到最大。

      E步的計(jì)算公式如下:

      [Pzkdi,wj=PwjzkPzkdii=kKPwjzkPzkdi] (4)

      式中,[Pzkdi,wj]用于描述出現(xiàn)編號為[i]的文檔、編號為[j]的單詞的概率條件下,出現(xiàn)編號為[k]的主題的概率,也就是給定數(shù)據(jù)庫訪問主題[z],第[i]個(gè)文檔的編號是[j]的單詞對主題的指向性程度。

      M步的計(jì)算方法如下:

      M步需對兩個(gè)模型參數(shù)[Pwz]和[Pzd]進(jìn)行估計(jì),公式描述如下:

      [Pwjzk=i=1Nndi,wjPzkdi,wjm=1Mn=1Nndi,wmPzkdi,wm] (5)

      式(5)主要負(fù)責(zé)單詞[w]對隱含主題[z]的語義指向性進(jìn)行計(jì)算,有:

      [Pzkdi=j=1Mndi,wjPzkdi,wjndi] (6)

      式(6)主要負(fù)責(zé)第[i]個(gè)文檔對隱含主題[k]的語義指向性進(jìn)行計(jì)算。

      通過對EM算法進(jìn)行分析可知,每次迭代首先利用E步驟求出[Pzkdi,wj]矩陣,再將新的[Pzkdi,wj]矩陣代入M步中,求出參數(shù)矩陣[Pwz]和[Pzd]。反復(fù)進(jìn)行,直至迭代次數(shù)大于設(shè)定閾值,或目標(biāo)函數(shù)達(dá)到既定閾值時(shí),停止迭代,將迭代結(jié)果定義為PLSA主題模型的解。

      1.2 結(jié)合數(shù)據(jù)庫特征的算法實(shí)現(xiàn)過程

      數(shù)據(jù)庫特征主要包括文本特征和結(jié)構(gòu)特征。本文將建立的PLSA主題模型與數(shù)據(jù)庫表現(xiàn)出來的文本特征和結(jié)構(gòu)特征相結(jié)合,通過自適應(yīng)不對稱學(xué)習(xí)算法對不同的PLSA主題模型進(jìn)行集成和優(yōu)化,實(shí)現(xiàn)數(shù)據(jù)庫訪問語義指向性分析。

      假設(shè)數(shù)據(jù)庫訪問頁面的訓(xùn)練集為[D=d1,c1,d2,c2,…,dN,cN],用[SD=s1,s2,…,sN]描述數(shù)據(jù)庫訪問頁面的結(jié)構(gòu)特征集;用[C=C1,C2,…,CN]描述數(shù)據(jù)庫訪問頁面訓(xùn)練集的文本特征集,則基于PLSA模型的數(shù)據(jù)庫訪問語義指向性算法的實(shí)現(xiàn)過程如下:

      (1) 針對任意數(shù)據(jù)庫訪問頁面中的文檔[di]進(jìn)行結(jié)構(gòu)解析和文本信息提取,得到描述結(jié)構(gòu)信息的特征向量[sdi]與描述文本信息的特征向量[cdi];

      (2) 通過[sdi]與[cdi]分別建立PLSA主題模型,得到和結(jié)構(gòu)信息與文本信息相應(yīng)的主題分布[Pssα]、[Pssd]和[Pccβ]、[Pcβd];其中,[α],[β]用于描述主題;

      (3) 依據(jù)結(jié)構(gòu)特征與文本特征對理解數(shù)據(jù)庫訪問頁面的重要程度,獲取兩個(gè)PLSA主題模型集成和優(yōu)化的權(quán)重,通過式(4)完成PLSA主題的集成,得到新的主題分布:

      [Pzkdi=ωsiPsαφdi, φ=1,2,…,mωciPcβφ-mdi, φ=m+1,m+2,…,m+n] (7)

      式中:[ωsi,][ωci]分別用于描述結(jié)構(gòu)特征與文本特征在數(shù)據(jù)庫訪問頁面文檔[di]中的權(quán)重;[m,][n]分別用于描述和結(jié)構(gòu)特征與文本特征相應(yīng)的主題個(gè)數(shù),[φ=m+n];

      (4) 依據(jù)集成后的主題分布[Pzdi],通過式(5)、式(6)對[Psz]和[Pcz]進(jìn)行描述;

      (5) 依據(jù)描述結(jié)果,針對新數(shù)據(jù)庫訪問頁面的文檔[dnew]進(jìn)行步驟(1);

      (6) 通過對[sdnew]與[cdnew]進(jìn)行訓(xùn)練得到[Psnewz]與[Pcnewz],獲取該數(shù)據(jù)庫訪問頁面文檔[dnew]的主題分布,也就是語義指向性[Pzdnew];

      (7) 求出結(jié)構(gòu)特征關(guān)鍵詞與文本特征關(guān)鍵詞的后驗(yàn)概率:

      [Psdnew=n=1NPszkPzkdnew] (8)

      [Pcdnew=n=1NPczkPzkdnew] (9)

      (8) 反復(fù)進(jìn)行上述步驟,直至迭代次數(shù)大于設(shè)定閾值,或目標(biāo)函數(shù)達(dá)到設(shè)定閾值時(shí),停止迭代。

      最后,通過后驗(yàn)概率對語義指向性[Pzdnew]進(jìn)行約束,實(shí)現(xiàn)數(shù)據(jù)庫訪問語義指向性分析。

      2 仿真實(shí)驗(yàn)分析

      為了驗(yàn)證本文提出的基于主題模型的數(shù)據(jù)庫訪問語義指向性算法的有效性,需要進(jìn)行相關(guān)的實(shí)驗(yàn)驗(yàn)證。將采集到的若干領(lǐng)域的真實(shí)數(shù)據(jù)集作為研究對象,將傳統(tǒng)LDA算法作為對比進(jìn)行分析。

      2.1 兩種算法性能分析

      在只采用結(jié)構(gòu)信息、只采用文本信息和綜合采用結(jié)構(gòu)信息及文本信息的情況下建立模型,將查全率和查準(zhǔn)率作為性能評價(jià)指標(biāo)對兩種算法的性能進(jìn)行比較分析,得到的結(jié)果分別如表1~表3所示。

      表1 只采用結(jié)構(gòu)信息情況下兩種算法性能分析 %

      表2 只采用文本信息情況下兩種算法性能分析 %

      綜合分析表1~表3可知,本文算法和LDA算法在綜合采用文本信息和結(jié)構(gòu)信息的情況下,性能均優(yōu)于只采用文本信息或只采用結(jié)構(gòu)信息的情況,但本文算法的性能增加幅度更高,且本文算法的綜合性能明顯優(yōu)于LDA算法,因?yàn)長DA算法不能充分全面地分析所有信息,容易受到數(shù)據(jù)庫訪問頁面隨機(jī)性和動態(tài)性的影響,造成語義指向性分析發(fā)生偏差,影響算法性能。

      2.2 效率分析

      為了進(jìn)一步驗(yàn)證本文算法的有效性,對本文算法和LDA算法的效率進(jìn)行比較分析,結(jié)果如圖1所示。

      分析圖1可知,采用本文算法完成一次實(shí)驗(yàn)的時(shí)間明顯低于LDA算法,同時(shí)本文算法的時(shí)間曲線較LDA算法更加平穩(wěn),說明本文算法不僅具有較高的效率,而且具有較高的穩(wěn)定性,進(jìn)一步驗(yàn)證了本文算法的有效性。

      3 結(jié) 論

      本文提出一種基于主題模型的數(shù)據(jù)庫訪問語義指向性算法。仿真實(shí)驗(yàn)結(jié)果表明,所提算法具有很高的數(shù)據(jù)庫訪問效率及精度,穩(wěn)定性好,具有較強(qiáng)的實(shí)用性。

      注:本文通訊作者為陳志偉。

      參考文獻(xiàn)

      [1] 潘現(xiàn)偉.基于內(nèi)容和語義相似性的文獻(xiàn)網(wǎng)絡(luò)構(gòu)建方法的比較與評價(jià)[D].沈陽:中國醫(yī)科大學(xué),2014.

      [2] 王云英.基于PLSA模型的Web頁面語義標(biāo)注算法研究[J].情報(bào)雜志,2013(1):141?144.

      [3] 譚論正,夏利民,黃金霞,等.基于pLSA模型的人體動作識別[J].國防科技大學(xué)學(xué)報(bào),2013,35(5):102?108.

      [4] 康南南.基于主題模型和圖核模型的圖像分類算法的研究與應(yīng)用[D].重慶:西南大學(xué),2014.

      [5] 羅遠(yuǎn)勝.跨語言信息檢索中雙語主題模型及算法研究[D].南昌:江西財(cái)經(jīng)大學(xué),2013.

      [6] 冶忠林,賈真,楊燕,等.基于語義擴(kuò)展的句子相似度算法[J].山西大學(xué)學(xué)報(bào)(自然科學(xué)版),2015,38(3):399?405.

      [7] 張瑞杰,李弼程,魏福山.基于多尺度上下文語義信息的圖像場景分類算法[J].電子學(xué)報(bào),2014(4):646?652.

      [8] 趙偉.基于并行計(jì)算的概率潛在語義分析算法研究[J].安徽職業(yè)技術(shù)學(xué)院學(xué)報(bào),2014(3):1?3.

      [9] 丁宇新,燕澤權(quán),馮威,等.基于有監(jiān)督主題模型的排序?qū)W習(xí)算法[J].電子學(xué)報(bào),2015(2):333?337.

      青阳县| 佛坪县| 泰州市| 马山县| 定日县| 浮山县| 远安县| 金塔县| 贺州市| 伊宁县| 绥棱县| 商河县| 砀山县| 九江县| 云霄县| 西藏| 宁河县| 库尔勒市| 彩票| 昂仁县| 潮州市| 岑溪市| 竹山县| 登封市| 綦江县| 即墨市| 普兰县| 青海省| 乐山市| 合肥市| 南投市| 株洲市| 鄂伦春自治旗| 呼和浩特市| 沙湾县| 中方县| 阿鲁科尔沁旗| 临汾市| 蓬溪县| 额济纳旗| 寿光市|