李 浩,王旭輝
(河南工程學(xué)院 計(jì)算機(jī)學(xué)院,河南 鄭州 451191)
?
基于語義指向性特征提取的數(shù)據(jù)庫優(yōu)化訪問方法
李 浩,王旭輝
(河南工程學(xué)院 計(jì)算機(jī)學(xué)院,河南 鄭州 451191)
為通過語義指向性索引實(shí)現(xiàn)數(shù)據(jù)庫的優(yōu)化訪問,提出了一種基于語義本體模型和關(guān)聯(lián)指向性特征提取的數(shù)據(jù)庫優(yōu)化訪問方法,進(jìn)行了數(shù)據(jù)庫存儲機(jī)制和數(shù)據(jù)結(jié)構(gòu)的分析,采用匹配投影法進(jìn)行數(shù)據(jù)庫訪問過程中干擾信息和冗余信息的濾除,采用信息融合算法實(shí)現(xiàn)對數(shù)據(jù)庫中詞頻信息的均衡控制和全局尋優(yōu),提取語義本體模型的關(guān)聯(lián)指向性特征,以此為指向性索引路徑進(jìn)行數(shù)據(jù)庫信息檢索,實(shí)現(xiàn)數(shù)據(jù)庫的優(yōu)化訪問.仿真結(jié)果表明,采用該方法進(jìn)行Web數(shù)據(jù)庫訪問,語義特征的波束聚焦性較好,冗余信息得到了有效抑制,數(shù)據(jù)庫訪問的查準(zhǔn)率高于傳統(tǒng)算法,性能優(yōu)越.
數(shù)據(jù)庫;語義;特征提?。恍畔⑷诤?/p>
隨著計(jì)算機(jī)信息和網(wǎng)絡(luò)技術(shù)的發(fā)展,大量的數(shù)據(jù)信息通過網(wǎng)絡(luò)傳輸,海量的數(shù)據(jù)通過Web數(shù)據(jù)庫進(jìn)行存儲和信息調(diào)度,需要研究一種有效的數(shù)據(jù)庫訪問方法,從海量數(shù)據(jù)中挖掘出有效的信息特征,實(shí)現(xiàn)數(shù)據(jù)的指向性分析,通過關(guān)鍵字信息查詢和語義索引實(shí)現(xiàn)數(shù)據(jù)庫的優(yōu)化訪問.研究數(shù)據(jù)庫優(yōu)化訪問的方法,在提高數(shù)據(jù)庫集成調(diào)度性能方面具有重要的意義,相關(guān)算法的研究受到了廣大專家學(xué)者的重視.
對數(shù)據(jù)庫訪問和數(shù)據(jù)調(diào)度的過程,本質(zhì)是對數(shù)據(jù)信息流進(jìn)行語義關(guān)鍵信息分析,通過語義信息特征的提取,采用自適應(yīng)波束形成和語義相關(guān)度特征分析方法進(jìn)行數(shù)據(jù)庫訪問的關(guān)鍵信息索引,為數(shù)據(jù)庫訪問提供波束指向性,實(shí)現(xiàn)準(zhǔn)確索引和查詢的目的.對數(shù)據(jù)庫訪問的傳統(tǒng)方法主要有基于時(shí)頻特征查詢的數(shù)據(jù)訪問調(diào)度方法、基于語義關(guān)聯(lián)維特征分析的數(shù)據(jù)庫訪問方法和基于統(tǒng)計(jì)信息特征分析的數(shù)據(jù)庫訪問方法[1-3].這些方法采用信息子空間建模和數(shù)據(jù)關(guān)聯(lián)屬性挖掘,結(jié)合查詢接口進(jìn)行數(shù)據(jù)庫的優(yōu)化訪問,但存在計(jì)算開銷較大、在數(shù)據(jù)庫訪問中受到關(guān)鍵詞屬性的粗糙集干擾較大等問題,導(dǎo)致數(shù)據(jù)庫訪問過程中的查準(zhǔn)性能不好.對此,文獻(xiàn)[4]提出了一種基于信息流減法聚類的語義網(wǎng)絡(luò)數(shù)據(jù)庫的訪問和數(shù)據(jù)調(diào)度模型,采用模糊C均值方法對數(shù)據(jù)庫中的關(guān)鍵信息進(jìn)行聚類處理,結(jié)合語義調(diào)控目標(biāo)函數(shù)進(jìn)行數(shù)據(jù)庫的層階調(diào)度,提高訪問能力,但是該算法在數(shù)據(jù)信息特征聚類中容易陷入局部最優(yōu)解,導(dǎo)致數(shù)據(jù)庫訪問過程中的收斂性不好;文獻(xiàn)[5]提出了一種基于關(guān)鍵字有向圖模型構(gòu)建的數(shù)據(jù)庫訪問方法,由于數(shù)據(jù)庫知識存儲的基本單元具有關(guān)聯(lián)耦合性,在信息分離過程中容易出現(xiàn)錯誤,導(dǎo)致數(shù)據(jù)庫訪問的精度不高.針對上述問題,本研究提出了一種基于語義本體模型檢索和語義關(guān)聯(lián)指向性特征提取的數(shù)據(jù)庫優(yōu)化訪問算法,通過仿真實(shí)驗(yàn)進(jìn)行了性能驗(yàn)證.
1.1 數(shù)據(jù)庫的信息存儲機(jī)制與存儲節(jié)點(diǎn)分布模型
圖1 Web數(shù)據(jù)庫信息存儲和訪問機(jī)制的總體結(jié)構(gòu)Fig.1 Overall structure of information storage and access mechanism of the Web database
為了研究大型Web數(shù)據(jù)庫的優(yōu)化訪問技術(shù),首先需要分析海量數(shù)據(jù)在數(shù)據(jù)庫中的存儲機(jī)制.在大型Web數(shù)據(jù)庫中,將大量的數(shù)據(jù)分布到多個(gè)服務(wù)節(jié)點(diǎn)中,通過云存儲和Deep Web數(shù)據(jù)存儲方式進(jìn)行數(shù)據(jù)信息的聚類和融合,數(shù)據(jù)庫的訪問接口集成了查詢接口模塊、語義特征提取模塊和查詢信息的輸出處理模塊等.其中,Web數(shù)據(jù)庫的查詢接口模塊是通過信息的輸入和關(guān)鍵詞查詢路徑索引方法實(shí)現(xiàn)Web數(shù)據(jù)庫的發(fā)現(xiàn)、信息抽取及數(shù)據(jù)調(diào)度和訪問的;語義特征提取模塊通過生成語義實(shí)體模型檢索查詢結(jié)果;查詢信息的輸出處理模塊包括Web數(shù)據(jù)庫的選擇、查詢語言的轉(zhuǎn)換和數(shù)據(jù)庫訪問結(jié)果的提交等.通過優(yōu)化的數(shù)據(jù)庫訪問模塊化設(shè)計(jì),可實(shí)現(xiàn)數(shù)據(jù)訪問結(jié)果的注釋和信息的合并[6].根據(jù)上述分析,可得到典型的Web數(shù)據(jù)庫信息存儲和訪問結(jié)構(gòu)模型,如圖1所示.
根據(jù)上述數(shù)據(jù)庫的存儲結(jié)構(gòu)進(jìn)行數(shù)據(jù)庫存儲節(jié)點(diǎn)分布模型的構(gòu)建,Web數(shù)據(jù)庫三層集成分布式存儲結(jié)構(gòu)的數(shù)學(xué)模型為
(1)
(2)
式中:x描述數(shù)據(jù)庫中的文本集合,整個(gè)Web數(shù)據(jù)庫系統(tǒng)的全文本內(nèi)容的語義狀態(tài)特征信息可表示為
(3)
其中,文本模塊區(qū)域定位特征描述為
u=[u1,u2,…,uN]∈RmN.
(4)
假設(shè)存儲節(jié)點(diǎn)的矢量分布軌跡di和dj為兩個(gè)標(biāo)度向量,數(shù)據(jù)庫存儲節(jié)點(diǎn)的分布向量之間的距離采用歐式距離,其計(jì)算公式為
(5)
通過對數(shù)據(jù)庫存儲節(jié)點(diǎn)分布結(jié)構(gòu)的分析,可以估計(jì)數(shù)據(jù)庫的規(guī)模.Web數(shù)據(jù)庫的分布式節(jié)點(diǎn)在進(jìn)行語義檢索的過程中,輸入控制參量采用單個(gè)節(jié)點(diǎn)適應(yīng)度索引方式,可得到Web數(shù)據(jù)庫訪問的語義檢索的控制參量輸入:
(6)
設(shè)當(dāng)前Web數(shù)據(jù)庫的本體語義數(shù)據(jù)流是一個(gè)以三元組形式構(gòu)建的本體模型,此時(shí),語義特征的適應(yīng)度和關(guān)聯(lián)信息能有效表征數(shù)據(jù)庫訪問的關(guān)鍵詞索引信息,可以此為依據(jù)進(jìn)行數(shù)據(jù)庫的訪問和技術(shù)優(yōu)化設(shè)計(jì).
1.2 數(shù)據(jù)融合預(yù)處理
在進(jìn)行了上述Web數(shù)據(jù)庫的存儲機(jī)制分析和存儲節(jié)點(diǎn)分布模型構(gòu)建的基礎(chǔ)上,為提高對數(shù)據(jù)庫訪問的查準(zhǔn)性能,需要進(jìn)行數(shù)據(jù)融合處理以提高語義特征提取的指向性能力.在Web數(shù)據(jù)庫中,海量數(shù)據(jù)在存儲空間中的狀態(tài)特征信息模型采用二元時(shí)間序列表達(dá)的方式可以描述為
(7)
式中:P為海量數(shù)據(jù)在數(shù)據(jù)庫存儲中的包絡(luò)幅值,x(t)為輸入關(guān)鍵詞查詢指向性信息參量,y(t)為干擾特征.x(t)與y(t)形成語義本體的互相關(guān)共軛關(guān)系,當(dāng)X?U且R?A時(shí),可得到數(shù)據(jù)庫中信息訪問的融合均衡控制方程:
(8)
式中:x0和y0為數(shù)據(jù)庫訪問的瞬時(shí)頻率與中心頻率,r為丟失信息流的干擾輻射半徑.數(shù)據(jù)庫的海量數(shù)據(jù)存儲系統(tǒng)根據(jù)信息融合的空間結(jié)構(gòu)形成一個(gè)包含n個(gè)矢量結(jié)合的存儲空間組A={A1,A2,…,An},存儲空間中的殘差信號Rs投影在D中的基函數(shù)
z(t)=x(t)+iy(t)=a(t)eiθ(t),
(9)
式中:
(10)
采用匹配投影法進(jìn)行數(shù)據(jù)庫訪問過程中干擾信息和冗余信息的濾除,通過信息融合實(shí)現(xiàn)對冗余數(shù)據(jù)的全局尋優(yōu).在數(shù)據(jù)庫訪問的語義特征提取尋優(yōu)過程中,采用基于Dopplerlet的自適應(yīng)特征匹配方法,可得到語義相關(guān)的詞頻融合狀態(tài)方程:
(11)
2.1 語義關(guān)聯(lián)指向性特征的提取
在進(jìn)行了上述數(shù)據(jù)庫存儲機(jī)制的分析和海量數(shù)據(jù)分布式存儲節(jié)點(diǎn)結(jié)構(gòu)模型構(gòu)建的基礎(chǔ)上,通過數(shù)據(jù)信息融合處理濾除數(shù)據(jù)庫訪問過程中的干擾和冗余信息,降低了數(shù)據(jù)存儲的開銷,以此為基礎(chǔ)進(jìn)行數(shù)據(jù)庫訪問算法的設(shè)計(jì).為了克服傳統(tǒng)方法計(jì)算開銷過大、語義指向性聚焦能力不強(qiáng)的不足,提出了一種基于語義本體模型檢索和語義關(guān)聯(lián)指向性特征提取的數(shù)據(jù)庫優(yōu)化訪問方法.采用主題樹特征匹配方法構(gòu)建語義本體模型,語義本體模型主要包含4層結(jié)構(gòu)模型,分別為語義模型、數(shù)據(jù)模型、導(dǎo)航模型和表現(xiàn)模型[7-9].在語義本體模型中,通過數(shù)據(jù)庫中的數(shù)據(jù)鏈聚類融合,可得到多個(gè)導(dǎo)向性聚類中心進(jìn)行數(shù)據(jù)庫訪問的信息索引和指向性聚焦.在一個(gè)語義本體模型中,語義決策樹采用一個(gè)三元組的形式K=(O,A,R)表示.其中,O是文本所屬類別的對象集合,A是數(shù)據(jù)庫的數(shù)據(jù)聚類屬性集合,R是O和A之間的一個(gè)二元關(guān)系.設(shè)數(shù)據(jù)庫中與語義信息相關(guān)的數(shù)據(jù)類別總數(shù)為m,語義特征信息流{xi}在數(shù)據(jù)庫訪問時(shí)間間隔jτ的自相關(guān)函數(shù)為
(12)
式中:N為采樣的數(shù)據(jù)樣本數(shù).設(shè)E是對象集合O的一個(gè)子集,數(shù)據(jù)庫中的語義指向性特征相互獨(dú)立,語義信息的自相關(guān)信息為
E{h1(y1)h2(y2)}=E{h1(y1)}E{h2(y2)}.
(13)
定義E{[X-E(X)][Y-E(Y)]}為主題樹特征匹配變量X與Y的協(xié)方差,記為Cov(X,Y).此時(shí),假設(shè)輸入語義主題樹的隨機(jī)變量X與Y分別是Web數(shù)據(jù)庫的特征聚類融合中心的初始值,采用自相關(guān)協(xié)方差表示語義為
Cov(X,Y)=E{[X-E(X)][Y-E(Y)]}.
(14)
此時(shí),得到兩組信息流的自相關(guān)系數(shù),表示關(guān)聯(lián)指向性特征為
(15)
式中: ρxy是一個(gè)無量綱的量,修正每個(gè)向量vi進(jìn)行特征聚類,以提高數(shù)據(jù)庫訪問過程中的語義波束指向性.假設(shè)波束指向的時(shí)延尺度系數(shù)為τ,對于連續(xù)的詞頻檢索遍歷x(t),其自相關(guān)函數(shù)C(τ)定義為
(16)
式(16)中,數(shù)據(jù)庫訪問的有用文本提取率x(t)與x(t+τ)的差別越來越大,語義信息召回的信息流x(t)與x(t+τ)完全無關(guān),C(τ)作為自相關(guān)函數(shù)趨于0,此時(shí)得到的數(shù)據(jù)庫訪問結(jié)果是穩(wěn)定可靠的.在數(shù)據(jù)庫訪問中,采用關(guān)鍵詞索引方法,對任意兩個(gè)詞頻信息X和Y構(gòu)建Web數(shù)據(jù)庫的語義本體模型的關(guān)聯(lián)指向性特征分別為
(17)
(18)
(19)
式中:P(X)和P(Y)分別是訪問詞頻信息X和Y得到的準(zhǔn)確語義信息召回的概率密度函數(shù),P(X∩Y)是聯(lián)合訪問詞頻信息X和Y所得到的準(zhǔn)確語義信息召回的聯(lián)合概率密度函數(shù).通過分析上述關(guān)聯(lián)指向性特征的提取結(jié)果,可采用波束形成方法進(jìn)行數(shù)據(jù)庫訪問的語義詞頻信息聚焦,以提高數(shù)據(jù)庫訪問關(guān)鍵信息的波束指向性,實(shí)現(xiàn)數(shù)據(jù)的準(zhǔn)確查詢和訪問.
2.2 數(shù)據(jù)庫訪問優(yōu)化的實(shí)現(xiàn)
在進(jìn)行關(guān)聯(lián)指向性特征提取的基礎(chǔ)上,為信息索引路徑進(jìn)行數(shù)據(jù)庫的優(yōu)化訪問.假設(shè)數(shù)據(jù)庫訪問中的數(shù)據(jù)信息流為x(t),通過語義關(guān)聯(lián)指向性特征構(gòu)建多源節(jié)點(diǎn),在海量數(shù)據(jù)的存儲空間中形成新的映射.在數(shù)據(jù)存儲空間中,數(shù)據(jù)存儲節(jié)點(diǎn)的空間軌跡矢量場表示為X,采用特征值和特征向量信息模板匹配方法得到輸出的融合代價(jià)為hi(t),數(shù)據(jù)庫訪問的干擾項(xiàng)為npi(t),采用異步迭代方法得到初始化的數(shù)據(jù)訪問的融合中心離散度:
Xri(t)=X(t)×hi(t)+npi(t),
(20)
式中:hi(t)表示X(t)在Web數(shù)據(jù)庫的語義本體加速分布融合函數(shù),即數(shù)據(jù)庫訪問的語義詞頻信息的響應(yīng)函數(shù).為了提高訪問精度,需要對冗余數(shù)據(jù)信息流進(jìn)行特征壓縮,得到特征壓縮的控制函數(shù)
(21)
(22)
(23)
通過上述處理,得到最優(yōu)訪問的控制序列.輸入關(guān)聯(lián)指向性特征進(jìn)行語義信息素聚焦,以此為索引變量進(jìn)行詞頻分類,采用虛假最近鄰點(diǎn)算法訪問數(shù)據(jù)的K個(gè)近鄰點(diǎn),輸入查詢關(guān)鍵字keyword,執(zhí)行輸入的語義序列y(k),得到的查詢結(jié)果輸出為M(Q,R1),可表示為
y(k)=a(k)h(k)+n(k),
(24)
M(Q,R1)=M(keyword,p1)+M(search,p2),
(25)
式中: p1為數(shù)據(jù)庫訪問的查詢樣本測試集,p2為數(shù)據(jù)庫訪問的詞頻信息搜索訓(xùn)練集.通過上述處理,提高了數(shù)據(jù)庫關(guān)鍵信息的查詢性能,實(shí)現(xiàn)了數(shù)據(jù)庫的優(yōu)化訪問.
圖2 數(shù)據(jù)庫中海量數(shù)據(jù)信息采樣時(shí)域波形Fig.2 Time domain waveform of massive datainformation sampling in the database
為測試本方法在實(shí)現(xiàn)Web數(shù)據(jù)庫訪問中的性能,進(jìn)行仿真實(shí)驗(yàn).實(shí)驗(yàn)的硬件環(huán)境:處理器為2.94 GHz的Intel(R)Core(TM)2 Duo CPU,內(nèi)存為8 GB.采用Matlab仿真軟件進(jìn)行算法編程設(shè)計(jì).首先,進(jìn)行Web數(shù)據(jù)庫的分布式存儲結(jié)果模型設(shè)計(jì),通過數(shù)據(jù)庫的信息采樣,進(jìn)行數(shù)據(jù)庫存儲數(shù)據(jù)的語義本體模型的構(gòu)建和關(guān)聯(lián)指向性特征的提取.測試數(shù)據(jù)來自Deep Web的CWT200G數(shù)據(jù)庫,信息以多媒體和文本信息的方式進(jìn)行云存儲分布,在數(shù)據(jù)庫訪問過程中,數(shù)據(jù)信息流從1 024 MB到100 GB均勻線性增長.為了測試數(shù)據(jù)庫的訪問性能,首先進(jìn)行數(shù)據(jù)信息流的時(shí)域采樣,數(shù)據(jù)采樣的歸一化初始頻率f1=0.8 Hz,終止頻率f2=0.15 Hz,數(shù)據(jù)訪問的信道帶寬B=1 028 Hz,冗余數(shù)據(jù)的干擾比特率為0.45 bps/s,在干擾強(qiáng)度為SNR=-5 dB和SNR=-8 dB條件下,進(jìn)行數(shù)據(jù)庫的訪問和特征提取.根據(jù)上述仿真環(huán)境和參數(shù)的設(shè)定,進(jìn)行數(shù)據(jù)庫訪問的實(shí)現(xiàn)過程仿真,以此作為一組樣本實(shí)驗(yàn)集形成海量數(shù)據(jù)集合,得到數(shù)據(jù)采樣的時(shí)域波形,如圖2所示.
以上述采樣的數(shù)據(jù)信息為測試樣本集進(jìn)行數(shù)據(jù)庫語義關(guān)聯(lián)指向性特征的提取,通過語義信息融合處理降低數(shù)據(jù)庫訪問過程中的特征干擾,濾除冗余信息,得到采用本方法和未進(jìn)行冗余信息濾波處理的語義關(guān)聯(lián)指向性特征提取結(jié)果,如圖3所示.從圖3可見,采用本方法進(jìn)行Web數(shù)據(jù)庫的數(shù)據(jù)訪問,通過語義指向性特征的提取,提高了詞頻信息的聚焦性能,波束指向性較好,冗余信息的干擾得到了有效抑制,時(shí)頻空間特征分布的聚類能力較強(qiáng),提高了數(shù)據(jù)庫準(zhǔn)確訪問的性能.
為了定量分析本方法進(jìn)行數(shù)據(jù)庫優(yōu)化訪問的性能,以數(shù)據(jù)查準(zhǔn)率為測試指標(biāo),在干擾強(qiáng)度為-10~10 dB時(shí)進(jìn)行10 000次蒙特卡羅實(shí)驗(yàn),采用本方法和文獻(xiàn)[5]的關(guān)鍵字查詢方法得到了查準(zhǔn)率對比結(jié)果,如圖4所示.從圖4可見,采用本研究的語義指向性特征提取算法對數(shù)據(jù)庫訪問的查準(zhǔn)率明顯高于傳統(tǒng)方法,抗干擾能力較強(qiáng),表現(xiàn)出了較好的性能.
圖3 語義關(guān)聯(lián)指向性特征提取結(jié)果Fig.3 Results of semantic connection point to characteristic extraction
圖4 性能對比Fig.4 Performance comparison
研究了Web數(shù)據(jù)庫的優(yōu)化訪問關(guān)鍵技術(shù),提出了一種基于語義指向性特征提取的數(shù)據(jù)庫優(yōu)化訪問算法.
[1] 辛宇,楊靜,湯楚蘅,等.基于局部語義聚類的語義重疊社區(qū)發(fā)現(xiàn)算法[J].計(jì)算機(jī)研究與發(fā)展,2015,52(7):1510-1521.
[2] 陸興華,陳平華.基于定量遞歸聯(lián)合熵特征重構(gòu)的緩沖區(qū)流量預(yù)測算法[J].計(jì)算機(jī)科學(xué),2015,42(4):68-71.
[3] 王小英,劉慶杰.關(guān)系型數(shù)據(jù)庫中數(shù)值數(shù)據(jù)的密文檢索模型研究[J].計(jì)算機(jī)仿真,2013,30(11):409-411.
[4] CHONG F T,HECK M J R,RANGANATHAN P,et al.Data center energy efficiency:improving energy efficiency in data centers beyond technology scaling[J].IEEE Design & Test,2014,31(1):93-104.
[5] WANG L,ZHANG F,ARJONA A J,et al.GreenDCN:a general framework for achieving energy efficiency in data center networks[J].IEEE Journal on Selected Areas in Communications,2014,32(1):4-15.
[6] 衛(wèi)星,張建軍,石雷,等.云計(jì)算數(shù)據(jù)中心服務(wù)器數(shù)量動態(tài)配置策略[J].電子與信息學(xué)報(bào),2015,37(8):2007-2013.
[7] 侯森,羅興國,宋克.基于信息源聚類的最大熵加權(quán)信任分析算法[J].電子學(xué)報(bào),2015,43(5):993-999.
[8] 羅亮,吳文峻,張飛.面向云計(jì)算數(shù)據(jù)中心的能耗建模方法[J].軟件學(xué)報(bào),2014,25(7):1371-1387.
[9] 章登義,吳文李,歐陽黜霏.基于語義度量的RDF圖近似查詢[J].電子學(xué)報(bào),2015,43(7):1320-1328.
2016-01-28
李浩(1974-),男,河南洛陽人,副教授,研究方向?yàn)橛?jì)算機(jī)網(wǎng)絡(luò)與算法.
TP391
A
1674-330X(2016)04-0057-05