蘭美輝
(曲靖師范學(xué)院 計算機(jī)科學(xué)與工程學(xué)院,云南 曲靖 655011)
?
基于懲罰似然優(yōu)化模型的本體稀疏向量計算算法*
蘭美輝
(曲靖師范學(xué)院 計算機(jī)科學(xué)與工程學(xué)院,云南 曲靖 655011)
通過稀疏向量的學(xué)習(xí)來得到本體函數(shù),利用方向?qū)?shù)計算來得到懲罰似然優(yōu)化模型的最優(yōu)解,進(jìn)而得到本體稀疏向量.將該算法應(yīng)用于植物學(xué)領(lǐng)域PO本體和仿生機(jī)器人領(lǐng)域本體,同時將實驗結(jié)果與已有算法的結(jié)果作對比,結(jié)果表明本算法對植物學(xué)領(lǐng)域的相似度計算和仿生機(jī)器人領(lǐng)域本體映射的建立有較高的效率.
本體;相似度計算;本體映射;稀疏向量
本體作為結(jié)構(gòu)化概念共享、存儲模型,越來越受到學(xué)者的重視,并成為計算機(jī)領(lǐng)域近年來研究的熱點問題之一.本體概念模型可用圖結(jié)構(gòu)來表示,其頂點代表一個概念,邊代表概念之間的直接從屬關(guān)系.正則化學(xué)習(xí)模型被廣泛應(yīng)用于本體概念的相似度計算和本體映射的構(gòu)建[1-4].除正則化模型外的其他本體學(xué)習(xí)算法可參考文獻(xiàn)[5-8].
本文通過懲罰似然優(yōu)化模型的求解得到本體稀疏向量,然后利用本體稀疏向量來表示本體函數(shù),進(jìn)而通過本體函數(shù)來計算頂點對應(yīng)實數(shù)在數(shù)軸上的距離,最后確定它們之間的相似度.實驗數(shù)據(jù)的對比說明本文算法對于植物學(xué)領(lǐng)域本體相似度計算和仿生機(jī)器人領(lǐng)域本體映射的構(gòu)建有較高的效率.
對本體圖中的每個頂點,它代表一個概念,將該概念的名稱、屬性、結(jié)構(gòu)、語義等信息用一個p維向量來表示.設(shè)v={v1,…,vp}是頂點v對應(yīng)的向量.為了方便表示,用v來同時表示頂點以及對應(yīng)的向量.本體學(xué)習(xí)算法的目標(biāo)是得到最優(yōu)本體(得分)函數(shù)f:V→,頂點對應(yīng)概念之間的相似度通過頂點對應(yīng)實數(shù)在數(shù)軸上的距離來衡量.此類算法的本質(zhì)是降維,用一維向量來表示p維向量,即所要學(xué)習(xí)的本體函數(shù)f是一個降維函數(shù)f:p→.
在實際應(yīng)用中,本體函數(shù)可通過稀疏向量作如下表示:
(1)
其中β=(β1,…,βp)T是稀疏向量,它的特點是大部分分量為0或者大部分分量對于剩余小部分分量而言,值非常的??;δ是噪聲項.從而,本體函數(shù)的學(xué)習(xí)就歸結(jié)為稀疏向量的學(xué)習(xí).設(shè)稀疏向量β∈p的支集為supp(β)={i:βi≠0},且設(shè)一種學(xué)習(xí)β的模型為:
(2)
其中Q(β)為虧損項,它表示Vβ和y的接近程度.這里V∈n×p是數(shù)據(jù)矩陣,y∈n是目標(biāo)向量,它由領(lǐng)域?qū)<医o出,反映通過本體函數(shù)f期望得到的目標(biāo)值.Q(β)的一類常見取法為:限制條件‖β‖0≤s用來控制向量β的稀疏度.
與本體稀疏向量一般學(xué)習(xí)框架不同,本文利用懲罰似然優(yōu)化模型(penalized likelihood optimization)來得到向量β:
(3)
其中l(wèi)(β)表示對數(shù)似然,λ1是協(xié)調(diào)參數(shù)用于協(xié)調(diào)本體向量β的稀疏性.更進(jìn)一步,懲罰似然優(yōu)化模型可如下表示:
(4)
記
一般地,可設(shè)l(β)是一個二次可導(dǎo)凹函數(shù).對任意點β,在每個方向x∈p(滿足‖x‖=1)上的方向?qū)?shù)為
將得到的本體稀疏向量計算算法應(yīng)用于植物學(xué)本體和仿生機(jī)器人本體,來驗證算法是否有效.
3.1 本體相似度計算實驗
第一個實驗是采用http: //www.plantontology.org網(wǎng)站構(gòu)建的植物學(xué)PO本體O1(其結(jié)構(gòu)可參考圖1)來驗證算法的效率.植物學(xué)PO本體的結(jié)構(gòu)為樹形,所有頂點被分成兩個大分支.除本文算法外,還將一般本體排序算法[9]、快速排序算法[10]和基于NDCG測度計算的本體算法[11]分別作用于植物學(xué)PO本體.用P@N[12]平均準(zhǔn)確率來衡量實驗結(jié)果的好壞.將這三種算法得到的P@N準(zhǔn)確率與本文算法得到的P@N準(zhǔn)確率進(jìn)行對比,當(dāng)N=3、5、10時的數(shù)據(jù)如表1所示.
圖1 PO本體O1
表1 實驗1部分?jǐn)?shù)據(jù)
Table1Dataofexpriment1(N=3,5,10)
算法名稱P@3平均準(zhǔn)確率P@5平均準(zhǔn)確率P@10平均準(zhǔn)確率本文算法50.29%68.91%74.63%一般排序算法45.49%51.17%58.59%快速排序算法42.82%48.49%56.32%NDCG本體算法48.31%56.35%68.71%
由表1可知,本文本體函數(shù)計算算法對于植物學(xué)PO本體的效率明顯高于其他三類算法.
3.2 本體映射實驗
第二個實驗是采用下面兩個“仿生機(jī)器人”本體O2和O3來驗證本文本體函數(shù)習(xí)算法的效率.除了本文算法外,將k-部排序本體算法[13]、基于NDCG測度計算的本體算法[11]和基于超圖調(diào)和分析的本體算法[14]分別作用于“仿生機(jī)器人”本體,然后將這三種算法得到的P@N準(zhǔn)確率與本文算法得到的P@N準(zhǔn)確率進(jìn)行比較,當(dāng)N=1、3、5時的數(shù)據(jù)如表2所示.
圖2 “仿生機(jī)器人”本體O2
圖3 “仿生機(jī)器人”本體O3
表2 實驗2部分?jǐn)?shù)據(jù)
Table2Dataofexperiment2(N=1,3,5)
算法名稱P@1平均準(zhǔn)確率P@3平均準(zhǔn)確率P@5平均準(zhǔn)確率本文算法27.78%53.70%78.89%k?部排序本體算法27.78%48.15%54.44%NDCG本體算法22.22%40.74%48.89%調(diào)和分析本體算法27.78%46.30%53.33%
通過表2準(zhǔn)確率數(shù)據(jù)對比可知:本文本體函數(shù)學(xué)習(xí)算法在“仿生機(jī)器人”本體O2和O3間建立本體映射的效率明顯高于其他三類算法.
本文通過方向?qū)?shù)的計算得到懲罰似然優(yōu)化模型的最優(yōu)解從而求得本體稀疏向量,進(jìn)而通過本體稀疏向量來得到本體函數(shù),最后通過本體函數(shù)來得到頂點對應(yīng)概念之間的相似度.實驗數(shù)據(jù)表明,該方法對于植物學(xué)領(lǐng)域的相似度計算和仿生機(jī)器人領(lǐng)域的本體映射構(gòu)建是有效的.
[1] 高煒,梁立.基于超圖正則化模型的本體概念相似度計算[J].微電子學(xué)與計算機(jī),2011,28(5):15-17.
[2] 高煒,朱林立,梁立.基于圖正則化模型的本體映射算法[J].西南大學(xué)學(xué)報:自然科學(xué)版,2012,34(3):118-121.
[3] 朱林立,吳訪升,葉飛躍,等.有噪條件下基于正則化模型的本體學(xué)習(xí)算法[J].西北師范大學(xué)學(xué)報:自然科學(xué)版,2014,50(6):41-45.
[4] 朱林立,戴國洪,高煒.正則化框架下半監(jiān)督本體算法[J].微電子學(xué)與計算機(jī),2014,31(3):126-129.
[5] 蘭美輝,高煒.基于變換模型的本體相似度計算與本體映射[J].曲靖師范學(xué)院學(xué)報,2011,30(6):52-55.
[6] 蘭美輝,高煒.基于k-部排序?qū)W習(xí)方法的本體映射算法[J].蘇州科技學(xué)院學(xué)報:自然科學(xué)版,2012,29(2):60-62.
[7] 蘭美輝,徐堅,高煒.基于primalRankRLS方法的本體映射算法[J].云南師范大學(xué)學(xué)報:自然科學(xué)版,2014,34(3):37-40.
[8] 蘭美輝,徐堅,高煒.基于優(yōu)先圖的本體相似度計算[J].科學(xué)技術(shù)與工程,2014,14(28):252-255.
[9]WANGY,GAOW,ZHANGY,etal.OntologysimilaritycomputationuserankinglearningMethod[C].The3rdInternationalConferenceonComputationalIntelligenceandIndustrialApplication,Wuhan,China,2010:20-22.
[10]HUANGX,XUT,GAOW,etal.OntologySimilarityMeasureandOntologyMappingViaFastRankingMethod[J].InternationalJournalofAppliedPhysicsandMathematics,2011,1(1):54-59.
[11]GAOW,LIANGL.OntologysimilaritymeasurebyoptimizingNDCGmeasureandapplicationinphysicseducation[J].FutureCommunication,Computing,ControlandManagement,2011,142:415-421.
[12]CRASWELLN,HAWKINGD.OverviewoftheTREC2003webtrack[C].ProceedingsoftheTwelfthTextRetrievalConference.Gaithersburg,Maryland,NISTSpecialPublication,2003:78-92.
[13]蘭美輝,任友俊,徐堅,等.k-部排序本體相似度計算[J].計算機(jī)應(yīng)用,2012,32(4):1094-1096.
[14]GAOW,GAOY,LIANGL.Diffusionandharmonicanalysisonhypergraphandapplicationinontologysimilaritymeasureandontologymapping[J].JournalofChemicalandPharmaceuticalResearch,2013,5(9):592-598.
Computation Algorithm for Ontology Sparse Vector Based on Penalized Likelihood Optimization
LAN Mei-hui
(Department of Computer Science and Engineering,Qujing Normal University,Qujing 655011,China)
In this paper,the ontology function is obtained in terms of sparse vector learning.The optimal sparse vector is yielded via penalized likelihood optimization based on directional derivative computation.The algorithm is applied to the Go ontology in plant field and humanoid robotics ontologies, and the results by our algorithm are compared with results by previous algorithms.It shows that the new algorithm has higher efficiency for calculating the similarity in plant field and establishing the ontology mappings in humanoid robotics application.
Ontology; Similarity measure; Ontology mapping; Sparse vector
2015-05-31
國家自然科學(xué)基金資助項目(61262071);云南省教育廳科學(xué)研究基金資助項目(2014C131Y).
蘭美輝(1982-),女,云南宜良人,碩士,講師,主要從事信息檢索、機(jī)器學(xué)習(xí)、人工智能方面研究.E-mail: lanmeihui97@163.com.
蘭美輝.
TP393.092
A
1007-9793(2015)04-0051-05