• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      本體圖驅(qū)動(dòng)的概念相似度算法

      2016-05-14 15:49:00曾小芹
      軟件導(dǎo)刊 2016年7期
      關(guān)鍵詞:相似度本體數(shù)據(jù)挖掘

      曾小芹

      摘要:采用本體概念映射方法,研究概念間相似度計(jì)算問題并提出本體圖驅(qū)動(dòng)的概念相似度算法。該算法將概念映射到本體結(jié)構(gòu)圖上,通過計(jì)算概念的語(yǔ)義、結(jié)構(gòu)及屬性相似度得到綜合相似度。其中,結(jié)構(gòu)相似度通過語(yǔ)義輻射圓計(jì)算模型得到,屬性相似度通過概念重心向量夾角余弦得到。通過實(shí)驗(yàn)對(duì)比證明,該算法在一定程度上提高了相似度準(zhǔn)確性,為數(shù)據(jù)挖掘提供了一定依據(jù)。

      關(guān)鍵詞關(guān)鍵詞:本體;相似度;語(yǔ)義輻射圓;數(shù)據(jù)挖掘

      DOIDOI:10.11907/rjdk.161326

      中圖分類號(hào):TP312文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào)文章編號(hào):16727800(2016)007005903

      0引言

      互聯(lián)網(wǎng)行業(yè)之所以能創(chuàng)造財(cái)富,關(guān)鍵是通過記錄和分析用戶網(wǎng)絡(luò)操作的大數(shù)據(jù),形成用戶“行為指紋”,從而洞悉用戶潛在的、真實(shí)的需求,形成預(yù)判。用戶的每一次瀏覽、評(píng)論、點(diǎn)播都是數(shù)據(jù)。但數(shù)據(jù)處理卻是一項(xiàng)重要的技術(shù)挑戰(zhàn)。使用傳統(tǒng)的方法去描述與度量大數(shù)據(jù)的復(fù)雜性,據(jù)資源優(yōu)化融合的應(yīng)用性能,進(jìn)行仿真實(shí)驗(yàn)。數(shù)據(jù)融合算法采用Matlab編程實(shí)現(xiàn)。在CIMS工業(yè)生產(chǎn)項(xiàng)目中進(jìn)行供應(yīng)鏈模型構(gòu)建,通過ERP系統(tǒng)結(jié)合仿真工具(MBPST)進(jìn)行供應(yīng)鏈大數(shù)據(jù)資源融合軟件開發(fā),得到仿真平臺(tái)中數(shù)據(jù)融合統(tǒng)計(jì)分析輸出如圖2所示。

      為了定量分析該算法的性能,采用本文方法和傳統(tǒng)方法,以數(shù)據(jù)融合的執(zhí)行時(shí)間為測(cè)試指標(biāo),得到對(duì)比結(jié)果如圖3所示。仿真結(jié)果表明,利用該算法進(jìn)行大數(shù)據(jù)資源融合的效率較高,配準(zhǔn)性能較好,執(zhí)行時(shí)較短,性能優(yōu)越于傳統(tǒng)算法。

      需要對(duì)高維圖像等多媒體數(shù)據(jù)進(jìn)行降維度量與處理,同時(shí)分析出上下文環(huán)境的語(yǔ)義關(guān)聯(lián),最終從大量動(dòng)態(tài)及模糊的數(shù)據(jù)中歸納概括信息,并導(dǎo)出可理解的內(nèi)容。

      本體通過對(duì)某領(lǐng)域概念及其關(guān)系的形式化表達(dá)來(lái)獲得該領(lǐng)域知識(shí),并提供對(duì)其的統(tǒng)一理解,確定公認(rèn)詞匯,從不同層次上明確定義詞匯與詞匯間的關(guān)系,進(jìn)一步挖掘隱含在特定領(lǐng)域中的知識(shí),解決各種語(yǔ)義障礙。1相關(guān)研究

      目前已有大量關(guān)于語(yǔ)義相似度計(jì)算的研究。很多文章均提出了綜合如結(jié)點(diǎn)類型、密度、深度、強(qiáng)度、屬性、層次、邊類型多種因素的計(jì)算模型,有的算法結(jié)合圖理論和信息量提出了語(yǔ)義相似度度量方式。而鄒文科、唐中林等則基于距離相似度和屬性相似度來(lái)計(jì)算領(lǐng)域本體內(nèi)部概念間的相似度。另外,也有將特征屬性作為邊權(quán)值來(lái)計(jì)算語(yǔ)義距離,并通過概念層次深度來(lái)校正計(jì)算結(jié)果。

      當(dāng)前基于本體的相似度算法大概存在兩方面問題:①很多算法考慮盡量多的因素進(jìn)行計(jì)算,但因素本身重要度不同,有的甚至無(wú)關(guān)緊要,這樣反而增加了算法復(fù)雜度;②因素的重復(fù)利用不是很合理。為解決以上問題,本文提出以本體圖驅(qū)動(dòng)的概念相似度算法。2改進(jìn)算法

      本體包含概念、屬性、關(guān)系、實(shí)例等,且本體結(jié)構(gòu)類似有向無(wú)環(huán)圖結(jié)構(gòu)。因此,以本體為基礎(chǔ),可從語(yǔ)義、結(jié)構(gòu)等多方面考慮相似度計(jì)算。概念相似度算法由3部分組成:語(yǔ)義相似度、結(jié)構(gòu)相似度及屬性相似度\即先將概念映射到本體樹上,再綜合計(jì)算概念間的3種相似度。

      (1)語(yǔ)義相似度。在本體圖結(jié)構(gòu)中,結(jié)點(diǎn)與概念一一對(duì)應(yīng),由此可知:若結(jié)點(diǎn)有聯(lián)系即概念相似,必然存在連接結(jié)點(diǎn)的通路;連接結(jié)點(diǎn)的通路上,經(jīng)過的邊數(shù)越多,概念間相似度越?。唤Y(jié)點(diǎn)間關(guān)系類型不同,對(duì)相似度的影響也不同。

      假設(shè)求概念CA、CB間的相似度,將CA、CB映射到本體圖上,再找出兩結(jié)點(diǎn)間的連通路徑,如圖1所示。

      概念間語(yǔ)義相似度可由以下公式計(jì)算:

      連通路徑

      0,路徑不連通 (1)

      其中,m指連接兩結(jié)點(diǎn)間最短路徑邊數(shù)之和,ei指最短路徑上第i條邊,ωei指第i條邊的關(guān)系權(quán)重。

      (2)結(jié)構(gòu)相似度——語(yǔ)義圓輻射計(jì)算模型。由本體結(jié)構(gòu)可知,被比較的概念若存在相同或相似的鄰居結(jié)點(diǎn),則認(rèn)為它們相似。因此,本算法采用“語(yǔ)義圓輻射模型”計(jì)算概念間的結(jié)構(gòu)相似度。該模型以被比較概念結(jié)點(diǎn)為圓心,r為半徑輻射出一個(gè)語(yǔ)義圓。在本體層次關(guān)系中,父子結(jié)點(diǎn)、兄弟結(jié)點(diǎn)占有重要位置,在此,r=1。在語(yǔ)義圓上的結(jié)點(diǎn)都是圓心結(jié)點(diǎn)的相似結(jié)點(diǎn),如圖2所示,CA、CB是被比較概念,O1是以CA為圓心的語(yǔ)義圓,O2是以CB為圓心的語(yǔ)義圓。

      結(jié)構(gòu)相似度計(jì)算如下:

      其中,NCA(NCB)是在語(yǔ)義圓O1(O2)上的CA(CB)的鄰居結(jié)點(diǎn)集合,|NCA∩NCB|是兩集合交集大小,|NCA∪NCB|則是兩集合并集大小。

      (3)屬性相似度——屬性重心向量夾角計(jì)算模型。由本體概念可知,概念包含對(duì)象屬性、數(shù)據(jù)類型屬性及注釋屬性等多個(gè)屬性。假設(shè)CA有n個(gè)屬性,其屬性集為(a1,a2,…,an),分別為各屬性設(shè)定的權(quán)重值,得到概念CA的屬性向量d=ω1,ω2,…,ωn,再以向量d各分量為頂點(diǎn)畫多邊形G,取G的重心M,此時(shí),向量OM是概念CA的重心向量。同理,得到概念CB的重心向量ON,θ是向量OM、ON的夾角,如圖3、圖4所示。

      如果兩概念相同,則其對(duì)應(yīng)的重心向量應(yīng)是重合的,即兩者夾角θ為0°;如果兩概念相似,則對(duì)應(yīng)的重心向量應(yīng)存在一定角度,且隨著概念間相似度的減小而增大。

      概念相似度計(jì)算公式綜合如下:

      其中,α+β+γ=1,文中α=0.5,β=0.2,γ=0.3,當(dāng)然3個(gè)參數(shù)的具體取值還有待修改驗(yàn)證。

      3實(shí)驗(yàn)與結(jié)論

      為了驗(yàn)證本算法的有效性,以植物本體\[14\]為依據(jù),分別從相似度和算法時(shí)間復(fù)雜度兩方面對(duì)比本文算法X、文獻(xiàn)算法Y及文獻(xiàn)算法Z,部分實(shí)驗(yàn)數(shù)據(jù)如表1所示。

      綜合實(shí)驗(yàn)數(shù)據(jù)及本文描述可知:

      (1)總體上看本文算法X從相似度準(zhǔn)確度及算法時(shí)間復(fù)雜度優(yōu)于被比較算法Y和Z,因此,本算法具可行性及相應(yīng)價(jià)值。

      (2)算法X和Y對(duì)比說明,考慮參數(shù)越多,相似度準(zhǔn)確度不一定越大。相反,算法的時(shí)間復(fù)雜度卻隨之增大,為此,在相似度計(jì)算中應(yīng)理性對(duì)待各參數(shù)。

      (3)算法X和Z對(duì)比說明,在利用本體計(jì)算相似度算法中,屬性因素是重要的影響因素,在本文算法X中,屬性重心向量夾角計(jì)算模型發(fā)揮了重要作用。

      本文以本體圖為驅(qū)動(dòng)提出了概念相似度算法,由于算法中各種參數(shù)初始閾值的判定都依賴個(gè)人的主觀思想,對(duì)相似度的精準(zhǔn)度必定產(chǎn)生影響,因此,關(guān)于參數(shù)的取值還需進(jìn)一步驗(yàn)證。

      參考文獻(xiàn):

      VIKTOR MAYER SCH,OUML,NBERGER.Big data:a revolution that will transform how we live, work, and think.盛揚(yáng)燕,周濤,譯.杭州:浙江人民出版社,2012.

      黃果,周竹榮.基于領(lǐng)域本體的概念語(yǔ)義相似度計(jì)算研究[J].計(jì)算機(jī)工程與設(shè)計(jì),2007,28(10):24602463.

      史斌,閆健卓.基于本體的概念語(yǔ)義相似度度量[J].計(jì)算機(jī)工程,2009,35(19):8385.

      蘭美輝,夏幼明.基于本體的概念相似度計(jì)算模型研究[J].曲靖師范學(xué)院學(xué)報(bào),2010,29(3):6770.

      鄒文科.基于本體技術(shù)的語(yǔ)義檢索及其語(yǔ)義相似度研究.北京:北京郵電大學(xué),2008.

      陳沈焰,吳軍華.基于本體的概念語(yǔ)義相似度計(jì)算及其應(yīng)用[J].微電子學(xué)與計(jì)算機(jī),2008,25(12):9699.

      猜你喜歡
      相似度本體數(shù)據(jù)挖掘
      Abstracts and Key Words
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
      對(duì)姜夔自度曲音樂本體的現(xiàn)代解讀
      基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      改進(jìn)的協(xié)同過濾推薦算法
      模糊Petri網(wǎng)在油田開發(fā)設(shè)計(jì)領(lǐng)域的應(yīng)用研究
      相似度算法在源程序比較中的應(yīng)用
      影響母線負(fù)荷預(yù)測(cè)的因素及改進(jìn)措施
      科技視界(2016年10期)2016-04-26 11:40:14
      《我應(yīng)該感到自豪才對(duì)》的本體性教學(xué)內(nèi)容及啟示
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      安康市| 左云县| 德兴市| 神池县| 微博| 永仁县| 荣昌县| 恩施市| 商都县| 洛川县| 石门县| 桦南县| 镶黄旗| 富锦市| 古交市| 道真| 宣汉县| 桂林市| 乐业县| 桐柏县| 射阳县| 乌海市| 沧源| 汶川县| 汶上县| 绥中县| 台东市| 龙陵县| 浦县| 凌源市| 宜丰县| 台湾省| 扶沟县| 安新县| 肥城市| 上林县| 陆良县| 四平市| 十堰市| 永宁县| 左云县|