范忠勇,張志軍,張鵬飛
(1.日照廣播電視大學(xué),山東 日照 276826;2.山東建筑大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,山東 濟(jì)南 250101)
?
本體技術(shù)在個(gè)性化推薦系統(tǒng)中的應(yīng)用研究
范忠勇1,張志軍2*,張鵬飛2
(1.日照廣播電視大學(xué),山東 日照 276826;2.山東建筑大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,山東 濟(jì)南 250101)
摘要:針對(duì)個(gè)性化推薦系統(tǒng)中傳統(tǒng)的用戶建模技術(shù)的缺陷,本文將領(lǐng)域本體的理論與方法應(yīng)用到電子商務(wù)個(gè)性化推薦中,設(shè)計(jì)了一種本體和服裝信息相結(jié)合的個(gè)性化推薦模型。利用Protégé實(shí)現(xiàn)了服裝知識(shí)本體的構(gòu)建過程,在真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果驗(yàn)證了算法的可行性和有效性。該設(shè)計(jì)與已有的推薦算法相比,具有更高的預(yù)測準(zhǔn)確度。
關(guān)鍵詞:本體;個(gè)性化推薦;協(xié)同過濾;網(wǎng)絡(luò)爬蟲;偏好預(yù)測
隨著互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展,網(wǎng)絡(luò)上的信息呈現(xiàn)爆炸式增長,如何從這些海量數(shù)據(jù)中找到滿足用戶個(gè)性化需求的信息變得愈發(fā)困難,個(gè)性化推薦技術(shù)被認(rèn)為是解決此類問題的有效方法[1]。基于協(xié)同過濾(collaborative filtering, CF)的推薦系統(tǒng)通過收集來自其他相似用戶或項(xiàng)目的評(píng)價(jià)信息,自動(dòng)預(yù)測當(dāng)前用戶的興趣偏好。協(xié)同過濾的基本假設(shè)是用戶會(huì)更喜歡那些相似用戶偏愛的商品,已被廣泛應(yīng)用在一些大型的商業(yè)系統(tǒng),如亞馬遜和阿里巴巴等[2]。目前,協(xié)同過濾算法主要包括基于內(nèi)存的、基于模型的以及二者相混合的推薦技術(shù)[3]。使用最多的模型是k最近鄰(k-nearest neighbor,kNN)協(xié)同過濾技術(shù)[4],包括基于用戶推薦和基于項(xiàng)目推薦兩種技術(shù)。
本體(Ontology)的概念最初起源于哲學(xué)領(lǐng)域,目前被廣泛應(yīng)用于人工智能、信息檢索、語義Web和自然語言處理等領(lǐng)域[5]。本體具有明確性、形式化和共享性。一般說來,本體描述了某個(gè)應(yīng)用領(lǐng)域的概念和概念之間的關(guān)系,使得它們具有唯一確定的含義,獲得該領(lǐng)域的相關(guān)知識(shí),提供對(duì)該領(lǐng)域知識(shí)的共同理解,便于用戶和計(jì)算機(jī)之間進(jìn)行交流。Gruber[6]最早給出了本體的定義,即本體是共享概念模型的明確的形式化說明。1998年Guarino[7]對(duì)本體的定義進(jìn)行凝練后指出,本體是一個(gè)邏輯理論,用來說明一個(gè)正規(guī)詞匯表的預(yù)定含義。
Middleton等[8]提出了基于知識(shí)的推薦系統(tǒng)Quickstep and Foxtrot Systems,用一個(gè)本體來表示用戶感興趣的領(lǐng)域,該系統(tǒng)基于學(xué)術(shù)論文主題的本體知識(shí)庫向用戶推薦可能需求的論文。Cantador等[9]提出了基于本體的個(gè)性化消息推薦系統(tǒng)News@hand,該系統(tǒng)使用了語義技術(shù)進(jìn)行在線消息的推薦,消息內(nèi)容和用戶偏好被描述成領(lǐng)域本體中的概念,還考慮了用戶偏好的上下文信息。Burke等[10]利用飯店的菜式方面的效用知識(shí),提出了基于規(guī)則和實(shí)例的推薦方法,推薦酒店給用戶。Noor等[11]提出了一種結(jié)合社交網(wǎng)絡(luò)技術(shù)和語義Web的個(gè)性化推薦系統(tǒng),該系統(tǒng)在用戶偏好和個(gè)性化搜索之間架起了一座橋梁。Castells等[12]開發(fā)了aceMedia推薦系統(tǒng),將用戶的偏好特征描述為一個(gè)本體概念向量。
現(xiàn)有的推薦算法有的是基于用戶的興趣偏好進(jìn)行推薦,有的是基于項(xiàng)目之間的相似性,或者是把二者結(jié)合進(jìn)行推薦,但這些算法都沒有真正地去揭露商品本身的屬性和特征,不能準(zhǔn)確地為用戶推薦感興趣的商品。針對(duì)該問題,本文提出了一種基于本體的個(gè)性化推薦算法,深入分析了本體技術(shù)在協(xié)同過濾推薦系統(tǒng)中的應(yīng)用研究。在公共數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文提出的算法無論是運(yùn)行效率還是推薦精度,都優(yōu)于傳統(tǒng)的協(xié)同過濾推薦算法。
1基于本體的個(gè)性化推薦系統(tǒng)
個(gè)性化推薦技術(shù)已經(jīng)成為當(dāng)前電子商務(wù)領(lǐng)域研究的熱點(diǎn),為了進(jìn)一步提高推薦的準(zhǔn)確性,本文將領(lǐng)域本體的理論與方法應(yīng)用到電子商務(wù)個(gè)性化推薦中。由于服裝是網(wǎng)上商城最常見的商品之一,同時(shí)也是用戶最為熟悉的商品,因此本文以服裝本體為例,闡述基于服裝領(lǐng)域本體的電子商務(wù)個(gè)性化推薦系統(tǒng)的構(gòu)建過程。
1.1服裝領(lǐng)域本體的構(gòu)建
本文采用七步法來構(gòu)建服裝領(lǐng)域知識(shí)本體。使用Protégé工具將概念和關(guān)系形式化表達(dá),存儲(chǔ)為OWL文件進(jìn)行保存,進(jìn)而與電子商務(wù)個(gè)性化推薦過程有機(jī)整合。構(gòu)造的服裝領(lǐng)域本體如圖1所示。
圖1 服裝領(lǐng)域本體結(jié)構(gòu)Fig.1 Ontology structure of clothing domain
使用Protégé工具,構(gòu)建服裝領(lǐng)域本體如圖2所示。
圖2 服裝領(lǐng)域本體Fig.2 Ontology of clothing domain
1.2基于領(lǐng)域本體的個(gè)性化推薦模型
本文提出一種基于本體的電子商務(wù)個(gè)性化推薦模型(Ontology based E-Commerce Recommendation,OntoECRec),該模型以建立的電子商務(wù)領(lǐng)域本體為基礎(chǔ),融合傳統(tǒng)的協(xié)同過濾算法,以便更加準(zhǔn)確地為電子商務(wù)網(wǎng)站瀏覽顧客提供合適的商品。基于電子商務(wù)領(lǐng)域本體的個(gè)性化推薦模型如圖3所示。
圖3 個(gè)性化推薦模型Fig.3 Personalized recommendation model
從圖3可以看出,整個(gè)推薦模型一共分為3個(gè)層次:用戶層、網(wǎng)絡(luò)服務(wù)層和數(shù)據(jù)層。用戶層主要面向用戶,為用戶提供符合個(gè)人興趣的商品;網(wǎng)絡(luò)服務(wù)層通過把用戶的個(gè)性化特征和知識(shí)庫中的數(shù)據(jù)進(jìn)行匹配,在中央控制模塊的控制下,完成相關(guān)的查詢;數(shù)據(jù)層主要包含本體知識(shí)庫,利用已經(jīng)構(gòu)建好的服裝等商品本體,提高用戶個(gè)性化匹配的滿意度。
2實(shí)驗(yàn)結(jié)果與分析
2.1數(shù)據(jù)集簡介
本文利用網(wǎng)頁爬蟲程序?qū)δ畴娮由虅?wù)網(wǎng)站的服裝信息進(jìn)行抽取,將網(wǎng)頁的HTML文檔進(jìn)行修正,然后把信息轉(zhuǎn)換成DOM樹,去除噪音并過濾掉無關(guān)信息,用本體的匹配規(guī)則和中文分詞法得到的分詞結(jié)果進(jìn)行匹配,把得到的本體概念及其屬性存入數(shù)據(jù)庫。
2.2比較方法
為了測試本文所提出的OntoECRec推薦模型的性能,本文通過實(shí)驗(yàn)來驗(yàn)證模型的有效性。我們選擇兩個(gè)推薦算法作為基準(zhǔn)模型:UserCF[13]和ItemCF[14]。其中,UserCF算法表示基于用戶的CF算法,主要通過尋找相似用戶,依據(jù)相似用戶的偏好來推薦商品;ItemCF算法是基于項(xiàng)目的CF算法,依據(jù)項(xiàng)目之間的相似性,來為目標(biāo)用戶推薦相似的商品。用戶或者項(xiàng)目之間的相似性通過皮爾遜相似公式計(jì)算求得
(1)
圖4 預(yù)測精度對(duì)比Fig.4 Comparison of prediction accuracy
2.3實(shí)驗(yàn)結(jié)果
本文對(duì)數(shù)據(jù)集進(jìn)行相應(yīng)的劃分,訓(xùn)練集分別占到數(shù)據(jù)集的10%,20%,…,90%,OntoECRec推薦算法、UserCF算法以及ItemCF算法的預(yù)測精度如圖4所示,不難看出,無論訓(xùn)練集如何劃分,OntoECRec推薦算法的預(yù)測精度都高于UserCF和ItemCF算法,此外,UserCF算法的預(yù)測精度要高于ItemCF算法。
3結(jié)語
本文分析了個(gè)性化推薦技術(shù)和本體技術(shù),把二者進(jìn)行了很好的結(jié)合,以期提高系統(tǒng)推薦的精度,并且利用本體編輯工具Protégé構(gòu)建了服裝領(lǐng)域本體,用于個(gè)性化推薦模型之中。在真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文所提出的OntoECRec推薦模型的推薦精度高于基于用戶的協(xié)同過濾算法和基于項(xiàng)目的協(xié)同過濾算法,有效地解決了傳統(tǒng)協(xié)同過濾算法存在的推薦精度偏低的問題。構(gòu)建一個(gè)能夠滿足用戶多方面應(yīng)用需求的領(lǐng)域本體是一項(xiàng)極其復(fù)雜的任務(wù),本文構(gòu)建的服裝本體還比較簡單,今后我們將進(jìn)一步進(jìn)行完善,以便進(jìn)一步提高用戶對(duì)商品推薦結(jié)果的滿意度。
參考文獻(xiàn):
[1]Lü L Y, MEDO M, YEUNG C H, et al. Recommender systems[J]. Physics Reports, 2012, 519(1): 1-49.
[2]ZHANG Z J, LIU H. Application and research of improved probability matrix factorization techniques in collaborative filtering[J]. Int J Control Autom, 2014, 7(8):79-92.
[3] ADOMAVICIUS G, TUZHILIN A. Toward the next generation of recommender systems: A survey of the state-of-the-art and possible extensions[J]. IEEE Transactions on Knowledge and Data Engineering, 2005, 17(6): 734-749.
[4]JAHRER M, T?SCHER A, LEGENSTEIN R. Combining predictions for accurate recommender systems[M]//Proceedings of the 16th ACM SIGKDD international conference on Knowledge discovery and data mining.New York, US:ACM, 2010: 693-702.
[5]ZHANG Z J, LIU H. Research on ontology-based literature retrieval model[J]. Computer Modelling and New Technologies, 2014,18(6):281-289.
[6]GRUBER T R. A translation approach to portable ontology specifications[J]. Knowledge acquisition, 1993, 5(2): 199-220.
[7]GUARINO N. Formal ontology in information systems[M]//Proceedings of the 1st International Conference.Amsterdam:IOS Press, 2008.
[8]MIDDLETON S E, SHADBOLT N R, de ROURE D C. Ontological user profiling in recommender systems[J]. ACM Transactions on Information Systems (TOIS), 2004, 22(1): 54-88.
[9]CANTADOR I, BELLOG N A, CASTELLS P. Ontology-based personalised and context-aware recommendations of news items[M]//Proceedings of the 2008 IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology-Volume 01. Washington, DC, US:IEEE Computer Society, 2008: 562-565.
[10]BURKE R. Integrating knowledge-based and collaborative-filtering recommender systems[M]//Proceedings of the Workshop on AI and Electronic Commerce. 1999: 69-72.
[11]NOOR S, MARTINEZ K. Using social data as context for making recommendations: an ontology based approach[M]//Proceedings of the 1st Workshop on Context, Information and Ontologies. ACM, 2009.
[12]CASTELLS P, FERNNDEZ M, VALLET D, et al. Self-tuning personalized information retrieval in an ontology-based framework[M]//On the Move to Meaningful Internet Systems 2005: OTM 2005 Workshops.Berlin:Springer , 2005: 977-986.
[13]李揚(yáng), 陳超, 祁麟, 等. 一種基于用戶行為相似度的協(xié)同推薦算法[C]//第六屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議 (HHME2010), 第 19 屆全國多媒體學(xué)術(shù)會(huì)議 (NCMT2010), 第 6 屆全國人機(jī)交互學(xué)術(shù)會(huì)議 (CHCI2010), 第 5 屆全國普適計(jì)算學(xué)術(shù)會(huì)議 (PCC2010) 論文集. 2010.
[14]肖敏, 熊前興. 基于項(xiàng)目語義相似度的協(xié)同過濾推薦算法[J]. 武漢理工大學(xué)學(xué)報(bào), 2009, 31(3): 21-23.
Application of ontology technology in personalized recommendation system
FAN Zhong-yong1,ZHANG Zhi-jun2*,ZHANG Peng-fei2
(1. Rizhao Radio &TV University, Rizhao 276826, China;2. School of Computer Science and Technology, Shandong Jianzhu University, Jinan 250101, China)
Abstract∶In view of the negatives of conventional user modeling technology in personalized recommendation system, we apply the theory and method of domain ontology to personalized recommendation of e-commerce, and design an ontology technology and clothing information combined recommendation model. We implement the construction procedure of clothing ontology with ontology editor tool Protégé. Feasibility and effectiveness of the model are verified on practical datasets. It has higher prediction accuracy, as compared with existing recommendation models.
Key words∶ontology; personalized recommendation; collaborative filtering; web crawler; preference prediction
中圖分類號(hào):TP391
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1002-4026(2016)02-0101-05
作者簡介:范忠勇(1972-),男,碩士,研究方向?yàn)閿?shù)據(jù)挖掘和人工智能。*通訊作者。Email:zzjsdcn@163.com
基金項(xiàng)目:山東省科技發(fā)展計(jì)劃(2014GGX101011);山東省高等學(xué)??萍加?jì)劃(J12LN31, J13LN11,J14LN14);濟(jì)南市高校院所自主創(chuàng)新計(jì)劃(201401214, 201303001)
收稿日期:2015-08-17
DOI:10.3976/j.issn.1002-4026.2016.02.019