武慧娟,周蘭萍,辛 躍
(東北電力大學(xué)經(jīng)濟(jì)管理學(xué)院,吉林 吉林 132012)
縱觀國(guó)內(nèi)外,針對(duì)個(gè)性化推薦研究的文獻(xiàn)很多,本文借助Excel工具統(tǒng)計(jì)國(guó)內(nèi)個(gè)性化推薦發(fā)展情況,借助Citespace科學(xué)知識(shí)圖譜的方法,客觀、科學(xué)的展示國(guó)外個(gè)性化推薦發(fā)展過(guò)程中的路線,追蹤個(gè)性化推薦的研究熱點(diǎn),正確把握研究前沿,為進(jìn)一步更好的對(duì)個(gè)性化推薦相關(guān)研究的開展提供理論意義和實(shí)踐價(jià)值。
本文所引用的數(shù)據(jù)分為國(guó)外和國(guó)內(nèi)兩方面,國(guó)內(nèi)數(shù)據(jù)來(lái)源于CNKI,通過(guò)主題詞“個(gè)性化推薦”進(jìn)行檢索,結(jié)果為670條文獻(xiàn),對(duì)下載的數(shù)據(jù)進(jìn)行清洗、過(guò)濾,最后得到666條文獻(xiàn);國(guó)外數(shù)據(jù)來(lái)源于美國(guó)科學(xué)情報(bào)研究所的科學(xué)引文索引擴(kuò)展的Web of Science數(shù)據(jù)庫(kù),檢索表達(dá)式為:主題詞設(shè)為“personalized recommendation”,文獻(xiàn)類型設(shè)為article,檢索結(jié)果得到508條文獻(xiàn)。檢索時(shí)間均為2012年2月16日,由于2012年的數(shù)據(jù)不完整,所以國(guó)內(nèi)和國(guó)外的2012年數(shù)據(jù)不作為研究?jī)?nèi)容。
本文采用定量與定性相結(jié)合的研究方法,利用Excel統(tǒng)計(jì)軟件和Citespace[1]可視化軟件進(jìn)行統(tǒng)計(jì)分析,Citespace是美國(guó)德雷克塞爾大學(xué)陳超美團(tuán)隊(duì)開發(fā)的一款在科學(xué)文獻(xiàn)中識(shí)別與可視化新趨勢(shì)與新動(dòng)態(tài)的Java應(yīng)用程序,已成為信息分析領(lǐng)域中影響力較大的信息可視化軟件。
將國(guó)內(nèi)外的檢索結(jié)果按年進(jìn)行統(tǒng)計(jì),可以發(fā)現(xiàn)國(guó)內(nèi)國(guó)外對(duì)個(gè)性化推薦開始研究的時(shí)間不一樣,國(guó)內(nèi)開始于2001年,要晚于國(guó)外,而國(guó)外開始于1999。國(guó)內(nèi)在2011年達(dá)到發(fā)文量最大148篇,同年,國(guó)外也達(dá)到最大93篇,研究熱度都在不斷升高,具體見表1所示。
由于表1中的數(shù)據(jù)不能夠直觀的顯示國(guó)內(nèi)外的發(fā)文量增長(zhǎng)趨勢(shì),于是利用Excel繪制了圖1,具體如圖1所示。
圖1 國(guó)內(nèi)外發(fā)文量增長(zhǎng)趨勢(shì)比較
從圖1可以看出,國(guó)內(nèi)外發(fā)文量總體上呈上升趨勢(shì),國(guó)內(nèi)從2001年開始,在2007年為55篇,2008年有所減少,發(fā)文量為51篇,然后2009年又呈上升趨勢(shì)。國(guó)際從1999開始,在2004年達(dá)到小高峰49篇,然后有所下降,在2007年達(dá)到最低值33篇,然后又呈上升趨勢(shì)。從總體發(fā)文量上看,國(guó)外為508,國(guó)內(nèi)為666,國(guó)內(nèi)較多,從每年的發(fā)文量上看,2006年為一個(gè)轉(zhuǎn)折點(diǎn),這年之前,國(guó)內(nèi)落后于國(guó)外,這年以后,國(guó)內(nèi)超越了國(guó)外,說(shuō)明,經(jīng)過(guò)學(xué)術(shù)徘徊期,國(guó)內(nèi)的許多研究學(xué)者找到了個(gè)性化推薦研究的方向,進(jìn)入研究的新軌道。
被引頻次是反映期刊所發(fā)表論文被引用的情況,并直接反映期刊在科學(xué)發(fā)展和交流中所起的作用。其含義為:“指一定時(shí)期內(nèi),某種期刊上的文章被引用的絕對(duì)次數(shù),也就是被引用的總次數(shù)”[2]。
(1)國(guó)內(nèi)文獻(xiàn)分析
將國(guó)內(nèi)文獻(xiàn)的檢索結(jié)果按照被引頻次排名,其中排前5位的文獻(xiàn)見表2所示。
表2 國(guó)內(nèi)個(gè)性化推薦被引頻次前5名
(2)國(guó)外文獻(xiàn)分析
將國(guó)外檢索結(jié)果作為數(shù)據(jù)源輸入Citespace中,其中time slicing設(shè)為1999-2012,years per slice設(shè)為1,表示按年進(jìn)行時(shí)間切片;Term source選擇title、abstract、Descriptors、identifiers 四個(gè)選項(xiàng);Node type設(shè)為Cite Reference;選擇適當(dāng)?shù)拈y值,最后繪制的高被引文獻(xiàn)知識(shí)圖譜如圖2所示,其中排名前5位的如表3所示。
表3 國(guó)外個(gè)性化推薦高被引文獻(xiàn)
共被引頻次最高文獻(xiàn)的作者M(jìn)arko B等提出引入基于內(nèi)容和協(xié)作過(guò)濾兩個(gè)算法,可以增強(qiáng)Fab推薦系統(tǒng)的各個(gè)方面[3]。排第二位和第三位的文獻(xiàn)內(nèi)容大致相同,都提出基于協(xié)作過(guò)濾的網(wǎng)絡(luò)新聞開放式架構(gòu)或應(yīng)用,它主要利用其它人對(duì)同一類網(wǎng)絡(luò)新聞的評(píng)價(jià)來(lái)更好的為某一用戶進(jìn)行信息過(guò)濾[4]。Adomavi-cius G等總結(jié)了目前現(xiàn)有的推薦模型:基于內(nèi)容和基于協(xié)作過(guò)濾和混合三種,并提出為了改善推薦的性能,可以對(duì)現(xiàn)有的模型進(jìn)行擴(kuò)展,具體是增強(qiáng)對(duì)用戶的理解、對(duì)推薦信息的前后關(guān)系進(jìn)行整合、支持多層次的評(píng)定等級(jí),以及形成更柔性化的推薦系統(tǒng)[5]。
對(duì)比國(guó)內(nèi)外的共被引高頻文獻(xiàn),可以發(fā)現(xiàn),兩者作為知識(shí)基礎(chǔ)比較相似,都提出了基于內(nèi)容、基于協(xié)作過(guò)濾和混合三種模式,不同的是:國(guó)內(nèi)比較注重理論的研究:個(gè)性化技術(shù)、個(gè)性化推薦理論、推薦策略等;而國(guó)外更注重實(shí)踐,針對(duì)目前應(yīng)用問(wèn)題,提出新模型。例如,David G的郵件推薦系統(tǒng)[6]。
(1)國(guó)內(nèi)文獻(xiàn)分析
將檢索到的666篇文獻(xiàn)進(jìn)行關(guān)鍵詞統(tǒng)計(jì)分析,發(fā)現(xiàn)共有40個(gè)關(guān)鍵詞,頻次大于7的主題詞如表4所示。由此可以看出,國(guó)內(nèi)的研究熱點(diǎn)集中在個(gè)性化推薦、協(xié)同過(guò)濾、電子商務(wù)、Web挖掘、關(guān)聯(lián)規(guī)則等。
表4 國(guó)內(nèi)個(gè)性化推薦高頻次關(guān)鍵詞表
(2)國(guó)外文獻(xiàn)分析
將國(guó)外文獻(xiàn)檢索結(jié)果輸入citespace中,將Node type設(shè)為Keyword,其他參數(shù)設(shè)置與圖2繪制時(shí)相同,最后得到關(guān)鍵詞共現(xiàn)圖譜,其中關(guān)鍵詞節(jié)點(diǎn)數(shù)為252,連線為522,具體如圖3所示,排名前10位的關(guān)鍵詞具體如表5所示。
對(duì)比國(guó)內(nèi)外的關(guān)鍵詞,兩者基本相似,說(shuō)明國(guó)內(nèi)外對(duì)個(gè)性化推薦的研究有一定的共同方向,如國(guó)內(nèi)外關(guān)于協(xié)同過(guò)濾都排第三,可見協(xié)同過(guò)濾是國(guó)內(nèi)外共同高度關(guān)注的一個(gè)研究熱點(diǎn);但各自的研究側(cè)重點(diǎn)可能不太相同,如國(guó)內(nèi)在前14名的排名中,出現(xiàn)了關(guān)聯(lián)規(guī)則、相似性、聚類、本體等關(guān)鍵詞,國(guó)外都沒(méi)有出現(xiàn),但是國(guó)外前14名的排名中出現(xiàn)了信息過(guò)載、用戶偏好等關(guān)鍵詞,而國(guó)內(nèi)沒(méi)有出現(xiàn),說(shuō)明國(guó)內(nèi)側(cè)重于個(gè)性化推薦的技術(shù)的研究,或者將各種技術(shù)混合起來(lái)進(jìn)行推薦,而國(guó)外側(cè)重于考慮目前實(shí)際應(yīng)用中遇到的信息過(guò)載、用戶偏好等問(wèn)題開展研究,經(jīng)過(guò)實(shí)際調(diào)查、收集數(shù)據(jù)取得實(shí)證研究。
圖3 國(guó)外個(gè)性化推薦關(guān)鍵詞共現(xiàn)圖譜
表5 國(guó)外個(gè)性化推薦高頻次關(guān)鍵詞
圖4 國(guó)外個(gè)性化推薦關(guān)鍵詞聚類時(shí)區(qū)圖
為了確定國(guó)外個(gè)性化推薦的研究前沿,在高頻關(guān)鍵詞的基礎(chǔ)之上,選用突變檢測(cè)算法來(lái)檢測(cè)關(guān)鍵詞,同時(shí)選用timezone(時(shí)區(qū)圖)聚類節(jié)點(diǎn),其中紅色的圓環(huán)表示突變率較高的關(guān)鍵詞,點(diǎn)擊相關(guān)節(jié)點(diǎn)就會(huì)出現(xiàn)標(biāo)簽,最后生成關(guān)鍵詞聚類時(shí)區(qū)圖,具體如圖4所示。圖4中的突變?cè)~主要有personal preference、social networks、similarity、accurate prediction、electronic program guide、computational cost等。其中,“personal preference”的國(guó)外頻次為9,它的提出充分考慮個(gè)性化的偏好,提高了用戶推薦信息的精準(zhǔn)度,Chiu PoHuan等通過(guò)20000個(gè)實(shí)證用戶,跟蹤他們的瀏覽習(xí)慣和瀏覽歷史,最后得出相關(guān)博客的點(diǎn)擊率和在
某個(gè)感興趣的博客上花費(fèi)的時(shí)間是用戶最關(guān)心的問(wèn)題[7]?!皊ocial networks”的頻次為5,基于社會(huì)化網(wǎng)絡(luò)的推薦主要考慮了社會(huì)化群體的作用,以用戶為中心,通過(guò)分析一個(gè)緊密聯(lián)系的群體中個(gè)體之間的關(guān)系結(jié)構(gòu),考慮個(gè)體用戶的偏好,從而為相互之間的信息傳遞提供基礎(chǔ),使得信息推薦更準(zhǔn)確,更易于個(gè)體用戶接受。Bonhard P等提出現(xiàn)有的基于協(xié)作等的信息推薦沒(méi)有說(shuō)明為何要推薦信息甲給用戶甲,而不是推薦信息乙給用戶甲,所提它提出以用戶為中心,從社會(huì)網(wǎng)絡(luò)的關(guān)系出發(fā),告訴用戶甲,他的朋友對(duì)信息甲的看法、行動(dòng)[8]。
相比較之下,國(guó)內(nèi)在2007年陸續(xù)開始了在信息推薦中用戶偏好的研究,高琳琦針對(duì)新聞瀏覽者的偏好易變等特點(diǎn),通過(guò)度量在線用戶的點(diǎn)擊和閱讀行為,根據(jù)用戶實(shí)際閱讀的新聞,調(diào)整其關(guān)鍵字偏好,并采用模糊相似度來(lái)分析用戶偏好結(jié)構(gòu)與新聞結(jié)構(gòu)的相似性,從而產(chǎn)生推薦[9]。國(guó)內(nèi)于2006年陳君等的文獻(xiàn)里開始了將社會(huì)網(wǎng)絡(luò)應(yīng)用在個(gè)性化信息推薦中研究,其中文獻(xiàn)20中基于社會(huì)網(wǎng)絡(luò)信息流模型,提出協(xié)同過(guò)濾算法SMRR,它綜合考慮用戶自身偏好和社會(huì)網(wǎng)絡(luò)中其他成員的影響,使得SMRR的預(yù)測(cè)準(zhǔn)確率明顯高于原有算法[10]。
通過(guò)以上對(duì)國(guó)內(nèi)外個(gè)性化推薦高被引文獻(xiàn)、研究熱點(diǎn)的對(duì)比分析和國(guó)外研究前沿的探索,可知對(duì)個(gè)性化推薦的研究國(guó)內(nèi)開始于2001年,要晚于國(guó)外,而國(guó)外開始于1999,對(duì)比國(guó)內(nèi)外的共被引高頻文獻(xiàn),可以發(fā)現(xiàn),兩者作為知識(shí)基礎(chǔ)比較相似,不同之處是國(guó)外更注重實(shí)踐,針對(duì)目前應(yīng)用問(wèn)題,提出新模型;同時(shí)從國(guó)內(nèi)外的關(guān)鍵詞對(duì)比也可以發(fā)現(xiàn),兩者在協(xié)同過(guò)濾、電子商務(wù)、用戶模型、數(shù)據(jù)挖掘等方面的研究基本相似,尤其是基于協(xié)同過(guò)濾模式的個(gè)性化推薦都引起了國(guó)內(nèi)外學(xué)者們的密切關(guān)注,但各自的研究側(cè)重點(diǎn)可能不太相同,國(guó)內(nèi)側(cè)重于關(guān)聯(lián)規(guī)則、相似性、聚類、本體等方面的理論研究,而國(guó)外側(cè)重于信息過(guò)載、用戶偏好等實(shí)證研究;在研究前沿方面,通過(guò)我國(guó)于2006年開始社會(huì)化網(wǎng)絡(luò)方面的研究等,但是與國(guó)外相比,缺乏實(shí)踐與應(yīng)用的研究,即缺乏對(duì)實(shí)際的個(gè)性化推薦過(guò)程中遇到的問(wèn)題的分析與解決的研究。通過(guò)以上研究可以看出,要通過(guò)加強(qiáng)國(guó)內(nèi)實(shí)際個(gè)性化推薦的應(yīng)用研究,才能使各種理論和方法得以真正實(shí)現(xiàn),真正解決各種各樣用戶所面臨的問(wèn)題,為我國(guó)的電子商務(wù)、企業(yè)、網(wǎng)民等推薦優(yōu)質(zhì)信息。
[1]Chen C.Citespace II.Detecting and visualizing emerging trendsand transient patterns in scientific literature[J].Journal of the American Society for Information Science and Tech-nology,2006,57(3):359 -377.
[2]錢榮貴.核心期刊與期刊評(píng)價(jià)[M].北京:中國(guó)傳媒大學(xué)出版社,2006:14-14.
[3]Balabanovic M.,Shoham Y..Content-Based,Collaborative,Recommendation[J].Communicatiuns of the ACM.1997,40(3):66 -73.
[4]Konstan,J.,Miller,B.,Maltz,D.et al..GroupLens:Applying Collaborative Filtering to Usenet News[J].Communications of the ACM,1997,40(3):77 -87.
[5]Adomavicius,G.,Tuzhilin,A.,Carlson Sch..Toward the next generation of recommender systems:A survey of the state-of-the-art and possible extensions[J].Knowledge and Data Engineeri-ng,2005,17(6):734 -749.
[6]David Goldberg.Using Collaborative Filtering to Weave an Information Tapestry[J].Communi-cations of the ACM,1992,35(12):61 - 71.
[7]Chiu PoHuan,Kao Gloria Yi-Min,Lo ChiChun.Personalized blog content recommender system for mobile phone users[J].International Journal of Human Computer Studies,2010,68(8):496 -507.
[8]Bonhard P.;Sasse M.A.Knowing me,knowing you'using profiles and social networking to improve recommender systems[J].Bt Technology Journal,2006,24(3):84 -98.
[9]高琳琦.基于用戶行為分析的自適應(yīng)新聞推薦模型[J].圖書情報(bào)工作,2007,51(6):77-80.
[10]萬(wàn)里,廖建新,王純.基于社會(huì)網(wǎng)絡(luò)信息流模型的協(xié)同過(guò)濾算法[J].吉林大學(xué)學(xué)報(bào):工學(xué)版,2011,41(1):270-275.