徐勇 汪倩 張瑋 武雅利 焦夢(mèng)蕾 許崇
摘要:個(gè)性化推薦有效緩解了大數(shù)據(jù)時(shí)代“數(shù)據(jù)爆炸”的現(xiàn)象,通過(guò)事先了解用戶的潛在興趣偏好,有針對(duì)性的提供符合用戶實(shí)際需求的信息,從而提高用戶的使用效率。本文通過(guò)文獻(xiàn)計(jì)量的方法對(duì)2008年到2018年之間的有關(guān)個(gè)性化推薦的相關(guān)文獻(xiàn)進(jìn)行統(tǒng)計(jì)分析,分別從時(shí)間分布、期刊分布、關(guān)鍵詞共現(xiàn)分析以及關(guān)鍵詞聚類(lèi)分析幾個(gè)部分展開(kāi)研究,以發(fā)現(xiàn)個(gè)性化推薦領(lǐng)域的主要研究熱點(diǎn)問(wèn)題與發(fā)展趨勢(shì),進(jìn)而探討未來(lái)研究的走向,為個(gè)性化推薦的發(fā)展提供依據(jù)。
Abstract: Personalized recommendations effectively alleviate the phenomenon of "data explosion" in the age of big data, through the prior understanding of the user's potential interest preferences, targeted to provide information in line with the actual needs of users, so as to improve the efficiency of user use. Through the method of literature measurement, this paper makes a statistical analysis of the relevant literatures about personalized recommendations between 2008 and 2018, and studies them from several parts, such as time distribution, periodical distribution, keyword co-analysis and keyword clustering analysis, in order to find out the main research hot issues and development trends in the field of personalized recommendation. Then it discusses the trend of future research and provides the basis for the development of personalized recommendation.
關(guān)鍵詞:個(gè)性化推薦;文獻(xiàn)計(jì)量;研究進(jìn)展
Key words: personalized recommendation;literature measurement;research progress
中圖分類(lèi)號(hào):TP274+.2 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文章編號(hào):1006-4311(2019)15-0142-03
0 ?引言
Web 2.0時(shí)代的到來(lái),用戶從過(guò)去單純的瀏覽網(wǎng)絡(luò)信息到現(xiàn)在既能閱讀信息同時(shí)還能自由的在網(wǎng)絡(luò)上生成大量?jī)?nèi)容,使得網(wǎng)絡(luò)資源數(shù)量龐大,用戶使用網(wǎng)絡(luò)獲取資源時(shí),很難準(zhǔn)確找到所需要的信息,從而浪費(fèi)用戶時(shí)間,促使互聯(lián)網(wǎng)的使用不再方便便捷。個(gè)性化推薦技術(shù)有效緩解了該現(xiàn)象,它通過(guò)事先了解用戶的需求偏好,并針對(duì)其偏好推薦相應(yīng)的內(nèi)容信息,從而滿足用戶的需求。目前,個(gè)性化推薦技術(shù)也被廣泛應(yīng)用于多個(gè)領(lǐng)域,有效促進(jìn)各行各業(yè)的發(fā)展進(jìn)步。因此,本文針對(duì)個(gè)性化推薦領(lǐng)域進(jìn)行文獻(xiàn)計(jì)量分析,了解該領(lǐng)域的研究整體趨勢(shì)特征,挖掘研究熱點(diǎn)問(wèn)題,進(jìn)而更好的把握個(gè)性化推薦的研究進(jìn)展?fàn)顩r[1]。
1 ?數(shù)據(jù)來(lái)源與研究方法
本文以CSSCI和EI兩個(gè)數(shù)據(jù)庫(kù)作為數(shù)據(jù)來(lái)源,并以“個(gè)性化推薦”作為“主題”“關(guān)鍵詞”“篇名”分別進(jìn)行檢索,時(shí)間跨度為2008年1月1日到2018年12月31日,共獲得510篇相關(guān)研究文獻(xiàn)。通過(guò)人工對(duì)搜索到的文獻(xiàn)進(jìn)行閱讀篩選,去除無(wú)關(guān)、重復(fù)等文獻(xiàn)后,最終獲得503篇文獻(xiàn)(檢索時(shí)間:2019年3月17日)。
文獻(xiàn)計(jì)量法是一種專(zhuān)門(mén)通過(guò)數(shù)學(xué)的方式統(tǒng)計(jì)文獻(xiàn)的如發(fā)文時(shí)間分布、期刊來(lái)源分布、作者機(jī)構(gòu)分布等文獻(xiàn)一般特征,并基于得到的特征了解所研究領(lǐng)域的研究整體狀況以及研究的走向,探索未來(lái)的研究發(fā)展趨勢(shì),為更好的促進(jìn)該領(lǐng)域的進(jìn)一步深入提供支持。本文通過(guò)使用Excel、citespace軟件對(duì)所獲得的研究文獻(xiàn)進(jìn)行文獻(xiàn)計(jì)量分析,獲得研究文獻(xiàn)的文獻(xiàn)特征,并通過(guò)對(duì)核心關(guān)鍵詞以及關(guān)鍵詞的聚類(lèi)分析等來(lái)挖掘研究熱點(diǎn)問(wèn)題,探索未來(lái)的研究發(fā)展方向。
2 ?計(jì)量結(jié)果分析
2.1 時(shí)間分布
通過(guò)對(duì)2008年到2018年間發(fā)表的503篇相關(guān)研究文獻(xiàn)進(jìn)行統(tǒng)計(jì)分析后,繪制成發(fā)文篇數(shù)隨時(shí)間變化的折線圖,如圖 1 所示。從圖中可以看出,從2008年到2018年期間發(fā)文篇數(shù)整體呈現(xiàn)上升的趨勢(shì),雖期間存在一定的下降,但整體相對(duì)于2008年的16篇仍是上升的。而此現(xiàn)象的出現(xiàn)正是由于互聯(lián)網(wǎng)時(shí)代的到來(lái),越來(lái)越多的用戶使用互聯(lián)網(wǎng),造成網(wǎng)絡(luò)數(shù)據(jù)泛濫的現(xiàn)象開(kāi)始出現(xiàn),為了使用戶更好的使用互聯(lián)網(wǎng),個(gè)性化推薦技術(shù)顯得尤為重要。因此,對(duì)于個(gè)性化推薦的研究越來(lái)越引起學(xué)者的重視,相關(guān)的研究文獻(xiàn)不斷涌現(xiàn)。
2.2 期刊分布
期刊分布能在一定程度上反映個(gè)性化推薦領(lǐng)域研究的現(xiàn)狀以及研究深度,對(duì)于想要初步了解此領(lǐng)域的學(xué)者可提供一定的相關(guān)信息[2]。通過(guò)對(duì)這503篇文獻(xiàn)的統(tǒng)計(jì)后,發(fā)現(xiàn)文獻(xiàn)共分布在103種期刊上。其中,發(fā)表文獻(xiàn)數(shù)量在10篇以上的期刊共有11種(如表1 所示),而這11個(gè)期刊所發(fā)表的文獻(xiàn)總量高達(dá)274篇。圖書(shū)情報(bào)工作發(fā)表的相關(guān)文獻(xiàn)數(shù)量最多,高達(dá)43篇,情報(bào)理論與實(shí)踐、現(xiàn)代情報(bào)、情報(bào)科學(xué)這3種期刊發(fā)表的文獻(xiàn)數(shù)量也均在30篇左右。可以發(fā)現(xiàn),對(duì)于此領(lǐng)域的研究,學(xué)者發(fā)表的文獻(xiàn)主要在這11種,且大多在圖情領(lǐng)域較多。
2.3 關(guān)鍵詞共現(xiàn)分析
文獻(xiàn)中的關(guān)鍵詞是涵蓋該文獻(xiàn)主要研究?jī)?nèi)容與研究方法,代表研究的中心思想的。因此,關(guān)鍵詞共現(xiàn)分析對(duì)于明晰個(gè)性化推薦領(lǐng)域的研究進(jìn)展與現(xiàn)狀是必不可少的。使用citespace軟件進(jìn)行關(guān)鍵詞分析,如圖2所示。其中,節(jié)點(diǎn)的大小代表其中心度的大小,節(jié)點(diǎn)越大,表明中心度越多高,各關(guān)鍵詞之間的連線代表其共現(xiàn)的次數(shù),連線越粗,表明共現(xiàn)次數(shù)越多。
并統(tǒng)計(jì)出頻次在10次及以上的高頻關(guān)鍵詞,如表2所示。
從表2 可以看出,詞頻在10次以上的共有16個(gè)關(guān)鍵詞,除了“個(gè)性化推薦”“個(gè)性化”“個(gè)性化服務(wù)”“個(gè)性化信息服務(wù)”這4個(gè)明顯有代表性的關(guān)鍵詞以外,其余幾個(gè)高頻關(guān)鍵詞的中心度也很高,說(shuō)明這些詞在個(gè)性化推薦領(lǐng)域研究的較多。通過(guò)對(duì)這12個(gè)高頻詞進(jìn)行分析,可以將其分為3個(gè)部分。第1部分包括“協(xié)同過(guò)濾”“推薦系統(tǒng)”,它是個(gè)性化推薦研究的核心構(gòu)件,目前對(duì)于個(gè)性化推薦的研究主要集中于推薦算法、推薦模型、推薦系統(tǒng)的構(gòu)建,而協(xié)同過(guò)濾技術(shù)是運(yùn)用較多的一種推薦算法。第2部分是“大數(shù)據(jù)”“電子商務(wù)”“數(shù)字圖書(shū)館”“高校圖書(shū)館”“圖書(shū)館”等,表明了個(gè)性化推薦的主要應(yīng)用領(lǐng)域。第3部分由“情境感知”“用戶偏好”“數(shù)據(jù)挖掘”等組成,顯示出此研究領(lǐng)域中密切相關(guān)的技術(shù)與研究方向,是實(shí)現(xiàn)個(gè)性化推薦的關(guān)鍵部分。
2.4 關(guān)鍵詞聚類(lèi)分析
通過(guò)對(duì)關(guān)鍵詞進(jìn)行聚類(lèi)分析,將相同主題的關(guān)鍵詞聚成一類(lèi),并對(duì)同一類(lèi)別的關(guān)鍵詞進(jìn)行梳理,進(jìn)而挖掘個(gè)性化推薦領(lǐng)域的研究熱點(diǎn)話題。本文使用citespace軟件進(jìn)行聚類(lèi),并過(guò)濾掉較小的類(lèi)別,按時(shí)間進(jìn)行展示,各聚類(lèi)結(jié)果如圖3所示。
從圖中可以看出,將關(guān)鍵詞主要分為了6大類(lèi),分別為“電子商務(wù)”“用戶畫(huà)像”“個(gè)性化信息服務(wù)”“情境感知”“協(xié)同過(guò)濾”“個(gè)性化推薦”。通過(guò)對(duì)這6類(lèi)的主題進(jìn)行統(tǒng)計(jì)分析后,將其分為兩大主要研究類(lèi)別。其一是個(gè)性化推薦技術(shù)的應(yīng)用領(lǐng)域研究。目前個(gè)性化推薦主要應(yīng)用于電子商務(wù)[3,4,5,6]、圖書(shū)情報(bào)[7,8,9]、音樂(lè)[10]、新聞推薦[11]等領(lǐng)域中,這是由于個(gè)性化推薦技術(shù)能夠有效緩解大數(shù)據(jù)時(shí)代網(wǎng)絡(luò)信息資源泛濫的情形,根據(jù)用戶喜好進(jìn)行自主推薦,對(duì)于提高用戶的使用效率和主觀感受,顯得尤為重要。另一個(gè)主要研究類(lèi)別是實(shí)現(xiàn)個(gè)性化推薦技術(shù)所需的推薦算法、用戶畫(huà)像、數(shù)據(jù)挖掘等技術(shù)的進(jìn)一步研究。推薦算法是實(shí)現(xiàn)個(gè)性化推薦的核心所在,而目前使用較多的是協(xié)同過(guò)濾技術(shù),它通過(guò)挖掘出與目標(biāo)用戶相同喜好的其他用戶,并將其他用戶購(gòu)買(mǎi)的物品中目標(biāo)用戶未購(gòu)買(mǎi)的商品推薦給用戶,從而實(shí)現(xiàn)個(gè)性化推薦。而事先了解用戶的興趣偏好對(duì)于個(gè)性化推薦的實(shí)現(xiàn)是不可或缺的,用戶畫(huà)像技術(shù)也因此逐漸展開(kāi)研究。通過(guò)采集用戶在網(wǎng)絡(luò)上的行為數(shù)據(jù),運(yùn)用自然語(yǔ)言處理、機(jī)器學(xué)習(xí)等技術(shù)分析數(shù)據(jù),從而提取用戶特征標(biāo)簽,構(gòu)建用戶畫(huà)像。因此,運(yùn)用用戶畫(huà)像技術(shù),能夠迅速便捷的獲取用戶偏好,從而進(jìn)行有針對(duì)性的推薦,實(shí)現(xiàn)“個(gè)性化”。
3 ?結(jié)論
本文通過(guò)使用文獻(xiàn)計(jì)量的方法,運(yùn)用citespace、Excel軟件對(duì)2008年到2018年之間的有關(guān)個(gè)性化推薦的研究文獻(xiàn)進(jìn)行統(tǒng)計(jì)分析,分別從時(shí)間分布、期刊分布、關(guān)鍵詞共現(xiàn)以及聚類(lèi)分析幾方面進(jìn)行研究,以發(fā)現(xiàn)個(gè)性化推薦領(lǐng)域的主要研究熱點(diǎn)問(wèn)題與發(fā)展趨勢(shì)。未來(lái)對(duì)于個(gè)性化推薦的研究仍需進(jìn)一步提高推薦算法的推薦精度,更好的消除冷啟動(dòng)、數(shù)據(jù)稀疏所造成的影響,實(shí)現(xiàn)更精準(zhǔn)的推薦。其次,需采集跨領(lǐng)域的用戶相關(guān)數(shù)據(jù),構(gòu)建更加完善的用戶畫(huà)像,以發(fā)現(xiàn)用戶的多方面的需求特征,提高推薦效果,同時(shí)考慮用戶興趣變化的特點(diǎn),構(gòu)建實(shí)時(shí)的用戶畫(huà)像。然后,現(xiàn)有的個(gè)性化推薦大多應(yīng)用于電子商務(wù)、音樂(lè)、新聞等領(lǐng)域,未來(lái)可繼續(xù)擴(kuò)展其應(yīng)用范圍,可將其推廣到醫(yī)療領(lǐng)域、教育領(lǐng)域等。最后,對(duì)于推薦效果的好壞如何進(jìn)行評(píng)價(jià),可構(gòu)建一個(gè)統(tǒng)一的指標(biāo)體系,提高評(píng)價(jià)的可信度,更好的實(shí)現(xiàn)個(gè)性化推薦。
參考文獻(xiàn):
[1]孫湘湘,周小亮.我國(guó)產(chǎn)業(yè)經(jīng)濟(jì)學(xué)研究熱點(diǎn)和前沿的可視化分析[J].武漢理工大學(xué)學(xué)報(bào)(信息與管理工程版),2018,40(05):550-555,560.
[2]劉智穎,賀穎.基于CNKI數(shù)據(jù)庫(kù)的檔案用戶需求文獻(xiàn)計(jì)量分析(2010-2017)[J].檔案管理,2019(01):22-25.
[3]杜巍,高長(zhǎng)元.移動(dòng)電子商務(wù)環(huán)境下個(gè)性化情景推薦模型研究[J].情報(bào)理論與實(shí)踐,2017,40(10):56-61.
[4]劉晶,李妍,侯會(huì)茹.移動(dòng)電子商務(wù)多源關(guān)聯(lián)個(gè)性化推薦架構(gòu)[J].情報(bào)理論與實(shí)踐,2014,37(04):98-100.
[5]陳明.基于信息流的實(shí)時(shí)電子商務(wù)動(dòng)態(tài)個(gè)性化推薦[J].情報(bào)雜志,2008(08):29-30,56.
[6]邵波,宋繼偉.國(guó)內(nèi)外電子商務(wù)個(gè)性化服務(wù)研究分析[J].情報(bào)雜志,2008(07):78-80.
[7]耿立校,晉高杰,李亞函,孫衛(wèi)忠,馬士豪.基于改進(jìn)內(nèi)容過(guò)濾算法的高校圖書(shū)館文獻(xiàn)資源個(gè)性化推薦研究[J].圖書(shū)情報(bào)工作,2018,62(21):112-117.
[8]焦玉英,袁靜.基于情景模型的數(shù)字圖書(shū)館個(gè)性化服務(wù)研究[J].中國(guó)圖書(shū)館學(xué)報(bào),2008(06):58-63.
[9]王慶,趙發(fā)珍.基于“用戶畫(huà)像”的圖書(shū)館資源推薦模式設(shè)計(jì)與分析[J].現(xiàn)代情報(bào),2018,38(03):105-109,137.
[10]李瑞敏,林鴻飛,閆俊.基于用戶-標(biāo)簽-項(xiàng)目語(yǔ)義挖掘的個(gè)性化音樂(lè)推薦[J].計(jì)算機(jī)研究與發(fā)展,2014,51(10):2270-2276.
[11]孟祥武,陳誠(chéng),張玉潔.移動(dòng)新聞推薦技術(shù)及其應(yīng)用研究綜述[J].計(jì)算機(jī)學(xué)報(bào),2016,39(04):685-703.