吳燕 鐘永美 韓飛
摘 要 本文分析了基于數(shù)據(jù)挖掘的推薦引擎系統(tǒng)研究現(xiàn)狀,以及這種大數(shù)據(jù)庫(kù)中的數(shù)據(jù)挖掘的推薦引擎帶來的效果并分析其擁有的優(yōu)勢(shì)與劣勢(shì),并得出結(jié)論。
關(guān)鍵詞 數(shù)據(jù)挖掘 推薦引擎系統(tǒng) 數(shù)據(jù)分析
一、基于數(shù)據(jù)挖掘的推薦引擎系統(tǒng)的現(xiàn)狀
(一)推薦引擎系統(tǒng)的現(xiàn)狀
我們處于一個(gè)信息密集的時(shí)代,如果只是依靠簡(jiǎn)單的計(jì)算與處理,需要花費(fèi)大量的人力和時(shí)間,無法從海量信息中選擇對(duì)自己有用的信息。所以為了能夠在海量信息中提供符合用戶需要、感興趣的信息便產(chǎn)生了推薦引擎系統(tǒng)。相對(duì)于普通搜索引擎系統(tǒng),推薦引擎系統(tǒng)更加貼近用戶需求。
這項(xiàng)技術(shù)貼近人們生活的應(yīng)該是購(gòu)物平臺(tái)和一些訊息推送平臺(tái),如淘寶、天貓、京東等,它們的購(gòu)物首頁(yè)推送的物品往往是用戶剛剛搜索過的或者是搜索數(shù)量最多的,這些推送無疑會(huì)吸引用戶的注意力,從而增加銷售量。這些平臺(tái)的高明之處是通過傳輸數(shù)據(jù)使其他平臺(tái)也會(huì)出現(xiàn)為用戶量身定做的產(chǎn)品信息,使用戶隨時(shí)隨地都可以看見與產(chǎn)品的有關(guān)信息。
而一些訊息推送平臺(tái)如今日頭條,向用戶推送的新聞往往也是用戶比較感興趣的。這是后臺(tái)通過顯性信息和隱性信息綜合推算以此增加與用戶貼合性較高的推送量的結(jié)果。顯性信息是通過用戶填寫個(gè)人信息,對(duì)于文章的收藏、訂閱、留言等,以及手機(jī)問卷調(diào)查和用戶體驗(yàn)形式收集數(shù)據(jù);隱形信息是用戶搜索的內(nèi)容、搜索的次數(shù)、點(diǎn)擊率、瀏覽時(shí)間的長(zhǎng)短等。
(二)數(shù)據(jù)挖掘的現(xiàn)狀
數(shù)據(jù)庫(kù)與信息技術(shù)從20世紀(jì)60年代開始,從原始的文件走向復(fù)雜化,到80年代產(chǎn)生了數(shù)據(jù)挖掘的概念。經(jīng)過幾十年的發(fā)展,這項(xiàng)技術(shù)不斷完善和升級(jí),數(shù)據(jù)挖掘是面向?qū)ο蠓椒?、?shù)據(jù)庫(kù)技術(shù)、人工智能、高性能計(jì)算、信息檢索等多個(gè)技術(shù)領(lǐng)域相交的一門學(xué)科。
數(shù)據(jù)挖掘技術(shù)廣泛運(yùn)用于各個(gè)領(lǐng)域,尤其是運(yùn)用于發(fā)達(dá)國(guó)家金融行業(yè)預(yù)測(cè)銀行客戶的需求以及一些大型網(wǎng)站如亞馬遜、沃爾瑪?shù)?。我?guó)的數(shù)據(jù)挖掘技術(shù)并不像西方那么發(fā)達(dá),正處于起步階段,普及這門技術(shù)任重而道遠(yuǎn)。
二、對(duì)運(yùn)用數(shù)據(jù)挖掘的推薦引擎系統(tǒng)特性的研究
(一)此類推薦引擎系統(tǒng)共同具有的特性
基于前文的分析,可得出此類推薦引擎系統(tǒng)共同具有的特性如下:
數(shù)據(jù)收集與分析產(chǎn)生的差異性是數(shù)據(jù)挖掘技術(shù)的特點(diǎn),不同的用戶之間存在的個(gè)體差異導(dǎo)致個(gè)人信息的差異化,包括但不限于興趣愛好、年齡、收入階層、職業(yè)等。這些差異決定了用戶對(duì)信息的感興趣程度不同,因此差異性是其首要特征。
個(gè)性化是此類推薦引擎系統(tǒng)具有的鮮明的特性,也是運(yùn)用數(shù)據(jù)挖掘技術(shù)進(jìn)行信息推薦的必然結(jié)果。此類推薦引擎系統(tǒng)的運(yùn)行原理主要是通過收集用戶的主動(dòng)表達(dá)和個(gè)人信息,基于此推薦信息,將用戶的反饋?zhàn)鳛閰⒖?,為用戶推薦個(gè)性化的信息。在當(dāng)前時(shí)代背景下,這類推薦引擎系統(tǒng)的優(yōu)勢(shì)在于能夠幫助用戶便捷地獲取自己需要的和感興趣的信息。
(二)此類推薦引擎系統(tǒng)面臨的挑戰(zhàn)
雖然基于數(shù)據(jù)挖掘的推薦引擎系統(tǒng)的運(yùn)用日漸廣泛,但作為大數(shù)據(jù)時(shí)代誕生的一項(xiàng)技術(shù),其必然還存在一些問題。經(jīng)過分析,發(fā)現(xiàn)此類推薦引擎系統(tǒng)目前面臨如下挑戰(zhàn):
推薦信息的精準(zhǔn)度還存在不足,這是比較突出的一個(gè)問題。由于數(shù)據(jù)挖掘需要大量的用戶數(shù)據(jù)作為基礎(chǔ),就很容易形成在用戶剛開始使用時(shí),由于信息不夠完善,反饋不夠多,推薦的信息精確度較低的問題,這可能使用戶對(duì)系統(tǒng)的推薦功能失去信心。另外,用戶的興趣具有廣泛性,在收集用戶信息時(shí)集中于一兩點(diǎn),可能忽略了其他興趣點(diǎn),后續(xù)如果沒有補(bǔ)充完善,就可能造成信息整體準(zhǔn)確度比較低。
如何在精確度和廣泛性之間取得平衡是一個(gè)必須思考的問題。同一時(shí)間段,用戶的喜好是相對(duì)固定的,但如果一味推送固定的內(nèi)容,則容易讓人產(chǎn)生審美疲勞,這會(huì)使用戶失去興趣。而推薦新的信息,則意味著需要承擔(dān)推薦的精確度下降的風(fēng)險(xiǎn)。如何在二者之間取得平衡,也是此類推薦引擎系統(tǒng)目前面臨的挑戰(zhàn)。
還有一個(gè)客觀存在的問題是如何防止惡意信息對(duì)正常數(shù)據(jù)的影響,即如何保持?jǐn)?shù)據(jù)的純潔性。當(dāng)前營(yíng)銷手段多種多樣,出于利益的驅(qū)動(dòng),難免存在惡意破壞數(shù)據(jù)的行為,如給某一部電影或商品刷差評(píng)或惡意舉報(bào)等。如何抵御這些異常數(shù)據(jù)也是下一步需要優(yōu)化的問題。
三、結(jié)語(yǔ)
隨著信息時(shí)代的到來,基于數(shù)據(jù)挖掘的推薦引擎系統(tǒng)應(yīng)運(yùn)而生。通過分析基于數(shù)據(jù)挖掘的推薦引擎系統(tǒng)的現(xiàn)狀,我們可知,此類推薦引擎系統(tǒng)具有差異性和個(gè)性化兩個(gè)特點(diǎn)。同時(shí),其面臨著一系列的挑戰(zhàn)。要確保推薦信息的準(zhǔn)確度和數(shù)據(jù)的純潔性,需要相關(guān)的研發(fā)團(tuán)隊(duì)及編程人員收集更加精細(xì)化的數(shù)據(jù),并深入分析數(shù)據(jù)。如何在精確度和廣泛性之間找到平衡點(diǎn),仍需繼續(xù)探索。總之,在當(dāng)前環(huán)境下,基于數(shù)據(jù)挖掘的推薦引擎系統(tǒng)正面臨前所未有的機(jī)遇和挑戰(zhàn)。希望本文的分析能為其發(fā)展提供一些參考價(jià)值。
(作者單位為廣東東軟學(xué)院)
[作者簡(jiǎn)介:吳燕(1996—),女,廣東東軟學(xué)院商務(wù)管理系財(cái)務(wù)管理專業(yè)本科生。鐘永美(1996—),女,廣東東軟學(xué)院商務(wù)管理系財(cái)務(wù)管理專業(yè)本科生。韓飛(1969—),男,博士,廣東東軟學(xué)院副研究員,研究方向:金融學(xué)?;痦?xiàng)目:本文系廣東省教育廳(粵教高函[2017]56號(hào))2017年省級(jí)大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計(jì)劃立項(xiàng)項(xiàng)目“自動(dòng)閱讀機(jī)”(項(xiàng)目編號(hào):2017-12574-006)資助。]
參考文獻(xiàn)
[1] 范明.數(shù)據(jù)挖掘概念與技術(shù)[M].機(jī)械工業(yè)出版社,2006.
[2] 盧亮.搜索引擎原理、時(shí)間與應(yīng)用[M].電子工業(yè)出版社,2007.
[3] 廖貴明.個(gè)性化推薦引擎系統(tǒng)研究[D].電子科技大學(xué),2013.