中國(guó)聯(lián)合網(wǎng)絡(luò)通信有限公司 河南分公司 王 方
河南工程學(xué)院 蘇玉召
河南日?qǐng)?bào)報(bào)業(yè)集團(tuán) 大河網(wǎng) 黃文睿
數(shù)據(jù)驅(qū)動(dòng)與目標(biāo)驅(qū)動(dòng)的個(gè)性化比較
中國(guó)聯(lián)合網(wǎng)絡(luò)通信有限公司 河南分公司 王 方
河南工程學(xué)院 蘇玉召
河南日?qǐng)?bào)報(bào)業(yè)集團(tuán) 大河網(wǎng) 黃文睿
最近很多關(guān)于個(gè)性化研究和開(kāi)發(fā)的科技創(chuàng)新,在商業(yè),公共服務(wù)業(yè),搜索引擎和電子服務(wù)網(wǎng)站等領(lǐng)域都有了全新的發(fā)展。但是個(gè)性化是一個(gè)快速發(fā)展的領(lǐng)域,對(duì)于個(gè)性化概念的認(rèn)識(shí),不同的研究者和開(kāi)發(fā)者對(duì)個(gè)性化的理解也各不相同,所持觀點(diǎn)也各不盡同。
本文,筆者對(duì)幾種關(guān)于個(gè)性化的重要觀點(diǎn)進(jìn)行了總結(jié)歸納。一般來(lái)說(shuō),個(gè)性化定制某些供應(yīng)功能,通過(guò)這些功能呈現(xiàn)給用戶,能夠根據(jù)用戶的需要和目的等滿足用戶的需要。提供給用戶的功能包括內(nèi)容,服務(wù),產(chǎn)品推薦,交流和電子商務(wù)交互。這些服務(wù)的提供者可以是電子商務(wù)網(wǎng)站,搜索引擎和公共服務(wù)網(wǎng)站等類似的站點(diǎn),用戶可以是網(wǎng)上購(gòu)物者和訪問(wèn)網(wǎng)站者。
設(shè)計(jì)個(gè)性化過(guò)程最常用的方法稱為“數(shù)據(jù)驅(qū)動(dòng)”,也稱為“向前”方法。這種方法的特點(diǎn)是:先收集所需的數(shù)據(jù),然后建立用戶模型,再使用數(shù)據(jù)挖掘算法,最后評(píng)價(jià)個(gè)性化的影響。但是,人們更喜歡“向后”的方法設(shè)計(jì)個(gè)性化過(guò)程,也稱為“目標(biāo)驅(qū)動(dòng)”,這是因?yàn)槿藗冾A(yù)先設(shè)定了目標(biāo),然后再設(shè)計(jì)個(gè)性化的每個(gè)階段。相比較而言,后者是前者的反過(guò)程。
個(gè)性化組成過(guò)程大致可以分為5個(gè)階段:用戶信息收集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘、個(gè)性化推薦和用戶評(píng)價(jià)。在個(gè)性化開(kāi)發(fā)的具體階段,可以進(jìn)行功能的細(xì)化。同時(shí),個(gè)性化在應(yīng)用過(guò)程中,根據(jù)用戶的評(píng)價(jià),調(diào)整個(gè)性化策略,從而改進(jìn)個(gè)性化質(zhì)量。根據(jù)個(gè)性化方案的不同設(shè)計(jì)思想,可以有多種形式的個(gè)性化過(guò)程。本文,筆者重點(diǎn)討論基于數(shù)據(jù)驅(qū)動(dòng)和目標(biāo)驅(qū)動(dòng)的個(gè)性化過(guò)程,個(gè)性化過(guò)程如圖1所示。
1.數(shù)據(jù)驅(qū)動(dòng)的個(gè)性化過(guò)程。數(shù)據(jù)驅(qū)動(dòng)的個(gè)性化采用“自底向上”的設(shè)計(jì)思想,如圖1(a)所示。
(1)從不同的交互渠道收集用戶信息開(kāi)始個(gè)性化過(guò)程。比如通過(guò)Web,電話和直接發(fā)送郵件等。也可以通過(guò)各種各樣的數(shù)據(jù)源獲取每個(gè)用戶盡可能全的信息。
(2) 一旦用戶信息收集完畢,就要對(duì)收集的信息進(jìn)行清理,也就是把一些冗余的,與用戶個(gè)性化不相關(guān)的數(shù)據(jù)清除,使數(shù)據(jù)格式規(guī)范化。
(3) 在開(kāi)發(fā)用戶個(gè)性化應(yīng)用中一個(gè)關(guān)鍵問(wèn)題時(shí),經(jīng)過(guò)數(shù)據(jù)預(yù)處理的數(shù)據(jù),識(shí)別用戶的興趣愛(ài)好生成用戶模型,并按照一定的格式存儲(chǔ)起來(lái)。
(4)用戶模型構(gòu)建完成后,進(jìn)行數(shù)據(jù)挖掘?yàn)槊總€(gè)用戶匹配合適的內(nèi)容和服務(wù)。進(jìn)行數(shù)據(jù)挖掘的技術(shù)包括:推薦系統(tǒng),基于統(tǒng)計(jì)學(xué)的預(yù)測(cè)方法,基于規(guī)則的系統(tǒng),專家指導(dǎo)發(fā)送內(nèi)容和服務(wù)的管理規(guī)則。
(5)在完成數(shù)據(jù)挖掘后,個(gè)性化信息將被發(fā)送到每一個(gè)用戶??梢圆捎靡韵聨追N方法發(fā)送個(gè)性化信息:可視化,相關(guān)性有序列表和可選擇無(wú)序列表等。
(6)個(gè)性化呈現(xiàn)的效果評(píng)價(jià)可采用的方法包括:精度,用戶生命期,用戶忠誠(chéng)度和購(gòu)買的商品。個(gè)性化評(píng)估結(jié)果的好壞,依賴于個(gè)性化過(guò)程前5個(gè)階段采用技術(shù)的復(fù)雜程度。
(7)個(gè)性化系統(tǒng)對(duì)用戶的評(píng)價(jià)進(jìn)行反饋,可以用于調(diào)整并改進(jìn)前6個(gè)階段的功能。反饋決定是否需要收集更多的用戶信息,在數(shù)據(jù)預(yù)處理時(shí)候是否對(duì)冗余數(shù)據(jù)進(jìn)行清理,如何建立更好的用戶模型,如何選擇或開(kāi)發(fā)更好的數(shù)據(jù)挖掘算法,如何對(duì)用戶的信息進(jìn)行優(yōu)化,或者采用更多和更復(fù)雜的評(píng)價(jià)方法。如果反饋階段能夠恰當(dāng)?shù)丶傻絺€(gè)性化過(guò)程中,與每個(gè)用戶交互的質(zhì)量逐步得到提高,個(gè)性化將會(huì)進(jìn)入良性循環(huán)。
2.目標(biāo)驅(qū)動(dòng)的個(gè)性化過(guò)程。目標(biāo)驅(qū)動(dòng)的個(gè)性化過(guò)程采用“自頂向下”的設(shè)計(jì)方法,之所以稱為“目標(biāo)驅(qū)動(dòng)”,這是因?yàn)樾枰A(yù)先設(shè)定目標(biāo),然后再設(shè)計(jì)個(gè)性化的每個(gè)階段。而“數(shù)據(jù)驅(qū)動(dòng)”是先收集數(shù)據(jù),然后再建立用戶模型。這和商業(yè)管理的思想相一致:即我們無(wú)法管理不能預(yù)測(cè)的事情。換言之,我們?cè)O(shè)計(jì)個(gè)性化首先要確定目標(biāo),然后開(kāi)始下一階段工作的實(shí)施。目標(biāo)驅(qū)動(dòng)與數(shù)據(jù)驅(qū)動(dòng)個(gè)性化的階段類似,但過(guò)程相反。
(1)設(shè)定個(gè)性化評(píng)價(jià)指標(biāo),明確哪些因素會(huì)對(duì)個(gè)性化服務(wù)質(zhì)量起到關(guān)鍵性作用。個(gè)性化系統(tǒng)可以采用1種或者多種評(píng)價(jià)指標(biāo),比如,用戶滿意度,用戶生命期,用戶忠誠(chéng)度和購(gòu)買的商品。從這些評(píng)價(jià)指標(biāo)中可以分析用戶的興趣愛(ài)好。
(2)設(shè)定了個(gè)性化評(píng)價(jià)指標(biāo)后,圍繞這些指標(biāo)選擇采用哪些內(nèi)容,以何種方式推薦呈現(xiàn)給用戶??梢圆捎脦追N方法呈現(xiàn)個(gè)性化信息,包括:可視化,相關(guān)性有序列表和選擇性無(wú)序列表等。用戶興趣愛(ài)好也體現(xiàn)在推薦呈現(xiàn)內(nèi)容與方式上。
(3)根據(jù)推薦呈現(xiàn)內(nèi)容,選擇合適的數(shù)據(jù)挖掘算法。與數(shù)據(jù)驅(qū)動(dòng)個(gè)性化過(guò)程類似,可以采用的數(shù)據(jù)挖掘技術(shù)包括推薦系統(tǒng),基于統(tǒng)計(jì)學(xué)的預(yù)測(cè)方法,基于規(guī)則的系統(tǒng),專家指導(dǎo)發(fā)送內(nèi)容和服務(wù)的管理規(guī)則等。
(4)數(shù)據(jù)挖掘所需的數(shù)據(jù)由用戶模型所提供。
(5)數(shù)據(jù)預(yù)處理的結(jié)果用于生成用戶模型。
(6)用戶信息收集。這一步與數(shù)據(jù)驅(qū)動(dòng)個(gè)性化過(guò)程的最大不同就是根據(jù)預(yù)先設(shè)定的目標(biāo)是逐步向下推移,直到最后發(fā)現(xiàn)需要收集哪些數(shù)據(jù)。這樣做的優(yōu)點(diǎn)是能夠避免做無(wú)用功,要做到“有的放矢”。
(7)在個(gè)性化應(yīng)用完成后,根據(jù)用戶評(píng)價(jià)結(jié)果,把反饋調(diào)整策略集成到個(gè)性化的前6個(gè)階段。與數(shù)據(jù)驅(qū)動(dòng)個(gè)性化過(guò)程所不同的是,目標(biāo)驅(qū)動(dòng)是根據(jù)需要預(yù)先設(shè)定各個(gè)階段需要的技術(shù),然后再實(shí)施到個(gè)性化的每個(gè)階段中,最后根據(jù)用戶評(píng)價(jià)結(jié)果,把反饋調(diào)整策略集成到個(gè)性化的各個(gè)階段。數(shù)據(jù)驅(qū)動(dòng)采用的是“推演技術(shù)”,從收集用戶信息開(kāi)始,一直到用戶評(píng)價(jià)結(jié)束,進(jìn)而反饋調(diào)整個(gè)性化每個(gè)階段的策略。
3.二者比較。目標(biāo)驅(qū)動(dòng)的個(gè)性化過(guò)程從指定用于決定個(gè)性化影響的用戶評(píng)價(jià)開(kāi)始,選擇的評(píng)價(jià)指標(biāo)決定將要推薦呈現(xiàn)給用戶的個(gè)性化內(nèi)容屬于哪種類型。推薦呈現(xiàn)給用戶的個(gè)性化內(nèi)容,又決定了采用的數(shù)據(jù)挖掘技術(shù)如何挖掘來(lái)自用戶模型的數(shù)據(jù)。用戶模型的生成,決定了用戶信息預(yù)處理所采取的技術(shù),判斷哪些數(shù)據(jù)是冗余的,哪些數(shù)據(jù)是必需的。最后,建立全面的用戶模型決定了需要收集哪些用戶信息,以及如何收集需要的信息。很顯然,在這個(gè)過(guò)程中,有一些階段采用的技術(shù)針對(duì)性較強(qiáng),需要額外處理的步驟會(huì)減少很多。
數(shù)據(jù)驅(qū)動(dòng)的個(gè)性化過(guò)程從用戶信息收集開(kāi)始個(gè)性化過(guò)程,由于無(wú)法確定哪些信息是必需的,所以,應(yīng)盡可能多的收集。如果收集太多的信息,則會(huì)造成2點(diǎn)麻煩:一是加重服務(wù)器負(fù)擔(dān),例如收集信息時(shí)間過(guò)長(zhǎng)將影響系統(tǒng)性能;二是收集太多的冗余數(shù)據(jù)會(huì)給數(shù)據(jù)預(yù)處理階段帶來(lái)困難。用戶模型生成后,經(jīng)過(guò)數(shù)據(jù)挖掘技術(shù)處理,推薦呈現(xiàn)給用戶的內(nèi)容可能不是用戶感興趣和愛(ài)好的項(xiàng)目,這會(huì)使得個(gè)性化系統(tǒng)進(jìn)行較大的調(diào)整,可能需要重新從策略上調(diào)整個(gè)性化過(guò)程中每個(gè)階段的技術(shù)。因此,數(shù)據(jù)驅(qū)動(dòng)的個(gè)性化過(guò)程比目標(biāo)驅(qū)動(dòng)的個(gè)性化過(guò)程要復(fù)雜得多。
由于目標(biāo)驅(qū)動(dòng)方法,從一開(kāi)始就要預(yù)定目標(biāo),所以,與數(shù)據(jù)驅(qū)動(dòng)方法相比較而言,其優(yōu)點(diǎn)是能夠讓個(gè)性化實(shí)現(xiàn)“良性循環(huán)”,從而為投資者帶來(lái)更多的收益。然而,目標(biāo)驅(qū)動(dòng)方法在個(gè)性化文獻(xiàn)研究中從來(lái)沒(méi)有出現(xiàn)過(guò),筆者的推測(cè)有待在未來(lái)的研究中證實(shí)。此外,其他影響個(gè)性化過(guò)程設(shè)計(jì)的因素還包括可信度和個(gè)性化過(guò)程中潛在的干擾等。這些情況也是有待于在個(gè)性化過(guò)程中進(jìn)行研究。
目標(biāo)驅(qū)動(dòng)的個(gè)性化過(guò)程能夠更好地實(shí)現(xiàn)良性循環(huán),其優(yōu)點(diǎn)也是不言而喻:一方面,如果商業(yè)網(wǎng)站個(gè)性化實(shí)現(xiàn)了良性循環(huán),將會(huì)為商家?guī)?lái)不斷增長(zhǎng)的利潤(rùn)。如果公共服務(wù)網(wǎng)站個(gè)性化實(shí)現(xiàn)了良性循環(huán),將會(huì)為公眾提供及時(shí),快捷的便民服務(wù);另一方面,良性循環(huán)對(duì)于個(gè)性化系統(tǒng)適應(yīng)不斷變化的環(huán)境和提高個(gè)性化服務(wù)也至關(guān)重要。
良性循環(huán)的對(duì)立面是去個(gè)性化過(guò)程。從開(kāi)始時(shí),用戶對(duì)供應(yīng)的結(jié)果不滿意便會(huì)發(fā)生去個(gè)性化情況。如果這種情況一直發(fā)展下去,或是系統(tǒng)沒(méi)能及時(shí)做出調(diào)整,用戶就不愿意繼續(xù)使用個(gè)性化系統(tǒng)。去個(gè)性化在很大程度上影響著工程是否成功。因此,個(gè)性化開(kāi)發(fā)者面臨的一個(gè)巨大挑戰(zhàn)就是如何實(shí)現(xiàn)良性循環(huán)。
目前,大部分個(gè)性化只是實(shí)現(xiàn)了前面5個(gè)階段的功能,再?gòu)?fù)雜一些的系統(tǒng)也只是實(shí)現(xiàn)了個(gè)性化用戶評(píng)價(jià)功能,還沒(méi)有很好地實(shí)現(xiàn)反饋循環(huán)。因此,當(dāng)前個(gè)性化急待解決的問(wèn)題是如何研究好的評(píng)價(jià)方法,個(gè)性化策略調(diào)整方法和合適的反饋循環(huán)。實(shí)現(xiàn)個(gè)性化良性循環(huán)依賴于2個(gè)關(guān)鍵步驟:個(gè)性化過(guò)程中6個(gè)階段的每1個(gè)階段都要選擇最好的技術(shù);個(gè)性化過(guò)程的每1個(gè)不同階段集成時(shí)都要有充分的原則依據(jù)。本節(jié),筆者討論通過(guò)目標(biāo)驅(qū)動(dòng)設(shè)計(jì)原理,分析個(gè)性化過(guò)程的幾個(gè)關(guān)鍵技術(shù)及其特點(diǎn)。
1.評(píng)價(jià)個(gè)性化。評(píng)價(jià)個(gè)性化最常用的方法是采用精度來(lái)度量,也就是說(shuō),通過(guò)精度和推薦的相關(guān)性能反映出喜歡或者不喜歡為其推薦商品的程度。但是基于精度的度量方法不能反映出更復(fù)雜和微妙的個(gè)性化,所以,一些研究者建議采用一些更有效、更全面的個(gè)性化度量方法。
2.推薦呈現(xiàn)。個(gè)性化系統(tǒng)提供不同的呈現(xiàn)方式,由用戶根據(jù)其各自的職業(yè),習(xí)慣和年齡等特點(diǎn)進(jìn)行選擇。電子商務(wù)系統(tǒng)為用戶推薦呈現(xiàn)個(gè)性化信息的方式通常有:描述,相關(guān)性列表,可選集合和可視化等類型。有一種發(fā)送方法就是著名的“拉、推”方法?!袄笔峭ㄖ脩粲幸恍┛捎玫膫€(gè)性化信息,但是沒(méi)有顯示處來(lái),需要用戶主動(dòng)發(fā)送請(qǐng)求?!巴啤笔前研畔l(fā)送給沒(méi)有使用個(gè)性化的用戶。
3.數(shù)據(jù)挖掘。數(shù)據(jù)挖掘是從數(shù)據(jù)源發(fā)現(xiàn)不明顯的,潛在有用的和以前未知的信息,通過(guò)數(shù)據(jù)挖掘?yàn)橛脩羯蓚€(gè)性化推薦。根據(jù)推薦方法的不同可分為:基于內(nèi)容的推薦,協(xié)作推薦和混合推薦等。
(1)基于內(nèi)容的推薦。系統(tǒng)為用戶推薦的是用戶過(guò)去愛(ài)好的項(xiàng)目,例如內(nèi)容、服務(wù)和商品。這種基于內(nèi)容的推薦,分析用戶對(duì)某些點(diǎn)擊率高的項(xiàng)目的共性,只有與用戶過(guò)去喜歡的項(xiàng)目類似時(shí)才會(huì)推薦給用戶。
(2)協(xié)作推薦。當(dāng)系統(tǒng)推薦的項(xiàng)目與用戶的興趣和愛(ài)好相似時(shí),才被推薦給用戶。
(3)混合推薦。綜合基于內(nèi)容和協(xié)作的推薦可以有以下2種方法:一種方法是分離基于內(nèi)容和協(xié)作過(guò)濾的方法,單獨(dú)建立系統(tǒng),然后把2個(gè)系統(tǒng)產(chǎn)生的結(jié)果綜合起來(lái),形成最終的推薦結(jié)果;另外一種方法是,把基于內(nèi)容和協(xié)作的技術(shù)綜合到1個(gè)獨(dú)立的推薦系統(tǒng)中產(chǎn)生推薦結(jié)果,而不是把2種技術(shù)建立的系統(tǒng)分離開(kāi)來(lái)。
4.生成用戶模型。用戶信息的收集可以通過(guò)多種渠道來(lái)實(shí)現(xiàn),例如Web,電話和郵件等。可以通過(guò)調(diào)查的方式顯示收集,也可以通過(guò)人口統(tǒng)計(jì)學(xué)原理和心理行為學(xué)收集用戶信息。這些信息收集完成后,可以進(jìn)行處理和清洗,并存儲(chǔ)到數(shù)據(jù)倉(cāng)庫(kù)中以便進(jìn)一步分析使用。