黃志成
中國(guó)電子科技集團(tuán)公司第十研究所 四川 成都 610036
電子商務(wù)的發(fā)展帶動(dòng)了整個(gè)智能信息的發(fā)展,而個(gè)性化智能推薦服務(wù)的誕生目的是為了更好地服務(wù)用戶,精準(zhǔn)的捕捉用戶的消費(fèi)習(xí)慣。所以從本質(zhì)上來(lái)看,個(gè)性化智能服務(wù)系統(tǒng)是從電子商務(wù)中脫胎出來(lái)的。而我們主要參考的WWW信息檢索服務(wù),就是在原始的個(gè)性化智能服務(wù)基礎(chǔ)之上誕生的,其理念相同,因而可以在基礎(chǔ)之上完成延續(xù)[1]。我們主要分析的WEB挖掘的個(gè)性化智能服務(wù)也由此產(chǎn)生,其主要內(nèi)容共分為兩個(gè)部分,一是信息內(nèi)容為基礎(chǔ)方法,二是用戶訪問(wèn)行為為基礎(chǔ)的方法。通過(guò)目前現(xiàn)有的研究,我們已經(jīng)可以通過(guò)用戶的訪問(wèn)路徑和相應(yīng)訪問(wèn)規(guī)則來(lái)進(jìn)行智能化的預(yù)測(cè),通過(guò)提取用戶的訪問(wèn)習(xí)慣和訪問(wèn)途徑,分析出相關(guān)的訪問(wèn)模式,最終利用市場(chǎng)決策和智能推薦服務(wù)系統(tǒng),精準(zhǔn)的預(yù)測(cè)客戶的下一步訪問(wèn)行為。目前在互聯(lián)網(wǎng)領(lǐng)域,該個(gè)性化智能推薦服務(wù)已經(jīng)得到了十分廣泛的應(yīng)用和實(shí)踐,取得的成果十分的卓然。而我們當(dāng)前探討的問(wèn)題主要是利用該服務(wù)系統(tǒng)解決用戶的信息過(guò)量以及信息資源方向缺失這兩個(gè)問(wèn)題。
在WEB訪問(wèn)挖掘基礎(chǔ)之上建設(shè)的個(gè)性化智能推薦服務(wù)一共分為兩個(gè)部分,分別是離線部分和在線部分[2]。利息部分的主要任務(wù)由數(shù)據(jù)準(zhǔn)備和特定的挖掘任務(wù)組成,以此來(lái)彌補(bǔ)網(wǎng)絡(luò)連接的問(wèn)題。離線的數(shù)據(jù)會(huì)通過(guò)服務(wù)器的訪問(wèn)文件以及訪問(wèn)站點(diǎn)的相關(guān)信息生成特定的文件,有用戶文件和事務(wù)文件這兩種類型,而用戶的特性訪問(wèn)挖掘則分為了關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)以及URL聚類的生成。以此來(lái)綜合生成完整的用戶訪問(wèn)規(guī)則。在線操作訪問(wèn)機(jī)制要細(xì)致和更為多樣化。首先是用戶在在線訪問(wèn)的過(guò)程中會(huì)出現(xiàn)頻繁的動(dòng)態(tài),這些動(dòng)態(tài)作為指引會(huì)為用戶推薦相關(guān)聯(lián)的系統(tǒng)服務(wù)并完成進(jìn)一步的操作。在線部分的訪問(wèn)挖掘主要有個(gè)性化智能推薦服務(wù)Agent和WEB服務(wù)器組成,實(shí)際上在線服務(wù)端口比離線端口更為重要,在線訪問(wèn)可以逐步跟蹤用戶的訪問(wèn)操作,根據(jù)相關(guān)訪問(wèn)內(nèi)容進(jìn)行個(gè)性化智能服務(wù)。而個(gè)性化智能服務(wù)Agent可以通過(guò)分析在線用戶的訪問(wèn)操作以及操作路徑來(lái)確認(rèn)相關(guān)的訪問(wèn)模式,直接確定下屬的URL聚類類別,進(jìn)而生成URL集合便會(huì)十分的順利,并且最終生成的URL集合能夠作為操作訪問(wèn)的候選集合完成操作[3]。這無(wú)疑是更加符合個(gè)性化智能服務(wù)體系的一種操作模式。在整個(gè)的操作過(guò)程中我們將WEB的主題服務(wù)內(nèi)容分為了五個(gè)部分:①優(yōu)先收集WEB相應(yīng)對(duì)象以及頁(yè)面;②通過(guò)收集內(nèi)容對(duì)操作對(duì)象的主體進(jìn)行識(shí)別,例如用戶識(shí)別和路徑識(shí)別;③對(duì)主體和對(duì)象進(jìn)行分類,按照主體發(fā)展模式展開(kāi)追蹤;④在對(duì)象和主體之間完成兩者的匹配e.最后根據(jù)主體和對(duì)象的匹配解決完成對(duì)個(gè)性化服務(wù)候選集的確定。總的來(lái)說(shuō),WEB的訪問(wèn)挖掘個(gè)性化智能推薦服務(wù),是在追求用戶的訪問(wèn)規(guī)則,并在這一規(guī)則基礎(chǔ)之上完成的一種訪問(wèn)行為。其內(nèi)涵也就是預(yù)測(cè)行為,根據(jù)一定路徑來(lái)預(yù)測(cè)用戶的訪問(wèn)習(xí)慣以及下一步可能會(huì)出現(xiàn)的訪問(wèn)行為,并以此作為發(fā)展對(duì)象來(lái)延伸對(duì)用戶的個(gè)性化智能推薦服務(wù)。
離線準(zhǔn)備階段需要考慮到數(shù)據(jù)的參與和處理情況,在離線情況下,用戶訪問(wèn)的log文件并不是實(shí)時(shí)的,因而存在很多的噪聲數(shù)據(jù),我們需要在這些數(shù)據(jù)中找到必要部分,提前對(duì)log數(shù)據(jù)進(jìn)行預(yù)處理,方可進(jìn)行下一步的關(guān)聯(lián)規(guī)則挖掘。預(yù)處理主要是清理不必要數(shù)據(jù),一共分為數(shù)據(jù)精化,數(shù)據(jù)過(guò)濾和數(shù)據(jù)事物識(shí)別這三個(gè)部分。在所有的個(gè)性化智能推薦服務(wù)中,不論是離線狀態(tài)還是在線狀態(tài)都需要進(jìn)行這一步的清理工作。完成預(yù)處理任務(wù)之后,生成的用戶事物文件才具備基本 的可用性。而在過(guò)濾log文件的過(guò)程中我們也需要注意,盡量過(guò)濾到大部分的無(wú)關(guān)項(xiàng)目和文件,必要時(shí)候可以分析丟失的訪問(wèn)記錄進(jìn)而得到更為全面的文件系統(tǒng)[4]。而所謂的無(wú)關(guān)項(xiàng)就是從根本上并不參與到個(gè)性化智能推薦服務(wù)中的一些項(xiàng)目,WEB訪問(wèn)挖掘分析并不會(huì)因?yàn)檫@部分軟件而產(chǎn)生過(guò)多的影響。具體的預(yù)處理內(nèi)容具有選擇性,無(wú)法一概而論,本文只論述基本的預(yù)處理方法,對(duì)處理目標(biāo)不做過(guò)多深入的研究。
本研究主要討論的關(guān)聯(lián)規(guī)則的個(gè)性化智能推薦服務(wù),主要針對(duì)的結(jié)構(gòu)的站點(diǎn)組織結(jié)構(gòu),因此根據(jù)這部分結(jié)構(gòu)的獨(dú)特性,我們需選擇最為合適的路徑來(lái)進(jìn)行數(shù)據(jù)模擬。本研究選取了最大前向訪問(wèn)路徑輔助-內(nèi)容事務(wù),作為對(duì)用戶相關(guān)訪問(wèn)內(nèi)容和事物的獨(dú)特訪問(wèn)路徑進(jìn)行選擇。首先根據(jù)這部分路徑的選擇,我們需首先完成相關(guān)基礎(chǔ)定義的介紹。在該條訪問(wèn)路徑的設(shè)計(jì)中,我們將用戶看作是一個(gè)具體的點(diǎn)或者是符號(hào),該符號(hào)作為用戶訪問(wèn)操作的集合,所有的訪問(wèn)記錄均可以形成一定的輻射向外擴(kuò)散。在用戶使用一定IP地址和ID號(hào)進(jìn)行頁(yè)面訪問(wèn)時(shí),可對(duì)訪問(wèn)時(shí)間和訪問(wèn)內(nèi)容完成記憶。而通常情況下,用戶在沒(méi)有ID號(hào)的前提下進(jìn)行登錄,那么可隨機(jī)為用戶匹配相關(guān)的ID號(hào),這可作為具有標(biāo)志性的另一個(gè)符號(hào)被囊括到用戶的使用范圍內(nèi),也可算作是用戶訪問(wèn)操作的集合內(nèi)容之一。
以上為本路徑選擇的基礎(chǔ)性定義。與離線預(yù)處理不同,在執(zhí)行用戶在線推薦服務(wù)的過(guò)程中,需要對(duì)用戶的操作序列以及訪問(wèn)模式進(jìn)行匹配和計(jì)算,此時(shí)我們使用到的最大前向訪問(wèn)路徑輔助-內(nèi)容事務(wù)便能夠從不同鏈接中尋找到具體的訪問(wèn)序列。每個(gè)用戶事務(wù)都是用戶在網(wǎng)頁(yè)操作過(guò)程中的Web頁(yè)的序列,從用戶訪問(wèn)第一個(gè)Web開(kāi)始到最后返回Web結(jié)束,所有前向訪問(wèn)的Web頁(yè)都被算在了當(dāng)前請(qǐng)求頁(yè)當(dāng)中,而不屬于已訪問(wèn)過(guò)的Web頁(yè),這樣一來(lái),事務(wù)的開(kāi)始結(jié)束和劃分變得非常的清晰。只要用戶點(diǎn)進(jìn)新的訪問(wèn)鏈接,就可以算作是新的事務(wù)的開(kāi)始,以此來(lái)整體衡量用戶訪問(wèn)過(guò)的Web頁(yè),但是并不考慮用戶訪問(wèn)的長(zhǎng)度,雖然這樣一來(lái)可能會(huì)造成精準(zhǔn)度的誤差,但是訪問(wèn)路徑事務(wù)的形式能夠清晰的呈現(xiàn)當(dāng)前用戶的訪問(wèn)習(xí)慣,并完成后續(xù)的個(gè)性化智能服務(wù)。
推薦集是我們本研究主要為大家介紹的內(nèi)容,因?yàn)橥扑]集的生成較為直接,離線狀態(tài)下,通過(guò)用戶的頻繁訪問(wèn)規(guī)則和訪問(wèn)模式就能夠得到基本的訪問(wèn)線路,而預(yù)處理又能夠最大程度上篩選出用戶事務(wù),將一部分不屬于規(guī)則推薦服務(wù)內(nèi)的文件篩除,利用最小支持度完成篩選任務(wù)。而那些更大支持項(xiàng)目和頻繁用戶事務(wù)集合就能夠較為準(zhǔn)確的被聚攏,進(jìn)而形成聚集樹(shù)。在關(guān)聯(lián)規(guī)則挖掘個(gè)性化智能推薦服務(wù)的支持之下,聚集樹(shù)首先會(huì)發(fā)現(xiàn)相匹配的用戶,并對(duì)用戶的訪問(wèn)路徑進(jìn)行規(guī)劃,從而形成一定的訪問(wèn)關(guān)聯(lián)規(guī)則。推薦度的大小決定了規(guī)則的限制范圍,而推薦度因子的大小則決定了推薦項(xiàng),最終為用戶呈現(xiàn)的個(gè)性化智能推薦服務(wù)目標(biāo)就是根據(jù)推薦度因子的大小形成的,因此,并不是所有的推薦度都在最大個(gè)性化推薦服務(wù)之內(nèi),聚集樹(shù)會(huì)根據(jù)相關(guān)數(shù)據(jù)訪問(wèn)的規(guī)則進(jìn)行限定。而推薦因子的誕生,則是由關(guān)聯(lián)規(guī)則的置信度乘以距離因子得出的。
所有推薦服務(wù)的設(shè)定最終都將落實(shí)在在線推薦這一最大目的之上,因此,能夠隨時(shí)跟蹤用戶的訪問(wèn)操作習(xí)慣并且有效地將用戶的訪問(wèn)操作內(nèi)容進(jìn)行記錄才是最重要的。我們當(dāng)前采用了滑窗采樣的方法來(lái)對(duì)用戶的操作訪問(wèn)路徑進(jìn)行跟蹤和獲取,在此我們假設(shè)用戶的滑窗大小為A,那么其關(guān)聯(lián)的規(guī)則集就會(huì)在原定的滑窗大小之上呈現(xiàn)A+1的姿態(tài),針對(duì)當(dāng)前滑窗長(zhǎng)度為A的用戶訪問(wèn)操作路徑去匹配相應(yīng)的聚集樹(shù)上的子訪問(wèn)路徑,所有獲取的最終結(jié)果,都將以A+1的頻繁子訪問(wèn)路徑的方式進(jìn)行呈現(xiàn)[5]。以關(guān)聯(lián)規(guī)則為基礎(chǔ)的個(gè)性化智能推薦服務(wù)是對(duì)接用戶智能接口個(gè)性化智能信息檢索主動(dòng)服務(wù)的最佳選擇,并且非常的適合Web服務(wù)器站點(diǎn)的個(gè)性化自適應(yīng)服務(wù)。本研究中已經(jīng)對(duì)部分關(guān)聯(lián)規(guī)則為基礎(chǔ)的個(gè)性化智能推薦服務(wù)進(jìn)行了介紹,我們可以初步的了解該智能推薦服務(wù)的核心內(nèi)容和側(cè)重點(diǎn),其可行性和實(shí)踐性能佳,且具備一定的優(yōu)化潛力,因此其算法和實(shí)際應(yīng)用均能夠滿足當(dāng)前推薦服務(wù)的需求。
通過(guò)本次研究,我們粗淺的了解了基于關(guān)聯(lián)規(guī)則挖掘的個(gè)性化智能推薦服務(wù)的相關(guān)內(nèi)容,明確了個(gè)性化智能推薦服務(wù)的基本形成原理和形成方法,并對(duì)其中的幾點(diǎn)問(wèn)題做出了詳細(xì)的解釋,第一點(diǎn)問(wèn)題是關(guān)于滑窗大小的選擇問(wèn)題。在滑窗選擇的過(guò)程中我們首先需要利用支持度和置信度的門(mén)限對(duì)其進(jìn)行限制,但是這一門(mén)限并不適合設(shè)置的太高,因?yàn)榛暗拇笮⌒枰懈映浞值暮蜻x項(xiàng)作為保證。第二是生成集的相關(guān)影響,通過(guò)部分實(shí)踐研究成果我們可以發(fā)現(xiàn),用戶進(jìn)入的方式不同,生成集并不能僅圍繞著一個(gè)范圍進(jìn)行測(cè)算,因而用戶行為對(duì)生成集來(lái)說(shuō)會(huì)造成較大的影響。而伴隨著推薦程度的加深,推薦集會(huì)越變?cè)叫?,這是因?yàn)楦鶕?jù)用戶行為進(jìn)行生成已經(jīng)沒(méi)有了太大的發(fā)展空間,因此其最終推薦集甚至可能會(huì)出現(xiàn)空集。針對(duì)這一現(xiàn)象,可以通過(guò)調(diào)整置信度門(mén)限的方式來(lái)緩解。我們將個(gè)性化智能推薦服務(wù)集中到了對(duì)用戶感興趣的主題進(jìn)行定位上,實(shí)際上這是一種信息獲取習(xí)慣或者是網(wǎng)絡(luò)信息服務(wù)習(xí)慣的一種獲取,而通常情況下,伴隨著智能推薦服務(wù)系統(tǒng)的深入,對(duì)于用戶感興趣問(wèn)題的捕捉能力會(huì)減弱。因?yàn)殚L(zhǎng)時(shí)間同等模式下的信息錄入會(huì)造成大量信息的重疊,對(duì)于這一情況,我們只能依靠重新建立推薦集的模式來(lái)生成全新的信息項(xiàng)。
在本研究中,我們主要探討了基于關(guān)聯(lián)規(guī)則挖掘的個(gè)性化智能推薦服務(wù)方法,在推薦方法的建立過(guò)程中,我們針對(duì)的主要是個(gè)性化智能信息的檢索問(wèn)題,最初可行化服務(wù)的概念誕生自電子商務(wù),只是伴隨著這類服務(wù)模式的發(fā)展和實(shí)用性的擴(kuò)大,在WWW上實(shí)現(xiàn)個(gè)性化信息檢索的能力也在不斷升級(jí),進(jìn)而我們當(dāng)前探索的這類個(gè)性化信息檢索服務(wù),同樣擁有著十分現(xiàn)實(shí)的應(yīng)用價(jià)值和實(shí)踐意義。對(duì)于WEB訪問(wèn)挖掘個(gè)性化智能推薦系統(tǒng)來(lái)說(shuō)是一個(gè)全新的嘗試,對(duì)于用戶習(xí)慣的摸索未來(lái)可能還會(huì)有所精進(jìn),并且個(gè)性化智能推薦服務(wù)方法可能會(huì)有更大程度的提升,因而我們目前的研究對(duì)于未來(lái)電子商務(wù)部分項(xiàng)目的發(fā)展規(guī)劃仍然具備一定的前瞻性和實(shí)用性。