馮倪
(陜西師范大學(xué)計(jì)算機(jī)科學(xué)學(xué)院,陜西 西安 710000)
現(xiàn)如今是一個(gè)信息爆炸的時(shí)代,我國(guó)的網(wǎng)絡(luò)信息技術(shù)得到了比較快速的發(fā)展,在社會(huì)的各行各業(yè)中數(shù)據(jù)量也在不斷地增長(zhǎng)。針對(duì)這樣的環(huán)境,如何處理好大量的數(shù)據(jù),并提高數(shù)據(jù)的使用效率是每一家互聯(lián)網(wǎng)公司需要做的工作。在大數(shù)據(jù)應(yīng)用技術(shù)中,個(gè)性化的推薦系統(tǒng)是一項(xiàng)得到廣泛應(yīng)用的技術(shù),其主要的作用就是對(duì)用戶的數(shù)據(jù)做更加智能的處理,通過設(shè)計(jì)好的數(shù)據(jù)模型以及算法將用戶感興趣的信息推送給用戶,以進(jìn)一步提升用戶的實(shí)際上網(wǎng)體驗(yàn)?,F(xiàn)階段,一些個(gè)性化推薦系統(tǒng)被廣泛應(yīng)用于人們生活的各個(gè)領(lǐng)域,比如說(shuō)音樂、電商、購(gòu)票等社交平臺(tái)上,可以滿足不同用戶的多樣化需求。因此,和推薦系統(tǒng)有關(guān)的研究依舊在如火如荼的進(jìn)行中。
大數(shù)據(jù)一般被認(rèn)為是規(guī)模非常大,也沒有辦法使用常規(guī)的軟件進(jìn)行儲(chǔ)存和處理的數(shù)據(jù),是一種在處理之后才具備較高價(jià)值的數(shù)據(jù)。隨著信息時(shí)代的發(fā)展,對(duì)大數(shù)據(jù)進(jìn)行處理,并合理地使用個(gè)性化的推薦系統(tǒng)是非常重要的一個(gè)工作。個(gè)性化推薦系統(tǒng)使用的大數(shù)據(jù)一般具備以下的特點(diǎn):
大數(shù)據(jù)具備的一個(gè)特性就是多樣性,多樣性體現(xiàn)在大數(shù)據(jù)的種類以及相關(guān)的來(lái)源上。按照數(shù)據(jù)的結(jié)構(gòu),可以將數(shù)據(jù)主要分為三種不同的類型。在這三種類型中,非結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù)正在慢慢地成為數(shù)據(jù)的主要成分。非結(jié)構(gòu)化的數(shù)據(jù)是指結(jié)構(gòu)不完整或者說(shuō)結(jié)構(gòu)不規(guī)則的數(shù)據(jù),是不能使用數(shù)據(jù)庫(kù)二維表來(lái)表現(xiàn)出來(lái)的,包括圖片、音頻、文本以及其他的信息等。這種非結(jié)構(gòu)化數(shù)據(jù)的占比是非常高的,且正在不斷的增長(zhǎng)中。結(jié)構(gòu)化數(shù)據(jù)指的是可以使用二維表結(jié)構(gòu)進(jìn)行表達(dá)的數(shù)據(jù),其有著一定的數(shù)據(jù)格式,可以使用關(guān)系型的數(shù)據(jù)庫(kù)進(jìn)行儲(chǔ)存。介于這兩者之間的是一種稱之為半結(jié)構(gòu)化的數(shù)據(jù),這種數(shù)據(jù)既具備一定的規(guī)則性也具備一定的結(jié)構(gòu)性,但是并不符合關(guān)系型數(shù)據(jù)庫(kù)的模型結(jié)構(gòu)[1]。
大數(shù)據(jù)具有非常強(qiáng)的時(shí)效性。隨著時(shí)間的流逝,如果大數(shù)據(jù)得不到合理的處理,其價(jià)值就會(huì)下降。處理大量的數(shù)據(jù)是需要時(shí)間的,因此,就需要結(jié)合實(shí)際情況利用新型的數(shù)據(jù)處理方法對(duì)數(shù)據(jù)進(jìn)行有效率的處理。在信息時(shí)代,云計(jì)算應(yīng)運(yùn)而生,合理地使用云計(jì)算功能能進(jìn)一步地提升信息處理的能力,在一定程度上減少運(yùn)算過程中需要的時(shí)間?,F(xiàn)如今,計(jì)算的速度達(dá)到了每秒可處理PB級(jí)(1PB=220GB)的數(shù)據(jù)[2]。
在信息時(shí)代,大數(shù)據(jù)有著非常高的利用價(jià)值,但是,需要注意的是,大數(shù)據(jù)的規(guī)模是比較大的,需要經(jīng)過科學(xué)的處理才能得到有效的信息,這樣才能使得推薦系統(tǒng)更加符合不同受眾的喜好。針對(duì)這樣的情況,基于信息技術(shù)和大數(shù)據(jù)的推薦系統(tǒng)就沒有必要考慮精準(zhǔn)度,這是因?yàn)椋髷?shù)據(jù)本身就不會(huì)遺漏掉任何一個(gè)數(shù)據(jù),從另一個(gè)角度來(lái)說(shuō),推薦系統(tǒng)也正朝著“是什么”轉(zhuǎn)變著。
現(xiàn)階段,在大數(shù)據(jù)的背景下,推薦系統(tǒng)也順應(yīng)時(shí)代潮流誕生了。在對(duì)相關(guān)的網(wǎng)絡(luò)用戶數(shù)據(jù)進(jìn)行收集之后,利用建模計(jì)算的模式對(duì)大數(shù)據(jù)進(jìn)行處理,可以得出網(wǎng)絡(luò)用戶的行為、愛好、習(xí)慣等相關(guān)的信息,并在之后,為網(wǎng)絡(luò)用戶提供個(gè)性化的推薦,這樣能幫助用戶接收到自己想要的信息,從而提升用戶的網(wǎng)絡(luò)使用感[3]。
個(gè)性化推薦系統(tǒng)在實(shí)際應(yīng)用中,可以實(shí)現(xiàn)對(duì)數(shù)據(jù)的可靠處理,主要包括數(shù)據(jù)處理與收集等。也就是說(shuō),該系統(tǒng)提供的服務(wù)主要是通過數(shù)據(jù)采集、推薦算法及人機(jī)交互等不同模塊實(shí)現(xiàn)的。
網(wǎng)絡(luò)公司的數(shù)據(jù)來(lái)源存在很大差異,一部分網(wǎng)絡(luò)公司的數(shù)據(jù)來(lái)源從內(nèi)部產(chǎn)生,自身就可以為數(shù)據(jù)來(lái)源提供支持。但是就實(shí)際情況來(lái)看,很多網(wǎng)絡(luò)公司并沒有這種實(shí)力,數(shù)據(jù)一般來(lái)自于不同的數(shù)據(jù)庫(kù),在選擇時(shí)需符合自身需求。數(shù)據(jù)庫(kù)中存儲(chǔ)著多樣化的數(shù)據(jù),比較常見的有交易數(shù)據(jù)、業(yè)務(wù)數(shù)據(jù)等。在傳感器中,也會(huì)產(chǎn)生比較多的半結(jié)構(gòu)化數(shù)據(jù)等。在互聯(lián)網(wǎng)上充斥著形式各異的非結(jié)構(gòu)化數(shù)據(jù),比較常見的數(shù)據(jù)庫(kù)有SQL Server、Oracle以及 Access等。眾所周知,數(shù)據(jù)的來(lái)源途徑是非常多樣的, 用戶在網(wǎng)絡(luò)平臺(tái)的實(shí)際操作過程中,有著用戶自身的屬性和特點(diǎn)。但是,需要格外注意的是,這些數(shù)據(jù)都要有規(guī)范的格式,對(duì)數(shù)據(jù)進(jìn)行科學(xué)合理的選擇,并對(duì)數(shù)據(jù)進(jìn)行篩選[4]。
在數(shù)據(jù)的采集過程中,還需要將數(shù)據(jù)進(jìn)行分類,數(shù)據(jù)是有著不同類型的,也有著不同的價(jià)值。針對(duì)這樣的實(shí)際情況,就需要做好數(shù)據(jù)的采集工作。因此,數(shù)據(jù)買方在對(duì)數(shù)據(jù)進(jìn)行采集時(shí),需要充分了解自身所需要的數(shù)據(jù)類型、價(jià)格、規(guī)模和其他的信息,結(jié)合實(shí)際情況做好數(shù)據(jù)端口的對(duì)接工作,這樣才能讓數(shù)據(jù)的收集更加準(zhǔn)確。
在完成了數(shù)據(jù)傳輸?shù)南嚓P(guān)工作之后,就需要對(duì)購(gòu)買來(lái)的數(shù)據(jù)做進(jìn)一步的清洗,這樣可以有效提升數(shù)據(jù)的質(zhì)量,并糾正在數(shù)據(jù)中存在的各種錯(cuò)誤,避免出現(xiàn)數(shù)據(jù)錯(cuò)誤以及丟失的情況。比較常規(guī)的數(shù)據(jù)清洗手段是糾正錯(cuò)誤、數(shù)據(jù)壓縮以及修正邏輯等,在做完了一系列的數(shù)據(jù)清洗工作之后,就能進(jìn)行接下來(lái)的數(shù)據(jù)建模工作了[5]。
數(shù)據(jù)建模是非常重要的一個(gè)環(huán)節(jié),也是考驗(yàn)設(shè)計(jì)者統(tǒng)籌規(guī)劃能力的一項(xiàng)工作。相關(guān)的設(shè)計(jì)者需要結(jié)合實(shí)際情況建立起一個(gè)完善的數(shù)據(jù)庫(kù),將不同類型的數(shù)據(jù)根據(jù)相關(guān)的規(guī)則進(jìn)行合理的分析和整理,并通過合理的方式表示出數(shù)據(jù)之間的關(guān)系,這樣的數(shù)據(jù)才是科學(xué)、合理的,便于后期的加工處理。在相關(guān)的數(shù)據(jù)建模完成了之后,平臺(tái)設(shè)計(jì)者可以結(jié)合用戶的興趣來(lái)創(chuàng)建算法。通過構(gòu)建模型,用戶的短期興趣以及長(zhǎng)期興趣都被比較規(guī)則地展現(xiàn)了出來(lái),用戶的網(wǎng)絡(luò)體驗(yàn)感得到了提升。個(gè)性化的推薦算法是計(jì)算推測(cè)出用戶可能會(huì)喜歡某樣?xùn)|西的一種計(jì)算機(jī)算法[6]。
在構(gòu)建了處理數(shù)據(jù)的模型以及分析了數(shù)據(jù)之后,就能結(jié)合用戶的興趣進(jìn)行個(gè)性化的推薦。計(jì)算機(jī)會(huì)結(jié)合用戶的興趣模型進(jìn)行進(jìn)一步的計(jì)算,這樣可以為網(wǎng)絡(luò)用戶推薦其感興趣的內(nèi)容。接下來(lái),網(wǎng)絡(luò)用戶的這一次選擇又會(huì)被再一次作為數(shù)據(jù)儲(chǔ)存在數(shù)據(jù)庫(kù)中,成為了下一次被繼續(xù)利用的新數(shù)據(jù)。以上的這些內(nèi)容,就是一個(gè)比較完整的推薦過程。
個(gè)性化推薦系統(tǒng)的發(fā)展是非常迅速的,可應(yīng)用到各個(gè)行業(yè)領(lǐng)域,比如社交網(wǎng)絡(luò)、電子商務(wù)、視頻網(wǎng)站等這些能夠和普通用戶產(chǎn)生關(guān)聯(lián)的網(wǎng)絡(luò)平臺(tái),相關(guān)的網(wǎng)絡(luò)企業(yè)就能針對(duì)這樣的情況做更進(jìn)一步的研究。
在一些比較熟悉的電商平臺(tái)上,用戶在進(jìn)行購(gòu)物時(shí),后臺(tái)可以結(jié)合用戶的喜好來(lái)推薦相關(guān)的商品,這樣可以在一定程度上提升用戶的購(gòu)買率,企業(yè)就能獲得更多的盈利。最近這些年,個(gè)性化推薦已經(jīng)得到了比較快速的發(fā)展,比如“日推”“私人FM”就是在這一時(shí)代背景下所產(chǎn)生的熱詞。在未來(lái),用戶在使用手機(jī)或者是網(wǎng)絡(luò)平臺(tái)時(shí),就能體會(huì)到更加個(gè)性化的服務(wù)。
2017年,我國(guó)第一家大數(shù)據(jù)交易中心,也就是貴陽(yáng)大數(shù)據(jù)交易開始運(yùn)營(yíng),這也標(biāo)志著我國(guó)大數(shù)據(jù)交易是非常成功的。大數(shù)據(jù)交易的商品一般分為了以下幾個(gè)種類:第一類,是經(jīng)過了網(wǎng)站工作人員仔細(xì)處理之后的數(shù)據(jù);第二類是結(jié)合用戶喜好所設(shè)計(jì)的模型算法;第三類是和網(wǎng)絡(luò)信息技術(shù)有著直接相關(guān)性的應(yīng)用工具,比如說(shuō)云計(jì)算等等。擁有海量數(shù)據(jù)的騰訊大數(shù)據(jù)為開發(fā)者提供著一批可依賴的大數(shù)據(jù)產(chǎn)品,隨著個(gè)性化推薦系統(tǒng)的進(jìn)一步進(jìn)化,這些產(chǎn)品將為行業(yè)帶來(lái)了更多的活力。
綜上所述,最近這些年來(lái),隨著大數(shù)據(jù)價(jià)值的不斷提升,一些和數(shù)據(jù)泄露相關(guān)的案例層出不窮,人們也更加關(guān)注數(shù)據(jù)安全的問題。在大數(shù)據(jù)背景下,大數(shù)據(jù)技術(shù)可以更加便利地對(duì)這些數(shù)據(jù)進(jìn)行利用,能極大地保護(hù)好用戶的隱私。所以,網(wǎng)絡(luò)企業(yè)在未來(lái)的發(fā)展過程中需要做好個(gè)性化推薦,對(duì)相關(guān)的數(shù)據(jù)進(jìn)行合理的利用,這樣才能提升用戶的網(wǎng)絡(luò)使用感,為企業(yè)創(chuàng)造更多的經(jīng)濟(jì)利益。