姜娜 黃吉亞 顧慶傳 楊海燕
摘要:我國科技技術在社會經濟建設的背景下有了較快的發(fā)展,其中機器學習是我國目前較為流行的一種技術,并且應用在較多的領域中,比如生物、信息以及交通等,特別是經濟以及金融領域,有較高的應用效果。此外,在經濟以及金融領域中應用機器學習的過程中,需要對不同算法中的優(yōu)點與缺點進行實施有效的分析,并能在此基礎上對目前整個環(huán)境進行有效的了解,通過機器學習進行用戶推薦系統(tǒng)的構建,以此對不同算法的適應情況進行深入的了解。
關鍵詞:機器學習;推薦系統(tǒng);應用
中圖分類號:TP391 文獻標識碼:A
文章編號:1009-3044(2019)11-0196-02
前言
我國信息化技術的發(fā)展,使較多數(shù)據(jù)得到有效的存儲,同時科技技術在應用過程中也出現(xiàn)了較多的數(shù)據(jù),在一定程度上很難得到有效的利用。因此,需要對一些數(shù)據(jù)進行有效的挖掘,較多數(shù)據(jù)挖掘技術在不同領域中應用,其中機器學習技術的應用范圍比較廣泛,由此能夠看出,機器具有強大的學習能力,能夠在推薦系統(tǒng)中進行有效的應用。
1 機器學習的過程
1.1 數(shù)據(jù)獲取
機器學習在運行過程中,首先是采取有效的途徑進行數(shù)據(jù)的獲取,由此可以看出,機器學習需要建立在數(shù)據(jù)的基礎之上,其中獲取數(shù)據(jù)是機器學習運行過程中最為簡單的步驟,主要是因數(shù)據(jù)的產生渠道較多,并且產生的數(shù)據(jù)量也相對較多,比如醫(yī)院就診記錄、超市購買記錄以及電腦運行數(shù)據(jù)等,這些數(shù)據(jù)信息在較大程度上是機器學習的基礎。
1.2 清洗數(shù)據(jù)
由于數(shù)據(jù)無規(guī)則性,人們在獲取的過程中也有較大的無規(guī)則性,在此過程中有較多數(shù)據(jù)沒有可利用價值,反之還會對系統(tǒng)運行造成一定的不利影響,所以在對此進行分析過程中應當首先對此無用信息進行有效清理,這在較大程度上能夠有效提高分析結果正確率[1]。此外,在對數(shù)據(jù)處理的過程中有三個不同的方面:距離度量、抽樣以及降維。
在協(xié)同過濾推薦系統(tǒng)中采用KNN分類,一般情況下取決于距離度量方法,使用頻率最高的距離度量方法有皮爾遜相關系數(shù)、歐幾里得距離以及Jaccard系數(shù)等。此外,抽樣技術主要是對數(shù)據(jù)進行有效的挖掘,從大數(shù)據(jù)集中選擇相關數(shù)據(jù)子集的一種技術,并且在最終的解釋步驟也起到了較為重要的作用,其中無取代抽樣是使用頻率最為高的抽樣方法,若對物品選擇確定之后,物品會被取走,但是執(zhí)行取代抽樣也是允許的,換句話說就是物品就算被選擇也無需從整體中去除。降維主要是對一些點的去除,一般情況下是對密集度不高并且對結果影響較小的點實施有效的去除,并在此基礎上進行維度的有效降低,以此在最大程度上避免維度災難。
1.3 模型構建以及數(shù)據(jù)分析
在機器學習的過程中,對數(shù)據(jù)的分析是整個過程中難度最大,并且最核心的環(huán)節(jié),的整個機器學習中最為核心的內容。此外,在對數(shù)據(jù)分析過程中,所采用的方法相對較多,不同的方法在使用的過程中會產生不同作用,這就需要在使用過程中根據(jù)實際情況進行針對性分析,推薦系統(tǒng)在應用的過程中主要采用了以下幾種方法[2]:1)最近鄰算法。最近鄰算法主要是根據(jù)存儲蓄念記錄對樣本標簽類別進行有效的預測,此種分類器主要是對訓練集進行有效的存儲,在此過程中想要進行有效的分類,需要將訓練集與新記錄進行有效的匹配。此種方法與其他方法相比相對較為簡單,主要是因最近鄰算法不需要進行模型的構建,具有較高準性;2)人工神經網絡。人工神經網絡算法在一定程度上是對生物網絡進行了有效的模擬,主要是有內連接點與帶權鏈構成,這在較大程度上是模式匹配算法,一般情況下是對回歸與分類問題進行有效的解決。人工神經網絡主要是機器在學習過程中的一個分支,算法相對比較多,其中最為重要的是一個組成部分就是深度學習。人工神經網絡在應用的過程中最大的優(yōu)勢在于能夠對非線性分類任務進行有效的處理,并在此基礎上進行并行處理,使其在一些網絡受損過程中進行實時性操作。但是,人工神經網絡系統(tǒng)對一些問題很難提供理想的網絡拓撲。
2 推薦系統(tǒng)
2.1 系統(tǒng)架構
目前,推薦系統(tǒng)主要由有關物品檢索、物品排序以及用戶體特征提取構成。其中物品檢所以主要是根據(jù)用戶特點,能夠在最短時間內尋找用戶感興趣的物品,一般情況下此模塊主要通過信息檢索對物品實施檢索,以此快速找到用戶感興趣的物品。排序模塊主要是根據(jù)機器學習算法,并在此基礎上對相關指標實施有效的完善,以此在最大程度上得到有效的模型,比如點擊率模型能夠通過候選物品特點以及用戶特點,可有效預算處用戶對物品預估點擊率,再將候選物品根據(jù)點擊率實施合理的排序,主要是根據(jù)預估點擊率實施有效的排序,同時在排序過程中還需要對結果多樣性以及新穎性進行全面、科學的考慮。永特特點提取模塊能夠對用戶行為進行有效的記錄,并在此基礎上與相關信息構成用戶特點,這在較大程度上能夠對用戶興趣進行有效的描述。
2.2 用戶特點獲取與聚類算法
以此圖書網站作為講解的例子,用戶根據(jù)自己的需求登錄網站,推薦系統(tǒng)在最短時間內會對該用戶特點進行有效的提取,系統(tǒng)會給用戶推薦一些與用戶興趣相關的圖書。其中用戶特點主要表現(xiàn)在以下幾點:1)購書過程中的登錄身份;2)用戶年齡以及性別;3)用戶在登錄網站后瀏覽過的網頁;4)用戶在網站中使用的相關詞匯;5)用戶在圖書網站中的一些其他活動,比如評論、收藏等。
在所有的用戶特點中,性別與年齡維度相對較低,其他特點相對較高,若將此直接作為特點會在一定程度上產生一些問題,比如稀疏性問題,其中最為重要的問題就是導致檢索模塊運算量相對增加,這在較大程度上使系統(tǒng)中的一些功能降低[3]。檢索模塊在運行的過程中需要提高其運行效率,推薦系統(tǒng)通過一些措施進行有效的降維,其中降維主要是機器學習過程中無監(jiān)督學習狀態(tài),最為有效的降維方法就是將用戶實施有效聚類,比如根據(jù)用戶歷史記錄將其進行分類。
2.3 物品檢索
系統(tǒng)尋找到用戶興趣特點后,推薦系統(tǒng)會根據(jù)相關信息找打用戶物品,推薦系統(tǒng)在進行物品檢索的過程中主要是通過導牌索引技術來來完成, 此模塊主要的工作是通過倒排索引進行檢索,推薦系統(tǒng)中最為主要的索引就是“物品--物品”索引。此外,推薦系統(tǒng)在進行問題探究過程中主要是對物品之間相關度進行有效的計算,同時一些物品推薦系統(tǒng)一般情況下是在用戶欣賞物品的過程中,系統(tǒng)根據(jù)用戶興趣提供與之相關的物品[4]。目前,主流物品相關度具體算法主要有內容方面算法以及行為方面算法,其中協(xié)同過濾算法主要構成就是行為物品相關度算法,這在較大程度上與機器學習行業(yè)的關聯(lián)性準則有較大的關聯(lián)性。
3 點擊率預估以及兩類分類問題
在得到用戶候選物品后,需要對候選物品進行有效的排序,雖然通過物品檢索模塊能夠獲得用戶特別以及物品相關度,但是不能只通過相關度排序主要是因特點不同得到的相關度有較大的差異性,兩者之間不能進行有效的對比。此外,需要一個有效并且統(tǒng)一指標對用戶檢索物品的有效實施有效的計算工作,以此達到對物品有效排序的目的,其中該統(tǒng)一的指標需要滿足不同的條件才能發(fā)揮其有效性,主要表現(xiàn)在以下兩個方面[5]:1)能夠對機器學習方法與算法進行全面的優(yōu)化;2)在使用的過程中對推薦系統(tǒng)相關網站的使用目標。除此之外,點擊率也需要滿足不同的條件:1)網站在運行過程中點擊率是能夠有效提高運行時長,這在較大程度上也是網站運行一個較為重要的目標;2)點擊率預算在網站運行中尤為重要,可以將其轉變?yōu)橹皟深惙诸悊栴},這在較大程度上是最為主要的問題,由此可以看出,點擊率預估模塊主要是對物品點擊率進行實時性有效計算,再將物品根據(jù)點擊率高低進行有效排序,并在此基礎上進行輸出工作。
在點擊率預估模塊中需要將不同單一問題轉變成兩類分類問題,這就需要進行兩類分類問題數(shù)據(jù)集的全面構建,其中數(shù)據(jù)集主要是有特征與類標組成[6]。此外,兩類分類器最具代表的就是神經網絡、支持向量機以及邏輯回歸等,在進行點擊率預估過程中分類器起到了關鍵性作用,需要滿足以下條件:1)在較大范圍數(shù)據(jù)集中進行分類器模型的有效訓練;2)需要對樣本的正、負類進行全面了解,并在此基礎上還需要對樣本正樣本幾率進行有效的認識,以此對點擊率實施預估;3)能夠對點擊率畸形實時性更新并增量;4)能夠滿足在線預估要求;5)能夠進行預估點擊率信用度的全面提供;6)能夠進行預估結果的相關解釋。目前,一種較為準備的分類算法就是邏輯回歸算法,能夠有效對以上幾點同時滿足,其中此種算法在較大程度上是一種線性模型,可對在線預測行性能進行有效的提高,并保持不變,目前對于模型訓練有一定的并行化方法,能夠在數(shù)據(jù)集中進行有效的使用。
4 結語
綜上所述,在機器學習的較多算法當中,在推薦系統(tǒng)中均有較高的應用效果。推薦系統(tǒng)在設計過程中,應當具有產品轉化的功能,在產品需求轉化為機器學習問題能力,能夠在較大程度上對機器學習研究方向以及不同算法進行有效的掌握,并且在此基礎上把不同算法在不同領域中有針對性的應用效果,能夠在較大程度上提高系統(tǒng)效果,只有這樣才能使系統(tǒng)設計達到一個相對較高的水平,以此能夠有效提升機器學習效率。
參考文獻:
[1] 劉忠寶. 機器學習方法在個性化推薦系統(tǒng)中的應用[J].情報探索,2016(4):80-82.
[2] 周齊. 基于機器學習的推薦系統(tǒng)[J]. 電子技術與軟件工程,2016(24):173.
[3] 齊帥彬, 胡晨駿, 胡孔法,等. 基于機器學習及中醫(yī)理論的推薦系統(tǒng)研究與思考[J]. 江蘇科技信息, 2017(10):37-38.
[4] 盧軍, 張?zhí)旆? 基于隱式用戶行為的推薦系統(tǒng)研究[J].湖北工程學院學報,2016(3):22-27.
[5] 王磊. 基于機器學習技術的LTE網絡智能優(yōu)化系統(tǒng)設計[J].電信工程技術與標準化,2018(1):39-42.
[6] 喬雨, 李玲娟. 融合用戶相似度與評分信息的協(xié)同過濾算法[J].南京郵電大學學報:自然科學版, 2017(3):100-105.
【通聯(lián)編輯:唐一東】