李友 馬曄赟 陳楊陽(yáng)
摘 要:P2P網(wǎng)絡(luò)借貸的興起使得網(wǎng)絡(luò)借貸平臺(tái)上投資用戶數(shù)目以及貸款項(xiàng)目數(shù)目迅速激增,同時(shí)帶來(lái)海量的借款人信息以及貸款信息,投資用戶在眾多貸款項(xiàng)目中找到自己感興趣的貸款項(xiàng)目變得愈加困難。本文在研究推薦系統(tǒng)相關(guān)算法的基礎(chǔ)上,詳盡的實(shí)驗(yàn)了基于隱因子模型的推薦算法,在挖掘用戶感興趣的貸款的準(zhǔn)確率。為了說(shuō)明算法的有效性,本文做了相關(guān)推薦算法的多組對(duì)比實(shí)驗(yàn)。對(duì)比實(shí)驗(yàn)結(jié)果表明,基于隱因子模型的推薦算法能夠更有效地預(yù)測(cè)投資用戶的投資偏好,并且對(duì)推薦系統(tǒng)應(yīng)用到P2P借貸平臺(tái)具有借鑒意義。
關(guān)鍵詞:P2P借貸;推薦系統(tǒng);隱因子模型
DOI:10.16640/j.cnki.37-1222/t.2016.04.233
0 引言
伴隨信息技術(shù)的迅速發(fā)展,互聯(lián)網(wǎng)金融在近年來(lái)迅速興起。其中P2P網(wǎng)絡(luò)借貸憑借低成本,快速便捷等特點(diǎn)正成為人們投資理財(cái)?shù)男逻x擇。網(wǎng)絡(luò)借貸平臺(tái)是新興的金融市場(chǎng),通過(guò)互聯(lián)網(wǎng)通道產(chǎn)生的海量交易數(shù)據(jù)促使了許多相關(guān)學(xué)術(shù)研究。關(guān)于網(wǎng)絡(luò)借貸的研究大致可以分為對(duì)投資者出借意愿的研究[1]、對(duì)貸款項(xiàng)目評(píng)估的研究[2]以及對(duì)網(wǎng)絡(luò)借貸中社交網(wǎng)絡(luò)的研究[3]。
本文的研究?jī)?nèi)容是使用推薦算法,分析用戶的相關(guān)信息,從正在招標(biāo)的貸款項(xiàng)目中挖掘出用戶可能感興趣、可能投資的項(xiàng)目,并推薦給相應(yīng)的投資用戶,實(shí)現(xiàn)提高網(wǎng)絡(luò)借貸平臺(tái)上借貸雙方的匹配效率的目的。本文的創(chuàng)新工作:(1)從信息檢索和機(jī)器學(xué)習(xí)方法的角度考慮,挖掘并推薦給出借人感興趣的項(xiàng)目,實(shí)現(xiàn)提高資本需求雙方匹配效率進(jìn)而提高平臺(tái)運(yùn)營(yíng)效率的研究還是從未有過(guò)的;(2)推薦系統(tǒng)目前主要應(yīng)用于電子商務(wù)與社交網(wǎng)絡(luò)領(lǐng)域,將其運(yùn)用到網(wǎng)絡(luò)借貸平臺(tái)上的情況也不曾有過(guò);(3)使用具有高可擴(kuò)展性的機(jī)器學(xué)習(xí)方法--矩陣分解技術(shù)[4],將推薦系統(tǒng)[5]應(yīng)用到網(wǎng)絡(luò)借貸平臺(tái)。
1 相關(guān)知識(shí)
本部分將介紹論文研究所要用到的相關(guān)知識(shí)以及本文實(shí)驗(yàn)數(shù)據(jù)集。
1.1 協(xié)同過(guò)濾推薦算法
協(xié)同過(guò)濾推薦是基于這樣的假設(shè):如果用戶之間的歷史行為與偏好是相似的,那么我們可以向他們推薦他們之間相互感興趣但未發(fā)掘的內(nèi)容。
其方法是將原有的信息構(gòu)建成一個(gè)用戶評(píng)分矩陣R,行向量代表每一個(gè)用戶,列向量代表每一個(gè)項(xiàng)目,其中的每一個(gè)值代表特定用戶對(duì)特定項(xiàng)目的評(píng)分(喜好程度)。目前協(xié)同過(guò)濾算法主要有基于內(nèi)存的推薦和基于模型的推薦。矩陣分解即是屬于基于模型[5]。
1.2 本文數(shù)據(jù)介紹
由于我國(guó)網(wǎng)絡(luò)借貸平臺(tái)數(shù)據(jù)未被公開,所以無(wú)法獲得,故本文數(shù)據(jù)采用的是美國(guó)的網(wǎng)絡(luò)借貸平臺(tái)Prosper.com上的數(shù)據(jù)。本文實(shí)驗(yàn)只需用到Bids與Loans表。Bids表保存了投資者的出借記錄,Loans表記錄了借款項(xiàng)目的基本信息和狀態(tài)。
在網(wǎng)絡(luò)借貸中,并沒有投資者對(duì)貸款的評(píng)分。但從投資用戶對(duì)貸款項(xiàng)目的投資金額來(lái)看,可以預(yù)見,越多的出借數(shù)額代表投資用戶對(duì)該貸款項(xiàng)目越有興趣,評(píng)分也越高。即將投資金額離散為10個(gè)等級(jí),從1至10表示金額越大則級(jí)別越高,級(jí)別越高則表明越感興趣,我們稱它為“投資等級(jí)”。
2 基于隱因子模型的推薦算法
矩陣分解模型是當(dāng)前基于模型的協(xié)同過(guò)濾算法中應(yīng)用最流行的一種[5],并且獲得了較理想的推薦效果。Yehuda Koren在Netflix比賽中使用稱作LFM(latent factorization model)的矩陣分解方法,推薦效果得到顯著提升。
2.1 隱因子模型算法實(shí)現(xiàn)
對(duì)于M*N的評(píng)分矩陣,傳統(tǒng)的是使用SVD進(jìn)行分解,而實(shí)際上這種直接計(jì)算特征值的傳統(tǒng)方法的計(jì)算復(fù)雜度很高,在大規(guī)模的矩陣上基本不可行,而實(shí)際中系統(tǒng)動(dòng)輒就是上千萬(wàn)的用戶和上百萬(wàn)的物品,所以這種方法無(wú)法使用。因此,在實(shí)際應(yīng)用中我們使用LFM方法來(lái)進(jìn)行矩陣分解求解。LFM方法的形式化描述如下所示:
(1)
其中Ui表示的是一個(gè)f維的用戶因子向量,Vj代表的是一個(gè)f維的項(xiàng)目因子向量;UiTVj表示用戶i對(duì)貸款j的估計(jì)投資等級(jí)。
求解目標(biāo)函數(shù)(1),通常有兩種方法,一種是交叉最小二乘法,一種是隨機(jī)梯度下降法。由于交叉最小二乘法計(jì)算復(fù)雜且運(yùn)算速度慢,所以使用隨機(jī)梯度下降法。
2.2 實(shí)驗(yàn)介紹
(1)數(shù)據(jù)預(yù)處理。從Bids表中導(dǎo)出每個(gè)投資者的投資記錄,Loans表中導(dǎo)出每個(gè)借款成功的貸款項(xiàng)目記錄,并按投標(biāo)日期排序。由于Prosper.com公開的數(shù)據(jù)有限,為了保證信息的及時(shí)性,我們采用最新的2009年至2010年的投資記錄進(jìn)行實(shí)驗(yàn)并評(píng)估推薦效率。
(2)結(jié)果分析。經(jīng)過(guò)隱因子分解之后計(jì)算內(nèi)積得到原矩陣的逼近矩陣,得出了每個(gè)用戶對(duì)借款的投資等級(jí)預(yù)測(cè)值。在評(píng)估我們的實(shí)驗(yàn)算法時(shí),我們使用評(píng)估推薦效率常用的算法:采納率、精確率、召回率和F值來(lái)表示。實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),隨著推薦項(xiàng)目的增多,各項(xiàng)評(píng)估指標(biāo)也增大。當(dāng)對(duì)每個(gè)投資用戶推薦10個(gè)貸款時(shí),最終有86%的用戶至少投資了10個(gè)貸款中的一項(xiàng),并且精確率、召回率和F值各項(xiàng)指標(biāo)也分別達(dá)到24%、43%和30.8%。
基于內(nèi)存的推薦也是協(xié)同過(guò)濾算法家族使用最為廣泛的推薦算法之一?;趦?nèi)存的推薦的投資等級(jí)預(yù)測(cè)公式如下:
(2)
在式中,表示用戶u的平均投資等級(jí);ωu,i表示用戶u和i之間的相關(guān)性,在實(shí)驗(yàn)中我們選取皮爾森相關(guān)性系數(shù)來(lái)計(jì)算相關(guān)性;α是歸一化因子;n表示參照用戶數(shù),對(duì)n的選取,常用的有兩種方式,一種是指定相關(guān)度閾值θ,一種是選擇固定的K個(gè)鄰居數(shù)。
為說(shuō)明基于隱因子模型的算法比基于內(nèi)存的推薦算法相對(duì)有效,我們使用同樣的訓(xùn)練和測(cè)試數(shù)據(jù)集,和使用指定密度閾值θ和鄰居數(shù)K的基于內(nèi)存的協(xié)同過(guò)濾推薦算法在最優(yōu)時(shí)的表現(xiàn)對(duì)比(經(jīng)過(guò)多次實(shí)驗(yàn)得出θ=0.1和K=15)。實(shí)驗(yàn)結(jié)果表明,在推薦10個(gè)貸款項(xiàng)時(shí),LFM的推薦準(zhǔn)確性要優(yōu)于基于內(nèi)存的推薦算法超過(guò)10%。
3 基于借貸行為差異的改進(jìn)算法
在現(xiàn)實(shí)生活中,投資用戶的出借行為是存在差異的。某些投資者的閑散資金比較充裕,他們的平均投資額超過(guò)普遍的用戶;同時(shí),貸款之間也存在差異。如有的借款被看好,投資用戶愿意出借更多的資金,而使得貸款的平均出借額更高。因此,借款人的投資行為以及貸款項(xiàng)目的優(yōu)劣都會(huì)對(duì)出借額的多少產(chǎn)生影響。
3.1 模型改進(jìn)
現(xiàn)將借貸行為差異考慮到(1)中的模型內(nèi)。若全體投資用戶對(duì)一個(gè)項(xiàng)目的平均出借等級(jí)為A,用戶i對(duì)一個(gè)項(xiàng)目的平均出借等級(jí)比A高出Bi(Bi大于0即表示i的投資等級(jí)高于平均值,小于0則表示低于平均值);同理,若全體貸款的每一個(gè)出借人的平均出借等級(jí)為C,貸款j目前的平均出借等級(jí)比C高出Lj(Lj大于0即表示j的出借等級(jí)高于平均水平,小于0則低于平均水平),這里的Bi與Lj即為出借人的出借偏好和貸款項(xiàng)目的好壞差異。則用戶i對(duì)貸款j的估出投資等級(jí)為的表達(dá)式修改為下式:
(3)
同樣優(yōu)化公式將修改為下式:
(4)
3.2 結(jié)果分析
將改進(jìn)后的模型重新做預(yù)測(cè),可以發(fā)現(xiàn)精確率、召回率、F值都有部分提升。當(dāng)向每個(gè)用戶推薦10個(gè)貸款時(shí),最終有89%的用戶至少投資了其中一項(xiàng),可以發(fā)現(xiàn)采納率在改進(jìn)后提高相對(duì)明顯,對(duì)于推薦特定K個(gè)項(xiàng)目,改進(jìn)后的采納率平均提高4%。
4 結(jié)束語(yǔ)
對(duì)于網(wǎng)絡(luò)借貸平臺(tái),如果能夠使用有效的推薦系統(tǒng),向投資用戶推薦他們感興趣的貸款項(xiàng)目,不僅可以減少用戶在投資決策時(shí)的信息篩選,提升用戶體驗(yàn),還能提高借款效率而提高運(yùn)營(yíng)效率。通過(guò)Prosper網(wǎng)站真實(shí)數(shù)據(jù)實(shí)驗(yàn),結(jié)果表明,基于隱因子模型的推薦算法可以有效的利用用戶的歷史投資記錄,找出用戶感興趣的貸款項(xiàng)目;并且當(dāng)考慮不同用戶與貸款項(xiàng)目的個(gè)體偏見時(shí),可以更好地提升推薦效率。
參考文獻(xiàn):
[1]宋文,韓麗川.P2P網(wǎng)絡(luò)借貸中投資者出借意愿影響因素分析[J].西南民族大學(xué)學(xué)報(bào):自然科學(xué)版,2013,39(05):795-799.
[2]Li S, Qiu J, Lin Z, et al. Do borrowers make homogeneous decisions in online P2P lending market? An empirical study of PPDai in China[C]// Service Systems and Service Management (ICSSSM),2011 8th International Conference on.IEEE,2011:1-6.
[3]Berger S C,Gleisner F.Emergence of Financial Intermediaries in Electronic Markets:The Case of Online P2P Lending[J].BuR - Business Research,2010,2(01):39-65.
[4]程明松,劉勺連.一種實(shí)用快速非負(fù)矩陣分解算法[J].大連理工大學(xué)學(xué)報(bào),2013,53(01):151-156.
[5]J.Bobadilla,F(xiàn).Ortega,A.Hernando,A.Gutierrez.Recommender systems survey. Knowledge-Based Systems,2013,46(01):109-132.
作者簡(jiǎn)介:李友(1990-),男,江西贛州人,碩士研究生,主研領(lǐng)域:數(shù)據(jù)挖掘。