王 平,夏火松
(武漢紡織大學(xué) 管理學(xué)院,湖北 武漢 430073)
網(wǎng)貸之家發(fā)布的《2018年中國網(wǎng)絡(luò)借貸行業(yè)年報》數(shù)據(jù)顯示,2018年全年P(guān)2P網(wǎng)貸行業(yè)成交量達(dá)到了17948.01億元,相比2017年全年網(wǎng)貸成交量(28048.49億元)減少了36.01%。2018年,P2P行業(yè)不僅成交量下降,而且大量的平臺暴雷、退出,給行業(yè)帶來了巨大的風(fēng)險。究其原因,可分為三類:第一類由于P2P是一種創(chuàng)新金融模式,政府采取從混沌到有序的治理思路尚未適應(yīng)復(fù)雜的金融風(fēng)險;第二類是P2P平臺缺乏有效的治理,流程不規(guī)范以及金融市場的競爭壓力,產(chǎn)生了高息攬存和潛在欺詐行為等風(fēng)險;第三類是投資者和借貸者的“無知”(對金融科技的風(fēng)險缺乏知識素養(yǎng))。中國銀監(jiān)會在2016年分別印發(fā)《網(wǎng)絡(luò)借貸信息中介機構(gòu)業(yè)務(wù)活動管理暫行辦法》和《網(wǎng)絡(luò)借貸信息中介機構(gòu)備案登記管理指引》,在 2017年提出《網(wǎng)絡(luò)借貸資金存管業(yè)務(wù)指引》和《網(wǎng)絡(luò)借貸信息中介機構(gòu)業(yè)務(wù)活動信息披露指引》,形成了網(wǎng)貸行業(yè)“1+3”監(jiān)管制度體系。但是對于后兩類原因的分析與治理,缺乏深入的理論研究與對策研究。
P2P進(jìn)入國內(nèi)市場引起的行業(yè)亂象,吸引了大量的學(xué)者關(guān)注到新金融風(fēng)險研究。葉青等[1]從平臺實力、標(biāo)的特征、風(fēng)控能力、治理水平等維度構(gòu)建模型,發(fā)現(xiàn)利率奇高是識別問題平臺的最重要變量,同時,實力薄弱、標(biāo)的類型單一、風(fēng)控能力欠缺是問題平臺的前兆。王茂光等[2]以C5.0決策樹算法構(gòu)建風(fēng)險預(yù)測模型,表明該模型具有較好的預(yù)測能力。范超等[3]利用文本挖掘技術(shù)提取網(wǎng)絡(luò)口碑的情感傾向,結(jié)合平臺的基本信息和交易信息,使用八個統(tǒng)計模型判定風(fēng)險。何光輝等[4]從道德風(fēng)險、公司治理、信用管理和營運風(fēng)險四個風(fēng)險維度,提出了假設(shè)檢驗和指標(biāo)體系,幵建立計量模型分析平臺風(fēng)險及決定因素,發(fā)現(xiàn)平臺基本為民營公司,四個風(fēng)險維度指標(biāo)越高,平臺出問題的可能性越大。古定威等[5]指出平臺競爭不利于平臺控制信用風(fēng)險,監(jiān)管風(fēng)險對控制P2P平臺信用風(fēng)險有較大的影響。可見,學(xué)者們對P2P平臺知識風(fēng)險研究大致可分為:平臺基本信息、交易信息、風(fēng)控信息、治理信息和口碑信息等視角分析。第一類是對包括注冊資本、注冊地、保障方式、平臺背景等平臺基本信息分析(葉青[1]、王茂光[2]、范超等[3]);第二類是對包括成交量、平均利率、投資人數(shù)、平均借款期限、借款人數(shù)等交易信息分析(王茂光[2]、范超等[3]和何光輝等[4]);第三類是對包括風(fēng)控措施、信用風(fēng)險、流動性風(fēng)險、系統(tǒng)性風(fēng)險等風(fēng)控信息分析(王茂光[2]、何光輝等[4]和古定成等[5]);第四類是對包括高管背景、股東數(shù)目和董事人數(shù)等治理信息分析(葉青[1]和何光輝等[4]);第五類是對包括評論情感傾向口碑信息分析(范超等[3])。
以上研究較多運用結(jié)構(gòu)化信息分析平臺風(fēng)險,范超等采用非結(jié)構(gòu)信息探究口碑的情感分類是否可以區(qū)分正常平臺和問題平臺[3],但是缺乏利用文本挖掘的方法識別P2P平臺風(fēng)險的負(fù)面口碑特征研究。Rinchins[6]界定負(fù)面口碑為告訴熟悉人有感產(chǎn)品的不滿意經(jīng)驗。當(dāng)買方根據(jù)其他買方的口碑信息形成他對賣方的信任程度時,負(fù)面口碑比正面口碑具有更大的反對效果[7]。負(fù)面口碑與正面口碑相比,其被消費者認(rèn)為更加有用和可信[8],Lu et al.認(rèn)為負(fù)面口碑占比對銷售量會產(chǎn)生顯著的影響[9]。P2P負(fù)面口碑會增加投資者的風(fēng)險感知,通過挖掘負(fù)面口碑風(fēng)險知識在一定程度上會幫助投資者做決策,從而降低投資者的投資風(fēng)險[10]。Chervalier等[11]發(fā)現(xiàn)負(fù)面口碑會給企業(yè)造成不良的影響。Zhu et al.[12]發(fā)現(xiàn)某些產(chǎn)品(例如利基產(chǎn)品),只有一個也是不利的。此外,已有研究從非結(jié)構(gòu)化信息(在線評論、公司財報、公司招股說明書、公司披露的信息等文本信息)中提取風(fēng)險信息,如胡小榮等[13]從文本分析的視角,通過統(tǒng)計詞頻、主題分析和可視化風(fēng)險知識,發(fā)現(xiàn)上市公司的風(fēng)險信息。李金海等[14]基于大數(shù)據(jù)處理引擎MapReduce構(gòu)建了在線評論特征屬性挖掘模塊,幵提出了負(fù)面口碑網(wǎng)絡(luò)預(yù)警模型??梢?,從文本分析的視角研究企業(yè)風(fēng)險較多的是提取關(guān)鍵詞、特征屬性挖掘、可視化等方法。
綜上所述,已有文獻(xiàn)主要從平臺交易、治理、風(fēng)控、營運和口碑等維度的信息研究平臺風(fēng)險,較少研究利用P2P平臺口碑信息識別風(fēng)險信息,僅僅探討了基于粗粒度的網(wǎng)貸口碑的情感分析對平臺風(fēng)險的影響,未深入挖掘口碑中其他特征屬性,如投資者抱怨的意見和抱怨的程度。通過挖掘網(wǎng)絡(luò)負(fù)面口碑有助于投資者降低投資風(fēng)險,有利于平臺及時發(fā)現(xiàn)經(jīng)營管理遇到的問題和政府進(jìn)行平臺治理,從而及時規(guī)避平臺風(fēng)險和改進(jìn)服務(wù)。負(fù)面口碑不僅會影響投資者行為,而且挖掘其特征是企業(yè)識別風(fēng)險的方法。因此,在虛擬性互聯(lián)網(wǎng)平臺的新金融模式中利用負(fù)面口碑來識別風(fēng)險知識是一種新的探索,如何挖掘負(fù)面口碑中的特征是值得研究的問題。
基于以上的討論,文章從文本分析的視角解決以下三個問題彌合這一差距:
(1)利用文本挖掘方法,分析P2P負(fù)面口碑的內(nèi)容能否發(fā)現(xiàn)影響平臺風(fēng)險的因素?
(2)在問題(1)的研究背景下,P2P負(fù)面口碑中不同維度的影響因素呈現(xiàn)的風(fēng)險程度?
(3)利用可視化方法比較P2P負(fù)面口碑與正面口碑的差異性?
文章主要的價值:第一,關(guān)于負(fù)面口碑的P2P平臺風(fēng)險研究不多見但有研究的必要性,拓展了P2P風(fēng)險知識研究的路徑;第二,設(shè)計了基于負(fù)面口碑的P2P平臺風(fēng)險知識識別模型,利用文本挖掘和機器學(xué)習(xí)方法將投資者抱怨意見和抱怨程度從海量的負(fù)面口碑中轉(zhuǎn)化為關(guān)鍵的風(fēng)險特征信息彌合研究的差距。
有限注意力理論是Kahneman于1973年提出來的。有限注意力理論認(rèn)為:個人或團體注意力很重要但有限,因此強烈程度、新奇程度或吸引力更強的能夠吸引眼球幵采取行動[15]。P2P作為一種創(chuàng)新的投融資模式,吸引了大量的投資者。
網(wǎng)絡(luò)口碑(eWOM)是一種典型的有限注意力集中的投融資行為的展現(xiàn)形式。在線用戶的潛在人格特征是否加強或削弱了WOM在社交媒體平臺中的效果,如基于深度學(xué)習(xí)模型控制潛在用戶同質(zhì)性和網(wǎng)絡(luò)結(jié)構(gòu)角色,通過將理論上影響WOM有效性的特征[16]。當(dāng)消費者退貨時,他們更可能填寫比未退貨的口碑更負(fù)面的在線口碑[17]。有限注意力理論、負(fù)面口碑及網(wǎng)絡(luò)口碑對于P2P口碑的風(fēng)險分析適合其理論思想。
知識模型是將知識進(jìn)行形式化和結(jié)構(gòu)化的抽象表示,包括知識的獲取方法、表達(dá)模式、實現(xiàn)技術(shù)等。文章根據(jù)評論挖掘任務(wù)設(shè)計負(fù)面口碑風(fēng)險知識模型,包括特征抽取、評論觀點抽取、觀點的極性判斷、評論結(jié)果匯總與排序[13,18],以及產(chǎn)品評論主題提取[19]和關(guān)注點分析。具體而言,分析口碑觀點極性,篩選負(fù)面極性口碑,深入挖掘評論特征、評論主題與評論結(jié)果匯總。圖1展示了基于負(fù)面口碑的P2P風(fēng)險知識識別模型。從流程上將P2P風(fēng)險識別模型分為口碑下載與預(yù)處理、口碑情感分類、負(fù)面口碑信息挖掘。通過挖掘P2P平臺負(fù)面口碑的屬性特征,幵對屬性特征的重要程度進(jìn)行排序,及時發(fā)現(xiàn)平臺風(fēng)險知識。
圖1 基于負(fù)面口碑的P2P風(fēng)險知識識別模型
網(wǎng)貸天眼是國內(nèi)最大的P2P行業(yè)綜合門戶網(wǎng)站之一,其包含資訊、評級、數(shù)據(jù)、檔案、社區(qū)、P2P理財?shù)劝鍓K,收錄了大量的P2P平臺數(shù)據(jù)信息,幵且信息比較齊全。通過平臺檔案欄,可以獲取子版塊各平臺口碑?dāng)?shù)據(jù)。文章從天眼下載所有平臺的口碑?dāng)?shù)據(jù),共計 162071條。數(shù)據(jù)預(yù)處理,包括去除重復(fù)數(shù)據(jù)和同義詞合幵等,最終用于實驗的數(shù)據(jù)140094條。
首先借助爬蟲軟件爬取了網(wǎng)貸天眼的 14萬多條口碑作為語料庫。在分析理解口碑信息基礎(chǔ)上,構(gòu)建了自定義詞表用于分詞。采用Python中文分詞組件Jieba中文分詞庫幵導(dǎo)入自定義詞表進(jìn)行分詞處理,去除停用詞。在此基礎(chǔ)上,隨機選取“正向”、“中立/噪音”、“負(fù)向”口碑?dāng)?shù)據(jù)各1000條標(biāo)記作為訓(xùn)練集,然后利用Python機器學(xué)習(xí)庫SciKit-Learn進(jìn)行特征提取、文本表示,且將數(shù)據(jù)集按照9:1的比例隨機劃分為訓(xùn)練集與測試集,通過比較Xgboost、SVM、NB和LR四種分類算法,多次實驗調(diào)參比較分類算法的準(zhǔn)確度,其中LR算法表現(xiàn)較好,準(zhǔn)確率可達(dá)76%,最終選擇LR算法對所有口碑進(jìn)行情感傾向判斷,分類結(jié)果顯示負(fù)向口碑33824條。
TFIDF是計算特征項的函數(shù),采用相對詞頻作為特征權(quán)重,用來刻畫特征詞在文本內(nèi)容的重要程度。一般情況下,做特征提取和主題聚類會過濾掉沒有實際意義的詞性,以名詞為主,但P2P對于時間的響應(yīng)程度要求更高,涉及關(guān)于資金操作方面的詞匯,故文章選擇名詞、動詞、時間三種詞性的詞語作為關(guān)鍵詞提取的語料庫。選取前50的特征詞進(jìn)行展示(見表1)。從表1可知,平臺、提現(xiàn)、客服是投資者抱怨的前3位的特征詞。其次是存管、回款、逾期,說明資金管理和風(fēng)險控制是平臺的詬病。再者,充值、投資、APP等特征詞,體現(xiàn)了平臺技術(shù)實力薄弱。
針對口碑文本的特征稀疏性,選取 LDA主題模型,實現(xiàn)負(fù)面口碑聚類。利用 Python的機器學(xué)習(xí)庫SciKit-Learn,設(shè)置主題數(shù)為8,最大迭代次數(shù)為1000,提取主題排名前10的詞。從表2中可以看出,LDA主題模型將負(fù)面口碑分為8類主題域:主題K1顯示的是投資者情緒,包括垃圾、雷了、打不開、賬戶、客服、提現(xiàn)等;主題K2顯示的是交易信息,包括提現(xiàn)、不到、體現(xiàn)等;主題K3顯示的是服務(wù)態(tài)度和技術(shù),包括客服、電話、APP;主題K4顯示的是收費信息,包括手續(xù)費、提現(xiàn)費等;主題K5顯示的是資金安全,包括提現(xiàn)、充值、到賬等;主題K6是風(fēng)控信息,包括跑路、逾期、存管、提現(xiàn)等;主題K7是項目信息,包括退出、項目、無法、投資人等;主題K8是收益信息,包括收益、利息、利率、紅包等。
表1 基于TF-IDF的P2P負(fù)面口碑特征詞
表2 基于LDA的P2P負(fù)面口碑主題-詞語分布
從表2可知,P2P負(fù)面口碑的主題分別是投資者情緒、交易信息、服務(wù)態(tài)度、技術(shù)實力、資金安全、風(fēng)控信息、項目信息、收益信息。結(jié)合TFIDF值、LDA主題模型和領(lǐng)域知識,構(gòu)建了投資者抱怨指標(biāo),設(shè)計了P2P負(fù)面口碑多維特征評分表。具體而言,選取TFIDF值前100的特征詞,人工挑選將每個詞放在不同的指標(biāo)中。由于每個維度的特征詞數(shù)量不相同,采用同一維度特征詞相加取平均數(shù)的方式計算不同維度特征詞的平均TFIDF值依次排序,見公式1和表3。從表3可知,資金信息、服務(wù)體驗和風(fēng)控信息是關(guān)鍵風(fēng)險,反應(yīng)了投資者對于資金安全的緊張程度。其次,服務(wù)體驗對于P2P平臺的影響較大,當(dāng)平臺客服回應(yīng)比較緩慢時,會增加投資者的風(fēng)險感知。再者,風(fēng)控信息直接反應(yīng)了投資者對于資金安全性的感知程度。最后,技術(shù)信息是抱怨的內(nèi)容,但相對資金信息、服務(wù)體驗等方面,抱怨程度較低。
其中score代表不同維度的平均TFIDF值,xi代表第i個值的TFIDF值,N代表不同維度特征詞數(shù)量。
表3 基于領(lǐng)域知識的P2P負(fù)面口碑評分表
基于Python的WordCloud庫可視化分別呈現(xiàn)了P2P正面口碑與負(fù)面口碑TFIDF值在前100的特征詞,如圖2所示,其中左邊是正面口碑,右邊是負(fù)面口碑。左右兩圖相比之下,正面評論呈現(xiàn)的特征詞是合規(guī)、給力、朋友、準(zhǔn)時、車貸、透明度等積極的詞匯,負(fù)面口碑呈現(xiàn)的特征詞是逾期、搶標(biāo)、管理費、借款、APP、站崗、打不開等消極的詞匯。這一方面反應(yīng)了投資者對于合規(guī)、透明度高的平臺的信任,另一方面也反應(yīng)了投資者在搶標(biāo)、管理費等方面不滿。
圖2 P2P正面口碑與負(fù)面口碑的特征詞云圖
文章梳理了P2P網(wǎng)絡(luò)借貸領(lǐng)域平臺風(fēng)險研究,在基于平臺風(fēng)險研究結(jié)構(gòu)化數(shù)據(jù)較多而網(wǎng)絡(luò)口碑的風(fēng)險研究較少的背景下,闡述了深入挖掘負(fù)面口碑中風(fēng)險點的必要性,提出了基于負(fù)面口碑的網(wǎng)絡(luò)借貸風(fēng)險識別知識模型。具體而言,首先,利用文本挖掘的方法分析P2P負(fù)面口碑,發(fā)現(xiàn)Top6的特征詞是平臺、提現(xiàn)、客服、存管、回款和逾期,其TFIDF值均大于0.09。其次,對比了基于結(jié)構(gòu)化信息的P2P平臺風(fēng)險研究與基于負(fù)面口碑的投資者角度風(fēng)險的差異性。P2P平臺風(fēng)險文獻(xiàn)主要集中在平臺基本信息、交易信息、風(fēng)控信息、治理信息等?;谪?fù)面口碑的風(fēng)險信息主要包括資金信息、服務(wù)體驗、投資者情緒、標(biāo)的特征、技術(shù)信息、用戶信息、收費信息等,其中資金信息、服務(wù)體驗、風(fēng)控信息是投資者抱怨程度較高。這表明基于負(fù)面口碑的P2P風(fēng)險知識識別模型,可以挖掘投資者情緒、技術(shù)信息、收費信息等風(fēng)險知識。最后,對比了正面口碑與負(fù)面口碑的差異性,投資者的正面口碑中主要從合規(guī)、透明度、給力、社交等方面,負(fù)面口碑集中在逾期、搶標(biāo)、管理費、技術(shù)等方面。因此,P2P負(fù)面口碑的特征屬性挖掘是識別風(fēng)險的有效路徑,能夠識別平臺的風(fēng)險知識。
文章對于P2P負(fù)面口碑分析,豐富了有限注意力理論和eWOM理論,對P2P平臺風(fēng)險分析與治理有參考價值。對于 P2P平臺,通過挖掘負(fù)面口碑知識有助于平臺找準(zhǔn)治理的方向;對于政府,可實時監(jiān)控P2P等平臺中的口碑,及早的防控平臺風(fēng)險,幵治理與監(jiān)管;對于投資者,應(yīng)密切關(guān)注P2P等金融科技平臺的負(fù)面口碑,加強借貸知識獲取與知識共享,以免由于金融科技的“無知”增加投資的風(fēng)險。
未來的研究方向:第一,利用深度學(xué)習(xí)方法提高文本分類算法精準(zhǔn)度和特征提取的完整性;第二,從大數(shù)據(jù)集成的視角,結(jié)合文本挖掘和計量方法分析P2P平臺等FinTech平臺風(fēng)險的因果效應(yīng)。