王和勇 芮曉賢
[摘 要] 針對社交平臺上的企業(yè)在線評論等文本數(shù)據(jù)較少應用于中小企業(yè)信用風險評估的研究現(xiàn)狀,收集社交平臺上的企業(yè)在線評論并對其進行文本情感分析,構建中小企業(yè)信用風險評估的投資者情緒指標并將其與信用風險評估的財務指標進行融合。同時設置了基于財務指標和基于融合指標的兩組聚類實驗,并通過對比分析其實驗結果發(fā)現(xiàn)融合了企業(yè)在線評論情感傾向數(shù)據(jù)的評估結果優(yōu)于僅基于財務指標的評估結果,驗證企業(yè)在線評論對企業(yè)信用評估的有效性。
[關鍵詞] 中小企業(yè);信用風險評估;在線評論;情感分析;K-Means聚類
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2019. 07. 053
[中圖分類號] F830 [文獻標識碼] A [文章編號] 1673 - 0194(2019)07- 0131- 04
1 引 言
隨著中小企業(yè)對我國經(jīng)濟發(fā)展的貢獻越來越大,政府部門對其重視程度也逐漸加強,先后出臺各種有利政策為其創(chuàng)造一個良好的發(fā)展環(huán)境。然而,中小企業(yè)仍舊處于發(fā)展乏力的狀態(tài),究其原因可發(fā)現(xiàn)其融資需求無法得到很好的滿足,商業(yè)銀行等金融機構經(jīng)常限制為中小企業(yè)提供信貸服務,而中小企業(yè)的信用缺失是造成這一現(xiàn)象的關鍵所在。對于中小企業(yè)信用風險評估的研究可根據(jù)其使用的指標劃分為兩類。其一是采用反映企業(yè)經(jīng)營水平或財務狀況的屬性作為評估指標,包括了財務指標、企業(yè)管理水平指標等。同時受企業(yè)資源觀的影響,企業(yè)的社會資本、企業(yè)所在供應鏈的情況、企業(yè)的創(chuàng)新能力等也常被考慮在內。這類評估方法屬于傳統(tǒng)的中小企業(yè)信用風險度量方法,為多數(shù)學者所采用。其二是基于企業(yè)的市場交易數(shù)據(jù)來衡量其信用風險水平,通常是以上市企業(yè)在資本市場中的股票價格為基礎構建理論計量模型進行風險預測,常用的模型有KMV模型等。該類評估方法的使用范圍較小,適用于已上市的中小企業(yè)并且使用時需驗證樣本是否滿足模型成立的假設條件。
梳理中小企業(yè)信用風險評估的研究現(xiàn)狀發(fā)現(xiàn),目前學者們的研究基本上是基于中小企業(yè)自身已有的定量數(shù)據(jù),比如財務比率、股票價格等。這些是屬于企業(yè)微觀層面上的數(shù)據(jù),其所反映的企業(yè)發(fā)展情況在一定程度上可衡量企業(yè)信用風險水平。然而目前的研究存在兩方面的不足,其一是學者們在挑選財務指標時,往往忽略所選指標對評估結果的貢獻程度,因此所選的財務指標種類繁多且存在較多冗余變量。其二是互聯(lián)網(wǎng)上與企業(yè)相關的定性信息,比如公司新聞、論壇和微博的在線評論等文本數(shù)據(jù)較少被考慮應用于中小企業(yè)信用風險的評估,而這些海量的非結構化文本數(shù)據(jù)中往往包含著大量可用于評估企業(yè)風險水平的有用信息。Lu等[1,2]、邊海容等[3,4]曾嘗試將企業(yè)新聞報道應用于企業(yè)的信用水平評價并發(fā)現(xiàn)新聞報道對企業(yè)信用評估的有效性。然而關于社交網(wǎng)絡平臺上企業(yè)的在線評論等文本數(shù)據(jù)應用于評估企業(yè)信用的研究基本沒有。社交平臺上的在線評論是評論者個人觀點及情感的體現(xiàn),企業(yè)在線評論中的投資者情感傾向不僅影響著企業(yè)網(wǎng)絡口碑[5]的建設,也間接影響著企業(yè)的信用水平。同時,大數(shù)據(jù)時代的到來也為學者進行該領域的研究提供了海量的數(shù)據(jù)以及先進的數(shù)據(jù)處理技術和方法。因此,挖掘評論中隱藏的情感信息并將其應用于中小企業(yè)的信用風險評估是可行的,一方面可以豐富企業(yè)信用風險評估的影響因素,另一方面也彌補了中小企業(yè)可用于信用評估的材料數(shù)量少質量差的不足。
基于以上分析,本文通過相關性分析以及特征選擇處理挑選出初選財務指標中的關鍵屬性,并基于關鍵財務指標進行聚類分析來評估中小企業(yè)的信用風險水平。其次挖掘社交網(wǎng)絡平臺上的中小企業(yè)在線評論中的投資者情感信息,構建中小企業(yè)信用風險評估的投資者情感指標,并將其與關鍵財務指標數(shù)據(jù)進行融合,并進行聚類分析來評估企業(yè)的信用風險水平,同時通過對比基于財務指標和基于融合情感指標的聚類實驗結果來驗證在線評論中的投資者情感信息對評估中小企業(yè)信用風險水平的有效性。
2 實證分析
2.1 財務指標的選取
企業(yè)財務指標等變量一直以來都是學者衡量企業(yè)信用風險水平的首選評估要素,總結起來不外乎有償債能力、盈利能力、營運能力、發(fā)展能力、現(xiàn)金流能力及風險水平這六部分。利用文獻分析法整理并統(tǒng)計國內外學者評估中小企業(yè)信用風險水平的常用的財務指標,指標體系具體如下。
償債能力指標:流動比率、速動比率、現(xiàn)金比率、利息保障倍數(shù)、資產(chǎn)負債率、有形資產(chǎn)負債率、產(chǎn)權比率、有形凈值債務比、長期資產(chǎn)適合率。
盈利能力指標:資產(chǎn)報酬率、總資產(chǎn)凈利潤率、固定資產(chǎn)凈利潤率、凈資產(chǎn)收益率、營業(yè)利潤率、主營業(yè)務利潤占比、每股收益。
營運能力指標:應收賬款周轉率、存貨周轉率、營運資金周轉率、流動資產(chǎn)周轉率、固定資產(chǎn)周轉率、總資產(chǎn)周轉率、股東權益周轉率。
發(fā)展能力指標:資本積累率、固定資產(chǎn)增長率、總資產(chǎn)增長率、凈資產(chǎn)收益率增長率、凈利潤增長率、可持續(xù)增長率。
現(xiàn)金流能力指標:現(xiàn)金資產(chǎn)比率、經(jīng)營活動產(chǎn)生的現(xiàn)金流量凈額/負債合計、凈利潤現(xiàn)金凈含量、每股經(jīng)營活動產(chǎn)生的現(xiàn)金流量凈額。
風險水平指標:財務杠桿、經(jīng)營杠桿。
以深市中小板上的中小上市企業(yè)作為研究對象,隨機抽取其中69個中小企業(yè)作為樣本企業(yè)。根據(jù)上述指標體系從國泰安金融數(shù)據(jù)庫收集樣本企業(yè)的季度財務數(shù)據(jù),共收集522條數(shù)據(jù)。為了提高數(shù)據(jù)質量,保證后續(xù)的實驗效果,需對所收集的數(shù)據(jù)進行預處理,包括空缺值、噪聲處理及指標的相關性分析。經(jīng)過預處理后剔除償債能力中的流動比率、現(xiàn)金比率、資產(chǎn)負債率,盈利能力中的資產(chǎn)報酬率,營運能力中的總資產(chǎn)周轉率以及發(fā)展能力中的資本積累率。
相關性分析只能剔除存在多重共線性的屬性,但是無法剔除剩余屬性中解釋力度差且代表性不強的冗余屬性。因此,選用拉普拉斯評分算法對財務指標屬性進行特征選擇實驗。拉普拉斯算法[6]是在方差評分算法的基礎上提出來的,除了考慮特征涵蓋的信息量,還考慮引入兩個樣本之間的相似性程度作為補充來對特征進行評分。根據(jù)拉普拉斯評分算法對關鍵特征的定義可知,關鍵屬性具有相對較低的拉普拉斯評分值。根據(jù)特征選擇結果,選取10個二級財務指標作為最終財務指標,其中償債能力選擇速動比率(拉普拉斯分值LS=0.006 2)、利息保障倍數(shù)(LS=0.024 7)、長期資產(chǎn)適合率(LS=0.057 8);盈利能力選擇主營業(yè)務利潤占比(LS=0.047 8);營運能力選擇應收賬款周轉率(LS=0.001 6)、存貨周轉率(LS=0.037 0);發(fā)展能力選擇凈資產(chǎn)收益率增長率(LS=0.390 6)、凈利潤增長率(LS=0.037 0);現(xiàn)金流能力選擇凈利潤現(xiàn)金凈含量(LS=0.016 8);風險水平選擇財務杠桿(LS=0.813 0)。與初選指標相比,最終指標在屬性數(shù)量上大大降低,并且所選的指標對最終實驗結果的解釋能力都是比較高的。
2.2 企業(yè)在線評論的文本情感分析
相比較于新聞、微博等方式,股吧中投資者發(fā)表的在線評論具有更強的針對性,并且數(shù)據(jù)較為集中和齊全[7]。因此本文主要收集新浪股吧中上市中小企業(yè)的在線評論作為實驗數(shù)據(jù)。為了與已收集的財務指標數(shù)據(jù)保持一致性,本文收集69個樣本企業(yè)的在線評論數(shù)據(jù),每個企業(yè)平均包含3 000條評論,時間跨度為2013年1月1日至2014年12月31日,數(shù)據(jù)粒度以日計算。在對在線評論進行文本情感分析處理之前,首先對在線評論進行剔除小廣告、純標點符號、純數(shù)字以及重疊詞等無意義的噪音數(shù)據(jù)的預處理。其次主要使用ROST Content Mining軟件中的情感分析模塊對在線評論數(shù)據(jù)進行文本情感分析,將文本數(shù)據(jù)導入該系統(tǒng)運行,得到每條評論的情感分析結果。積極情感評分值大于0,并且隨著數(shù)值的增大,其積極情感強度隨著增大。消極情感評分值小于0,并且隨著數(shù)值的減小,其消極情感強度隨著增大。中性情感的評分值為0。由于情感評分數(shù)據(jù)的粒度以日計算,而財務指標數(shù)據(jù)的粒度以季度計算,因此在與財務指標數(shù)據(jù)進行融合前,需對情感評分數(shù)據(jù)進行如下處理:根據(jù)每條在線評論的發(fā)表時間將其所對應的情感評分值按季度求和,并取其平均值作為該季度的平均情感評分。
融合數(shù)據(jù)樣例如圖1所示。
2.3 聚類實驗
本文在基于財務指標的基礎上添加企業(yè)的投資者情感指標,為了驗證投資者情感指標的有效性,分別對財務指標和投資者情感指標賦予權重α1和α2,且α1+α2=1。在具體實驗中,α2的取值范圍為[0,0.9]。當α2=0,α1=1時,聚類實驗是僅基于財務指標的K-Means聚類。當α2≠0時,聚類實驗是基于財務指標和情感指標的K-Means聚類,并且可以通過不斷調整α2的數(shù)值大小來尋找情感指標的最佳權重。
進行聚類實驗前,使用肘方法[14]確定樣本數(shù)據(jù)集的最佳聚類數(shù)目為2,使用Z-Score方法標準化數(shù)據(jù)集,消除不同指標的量綱影響。本文采用特征加權的K-Means聚類方法進行實驗,α2的取值范圍為[0,0.9],梯度為0.1,并以聚類的輪廓系數(shù)作為評估聚類效果的指標。
聚類結果如圖2所示,聚類平均輪廓系數(shù)隨情感評分項權重α2的變化趨勢圖詳見圖3。
當由α2為0時,即僅基于財務指標的K-Means聚類的平均輪廓系數(shù)為0.402 2。當α2不等于0時,隨著α2的不斷變小,聚類的平均輪廓系數(shù)不斷增大,說明聚類的效果越來越好。同時可發(fā)現(xiàn)當α2小于等于0.4時,基于財務指標和情感指標的聚類實驗的平均輪廓系數(shù)高于僅基于財務指標的聚類實驗的平均輪廓系數(shù),驗證了在線評論的投資者情感信息對中小企業(yè)信用風險評估的有效性。
本文通過對比各個聚類中心在不同屬性下的數(shù)值的大小及該屬性數(shù)值高低所代表的含義來評估不同類別中的中小企業(yè)的信用風險水平。為了更加科學地判斷中小企業(yè)的信用風險水平,綜合各個屬性后得出在僅基于財務指標的聚類中(即α2=0時),第一類的中小企業(yè)的信用風險水平相對于第二類的中小企業(yè)的信用風險水平低。
在基于融合財務指標和情感指標的聚類結果中(即α2≠0時),對不同類別的中小企業(yè)進行信用風險評估。以情感評分項歐氏距離權重等于0.3為例,可知第一類的中小企業(yè)的信用風險水平低于第二類的中小企業(yè)的信用風險水平。同時,對比第一類和第二類的中小企業(yè)的情感評分可以明顯地得出信用風險水平低的中小企業(yè)(第一類中小企業(yè)),其投資者的情感評分(5.46)高于信用風險水平高的中小企業(yè)(5.39)。由此也可得出信用風險水平低的企業(yè),其投資者對該企業(yè)的情感傾向是正向的,且其正向程度往往較高。
2.4 結果分析
通過對比兩次聚類結果發(fā)現(xiàn)在線評論中的投資者的情感傾向對度量中小企業(yè)信用水平是有影響的,且當投資者的情感極性為積極且其積極的程度越高,企業(yè)的信用風險程度往往是較低的;當投資者的情感極性為消極且其程度越高時,企業(yè)的信用風險程度是相對較高的。
基于以上實驗結果,本文就如何改善中小企業(yè)信用風險評估提出以下建議,分別針對金融機構和中小企業(yè)自身。
(1)鑒于中小企業(yè)在線評論中的投資者情感傾向對評估中小企業(yè)信用風險水平的有效性,金融機構在評估時可以考慮將這一影響因素納入評估體系中,以彌補中小企業(yè)信用風險評估時材料不足的缺陷。金融機構在實際評估時除了考慮企業(yè)的內部因素,也應該盡可能多地考慮企業(yè)的外部因素,比如社會情感因素、企業(yè)的網(wǎng)絡口碑等,力求實現(xiàn)更加精準、客觀且全面的評估,確保能夠為高信用水平的中小企業(yè)提供信貸服務,實現(xiàn)借貸雙方共贏。
(2)社交網(wǎng)絡平臺上投資者的情感傾向不僅是對企業(yè)經(jīng)營發(fā)展現(xiàn)狀的映射,也會影響企業(yè)網(wǎng)絡口碑的好壞。而企業(yè)的經(jīng)營發(fā)展情況以及企業(yè)網(wǎng)絡口碑的好壞都是會影響金融機構對企業(yè)信用風險水平的評估。因此,中小企業(yè)應該密切關注社交平臺上投資者的情感傾向,必要時可通過網(wǎng)絡營銷等形式維護企業(yè)的網(wǎng)絡形象以及網(wǎng)絡口碑,為企業(yè)在信用評估過程中加分。
(3)中小企業(yè)也可以將在線評論中導致投資者情感傾向不同的因素作為企業(yè)改進自身不足的信息來源。對于優(yōu)秀的中小企業(yè)來說,可以從帶有投資者積極情感的在線評論中了解自身的優(yōu)勢以及投資者對企業(yè)發(fā)展的期望,并努力保持企業(yè)的優(yōu)勢。較差的中小企業(yè)則可以深度挖掘帶有投資者消極情感的在線評論中所反映出來的企業(yè)在發(fā)展、經(jīng)營以及決策等各個方面的不足,并在企業(yè)經(jīng)營過程中有針對性地加強改進,從根本上消除投資者對企業(yè)發(fā)展的顧慮。
6 結 語
針對社交平臺上企業(yè)在線評論較少應用于中小企業(yè)信用風險評估的研究現(xiàn)狀,本文收集社交平臺上的企業(yè)在線評論數(shù)據(jù)并對其進行文本情感分析,將這類非結構化數(shù)據(jù)轉化為結構化數(shù)據(jù)并將其應用于實際評估中。同時設置了基于財務指標和基于融合情感數(shù)據(jù)的兩組聚類實驗,通過對比分析實驗結果發(fā)現(xiàn),融合了企業(yè)在線評論情感分析數(shù)據(jù)的評估結果優(yōu)于僅基于財務指標的實驗結果,驗證企業(yè)在線評論對企業(yè)信用評估的有效性。此外,本文在基于財務指標的評估試驗中,利用特征選擇算法對原有的中小企業(yè)信用評估體系中的財務指標進行簡化,挑選其中具有代表性且解釋能力強的屬性作為評估的關鍵指標。
基于研究結論,本文也分別從金融機構和中小企業(yè)本身的角度就如何改善中小企業(yè)的信用風險評估狀況提出自己的看法和建議,以期對金融機構以及中小企業(yè)在實際評估中有所幫助。由于本文是基于中小上市企業(yè)所做的研究,本文的結論是否適用于非上市中小企業(yè)還不能確定,而且本文所選取的文本數(shù)據(jù)只是局限于在線評論這類文本數(shù)據(jù),企業(yè)新聞、公告等多種文本數(shù)據(jù)對中小企業(yè)信用風險評估的影響或者多種文本數(shù)據(jù)的融合對評估的影響都是未知的。這也成為了本文后續(xù)研究的方向和重點。
主要參考文獻
[1]Lu H M, Tsai F T, Chen H, et al.Credit Rating Change Modeling Using News and Financial Ratios[J].ACM Transactions on Management Information Systems (TMIS),2012,3(3):14:1-14:30.
[2]Lu Y. C., C. H. Shen, Y. C. Wei.Revisiting Early Warning Signals of Corporate Credit Default Using Linguistic Analysis[J].Pacific-Basin Finance Journal,2013(24):1-21.
[3]邊海容,萬常選,劉德喜,等.考慮Web金融信息的上市企業(yè)財務危機預測模型研究[J].計算機科學,2013(11):295-298,315.
[4]邊海容,萬常選,萬建香.網(wǎng)絡金融信息與上市公司財務狀況的關系研究[J].江西財經(jīng)大學學報,2013(3):37-44.
[5]Duan W, Gu B, Whinston A B.The Dynamics of Online Word-of-mouth and Product Sales—An Empirical Investigation of the Movie Industry[J].Journal of Retailing,2008,84(2):233-242.
[6]He Xiaofei, Cai D, Niyogi P.Laplacian Score for Feature Selection[C]//Proceedings of Advances in Neural Information Processing System. Cambridge, MA: MIT Press,2005:507-514.
[7]張一舟,曾劍平,孫婧,等.OMisy:一個面向股吧數(shù)據(jù)的觀點挖掘系統(tǒng)[J].計算機研究與發(fā)展,2015(52):123-128.