劉君亮,毛 陽(yáng)
(北京交通大學(xué),北京 100044)
信用有廣義、狹義之分。廣義的信用從社會(huì)道德層面上表現(xiàn)為自覺(jué)遵守社會(huì)規(guī)則或人與人之間的約定?,F(xiàn)代市場(chǎng)經(jīng)濟(jì)條件下的信用概念是狹義的信用,狹義的信用是指建立在信任基礎(chǔ)上,不用馬上付款或擔(dān)保就可獲得資金、物資或服務(wù)的能力??蒲行庞檬菑V義社會(huì)信用在科研管理領(lǐng)域應(yīng)用的產(chǎn)物,主要是指從事科研活動(dòng)人員的職業(yè)信用,是對(duì)科研人員在從事科研活動(dòng)時(shí)遵守正式承諾、履行約定義務(wù)、遵守科研界公認(rèn)行為準(zhǔn)則的能力和表現(xiàn)的一種評(píng)價(jià)。隨著國(guó)內(nèi)科研投入逐年增加,科研項(xiàng)目和論文的產(chǎn)出也逐年遞增,但同時(shí)科研人員學(xué)術(shù)不端的案例也在逐漸增多,為了保障國(guó)家的科研環(huán)境和聲譽(yù),科研誠(chéng)信建設(shè)研究急需加強(qiáng)。
國(guó)內(nèi)科研信用研究多采用專家打分法、AHP 和模糊綜合評(píng)價(jià)法進(jìn)行信用評(píng)價(jià),常用的個(gè)人信用評(píng)價(jià)模型方法研究主要集中在金融信貸領(lǐng)域,在科研人員信用研究方面較少。信用評(píng)分卡模型是一種成熟且廣泛應(yīng)用于金融風(fēng)險(xiǎn)控制領(lǐng)域信用風(fēng)險(xiǎn)評(píng)估的模型方法,其原理是將模型變量WOE 編碼方式離散化之后運(yùn)用Logistic 回歸模型進(jìn)行的一種二分類變量的廣義線性模型。利用信用評(píng)分卡技術(shù)建立基于科研人員信用大數(shù)據(jù)的信用評(píng)價(jià)模型,從而將科研人員信用信息轉(zhuǎn)化為科研信用評(píng)價(jià)依據(jù),可以解決鐵路科研活動(dòng)中的信息不對(duì)稱問(wèn)題,既可以為鐵路科研項(xiàng)目的審核提供依據(jù),也可以促進(jìn)科研人員信用水平透明化,有利于對(duì)鐵路科研誠(chéng)信問(wèn)題進(jìn)行統(tǒng)一規(guī)范與治理,因此深度挖掘科研人員信用信息,開(kāi)發(fā)基于信用大數(shù)據(jù)的科研人員信用評(píng)分卡模型,具有十分重要的理論和現(xiàn)實(shí)意義。
對(duì)科研人員信用數(shù)據(jù)進(jìn)行建模之前,需要解決科研人員信用量化指標(biāo)的選取問(wèn)題,科研人員信用量化指標(biāo)需要用數(shù)值型指標(biāo)或分類型指標(biāo)抽象出一個(gè)科研人員的科研信用信息全貌,通過(guò)查閱國(guó)內(nèi)外文獻(xiàn)和相關(guān)政策文件,得到科研人員信用量化指標(biāo)可分為兩類,一類是科研人員科研資歷信用指標(biāo),另一類是科研人員科研歷史信用指標(biāo),具體指標(biāo)見(jiàn)表1。
表1 科研人員信用量化指標(biāo)
在用數(shù)據(jù)進(jìn)行建模之前還需對(duì)科研人員信用數(shù)據(jù)進(jìn)行預(yù)處理,使數(shù)據(jù)滿足建模的要求,數(shù)據(jù)預(yù)處理主要的技術(shù)環(huán)節(jié)如下。
從相關(guān)科研數(shù)據(jù)庫(kù)獲取科研人員信用指標(biāo)的相關(guān)數(shù)據(jù)。
數(shù)據(jù)清洗是指將獲取的原始數(shù)據(jù)轉(zhuǎn)化為可用作模型開(kāi)發(fā)的格式化數(shù)據(jù),首先是缺失值處理。缺失值處理通常有兩種處理方法,直接刪除含有缺失值的樣本或者是根據(jù)樣本之間的相似性或者相關(guān)關(guān)系填補(bǔ)缺失值。
缺失值處理完后進(jìn)行異常值的處理。異常值是指某些樣本明顯偏離大多數(shù)樣本數(shù)據(jù),比如科研人員的年齡為0 時(shí),通常認(rèn)為該值為異常值。異常值的檢測(cè)一般采用箱線圖。
在建立模型之前,我們通常會(huì)對(duì)數(shù)據(jù)進(jìn)行探索性數(shù)據(jù)分析,該步驟的目的是了解樣本數(shù)據(jù)的大概總體情況,即對(duì)已有的數(shù)據(jù)在盡量少的先驗(yàn)假定下進(jìn)行探索。常用的探索性數(shù)據(jù)分析方法有直方圖、散點(diǎn)圖和箱線圖等。
把變量進(jìn)行分組處理,即分箱或者離散化,之后用WOE(Weight of Evidence)進(jìn)行編碼,作用在于對(duì)指標(biāo)進(jìn)行分箱和編碼,不僅可以避免指標(biāo)無(wú)意義的波動(dòng)給預(yù)測(cè)帶來(lái)的波動(dòng),還能避免極端值的影響。WOE 的計(jì)算公式為:
其中,yi代表第i 組失信科研人員數(shù)量,ys代表所有失信科研人員數(shù)量,ni代表第i 組沒(méi)有失信科研人員數(shù)量,ns代表所有沒(méi)有失信科研人員數(shù)量,WOE 表示的含義即是“當(dāng)前分組中失信科研人員占所有失信科研人員的比例”和“當(dāng)前分組中沒(méi)有失信科研人員占所有沒(méi)有失信科研人員的比例”的差異。計(jì)算得出WOE 后自變量指標(biāo)可用WOE 值編碼取代。
理想的科研人員信用評(píng)價(jià)模型應(yīng)該是可以輸入所有的有關(guān)該科研人員信用的各方面維度的特征,并預(yù)測(cè)出科研人員所屬于的類別,即科研人員是否會(huì)失信。Logistic 回歸模型主要用來(lái)計(jì)算一組自變量與離散型因變量間的關(guān)系,應(yīng)用在個(gè)人信用評(píng)價(jià)方面有比較高的精準(zhǔn)度,常用于信用問(wèn)題的二分類預(yù)測(cè)。離散型因變量是指取值為0,1,2……等離散值的變量,在個(gè)人信用評(píng)估的內(nèi)容中,因變量是取值分別為0 和1 的二元變量,通常用y 表示,當(dāng)科研人員出現(xiàn)失信行為記為y=1,沒(méi)有出現(xiàn)失信行為則記為y=0。
考慮具有m 個(gè)獨(dú)立向量的向量x=(x1,x2,x3,…,xm),設(shè)條件概率P(y=1|x)。
為根據(jù)觀測(cè)量相對(duì)于某事件發(fā)生的概率,Logistic模型可以表示為:
在x 條件下,y 不發(fā)生的概率(即y=0)的概率為:
所以,科研人員失信與科研人員不失信的概率之比為:
這個(gè)比值記為優(yōu)勢(shì)比,實(shí)際上可以認(rèn)為是失信人與非失信人的發(fā)生比。對(duì)其取自然對(duì)數(shù),則得到:
Logistic 回歸模型最終的目的是要求解β1,β2,…,βm這組權(quán)值,而β1,β2,…,βm的估計(jì),則需要使用極大似然估計(jì)來(lái)進(jìn)行。
模型性能的驗(yàn)證,是信用評(píng)分卡模型開(kāi)發(fā)的十分重要的一個(gè)環(huán)節(jié),常見(jiàn)的技術(shù)方法是ROC 曲線。ROC曲線的全稱是受試者工作特征曲線(Receiver Operating Characteristic curve),又稱感受性曲線(sensitivity curve),是隨著檢測(cè)閾值變化的檢測(cè)概率對(duì)假報(bào)警概率的關(guān)系曲線,設(shè)某概率值P 作為閾值,如果小于閾值則判斷為“失信人”,大于閾值則判斷為“非失信人”,計(jì)算基于概率值P 的TPR 和FPR,TPR 為真陽(yáng)性率,是樣本中模型正確判斷為“失信人”的人數(shù)占所有實(shí)際為“失信人”的人數(shù)的比例,F(xiàn)PR 為偽陽(yáng)性率,是樣本中模型錯(cuò)誤判斷為“失信人”的人數(shù)占所有實(shí)際為“非失信人”的人數(shù)的比例,接著調(diào)整閥值P,得到閾值不一樣時(shí)的TPR 和FPR,把TPR 當(dāng)作縱軸,F(xiàn)PR 為橫軸,得到的ROC 曲線圖如圖1 所示。
圖1 ROC 曲線圖
ROC 曲線朝左上角凸的越多,曲線下面積AUC(Area Under Curve)越大,就代表這個(gè)模型效果越好,可以計(jì)算ROC 曲線下面積即AUC 來(lái)量化分類模型的性能。AUC 的值在0 到1 之間,當(dāng)分類模型為一個(gè)完全隨機(jī)模型時(shí)ROC 為一條直線,此時(shí)AUC=0.5,所以通常具有實(shí)用價(jià)值的分類模型的AUC 值會(huì)大于0.5,優(yōu)秀模型的AUC 值通常為0.7 到0.9 之間,如果分類模型的AUC 值在0.9 以上,可能是異常變量使得AUC值偏高。
Logistic 回歸模型的結(jié)果是回歸式,其模型輸出結(jié)果是科研人員失信與否概率比值的對(duì)數(shù)值,不易于理解和掌握,實(shí)際應(yīng)用中必須把概率轉(zhuǎn)換為信用分?jǐn)?shù),主要方法為對(duì)科研人員失信與否概率比值的對(duì)數(shù)值進(jìn)行線性變換再加上一個(gè)常數(shù),使得最終的信用評(píng)分落在一個(gè)事先設(shè)定好的分?jǐn)?shù)范圍內(nèi),分?jǐn)?shù)越高,科研人員的信用越好,轉(zhuǎn)換公式為:
其中,p 表示科研人員失信概率,α 表示線性變換的系數(shù),通常包括一個(gè)對(duì)數(shù)值,β 表示調(diào)整常數(shù),使得最終的信用評(píng)分落在目標(biāo)分?jǐn)?shù)范圍內(nèi)。
通過(guò)以上方法建立的科研人員信用評(píng)分卡模型,可以在以下方面進(jìn)行廣泛應(yīng)用。
隨著科研人員科研信用數(shù)據(jù)的積累以及大數(shù)據(jù)模型技術(shù)和科研信用制度的融合普及,科研人員信用評(píng)分卡模型技術(shù)可更加廣泛地在鐵路科研項(xiàng)目和相關(guān)科研基金的審批中應(yīng)用,從科研人員信用的角度為科研項(xiàng)目和基金課題的審批決策提供重要的支持,對(duì)于評(píng)分低于一定級(jí)別的,可以自動(dòng)拒絕其申請(qǐng),只有通過(guò)信用評(píng)分的才能進(jìn)入人工審核階段,不但有助于事前降低潛在的科研失信風(fēng)險(xiǎn),還能提高鐵路科研項(xiàng)目和基金課題的審核效率。
信用評(píng)分卡模型技術(shù)基于科研人員信用大數(shù)據(jù),不僅比起傳統(tǒng)的專家打分和人工審核等主觀審核方法更加客觀,保證了信用評(píng)價(jià)的公正性,同時(shí)評(píng)價(jià)準(zhǔn)確度更加靈敏和精確,提高了鐵路科研信用風(fēng)險(xiǎn)預(yù)警的精準(zhǔn)度。
信用評(píng)分卡模型得出的科研人員信用評(píng)分客觀透明,可以促進(jìn)科研人員信用水平透明化,提高科研人員信用意識(shí),還能準(zhǔn)確識(shí)別風(fēng)險(xiǎn)的原因和來(lái)源,方便科研管理者采取針對(duì)性的預(yù)防措施,有利于對(duì)鐵路科研誠(chéng)信問(wèn)題進(jìn)行統(tǒng)一規(guī)范與治理。