王云麗,韓珍珍,楊文煥,成 彬
(河北省科學(xué)院應(yīng)用數(shù)學(xué)研究所,河北省信息安全認(rèn)證技術(shù)創(chuàng)新中心,河北 石家莊 050081)
高新技術(shù)企業(yè)作為經(jīng)濟(jì)新常態(tài)下最重要的創(chuàng)新驅(qū)動(dòng)主體,一直受到政府的重點(diǎn)扶持。我國(guó)高新技術(shù)企業(yè)資格認(rèn)定工作從20世紀(jì)90年代初開(kāi)始,經(jīng)認(rèn)定的高新技術(shù)企業(yè),資格有效期為三年,在資格有效期內(nèi)可享受企業(yè)稅收優(yōu)惠及政府的多項(xiàng)政策優(yōu)惠。認(rèn)定政策對(duì)處于成長(zhǎng)期企業(yè)的實(shí)質(zhì)性創(chuàng)新有更強(qiáng)的額外激勵(lì)效應(yīng),國(guó)家的研發(fā)激勵(lì)和稅收激勵(lì)政策都能顯著促進(jìn)企業(yè)自主創(chuàng)新。相關(guān)數(shù)據(jù)顯示,截止到2020年底,全國(guó)有效期內(nèi)高新技術(shù)企業(yè)有27.8萬(wàn)家。隨著企業(yè)認(rèn)定數(shù)量的增長(zhǎng),國(guó)家監(jiān)管趨于嚴(yán)格,科技、財(cái)政和稅務(wù)等部門(mén)每年都對(duì)其進(jìn)行日常檢查和重點(diǎn)抽查,被取消資格的企業(yè)數(shù)量不斷增加。截止到2021年10月12日,因不符合相關(guān)政策要求而被取消資格的企業(yè)共588家。被取消資格后,稅務(wù)機(jī)關(guān)會(huì)要求企業(yè)補(bǔ)繳自認(rèn)定年度起享受的稅收優(yōu)惠,相關(guān)部門(mén)也會(huì)對(duì)財(cái)政獎(jiǎng)勵(lì)資金進(jìn)行追繳[1],可見(jiàn)高新技術(shù)企業(yè)資格對(duì)本企業(yè)聲譽(yù)、核心競(jìng)爭(zhēng)力和業(yè)績(jī)等有重要作用。因此,對(duì)高新技術(shù)企業(yè)資格維護(hù)的研究對(duì)其未來(lái)發(fā)展具有重要指導(dǎo)意義。
目前,我國(guó)學(xué)者在高新技術(shù)企業(yè)資格預(yù)警模型研究方面有較多研究,王統(tǒng)一從審計(jì)角度闡述加強(qiáng)高新技術(shù)企業(yè)資格的維護(hù)與風(fēng)險(xiǎn)防范的措施[2];趙平從稅收角度闡述高新技術(shù)企業(yè)資格保持的關(guān)鍵點(diǎn)[3];胡意等構(gòu)建了高新技術(shù)企業(yè)運(yùn)行發(fā)展預(yù)警模型,對(duì)湛江市部分高新技術(shù)企業(yè)未來(lái)的運(yùn)行發(fā)展進(jìn)行預(yù)測(cè)[4],但應(yīng)用邏輯回歸預(yù)警模型的很少?;谇叭说睦碚撗芯颗c實(shí)證分析,本文參考高新技術(shù)企業(yè)認(rèn)定的指標(biāo)體系要求,以河北省高新技術(shù)企業(yè)為例,采集與高新技術(shù)企業(yè)經(jīng)營(yíng)發(fā)展相關(guān)公開(kāi)數(shù)據(jù),構(gòu)建邏輯回歸預(yù)警模型,預(yù)測(cè)企業(yè)在資格維護(hù)管理方面的潛在風(fēng)險(xiǎn),提醒企業(yè)對(duì)風(fēng)險(xiǎn)項(xiàng)指標(biāo)采取措施,防患于未然,并在提升高新技術(shù)企業(yè)自身資質(zhì)管理方面進(jìn)行探索。
邏輯回歸(Logistic Regression)是一種名為“回歸”的線性分類器,其本質(zhì)是由線性回歸變化而來(lái),常用于二分類,是各類風(fēng)險(xiǎn)預(yù)警的常用模型,具備以下優(yōu)點(diǎn):
(1)邏輯回歸返回的分類結(jié)果不是固定的0,1,而是以小數(shù)形式呈現(xiàn)的類概率數(shù)字。在制作評(píng)分卡時(shí),不僅可以返回高新技術(shù)企業(yè)是否會(huì)被取消資格的判斷,還能夠給出確定的“資格維護(hù)分?jǐn)?shù)”。
(2)邏輯回歸在線性數(shù)據(jù)的擬合和計(jì)算速度上非常快,并且在小數(shù)據(jù)集上表現(xiàn)較好。由此可見(jiàn),邏輯回歸在實(shí)際問(wèn)題的解決上具有一定的優(yōu)勢(shì)[5]。
線性回歸是機(jī)器學(xué)習(xí)中最簡(jiǎn)單的回歸算法,其方程為:
z=θ0+θ1x1+θ2x2+...+θnxn=θTX
(1)
式中θ為參數(shù)向量,X為特征向量。
引入sigmoid函數(shù),即:
(2)
當(dāng)自變量z取值大于0時(shí),因變量g(z)取值大于0.5,自變量z趨近正無(wú)窮時(shí),因變量g(z)趨近于1,表明該高新技術(shù)企業(yè)資格維護(hù)風(fēng)險(xiǎn)較大;而當(dāng)z取值小于0時(shí),g(z)取值小于0.5,z趨近負(fù)無(wú)窮時(shí),g(z)趨近于0,表明該企業(yè)資格維護(hù)風(fēng)險(xiǎn)較小[6],所以它能夠?qū)⑷魏螌?shí)數(shù)映射到(0,1)區(qū)間,使其可用于將任意值函數(shù)轉(zhuǎn)換為更適合二分類的函數(shù)。
因此,邏輯回歸模型通常表示為:
(3)
邏輯回歸的損失函數(shù)由極大似然估計(jì)推導(dǎo)出來(lái):
(4)
其中,θ表示求解出來(lái)的一組參數(shù),m為樣本個(gè)數(shù),xi是樣本i各個(gè)特征的取值,yi為樣本i上真實(shí)的標(biāo)簽,yθ(xi)是樣本i上的基于參數(shù)θ計(jì)算出來(lái)的返回值。
模型追求的是能夠最小化損失函數(shù)的參數(shù)組合,即求解最小值。追求最小損失函數(shù)以使模型在訓(xùn)練集上表現(xiàn)最佳,但是在測(cè)試集上可能會(huì)導(dǎo)致模型過(guò)擬合,需要在模型的損失函數(shù)中加上一個(gè)正則化項(xiàng),有時(shí)也稱為“懲罰項(xiàng)”,來(lái)緩解模型過(guò)擬合傾向。
正則化常用的有L1和L2兩種選項(xiàng),分別通過(guò)在損失函數(shù)后加上參數(shù)向量θ的L1范式和L2范式的倍數(shù)來(lái)實(shí)現(xiàn)[7]:
(5)
(6)
其中J(θ)是損失函數(shù),C是用來(lái)控制正則化程度的超參數(shù),n是方程中特征的總數(shù),j代表每個(gè)參數(shù)。
雖然L1正則化和L2正則化都可以控制過(guò)擬合,但它們的效果并不相同。當(dāng)正則化強(qiáng)度逐漸增大(即C逐漸變小)時(shí),參數(shù)θ的值將逐漸變小,但L1正則化會(huì)將參數(shù)壓縮為0,L2正則化只會(huì)使參數(shù)盡可能小,而不是0。L1正則化會(huì)使得某些系數(shù)不斷地向0收縮,當(dāng)C值變化時(shí),某些系數(shù)會(huì)被壓縮為0,達(dá)到解的稀疏性,從而實(shí)現(xiàn)變量選擇的目的。
為了辨別基于邏輯回歸的高新技術(shù)企業(yè)資格維護(hù)風(fēng)險(xiǎn)預(yù)警模型的分類效果,使用準(zhǔn)確率和ROC曲線作為評(píng)估指標(biāo)。根據(jù)樣本真實(shí)的類別和模型預(yù)測(cè)的類別組合形成4類,分別為真正TP例、假正FP例、真反TN例、假反FN例。很明顯,將這4類所包含的樣本相加就是完整的數(shù)據(jù)集,分類結(jié)果的混淆矩陣如表1。
表1 混淆矩陣
準(zhǔn)確率:正確分類的樣本占總樣本的比率,即正確分類的概率,是判斷分類模型分類效果最直觀的評(píng)價(jià)指標(biāo),計(jì)算公式為:
(7)
ROC曲線是受試者工作特征曲線(Receive Operating characteristic Curve),以真陽(yáng)率(TPR=TP/(TP+FN))為縱坐標(biāo),假陽(yáng)率(FPR=FP/FP+TN)為橫坐標(biāo)的感受性曲線。ROC曲線下方與坐標(biāo)軸圍成的面積為AUC(Area Under ROC Curve),AUC值越大說(shuō)明分類器性能越好。
高新技術(shù)企業(yè)資質(zhì)維護(hù)預(yù)警模型基本流程分為5個(gè)步驟:數(shù)據(jù)獲取、數(shù)據(jù)預(yù)處理、分箱、模型構(gòu)建調(diào)優(yōu)及制作評(píng)分卡。
從“科技部火炬中心”網(wǎng)站獲取河北高新技術(shù)企業(yè)的名錄(2018年—2020年)共有9425家,根據(jù)企業(yè)名錄,采集互聯(lián)網(wǎng)上的公開(kāi)數(shù)據(jù),獲取企業(yè)基本信息、經(jīng)營(yíng)狀況、經(jīng)營(yíng)風(fēng)險(xiǎn)、知識(shí)產(chǎn)權(quán)以及招投標(biāo)信息等85個(gè)特征指標(biāo)[8]。
根據(jù)最近的河北省高新技術(shù)企業(yè)取消資格的公告文件,構(gòu)造“被取消資格證書(shū)又重新獲取”特征指標(biāo),并把該特征變量作為高新技術(shù)企業(yè)資格維護(hù)風(fēng)險(xiǎn)預(yù)警模型的標(biāo)簽。
高新技術(shù)企業(yè)證書(shū)編號(hào)為GR201813000828的企業(yè),未能獲取其相關(guān)數(shù)據(jù),舍棄。
2.2.1 招投標(biāo)數(shù)據(jù)的去重處理
以企業(yè)名稱作為關(guān)鍵詞進(jìn)行檢索,招投標(biāo)項(xiàng)目信息出現(xiàn)了大量的重復(fù)數(shù)據(jù)(不同網(wǎng)站公告同一項(xiàng)目信息),這些重復(fù)的數(shù)據(jù)需要去重處理。共采集了455,485條(2018/1/1—2021/8/1)招投標(biāo)信息,涉及5505家高新技術(shù)企業(yè),經(jīng)過(guò)數(shù)據(jù)處理構(gòu)造特征變量:“招投標(biāo)總數(shù)量”、“中標(biāo)總額”和“中標(biāo)項(xiàng)目數(shù)量”。
2.2.2 樣本不平衡的處理
2018年—2021年間,被取消資格后再次獲取高新技術(shù)企業(yè)資格的企業(yè)河北省共有9家,樣本個(gè)數(shù)為9424,其中標(biāo)簽為1占0.0955%,標(biāo)簽為0占99.9045%,可以看出,樣本嚴(yán)重不均衡。對(duì)于風(fēng)險(xiǎn)預(yù)警模型來(lái)說(shuō),真正想要被判別出來(lái)的是資格被取消過(guò)的高新技術(shù)企業(yè),而這部分企業(yè)非常少,樣本就不平衡。邏輯回歸模型一般采用上采樣(增加少數(shù)類的樣本)的方法來(lái)實(shí)現(xiàn)樣本平衡。不平衡處理后:標(biāo)簽為1占49.81%,標(biāo)簽為0占50.19%。
2.2.3 訓(xùn)練集和測(cè)試集
樣本平衡后的數(shù)據(jù),劃分為70%訓(xùn)練集和30%測(cè)試集。
2.3.1 特征選擇_嵌入法
圖1 L1和L2范式模型準(zhǔn)確率對(duì)比圖
為盡量保留原數(shù)據(jù)上的信息,讓模型在降維后的數(shù)據(jù)上的擬合效果保持優(yōu)秀,因此不考慮訓(xùn)練集測(cè)試集的問(wèn)題,把所有的數(shù)據(jù)都放入模型進(jìn)行降維。風(fēng)險(xiǎn)預(yù)警模型的核心目的是通過(guò)求解參數(shù)來(lái)探究特征與標(biāo)簽之間的關(guān)系,所以要盡可能地保留特征的原貌,而PCA(Principal Component Analysis)和SVD(Singular Value Decomposition)的降維結(jié)果是不可解釋的,因此,本文采用嵌入法以特征選擇的方式進(jìn)行降維。
首先通過(guò)描述性統(tǒng)計(jì)對(duì)數(shù)據(jù)進(jìn)行整體探索,結(jié)果如表2所示。通過(guò)描述性統(tǒng)計(jì)結(jié)果看,特征變量比較稀疏。
使用嵌入法進(jìn)行特征選擇。使用L1正則化進(jìn)行特征選擇的結(jié)果如表2,而使用L2正則化項(xiàng)降維,模型效果較差,圖1是L1和L2正則化效果對(duì)比。
2.3.2 特征篩選_IV值
制作評(píng)分卡,就是對(duì)每個(gè)特征變量進(jìn)行“分箱”。分箱的本質(zhì)是對(duì)連續(xù)變量進(jìn)行離散化,以便將具有不同屬性的企業(yè)劃分為不同的類別(打上不同的分?jǐn)?shù))。
表2 特征變量(部分)描述性統(tǒng)計(jì)及嵌入法篩選
分箱一般以3-5個(gè)為最佳。連續(xù)變量的離散化必然伴隨著信息的丟失,而箱子越少,信息的損失越大。為了衡量特征的信息量以及特征對(duì)預(yù)測(cè)函數(shù)的貢獻(xiàn),定義了IV概念:
其中N是某個(gè)特征上箱子的個(gè)數(shù),i代表每個(gè)箱子,good%是這個(gè)箱內(nèi)的好樣本(標(biāo)簽為0)占整個(gè)特征中所有好樣本的比例,bad%是這個(gè)箱子里的壞樣本(標(biāo)簽為1,被取消過(guò)資格的企業(yè))占整個(gè)特征中所有壞樣本的比例,而WOEi寫(xiě)作為:
WOE本質(zhì)就是好樣本比上壞樣本的比例的對(duì)數(shù),對(duì)一個(gè)箱子來(lái)說(shuō)值越大,代表這個(gè)箱子里的好樣本越多[7,9]。
2.3.3 卡方檢驗(yàn)、合并箱體,畫(huà)IV曲線
等頻分箱,每個(gè)特征分別劃分為20箱,統(tǒng)計(jì)每個(gè)箱子中0和1的數(shù)量,確保每箱必須包含兩類樣本。對(duì)相鄰的箱子進(jìn)行卡方檢驗(yàn),合并卡方檢驗(yàn)p值大的箱子,直到箱數(shù)小于設(shè)置的值為止,畫(huà)出IV曲線。
2.3.4 最佳分箱、WOE值趨勢(shì)單調(diào)
觀察IV值在不同箱數(shù)下的曲線變化,找出最合適的箱數(shù)。IV值下降比較迅速的轉(zhuǎn)折點(diǎn)對(duì)應(yīng)的箱子,為最佳分箱個(gè)數(shù)。無(wú)法等頻分箱的特征變量,如“企業(yè)年報(bào)”,通過(guò)觀察然后手工分箱。從嵌入法降維后的24個(gè)特征里面選擇IV值大于0.05且WOE趨勢(shì)單調(diào)的11個(gè)特征,用來(lái)輸入模型,見(jiàn)表3。
表3 特征選擇_IV值大小、WOE趨勢(shì)及最佳分箱個(gè)數(shù)
“變更記錄次數(shù)”、“分支機(jī)構(gòu)數(shù)量”、“建筑資質(zhì)數(shù)量”、“新聞?shì)浨闂l數(shù)”、“稅務(wù)評(píng)級(jí)次數(shù)”、“資質(zhì)證書(shū)數(shù)量”、“招投標(biāo)總數(shù)量”、“中標(biāo)項(xiàng)目數(shù)量”等8個(gè)特征變量的WOE趨勢(shì)單調(diào)。而“招聘信息發(fā)布次數(shù)”和“軟件著作權(quán)數(shù)量”的IV值曲線見(jiàn)圖2和圖3,WOE趨勢(shì)單調(diào)或只有一個(gè)轉(zhuǎn)折點(diǎn)。
圖2 “招聘信息”IV曲線
圖3 “軟件著作權(quán)”IV曲線
計(jì)算每個(gè)箱的WOE,將其替換到原始數(shù)據(jù)中,使用WOE數(shù)據(jù)進(jìn)行建模。使用C值和迭代次數(shù)(梯度下降法)進(jìn)行調(diào)參,C取0.4,迭代次數(shù)為20,調(diào)優(yōu)后模型的準(zhǔn)確率:78.33%,ROC曲線:0.89,見(jiàn)圖4-圖6。
圖4 C值學(xué)習(xí)曲線圖
圖5 迭代次數(shù)學(xué)習(xí)曲線圖
圖6 ROC曲線
評(píng)分卡中的分?jǐn)?shù),借鑒金融行業(yè)的信用風(fēng)險(xiǎn)評(píng)估計(jì)算公式:
Score=A-B*log(odds)
其中A與B是常數(shù),A叫做“補(bǔ)償”,B叫做“刻度”,log(odds)代表了一個(gè)企業(yè)被取消資質(zhì)又獲取的風(fēng)險(xiǎn)值。需要設(shè)定兩個(gè)假定:一是某個(gè)特定比率的預(yù)期分值,二是指定概率翻倍的分?jǐn)?shù)(PDO)[7,10]。基礎(chǔ)得分和特征變量的各分檔的結(jié)果見(jiàn)表4。
由表4可以得出,企業(yè)基本信息、經(jīng)營(yíng)狀況和知識(shí)產(chǎn)權(quán)這三個(gè)方面的11個(gè)特征數(shù)據(jù),基本上覆蓋了高新技術(shù)企業(yè)認(rèn)定需滿足的主要指標(biāo)。
本文基于邏輯回歸算法提出高新技術(shù)企業(yè)資質(zhì)維護(hù)風(fēng)險(xiǎn)預(yù)警的特征篩選模型。為保留原數(shù)據(jù)上的信息,使用嵌入法進(jìn)行特征選擇,鑒于數(shù)據(jù)的稀疏性,采用L1正則化范式。進(jìn)一步使用IV值和WOE趨勢(shì)進(jìn)行特征篩選,最終保留了11個(gè)特征變量輸入模型,ROC曲線結(jié)果表明模型有較高的預(yù)測(cè)價(jià)值。但是,本文的數(shù)據(jù)采集僅限于互聯(lián)網(wǎng)上的公開(kāi)數(shù)據(jù),受到數(shù)據(jù)公開(kāi)程度的限制,那些對(duì)企業(yè)資格保持影響較大的因素,如企業(yè)財(cái)務(wù)情況等核心數(shù)據(jù)是無(wú)法獲取的,所以,本模型的應(yīng)用有一定的局限性。
表4 高新技術(shù)企業(yè)資格維護(hù)風(fēng)險(xiǎn)預(yù)警評(píng)分卡模型
高新技術(shù)企業(yè)的競(jìng)爭(zhēng)壓力越來(lái)越大,自身所面臨的風(fēng)險(xiǎn)相對(duì)較高,在運(yùn)營(yíng)過(guò)程中一定要重視資格管理,關(guān)注財(cái)務(wù)規(guī)范管理(稅務(wù)評(píng)級(jí)),特別是企業(yè)年報(bào)、資質(zhì)證書(shū)、招投標(biāo)和知識(shí)產(chǎn)權(quán)等方面的情況變化,加強(qiáng)內(nèi)控,及時(shí)補(bǔ)齊短板,避免因?yàn)槟稠?xiàng)指標(biāo)不達(dá)標(biāo)而失去資格,從而保持高新技術(shù)企業(yè)資格的穩(wěn)定性和連續(xù)性。
河北省科學(xué)院學(xué)報(bào)2022年3期