張 華,許 駿,鄭國勛
(1.長春工程學院計算機技術(shù)與工程學院;2.長白山歷史文化與VR技術(shù)重構(gòu)吉林省重點實驗室,長春 130012)
省級重點實驗室應(yīng)具有年齡和知識結(jié)構(gòu)合理的高素質(zhì)人員隊伍,具有良好的培養(yǎng)學術(shù)接班人的條件,能夠開展高水平和實質(zhì)性的國內(nèi)外學術(shù)交流與合作,擁有較先進的儀器設(shè)備和完善的配套設(shè)施。這就需要從多角度、多維度對省級重點實驗室進行評價,并能夠建立一套合理客觀、省時省力的評價模型,引導實驗室創(chuàng)新突破、合理規(guī)劃布局,建成特色鮮明,科研水平強,人才隊伍強,學科深度交叉融合,協(xié)同創(chuàng)新突出,覆蓋基礎(chǔ)研究、應(yīng)用研究、試驗開發(fā)和產(chǎn)業(yè)化等創(chuàng)新全鏈條的省級實驗室,從而更好地服務(wù)地方經(jīng)濟發(fā)展建設(shè),引領(lǐng)重點產(chǎn)業(yè)高質(zhì)量發(fā)展。我們使用機器學習中的線性算法、決策樹算法、隨機森林算法對吉林省重點實驗室的評價機制進行模型構(gòu)建,并對模型進行評價研究。
2020年2月科技部官方網(wǎng)站發(fā)布了《關(guān)于破除科技評價中“唯論文”不良導向的若干措施(試行)》,文件按照“分類評價、注重實效”的原則,制訂了“強化分類考核評價導向”等九大項具體措施。措施提出,要注重標志性成果的質(zhì)量、貢獻和影響,對論文評價實行代表作制度,強化代表作同行評議,實行定量評價與定性評價相結(jié)合。李岱素[1]在廣東省重點實驗室綜合績效測評指標的選取上,選擇了R&D固定人員數(shù)、人均項目經(jīng)費數(shù)、承擔省部級或以上課題項目數(shù)等13個測評指標。王會君等[2]將重點實驗室綜合能力用實驗室投入能力、實驗室教學與管理能力、科技創(chuàng)新能力、對外交流與合作能力來表征,并提出構(gòu)建重點實驗室量化考核指標體系,該體系由在室的客座研究人員數(shù)、R&D固定人員數(shù)等30個具體指標組成。為了全面評價省級重點實驗室的研究水平與學術(shù)貢獻、隊伍建設(shè)與人才培養(yǎng)、產(chǎn)學研集合、服務(wù)地方經(jīng)濟建設(shè)及資源共享等多方面業(yè)績,確定了吉林省重點實驗室的評價模型因素包括實驗室新增成果、新增成果增長率、團隊成長性、團隊穩(wěn)定性、方向發(fā)展均衡性、誠信度、基礎(chǔ)建設(shè)、社會服務(wù)、投入產(chǎn)出比9大方面。
吉林省重點實驗室的評價指標因素解析中包含了一級指標、二級指標[3]與指標解釋,在指標解釋中明確了如何界定各指標成果的有效性,既包括客觀指標也包括主觀指標,可以全方位地對省重點實驗室進行評價,具體解析見表1。
表1 吉林省重點實驗室的評價指標因素解析
本研究使用回歸模型的典型思路,首先獲取數(shù)據(jù),可以分析數(shù)據(jù)結(jié)構(gòu),并劃分出訓練集與測試集,然后可以對數(shù)據(jù)進行可視化,通過相關(guān)系數(shù)的比較尋找各屬性的相關(guān)性,進而試驗不同屬性的組合。通常數(shù)據(jù)中有噪音存在,需要對數(shù)據(jù)進行清理,文本和分類屬性與需要轉(zhuǎn)換成數(shù)值類型,部分屬性需要特征縮放。然后開始訓練和評估訓練集,可以用不同的回歸模型做試驗,如:簡單線性模型(Simple Linear)、決策樹模型(Decision Tree)、隨機森林模型(Random Forest)、人工神經(jīng)網(wǎng)絡(luò)模型(Artificial Neural Networks,簡稱ANN)等,訓練結(jié)果可以通過K-折交叉驗證進行評估,通常選取10-折交叉驗證,分析驗證結(jié)果并微調(diào)模型從而得到最佳模型,確定最終的評價模型,最后使用此模型預測測試集,完成數(shù)據(jù)的回歸預測,具體的研究思路如圖1。因所有模型均要設(shè)置自變量X與因變量y,可以將表1中所有的二級指標均作為自變量,評價得分作為因變量,放入前述各種模型進行機器學習,并根據(jù)評價指標結(jié)果選擇最佳模型完成模型的構(gòu)建。
圖1 研究思路
本研究基于吉林省科學技術(shù)廳提供的2018年度88家省級重點實驗室及2019年度110家省級重點實驗室的年度考核匯總數(shù)據(jù)。數(shù)據(jù)中詳細統(tǒng)計了每類成果的填報數(shù)量與有效數(shù)量。
本研究根據(jù)各重點實驗室上報的成果數(shù)據(jù)進行分析,預測能夠獲得的評分,是典型的回歸問題。回歸問題的典型性能指標是均方根誤差(RMSE),它測量的是預測過程中預測錯誤的標準偏差,結(jié)果呈現(xiàn)出正態(tài)分布,也稱高斯分布,是一種呈鐘形態(tài)的分布,符合“68-95-99.7”規(guī)則。RMSE的數(shù)學計算公式如下:
可以使用多種模型進行回歸預測,本文選用簡單線性模型、決策樹模型、隨機森林模型及人工神經(jīng)網(wǎng)絡(luò)模型研究吉林省重點實驗室的評價預測。機器學習框架可以選用Scikit-learn2.0,開發(fā)語言可以選用Python,數(shù)據(jù)存儲選用Excel文件。
3.4.1 簡單線性模型(Simple Linear)
簡單線性回歸是回歸預測中最簡單的一種方法,是擬合y=b0+b1×x這條直線的過程。通常是先隨機畫出一條直線,計算各個點相對于這條直線的誤差平方和,即
數(shù)據(jù)集中的各個屬性(自變量X)與預測結(jié)果(因變量y)通常是非常復雜的關(guān)系,而簡單線性模型要求自變量與因變量滿足線性關(guān)系,預測結(jié)果通常是差強人意的,尤其是訓練數(shù)據(jù)不足時通常會出現(xiàn)過擬合現(xiàn)象,因此很少有應(yīng)用會使用簡單線性模型進行預測。
3.4.2 決策樹模型(Decision Tree)
決策樹模型是一個非常強大的模型,它能夠從數(shù)據(jù)中找到復雜的非線性關(guān)系,既能實現(xiàn)分類預測也能實現(xiàn)回歸預測。決策樹同數(shù)據(jù)結(jié)構(gòu)中的樹類似,包含一個根結(jié)點、若干個內(nèi)部結(jié)點和若干個葉結(jié)點,葉節(jié)點是不可再分的結(jié)點,決策樹學習的目的是產(chǎn)生一棵泛化能力強的決策樹[4]。決策樹通常有3種常用算法,其劃分最優(yōu)屬性的依據(jù)不同,其中ID3算法采用信息增益,C4.5算法采用增益率,CART算法采用基尼指數(shù)。
每種模型在劃分訓練集與測試集時都有運氣的成分存在,所以決策樹模型也容易產(chǎn)生過擬合現(xiàn)象,此時可以使用K-折交叉驗證對模型重新進行評價。K-折交叉驗證是把訓練集數(shù)據(jù)分成K份(Kfolds),K一般取10,即分為10份,然后進行10次驗證。第1次時,把最后1份數(shù)據(jù)做測試集,前面9份做訓練集,得到一個被訓練集擬合出的模型,然后使用此模型對測試集數(shù)據(jù)進行預測,預測結(jié)果與真實結(jié)果比較得到第1次驗證的準確率;第2次時,取倒數(shù)第2份數(shù)據(jù)做測試集,其余9份做訓練集,重復第1次的過程,得到第2次驗證的準確率;依次類推,完成10次驗證,得到10個模型,10個準確率,10個混淆矩陣,10個平方誤差。取10個準確率的平均值作為評價模型非常可觀的準確率參數(shù),也可以取10個平方誤差的平均值作為評價參數(shù)。
3.4.3 隨機森林模型(Random Forest)
隨機森林模型是通過對特征的隨機子集進行許多個決策樹的訓練,然后對預測結(jié)果取平均值,因為是在多個模型的基礎(chǔ)之上建立模型,所以是一種集成學習的方法。
隨機森林模型同樣存在過擬合的現(xiàn)象,可以通過簡化模型、約束模型或獲得更多訓練數(shù)據(jù)的方法解決,也可以通過Scikit-learn中的GridSearchCV進行網(wǎng)格搜索,對模型中的各種超參數(shù)嘗試進行不同的組合,并得到相應(yīng)模型的均方根誤差,進而選擇出最佳超參數(shù)組合,得到最佳預測模型。隨機森林主要有6大參數(shù):n_estimators(子樹的數(shù)量,默認值100)、max_depth(樹的最大生長深度)、min_samples_leaf(葉子的最小樣本數(shù)量)、min_samples_split(分支結(jié)點的最小樣本數(shù)量)、max_feature(最大選擇特征數(shù))、criterion(決策樹劃分標準,默認gini),除此之外,通常還需要嘗試bootstrap參數(shù),用于設(shè)置每次構(gòu)建決策樹時是否采用放回樣本的方式抽取數(shù)據(jù)集,即是否裝袋。
3.4.4 人工神經(jīng)網(wǎng)絡(luò)(ANN)
人工神經(jīng)網(wǎng)絡(luò)是通過模仿人類的神經(jīng)系統(tǒng)建造類似結(jié)構(gòu)完成學習的,包括輸入層、隱藏層和輸出層。在重點實驗室的評價過程中,將各實驗室的二級指標數(shù)值作為神經(jīng)網(wǎng)絡(luò)中的輸入神經(jīng)元充當自變量的角色,隱藏層是通過權(quán)重設(shè)置抓取各自變量之間的關(guān)系,從而體現(xiàn)一種現(xiàn)象或特征,比如,項目新增可支配經(jīng)費越多,項目新增可支配經(jīng)費環(huán)比增長率大概率也會越高。輸入層與隱藏層的各個神經(jīng)元的關(guān)系密切度用權(quán)重來表示,關(guān)系越密切,權(quán)重越大,并不是每一個輸入層的神經(jīng)元都與隱藏層的神經(jīng)元有關(guān),所以有些權(quán)重為0。隱藏層中需要計算損失函數(shù),進而傳遞到輸出層進行結(jié)果預測,完成正向傳播過程。常用的激活函數(shù)包括“閾值”函數(shù)、S函數(shù)(Sigmod函數(shù))、線性整流函數(shù)(ReLU)、雙曲正切函數(shù)。隱藏層中經(jīng)常使用ReLU函數(shù),輸出層中經(jīng)常使用S函數(shù)。激活函數(shù)的選擇對構(gòu)建整個神經(jīng)網(wǎng)絡(luò)有決定性意義,通過優(yōu)化損失函數(shù)來優(yōu)化神經(jīng)網(wǎng)絡(luò),完成正向傳播后,將損失函數(shù)反向傳播,通過梯度下降算法更新權(quán)重,再重新進行正向傳播,此過程重復多次,使得損失函數(shù)下降,但損失函數(shù)并不是一直下降,其與學習速率有關(guān),速率越大,損失函數(shù)可能會變大。
使用機器學習模型結(jié)合歷年吉林省重點實驗室的評價數(shù)據(jù)可以建立預測模型,并通過預測模型對當前考核年度的實驗室進行評分預測,可以大大減少人工時間,為政府部門減少工作量、提高工作效率。在構(gòu)建預測模型前,需要大量的有效數(shù)據(jù),成果是否有效,還需要人工把關(guān)與掌控,同時,為使模型預測結(jié)果更為準確,降低預測誤差,需要多年多個實驗室的真實數(shù)據(jù)積累,隨著吉林省重點實驗室年度考核工作的逐步推進,數(shù)據(jù)將越來越多,模型可以進行調(diào)整,以更好地實現(xiàn)評價預測。