• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于隨機森林和支持向量機模型的期刊評價

      2022-08-22 07:54:54溫學兵姚佳宜
      關鍵詞:向量森林分類

      溫學兵, 謝 維, 姚佳宜

      (1. 沈陽師范大學 數(shù)學與系統(tǒng)科學學院, 沈陽 110034;2. 沈陽師范大學 學報編輯部, 沈陽 110034)

      學術期刊是交流學術、分享知識的平臺,科研人員多以在高質(zhì)量期刊發(fā)表論文為目標,因為高質(zhì)量期刊往往意味著擁有業(yè)內(nèi)較高的認可度、高水平的同行評審以及較大的影響力。

      按照量化程度,學術評價大致分為定性評價、定量評價和定性評價與定量評價相結合三大類。定性評價不可避免地存在主觀性,因此定量評價被廣泛認可[1-2]。定量評價分為單指標評價和多指標評價。任一期刊量化指標都有其優(yōu)勢和劣勢,不可能全面反映出期刊的質(zhì)量高低,片面地強調(diào)單個指標,會導致期刊片面發(fā)展,甚至干擾學術的公平、公正。多指標評價避免了單指標評價的片面性,得到了國內(nèi)外學者和期刊界的廣泛認可。隨著學術期刊評價的快速發(fā)展,常用的多屬性評價方法已經(jīng)多達幾十種。多數(shù)評價指標與評價結果之間不是精準的線性關系,而是非線性關系,目前在學術評價領域使用非線性評價占比超過3/4,如TOPSIS(technique for order preference by similarity to an ideal solution)、主成分方法、因子分析法、灰色關聯(lián)評價方法等。

      如今,人工智能迅速發(fā)展,與許多領域緊密結合,而機器學習方法是人工智能領域一個較為重要的研究分支[3-5],機器學習方法中的隨機森林[6-9]和支持向量機[10-13]被廣泛應用于各個領域。學術期刊評價必定存在人為選取量化指標數(shù)據(jù)這一環(huán)節(jié),量化指標的數(shù)值存在著人為干預的情況,無論如何選取,很大程度上都不可避免地存在某些量化指標數(shù)據(jù)選取不合理的情況。本文在學術期刊量化評價指標的研究中,引入機器學習算法中常用的隨機森林和支持向量機方法,以期望通過機器學習方法減弱人為選取量化指標數(shù)據(jù)對期刊評價的影響,使得期刊評價結果更加公正合理。

      1 數(shù)據(jù)處理與排名建立

      為了對比隨機森林和支持向量機2種模型評價期刊的精準度,本文以中國期刊引證報告中數(shù)量最多的人文社會科學期刊2013年與2014年2年的數(shù)據(jù)為例進行說明。數(shù)據(jù)較多能夠避免建立的隨機森林和支持向量機模型陷入過度擬合,以確保得到的結果更加可靠。中國期刊引證報告中人文社會科學期刊共有289個,由于某些期刊存在數(shù)據(jù)和指標缺失,數(shù)據(jù)清洗后最終保留了261種期刊,選取了總被引頻次、影響因子、即年指標、基金論文比、他引率這5個關鍵指標來進行期刊排名。

      將數(shù)據(jù)分為訓練集和測試集2個部分,首先用訓練集來訓練模型,再用測試集測試模型的好壞。本文先采用TOPSIS分析法對訓練集進行評分。由于TOPSIS分析法需要加入主觀權重,根據(jù)經(jīng)驗取主觀權重為0.3,0.1,0.1,0.2,0.3,且占比為60%,客觀權重由矩陣計算得來。根據(jù)得分對訓練集和測試集進行標注排名,并將排名分為1類、2類和3類。訓練集與測試集及其排名見表1和表2。

      表1 訓練集及其排名(部分)Table 1 Training set and its ranking(in part)

      表2 測試集及其排名(部分)Table 2 Predictive set and its ranking(in part)

      續(xù)表2

      2 隨機森林模型的建立

      隨機森林算法(random forest)是基于集體智慧的一個機器學習算法,也是目前最好的機器學習算法之一。隨機森林實際是一堆決策樹的組合。在用于分類一個新變量時,相關的檢測數(shù)據(jù)提交給構建好的每個分類樹,每個分類樹給出一個分類結果,最終選擇被最多的分類樹支持的分類結果。回歸則是不同分類樹測試值的均值。隨機森林的出現(xiàn)最初是為了解決決策樹泛化能力比較弱的問題,因為決策樹就像一棵樹,它的決策流只有一條,泛化能力弱,而隨機森林能比較好地解決這個問題。隨機森林與Bagging非常類似,先從原始數(shù)據(jù)中隨機抽取一定數(shù)量的自助法樣本,再對每個樣本建立一個決策樹[14]。針對當前結點特征集合(T個特征),從中隨機選擇t個特征子集,再選擇最優(yōu)特征進行劃分,控制隨機性的引入程度,其推薦值k=log2d。

      本文隨機森林算法步驟如下:

      1) 從訓練集D中有放回隨機采樣抽取n個訓練樣本,記為D1,D2,…,Dn,這里n的最大取值為261。

      2) 從所有特征中隨機選擇t個特征,對選出的樣本利用這些特征建立決策樹,一般用CART(classification and regression trees)方法。

      3) 重復以上2個步驟,形成隨機森林,其中每棵樹都不剪枝,讓其充分生長。

      其生成過程如圖1所示。

      圖1 隨機森林分類樹生成圖Fig.1 Graph of random forest classification tree

      接下來應用MATLAB實現(xiàn)隨機森林的生成,對261種期刊量化指標數(shù)據(jù)做隨機森林模型訓練與測試。本文使用隨機森林進行訓練時,參數(shù)為7棵樹,最大葉節(jié)點為6個,最大分枝特征為3個,最大深度為5。結果為

      正確率(accuracy): 0.834 532 374 100 719 5

      AUC(area under curve ): 0.952 852 470 169 124 1

      特征重要性(importance): 0.26 0.5 0.22 0.01 0.01

      1) TP(false positive): 測試為正向(P),實際上測試正確(T),即判斷為正向的正確率;

      2) FN(false negative): 測試為負向(N),實際上測試錯誤(F),即把正向判斷成了負向;

      3) FP(false positive): 測試為正向(P),實際上測試錯誤(F),即把負向判斷成了正向;

      4) TN(true negative): 測試為負向(N),實際上測試正確(T),即判斷為負向的正確率。

      特征重要性(importance): 隨機森林的結果產(chǎn)物,代表每一個特征的重要程度。圖2為特征重要性視圖,無論從數(shù)值還是從圖表都可以直觀看出特征的重要程度依次為影響因子、即年指標、總被引頻次、他引率、基金論文比。

      圖2 特征重要性視圖Fig.2 Feature importance view

      AUC(area under curve):顧名思義是曲線下面積,也就是整個ROC曲線與坐標軸圍成的一個封閉區(qū)域的面積。ROC曲線是通過連續(xù)測量變量的不同觀察切點值而繪制的一條曲線,Y軸是真陽性率(靈敏度),X軸是假陽性率(1-特異度)。ROC曲線可以總結多種界值下的分類結果,并幫助選擇最優(yōu)的界值。不同模型的ROC曲線可通過AUC進行比較,從而有助于選擇最優(yōu)的模型。AUC就是將某個隨機正類別樣本排列在某個隨機負類別樣本之上的概率,其計算與混淆矩陣密不可分。AUC的值一般在0.5~1,為1時表示完全準確,0.5對應隨機分類,如果AUC<0.5,則表示準確度比偶然性還差。

      混淆矩陣(confusion matrix):混淆矩陣是用來總結一個分類器結果的矩陣。對于k元分類,其實它就是一個k×k的表格,用來記錄分類器的測試結果。矩陣的每一列代表一個類的實例測試,而每一行表示一個實際的類的實例。計算混淆矩陣可以更好地了解分類模型的正確性以及它所犯的錯誤類型,同時,混淆矩陣能夠幫助計算各種類別誤分為其他類別的比重,幫助調(diào)整后續(xù)模型。期刊量化指標數(shù)據(jù)混淆矩陣圖像如圖3和圖4所示。

      圖3 規(guī)范化混淆矩陣Fig.3 Normalized confusion matrix

      圖4 混淆矩陣Fig.4 Confusion matrix

      混淆矩陣代表著分類正確和錯誤的集合,標簽被分為0,1,2共3種,分別代表期刊的類別,展現(xiàn)了所有的分類情況,y軸是正確的標簽,x軸是機器的分類。由此可以得到

      1) 正確率(accuracy):測試正確的數(shù)量(測試結果中分類正確)占總樣本數(shù)的百分比。

      2) 精確率(precision):以測試結果為判斷依據(jù),測試為正例(測試分類正確TP+FP)的樣本中測試正確(測試真正分類正確TP)的比例。

      3) 召回率(sensitivity):以實際樣本為判斷依據(jù),實際為正例的樣本中,被測試正確的正例占總實際正例樣本的比例。當精確率比較高的時候,召回率往往較低,反之亦然。

      4) 特異度(specificity):描述識別出的負例占所有負例的比例。特異度越高表明盡可能多的負例判斷為負,即將分類錯誤判定為分類錯誤,而不出現(xiàn)誤判。

      5) F1指標:F1值是精確率和召回率的合成指標,綜合了二者的結果,取值范圍為 [0,1],F1值越髙,代表模型的綜合性能越好。

      以上為class 1的證明結果,accuracy為0.834 5,F1指標為0.901,結果比較理想。同樣,根據(jù)以上步驟也可以得出class 0和class 2的結果,經(jīng)驗證結果都比較滿意,證明了該模型的輸出結果較好,模型的準確率較高。為了證明隨機森林建立的模型準確率最高,下面將建立支持向量機模型,并比較二者的準確率。

      3 支持向量機模型的建立

      支持向量機(support vector machines, SVM)起初是為解決分類問題而產(chǎn)生的,在回歸問題中仍然保持其在分類問題上的主要特點:處理非線性問題時是通過把低維變量映射到高維變量空間而實現(xiàn)的。該系統(tǒng)的能力由不依賴于變量空間維數(shù)的參數(shù)所控制。SVM的學習算法是求解凸二次規(guī)劃的最優(yōu)化算法。要把問題轉(zhuǎn)化為一個凸二次規(guī)劃問題,可以用運籌學有關思想進行求解:1)在線性SVM算法中,目標函數(shù)顯然就是那個“分類間隔”,需要使分類間隔最大;2)約束條件即決策面,通常需要滿足3個條件(確定決策面使其正確分類;使決策面處于間隔區(qū)域的中軸線;確定支持向量)[15]。

      SVM通過映射到高維空間來求分離超平面,導致其運算量非常龐大,由于上面的核函數(shù)和映射到高維空間的解類似,所以求SVM分離超平面時,可以用求核函數(shù)的方法代替在高維空間中的計算,從而實現(xiàn)在一維平面上的計算達到在高維空間計算的效果。因此,應用多項式核函數(shù),使其對樣本數(shù)據(jù)進行高維空間映射。多項式核函數(shù)基本表達形式如下:

      對期刊量化指標數(shù)據(jù)做支持向量機訓練與測試,其訓練集和測試集的結果圖像如圖5和圖6所示。

      圖5 訓練集結果Fig.5 Training set results

      圖6 測試集結果Fig.6 Forecast set results

      圖中不同顏色的點代表不同類別期刊的位置,顯然沒有隨機森林算法的準確度高。因此,隨機森林模型的建立效果較為理想。同時,應用隨機森林建立的排名模型不僅準確度高,結果也與人們主觀上對于期刊的排名大致相符。

      4 結 語

      1) 隨機森林模型是操作更加簡單的統(tǒng)計模型方法

      隨機森林模型建模過程簡單,容易實現(xiàn),需要調(diào)的參數(shù)比較少,計算量比較小,并且它在很多實際數(shù)據(jù)建模中有很好的性能支持,而向量機模型需要調(diào)的參數(shù)比較多,如如何選擇最佳的核函數(shù)等,有時很難找到一個合適的核函數(shù)。同時,隨機森林模型處理高維度數(shù)據(jù)的能力也非常優(yōu)秀,在訓練完成后,能夠給出變量的重要性程度。支持向量機模型是一種有理論基礎的新穎的小樣本學習,但對類似本文這樣數(shù)量較多的期刊樣本進行建模的時候,效率并不是很高。

      2) 隨機森林模型是準確度更高的模型

      對期刊量化指標數(shù)據(jù)進行隨機森林和支持向量機建模的結果表明,支持向量機模型的準確度為76%,隨機森林模型的準確度最高達到了83.45%,顯然隨機森林模型的準確度更高,排名結果與主觀預期結果相似。

      之前的研究未發(fā)現(xiàn)有學者將隨機森林和支持向量機模型應用于期刊評價當中,2種模型對期刊排名的比較進一步完善了期刊評價體系,為以后學者選擇學術期評價方法提供了參考。

      猜你喜歡
      向量森林分類
      向量的分解
      分類算一算
      聚焦“向量與三角”創(chuàng)新題
      分類討論求坐標
      數(shù)據(jù)分析中的分類討論
      教你一招:數(shù)的分類
      哈Q森林
      哈Q森林
      哈Q森林
      向量垂直在解析幾何中的應用
      蒲江县| 邢台县| 江华| 康保县| 宜章县| 南和县| 三亚市| 特克斯县| 都昌县| 南投市| 丹阳市| 方城县| 兴宁市| 德阳市| 宜川县| 福州市| 青川县| 成安县| 兴城市| 河南省| 江安县| 纳雍县| 洪雅县| 宝鸡市| 吐鲁番市| 观塘区| 大荔县| 潞西市| 桂林市| 南昌市| 平阳县| 偏关县| 新竹市| 西乡县| 云浮市| 宁南县| 巴中市| 万安县| 洪洞县| 延长县| 阜平县|