梁鳳鳴
泰山學(xué)院學(xué)報編輯部,山東泰安271021
基于SVM的稿件質(zhì)量評價系統(tǒng)
梁鳳鳴
泰山學(xué)院學(xué)報編輯部,山東泰安271021
分析了科技期刊稿件審理的指標(biāo)體系與SVM的基本原理,建立了基于SVM的稿件質(zhì)量評價系統(tǒng),并應(yīng)用100個樣本對網(wǎng)絡(luò)進行了訓(xùn)練。檢驗結(jié)果表明,檢驗樣本的期望輸出結(jié)果與網(wǎng)絡(luò)模型的計算結(jié)果符合較好,說明該模型可行。
SVM;稿件質(zhì)量評價系統(tǒng)
科技期刊以發(fā)表系統(tǒng)性、專門性、創(chuàng)造性的學(xué)術(shù)論文為主體,以反映高水平、高質(zhì)量的科研教學(xué)成果為重點的期刊??萍计诳?zé)任編輯的一項重要任務(wù)就是對科技期刊的總體質(zhì)量進行有效的控制,而最有效的途徑就是專家審稿,專家通過對文稿的審閱,為期刊篩選出高質(zhì)量的文稿。專家審稿是保證和提高論文質(zhì)量的中心環(huán)節(jié),是發(fā)現(xiàn)和培養(yǎng)學(xué)術(shù)新秀的重要途徑。因此,為了提高審稿質(zhì)量,使專家評價指標(biāo)與綜合評價指標(biāo)的評價結(jié)果分離,避免審稿結(jié)果受其他因素的影響,同時提高審稿的效率與方便性,實現(xiàn)遠程審稿與網(wǎng)絡(luò)資源的共享[1],本文在文獻[1]的基礎(chǔ)上建立了基于SVM的稿件質(zhì)量評價系統(tǒng)。
本文采用專家評價法對稿件質(zhì)量評價系統(tǒng)進行評價,專家評價法是出現(xiàn)較早且應(yīng)用較廣的一種評價方法。專家評價法就是根據(jù)評價對象的具體情況選定評價指標(biāo),對每個指標(biāo)均定出評價等級,然后對每個等級的標(biāo)準(zhǔn)用分值來表示;專家對評價對象進行分析和評價,確定各個指標(biāo)的分值。
該評價體系分為專家評價指標(biāo)和綜合評價指標(biāo),并把每個評價指標(biāo)分別賦予對應(yīng)的定性模糊評價量值進行量化。
本文選取政治性、思想性、創(chuàng)新性、學(xué)術(shù)性、科學(xué)性和實用性6項組成專家評價指標(biāo)體系。文中的綜合評價指標(biāo)采用文獻[1]的方法,是責(zé)任編輯根據(jù)編輯部的實際情況,參照審稿專家對論文從不同的側(cè)面對上述評價指標(biāo)進行評審后所得到的結(jié)果,確定與其對應(yīng)的綜合的評價結(jié)果,每一個評價指標(biāo)的各評價元素組成的向量只能與確定的一個評價結(jié)果因素相對應(yīng)[1]。
根據(jù)實際情況,我們把每個評價指標(biāo)分為好、較好、一般、差等4個評價等級,并對每個評價等級賦予對應(yīng)的評價量值,用于審稿專家根據(jù)自己對稿件進行判斷和選擇,最后得到一個7維的模糊向量[2-4]。
A={好,較好,一般,差};B={100,80,60,0};C=(a1,a2,a3,a4,a5,a6,b)
支持向量機(Support Vector machine,SVM)[4-9]作為凸二次規(guī)劃問題的一種典型代表已經(jīng)廣泛應(yīng)用于文本識別、手寫字體識別、人臉圖像識別、回歸分析、函數(shù)估計等領(lǐng)域。支持向量機分類問題的描述如下:給定樣本訓(xùn)練集,T={(x,y),...,(x,y)},其中x∈Rm是輸入指標(biāo)向量,11nn i yi∈Y={1,-1}是輸出指標(biāo),確定Rm上的一個實值函數(shù)g( x),使得對任意輸入x∈Rm,都可由決策函數(shù)f(x)=sign( g( x))推斷出其對應(yīng)的輸出y(1或-1),其中sign為符號函數(shù)。
SVM理論是要求一個最優(yōu)分離超平面ωTφ(x)+b=0,其中φ(.)為Rm到另外一個空間的映射?;凇伴g隔”極大化的思想,求最優(yōu)分劃超平面的問題即轉(zhuǎn)化為求如下關(guān)于變量ω和b的最優(yōu)化問題[10]:
其中ξ=(ξ1,...,ξn)T為松弛變量,ω和b分別是分離超平面的法方向和截距,C>0為間隔最大化和錯分最小化的權(quán)衡系數(shù)。模型(1)的對偶問題為下列二次規(guī)劃問題:
M( M>2)分類問題可描述如下:給定m個分類訓(xùn)練樣本(x1, y1),(x2,y2),...,(xn,yn),其中x∈Rm,i=1,...,n且y∈{1,2,...,M},基于上述樣本構(gòu)造一個分類函數(shù)f(x):X=Rn→y。多分
i i
類和二分類問題之間有一定的對應(yīng)關(guān)系:若M分類問題完全可分,則M類中任意兩類一定可分;反之,若其任意兩類之間可分,則通過一定的組合或投票法則,可由兩兩可分來最終實現(xiàn)M類可分。
基于二叉樹的SVM多分類算法[11-12]的基本思想是將所有類別分成兩個子類,再將子類劃分成兩個次級子類,重復(fù)執(zhí)行直到所有的結(jié)點只包含一個單獨的類別為止。該方法將原有的多類問題同樣分解成了一系列的兩類分類問題,其中兩個子類間的分類函數(shù)采用SVM。本文中的稿件質(zhì)量三分類問題(60,80,100),首先按類別把訓(xùn)練數(shù)據(jù)集分為兩個子集SetA(80,100)和SetB(60),對SetA的數(shù)據(jù)賦予標(biāo)號+1,SetB的數(shù)據(jù)賦予標(biāo)號-1,用此兩類數(shù)據(jù)構(gòu)造分類函數(shù)SVM1,進一步對SetA中的訓(xùn)練數(shù)據(jù)集執(zhí)行相同的步驟,得到另外一個分類函數(shù)SVM2,如圖1所示。
圖1 基于二叉樹的四分類算法Fig.1 Four classification algorithm based on binary tree
對于一個新的樣本,用SVM1進行分類:如果結(jié)果為1,則表明該樣本可能屬于100,80類中的一種;如果結(jié)果為-1,則結(jié)果為60。如果SVM1分類結(jié)果為1,則用SVM2進行分類,如果結(jié)果為1,則表明該樣本類別為100,否則為80。
為了說明基于SVM的二叉樹多分類算法針對稿件質(zhì)量分類問題的有效性,本實驗選取了100個稿件質(zhì)量數(shù)據(jù)樣本進行數(shù)值實驗,程序用matlab7.10語言編寫,實驗平臺Pentium(R),2G RAM,操作系統(tǒng)為Windows XP。
本文根據(jù)《泰山學(xué)院學(xué)報》對評審稿件的要求,對稿件的思想性和政治性達到較高水平,而學(xué)術(shù)性、創(chuàng)新性、科學(xué)性、實用性要達到一般等級,參照上述7個指標(biāo)和量化原則,所有符合要求的樣本共計100個,因數(shù)據(jù)較多,在此不再列出。
訓(xùn)練樣本是從100個數(shù)據(jù)樣本中隨機選取的,并把剩余的樣本作為訓(xùn)練樣本,二分類器為Libsvm工具箱,SVM二分類采用高斯核函數(shù)),表1列出了數(shù)據(jù)集的信息以及參數(shù)選擇信息。
表1 實驗數(shù)據(jù)的信息Table 1 Experimental data
表2 數(shù)值結(jié)果Table 2 Numerical results
表2給出了10組隨機測試的數(shù)據(jù)結(jié)果,由表2可以看出10組數(shù)據(jù)的分類準(zhǔn)確率集中在90%左右,最低也不低于87.5%,最高可達97.5%。因此可以說,基于SVM的二叉樹多分類算法對于稿件質(zhì)量評價問題,二叉樹多分類算法是比較有效的。
本文在審稿質(zhì)量評價指標(biāo)體系的基礎(chǔ)上提出了基于SVM的二叉樹多分類算法的稿件質(zhì)量評價模型,通過對100個樣本的訓(xùn)練,達到了期望的輸出效果。這樣在今后的審稿過程中,審稿專家只要根據(jù)編輯提供的審稿指標(biāo)體系以及相應(yīng)的評價因素選取相應(yīng)的值,此模型就可以根據(jù)審稿專家的輸入值給出期望審稿結(jié)果,這樣大大的減少審稿過程中人為因素的干擾,嚴(yán)格以稿件質(zhì)量作為稿件取舍的標(biāo)準(zhǔn),同時,也提高了審稿專家在審稿認真程度,并盡可能縮短審稿周期,為提高學(xué)報質(zhì)量把關(guān)取得了令人滿意的效果。
[1]趙志宏,孫守增.基于BP神經(jīng)網(wǎng)絡(luò)的稿件質(zhì)量評價系統(tǒng)[J].中國科技期刊研,2006,17(5):742-745
[2]邱浪波,劉作良,劉明.一種神經(jīng)網(wǎng)絡(luò)技術(shù)的威脅股計算法[J].空軍工程大學(xué)學(xué)報(自然科學(xué)版),2002,3(6):25-27
[3]張新紅.基于神經(jīng)網(wǎng)絡(luò)的管理信息系統(tǒng)綜合評價方法[J].系統(tǒng)工程學(xué)報,2002,17(5):445-450
[4]Tseng P,Yun S W.A coordinate gradient descent method for nonsmooth separable minimization[J].Mathematical Programming,2009,(117):387–423
[5]Thomas S,Zanni L.On the working set selection in gradient projection-based decomposition techniques for support vector machines[J].Optimization Methods and Software,2005,(20):583–596
[6]Lin C J,Lucidi S,Palagil L,et al.Decomposition algorithm model for singlylinearly constrained problems subject to lower and upper bounds[J].Journal of Optimization Theory andApplication,2009,(141):107-126
[7]Lucidi S,Palagi L,RISI A,et al.A convergent decomposition algorithm for support vector machines[J].Computational Optimization andApplications,2007,38(2):217-234
[8]Tseng P,Yun S W.Acoordinate gradient descent method for linearly constrained smooth optimization and support vector machines training[J].Computational Optimization andApplications,2010,47(2):179-206
[9]李明強.幾類特殊凸二次規(guī)劃問題的求解算法研究[D].青島:山東科技大學(xué)信息科學(xué)與工程學(xué)院,2013
[10]李明強,韓叢英,賀國平.基于分解技術(shù)的并行支持向量機算法[J].中國科技論文在線-精品論文,2013,6(13):1249-1254
[11]鄧乃揚,田英杰.支持向量機:理論、算法與拓展[M].北京:科學(xué)出版社,2009
[12]王永麗,韓叢英,李田,等.求解不等式約束優(yōu)化問題無嚴(yán)格互補松弛條件的QP-free新算法[J].應(yīng)用數(shù)學(xué)學(xué)報,2013,36(1):3-15
The Manuscript Quality Evaluation System Based on SVM
LIANG Feng-ming
Editorial Department of Journal Taishan University,Taian 271021,China
This paper analyzed the manuscripts hearing index system of scientific journals and the principle of SVM, established the manuscript quality evaluation system based on SVM,and applied 100 samples to train the network.The test results showed that the calculated results of the network model were in agreement with the expected output of test samples, which indicated that the model was feasible.
SVM;manuscript quality evaluation system
G353
A
1000-2324(2014)03-0473-03
2012-12-03
2013-03-16
山東省自然科學(xué)基金項目(ZR2012AL03)
梁鳳鳴(1979-),女,編輯,主要從事期刊編輯研究工作.E-mail:liang-fengming@163.com