• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于支持向量機的圖書分類管理研究*

      2021-02-25 06:28:08胡謙鋒陳沁磊
      計算機與數(shù)字工程 2021年1期
      關鍵詞:子集正確率向量

      胡謙鋒 陳沁磊

      (1.南京中醫(yī)藥大學圖書館 南京 210000)(2.江蘇省中醫(yī)院 南京 210000)

      1 引言

      1.1 支持向量機的基本原理

      Vapnik 提出的結(jié)構風險最小化原理指出要最小化期望風險必須同時最小化經(jīng)驗風險和VC 維,SVM 就是基于結(jié)構風險最小化的一種機器學習算法[1~2],其源自在線性且樣本指標可分開情況下的最優(yōu)劃分面,結(jié)構如圖1。

      圖1 SVM原理示意圖

      上圖中,“●”符號和“○”符號表示兩種不同的樣本,H為假設最優(yōu)劃分線(所謂假設最優(yōu)劃分線,要求能將不同的樣本劃分出來,目標是0 錯誤,還要使兩劃分線中間間隔盡可能大,這樣能使風險保持最小狀態(tài)。使間隔盡可能大使推廣性界中的置信范圍最小,在實際應用中把風險降到最低,H1、H2分別為數(shù)據(jù)樣本中距離最優(yōu)劃分線最近的平行劃分直線,H1、H2和H中間的部分是分類間隔(margin)。從一維空間擴展到高維空間,假設最優(yōu)劃分線H就成為了最優(yōu)劃分面,而H1、H2上的訓練樣本點群,便成了距超平面最近的異類向量,我們稱其為支持向量(Support Vector),如圖1 中用圓圈標出的數(shù)據(jù)樣本所示。一組支持向量可以確定一個超平面,且這個平面是唯一確定的。

      1.2 支持向量機多類分類原理

      給定訓練子集{(x1,y1),…,(xl,yl)} ,其中,x∈Rn,yi∈{1 ,2,…,M},i=1,2,…,l。尋找Rn上的一個差別函數(shù)f(x),對于任一輸入x給出相對應的y值。上述多類分類問題實質(zhì)上就是找到一個把Rn上的點分成M部分的規(guī)則[4]。

      下面是利用二值分類的方法構造一個n類分類器的方法與步驟。

      1)構造n個二值分類規(guī)則,其中規(guī)則fk(x),k=1,…,n將第k類的訓練樣本與其他訓練樣本分開,若向量xi屬于第k類,則sgn[fk(xi)]=1,否則sgn[fk(xi)]=-1

      2)選取函數(shù)fk(x),k=1,…,n中最大值所對應的類別:

      以上兩個步驟便可以將n類數(shù)據(jù)樣本進行分類,以此為支持向量機處理多類分類問題的依據(jù)來構造多類分類器。

      即多類分類問題的支持向量方法的描述如下:

      設數(shù)據(jù)樣本訓練子集為

      其中,中的目標k表示向量屬于第k類。

      考慮線性函數(shù)集;

      目標是構造n個函數(shù),n對 (ωk,bk) ,使得規(guī)則;

      能將訓練樣本無錯誤地分開,即不等式

      對所有k=1,…,n,m≠k和i=1,…,ln成立。

      如果數(shù)據(jù)集間的指標不能準確地分開,則最小化如下泛函數(shù);

      約束條件為

      其中,k=1,…,n,m≠k,i=1,…,lk。

      Lagrange 最優(yōu)化技術具有科學性,以該技術處理fk(x)函數(shù),展開求解得可知:

      函數(shù)fk(x)展開式的系數(shù)ai(k,m),k=1,…,n,m≠k,i=1,…,lk,j=1,…,lm需要最小化如下的二次形式:

      約束條件為

      2 傳統(tǒng)的ABC 分類法在圖書分類中的應用分析

      ABC分類管理方法,是一種國內(nèi)外應用較為廣泛的方法,而且其原理比較好理解。ABC管理具有以下特點:成本低、見效快、技術簡單。ABC分類方法,尤其在復雜錯綜的系統(tǒng)里,為了達到有效的管理,集中有限的精力于重要關鍵的領域,它是既必要又可行的方法。在傳統(tǒng)的ABC 分類法中,首先基于年資金使用量對于庫存項目按降序進行排序,然后把庫存單位分成三類:前15%~20%屬于A 類,控制年庫存資金總使用量的80%,需要實行重點管理;最后50%~60%構成C 類,占有很少量的庫存資金;在兩類之間的屬于B 類,約占項目的20%~30%。換言之,該分類方法依托的是傳統(tǒng)模型,圖書的單價與圖書的重要程度直接掛鉤(價格作為價值的唯一表現(xiàn)形式),對于單價不貴的圖書并不重點管理,而要求重點管理高價值圖書。

      傳統(tǒng)的ABC 分類方法以資金占比這一經(jīng)濟角度為依據(jù),對圖書的重要性進行評估,有失于全面性和精準性。作為圖書管理方,圖書的經(jīng)濟特征指標、圖書的時間特征指標(如提前采買天數(shù)的長短)和重要度量化指標(如圖書缺件時造成損失的程度)同樣是不可缺少的,甚至占有更高的權重,所以傳統(tǒng)的ABC 分類方法并不總是有效的。傳統(tǒng)的ABC分類法在實際應用中指標過于簡單片面,輸入的量化指標主觀性、隨機性強,而想要該表這一狀況就要輸入大量統(tǒng)計數(shù)據(jù),開展大規(guī)模的復雜運算。對于樣本規(guī)模并不甚大圖書分類,引入基于支持向量機的機器學習方法是十分必要的[6~7]。

      3 提取圖書不同數(shù)據(jù)類型的集合

      圖書分類模型的指標選取應堅持以下原則:與圖書分類等管理活動相關度高;精簡指標數(shù)量和規(guī)模;(降低SVM 的輸入空間維數(shù),縮小問題的規(guī)模,從而降低計算難度,節(jié)約時間)如實反映圖書分類所需的各項特征。本文綜合考慮圖書管理工作的特點,制定了一個圖書分類指標體系,如表1所示。

      圖書運營過程中,各個指標都影響其分類結(jié)果以及運營部門投入的關注度。這些指標要素影響著管理方的圖書分類工作。加權各要素的總體,我們發(fā)現(xiàn)各個種類圖書關注度整體上與對相關圖書進行重點管理的程度同向變化[8~10]。

      “單價”指的是單位圖書的采購成本,是圖書管理的經(jīng)濟性因素。在傳統(tǒng)模型和當今模型中,單價都與關注度正相關[11]。

      “提前采買天數(shù)”指圖書從出單發(fā)貨、運輸?shù)浇邮杖霂斓暮臅r總長,體現(xiàn)的是采購難易程度。提前采買天數(shù)體現(xiàn)著采買過程中的變數(shù),與缺貨可能性和所需的關注度[12]都正向相關。

      “年出貨量”指的是該種類圖書全年的銷售量的大小。圖書的年出貨量越大,說明暢銷程度越高,也就越需要提高關注度。

      “歷史銷售量”指該種圖書投入銷售運營全過程以來的銷售總量,是該圖書交易的總體穩(wěn)定性。對于歷史銷售量與關注等級正向相關。

      “圖書庫存時間長度”指圖書售出所需的時間長度。對于庫存期越短的圖書,市場需求就越大,關注程度應提高[13]。

      “重要度等級”指該種圖書對整體施加的影響水平和缺件時造成時損失的程度的大小。圖書重要性與該種類圖書對管理運營成本的影響、缺貨造成的損失呈現(xiàn)正相關關系,要重點關注重要性等級高的圖書。

      “供應方等級”指圖書供應方的綜合水平。供應方等級和其供貨的質(zhì)量、服務水平呈現(xiàn)正相關的關系。當圖書的供應方等級較低時,就需要調(diào)高對其提供的圖書的關注程度。

      表1 集內(nèi)各指標內(nèi)容說明

      4 基于支持向量機的圖書ABC 分類模型

      應用基于支持向量機構建圖書ABC 分類模型的基本步驟。

      第1 步,根據(jù)實際情況,分別選取圖書的單價、提前采買天數(shù)、年出貨量、歷史銷售量、圖書庫存時間長度、重要度等級、供應方等級作為圖書的分類指標。

      第2 步,提取圖書管理單位部分圖書的各項指標值,形成數(shù)據(jù)集,由經(jīng)驗豐富的圖書管理人員對圖書進行分類。

      第3 步,用極差變換法對數(shù)據(jù)集進行歸一化處理,通過極差變換法,將圖書的各個屬性均變?yōu)閷儆赱0 ,1] 區(qū)間的值,但并不改變各屬性之間的相對關系,不會影響到分類模型的構建。

      第4 步,隨機抽取圖書數(shù)據(jù)集中的部分樣本作為訓練子集,其它樣本作為測試子集。

      第5 步,采用向量機模型選擇方法,以訓練子集樣本為基礎,完成對支持向量機的優(yōu)化。在后優(yōu)化過程中,以訓練子集作為驗證支持向量機多分類模型的性能樣本反復測試。若達不到預期性能,就該換方法重新進行優(yōu)化,返回上步。

      第6 步,若測試性能達標,分類模型的具體性能就可以在測試子集上進行驗證。若該模型在訓練子集和測試子集上的分類正確率達到合理區(qū)間,說明該模型比較成熟。若分類正確率達不到合理區(qū)間,甚至與預期相差較大,則從數(shù)據(jù)質(zhì)量問題,模型優(yōu)化方法兩個方面考慮改進。

      第7 步,如果在測試子集上的分類正確率在合理區(qū)間內(nèi),可以對得到的新模型進行保存,以新模型對圖書樣本分類[14~15]處理。

      模型建立的具體過程如下圖2所示。

      圖2 支持向量機圖書分類基本步驟

      5 實例分析

      5.1 優(yōu)化參數(shù)的選擇

      選取某書店的200 種圖書,這里以同樣方法進行處理。以150 種圖書形成一個數(shù)據(jù)集合體(集內(nèi)要素任意選擇),其余的50 種圖書作為測試的數(shù)據(jù)集合體,分別應用網(wǎng)格搜索法和遺傳算法優(yōu)化的支持向量機進行圖書ABC 分類,將兩種方法優(yōu)化參數(shù)的支持向量機的預測模型對實際數(shù)據(jù)進行分類處理,并將分類結(jié)果進行對比。

      圖3 網(wǎng)格搜索法參數(shù)優(yōu)化

      圖4 遺傳算法參數(shù)優(yōu)化

      分類結(jié)果見到表2。

      表2 參數(shù)優(yōu)化方法比較

      通過實驗我們發(fā)現(xiàn),經(jīng)過網(wǎng)格搜索法優(yōu)化參數(shù)的支持向量機訓練子集分類正確率為96.6187 %、測試子集正確率為93.5484%,兩者大致相當;經(jīng)過遺傳算法優(yōu)化參數(shù)的支持向量機訓練子集分類正確率97.4789%和測試子集正確率96.7741%,兩者大致相當。這說明參數(shù)優(yōu)化的合適。

      另外通過實驗數(shù)據(jù)對比,我們發(fā)現(xiàn)應用遺傳算法進行參數(shù)優(yōu)化后的支持向量機的分類正確率較傳統(tǒng)的網(wǎng)格搜索法的支持向量機分類正確率有了較大的提高,其分類效果更優(yōu)越一些。因此我們選擇遺傳算法來優(yōu)化支持向量機的參數(shù)優(yōu)化方法。

      5.2 結(jié)果分析

      為了更好地對支持向量機圖書ABC 分類模型的性能進行檢驗,我們另外再從圖書中隨機抽取10 種圖書進行分類,然后與傳統(tǒng)的分類結(jié)果進行對比分析。這里以RBF函數(shù)對于數(shù)據(jù)進行處理,經(jīng)過算法處理和優(yōu)化,易知參數(shù)發(fā)生了顯著變化,這里選擇C=23.235 和g=1.9326,輸入變量后以我們提出的模型分類處理,采用對比法研究,得出的分類結(jié)果見表3。

      圖書0654124 以傳統(tǒng)分類處理的結(jié)果顯然應該看作是A類圖書,但我們的處理結(jié)果與傳統(tǒng)結(jié)果不同,將其劃作B 類。由表可知,圖書0654124 具有較高的供應方等級,中等的重要度等級、采購價格和年出貨量,較短的提前采購期等,綜上所述,并沒有顯著必要性對該圖書進行特別劃分,所以由該數(shù)據(jù)認為相較于傳統(tǒng)分類,該分類結(jié)果更加合理準確。

      圖書0412486和圖書0145413它們的提前采買天數(shù)都比較短,基本上能夠通過及時采購得到,較高的供應方等級,中等的重要度等級,年出貨量不佳,庫存周期也比較長,是小眾圖書,劃分為C 類圖書更加具有合理性。

      圖書1456439 是傳統(tǒng)意義上的C 類圖書。它具有低價、提前訂貨期長、消耗量大、重要度高等特點,但受到供應方等級的限制小,從數(shù)據(jù)表征的結(jié)果來看,我們認為其作為A 類一樣是合理的,這里的分類不局限于C類。

      表3 隨機抽取的圖書分類結(jié)果分析表

      6 結(jié)語

      由此可見,支持向量機分類模型具有強大的分類能力,它能夠依據(jù)從圖書多個指標要素點出發(fā),對圖書分類情況進行系統(tǒng)性的考察,得出較之于傳統(tǒng)方法更加準確的分類結(jié)果。兼具精準性和高效性是該方法的顯著特點。在實際的圖書分類實施過程中,能夠?qū)崿F(xiàn)以較小的指標要素規(guī)模實現(xiàn)更加科學準確的運算,有效降低了運算的復雜程度,一定程度上減小了現(xiàn)實分析運算中常見的數(shù)據(jù)千頭萬緒、應用困難等問題,是一種優(yōu)化進步。在新的模型中,各個指標的加權比重一般無需反復設定,使準確性大大提高。應用的簡單提高了學習的泛化性能,“過學習”情況也得到緩解。

      猜你喜歡
      子集正確率向量
      由一道有關集合的子集個數(shù)題引發(fā)的思考
      向量的分解
      拓撲空間中緊致子集的性質(zhì)研究
      聚焦“向量與三角”創(chuàng)新題
      門診分診服務態(tài)度與正確率對護患關系的影響
      關于奇數(shù)階二元子集的分離序列
      生意
      品管圈活動在提高介入手術安全核查正確率中的應用
      天津護理(2016年3期)2016-12-01 05:40:01
      生意
      故事會(2016年15期)2016-08-23 13:48:41
      向量垂直在解析幾何中的應用
      瓦房店市| 栖霞市| 云林县| 乌鲁木齐县| 吕梁市| 开封县| 深州市| 桐乡市| 东兰县| 岑溪市| 彩票| 鹤庆县| 太仓市| 三明市| 确山县| 凤庆县| 宝兴县| 安阳市| 安陆市| 宝兴县| 丹东市| 出国| 海南省| 嫩江县| 高平市| 合山市| 东乡| 古浪县| 新河县| 阿合奇县| 华阴市| 门头沟区| 噶尔县| 湖州市| 轮台县| 焉耆| 法库县| 隆子县| 鸡西市| 葫芦岛市| 平潭县|