張捷
摘? 要: 極限學(xué)習(xí)機算法適應(yīng)新鮮樣本能力強、學(xué)習(xí)速率快,為此提出基于極限學(xué)習(xí)機算法分析圖書館讀者借閱行為。但是極限學(xué)習(xí)機算法輸入權(quán)重與隱層閾值隨機確定,行為分析結(jié)果隨機性強、可靠程度低,所以采用高適應(yīng)度值遺傳算法確定極限學(xué)習(xí)機算法的輸入權(quán)值與閾值。高適應(yīng)度值遺傳算法選擇算子復(fù)制兩份適應(yīng)度值最優(yōu)個體、復(fù)制一份適應(yīng)度值較優(yōu)個體作為遺傳種群;交叉算子選取2個適應(yīng)度值最優(yōu)新個體開始變異操作;確定算法最優(yōu)輸入權(quán)值與閾值后,提取讀者借閱行為特征作為訓(xùn)練樣本,構(gòu)建圖書館讀者借閱行為分析模型,測試樣本代入模型得到讀者借閱行為分析結(jié)果。經(jīng)測試,所提方法能準(zhǔn)確分析出高校學(xué)生頻繁借閱、少量借閱等圖書借閱行為。
關(guān)鍵詞: 極限學(xué)習(xí)機; 圖書館; 輸入權(quán)重; 高適應(yīng)度值; 遺傳種群; 借閱行為分析
中圖分類號: TN911.1?34; TP391? ? ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識碼: A? ? ? ? ? ? ? ? ? 文章編號: 1004?373X(2020)05?0121?04
Analysis of borrowing behavior of library readers
based on extreme learning machine algorithm
ZHANG Jie
(Langfang Normal University, Langfang 065000, China)
Abstract: The extreme learning machine (ELM) algorithm is ofpowerful adaptability to fresh samples and of fast learning rate. Therefore, the borrowing behavior of library readers is analyzed based on the ELM algorithm.However, the input weight and hidden layer threshold of the LEM algorithm are determined randomly, and the behavior analysis results are of serious randomness and low reliability, so the genetic algorithm with high fitness value is adopted to determine the input weight and threshold of the LEM algorithm. The selection operator of the genetic algorithm with high fitness is used to replicate two individuals with optimalfitness value and one individual with better fitness value as the genetic population, and the crossover operator is used to select two new individuals with optimal fitness values to start mutation operation. After determining the optimal input weights and thresholds of the algorithm, the characteristics of readers′ borrowing behaviors are extracted as training samples to construct the analysis model of borrowing behaviors. The test samples are subjected to the model to obtain the analysis results of readers′ borrowing behaviors. After testing, the proposed method can accurately analyze the borrowing behaviors of college students, e.g., frequent but few borrowing.
Keywords: LEM; library; input weight; high fitness value; genetic population; borrowing behavior analysis
0? 引? 言
圖書館應(yīng)以讀者借閱行為為依據(jù)開展圖書資源建設(shè)與讀者服務(wù)工作,所以,正確掌握讀者借閱行為是有效管理圖書文獻(xiàn)資源的前提條件[1?2]。近年來,極限學(xué)習(xí)機算法在行為分析領(lǐng)域應(yīng)用較多,在學(xué)習(xí)速率與泛化能力方面表現(xiàn)突出[3],很快適應(yīng)嶄新樣本,掌握數(shù)據(jù)樣本隱藏規(guī)律[4]。因此,本文采用極限學(xué)習(xí)機算法分析圖書館讀者借閱行為。極限學(xué)習(xí)機算法無需計算輸入權(quán)重與隱層閾值,隨機輸入即可,導(dǎo)致算法隨機性強,不能快速得到符合標(biāo)準(zhǔn)的分析結(jié)果,針對這種情況,本文采用高適應(yīng)度值遺傳算法確定極限學(xué)習(xí)機的輸入權(quán)值與閾值[5],保障極限學(xué)習(xí)機訓(xùn)練準(zhǔn)確度,最后輸出準(zhǔn)確的圖書館讀者借閱行為分析結(jié)果。
1? 圖書館讀者借閱行為分析
1.1? 極限學(xué)習(xí)機算法理論
在前饋神經(jīng)網(wǎng)絡(luò)基礎(chǔ)上構(gòu)建一種機器學(xué)習(xí)方法,稱為極限學(xué)習(xí)機(Extreme Learning Machine,ELM),ELM在監(jiān)督學(xué)習(xí)與非監(jiān)督學(xué)習(xí)方面取得了顯著成效,ELM結(jié)構(gòu)[6?7]如圖1所示。由圖1可知,結(jié)構(gòu)隱層節(jié)點參數(shù)與結(jié)構(gòu)不存在關(guān)聯(lián),所以無需網(wǎng)絡(luò)迭代調(diào)整參數(shù)、訓(xùn)練參數(shù)較少、防止過度擬合、學(xué)習(xí)效率高是極限學(xué)習(xí)機的優(yōu)點,因此,基于極限學(xué)習(xí)機算法分析圖書館借閱行為結(jié)果相對可靠、輸出結(jié)果較快[8]。算法求解過程中,唯一需要定義的參數(shù)為隱層神經(jīng)元數(shù)量,即可得到唯一最優(yōu)解[9]。極限學(xué)習(xí)機輸入權(quán)重與隱層閾值隨機輸入即可,算法訓(xùn)練數(shù)據(jù)樣本時,省略調(diào)整權(quán)重與隱層閾值的環(huán)節(jié)。
已知[N]個訓(xùn)練樣本集用[xk,ek]表示,[k=1,2,…,N],樣本集輸入與輸出維數(shù)分別為[m]維、[n]維;樣本[xk]期望輸出向量為[ek],式(1),式(2)為樣本集輸入與輸出變量表達(dá)形式:
[xk=xk1,xk2,…,xknT∈Rn] (1)
[ek=ek1,ek2,…,eknT∈Rn] (2)
定義[L]表示隱層節(jié)點數(shù)量,[gx]表示隱層激勵函數(shù),ELM算法輸出形式如下:
[fx=i=1LηiVai,bi,xi=i=1Lηigai?xi+bi=η?Dx] (3)
式中[x]與[Dx]分別為輸入數(shù)據(jù)與隱層輸出矩陣。面對多個差異性輸入數(shù)據(jù)時,多個差異性輸出向量[hx]構(gòu)成隱層輸出矩陣[Dx]。神經(jīng)網(wǎng)絡(luò)輸入層至第[i]個神經(jīng)元輸入權(quán)值與第[i]個隱層節(jié)點的閾值為隨機分配,兩參數(shù)形式為[ai=ai1,ai2,…,ainT],[bi],作用是連接第[i]個隱節(jié)點到輸出權(quán)值[ηi=ηi1,ηi2,…,ηinT],[ai?xi]是兩向量內(nèi)積。
定義[Oi]為神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)誤差,得到盡量小的輸出誤差是單隱層神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的主要目的,逼近相同連續(xù)[N]個樣本時的誤差為0,方法見式(4):
[i=1Lηigai?xi+bi=tj,? ? j=1,2,…,N] (4)
隱層輸出矩陣[D]用激勵函數(shù)[gx]表示,根據(jù)式(3),式(4)可知,[Dη=T],[T]為[ti]的向量,若同時輸入多個數(shù)據(jù),多個不同輸入數(shù)據(jù)下[gx]構(gòu)成隱層機理函數(shù)[Vx],采用式(5)描述[Vx]與[Dx]的關(guān)系:
[Da1,…,aL,b1,…,bL,x1,…,xN=Va1?x1+b1…VaL?x1+bL???Va1?xN+b1…VaL?xN+bLN×L]? (5)
[η]與[T]的表達(dá)式如下:
[η=ηT1?ηTLL×n,? ? T=tT1?tTNN×n] (6)
極限學(xué)習(xí)機算法學(xué)習(xí)時,隨機輸入權(quán)值與閾值后得到確定的隱層矩陣用[D]表示,即神經(jīng)網(wǎng)絡(luò)隱層輸出矩陣。此網(wǎng)絡(luò)訓(xùn)練相當(dāng)于求解線性系統(tǒng)[Dη=T]的二乘解最小值,用[η]表示。計算得到[η]極限學(xué)習(xí)機算法訓(xùn)練過程結(jié)束,得到權(quán)值矩陣。
極限學(xué)習(xí)機算法隨機確定輸入權(quán)值與隱層閾值,雖然簡化計算步驟,但是用于圖書館讀者借閱行為分析時精確度較低[10],輸入權(quán)值與隱層閾值隨機確定容易導(dǎo)致部分?jǐn)?shù)值為0,個別隱層節(jié)點無效,另外,隨機確定參數(shù)的方式提升了極限學(xué)習(xí)機的隨機性[11]。綜上,采用高適應(yīng)度值遺傳算法改進(jìn)極限學(xué)習(xí)機訓(xùn)練過程,確定輸入權(quán)值與隱層閾值,獲取性能優(yōu)異的極限學(xué)習(xí)機訓(xùn)練模型,可以提升圖書館讀者借閱行為分析準(zhǔn)確度。
1.2? 高適應(yīng)度值遺傳算法
種群編碼、適應(yīng)度計算、選擇、交叉、變異是遺傳算法的主要步驟,高適應(yīng)度值遺傳算法改進(jìn)選擇算子與交叉算子步驟,提升遺傳算法輸出解的精準(zhǔn)度。
1.2.1? 高適應(yīng)度值選擇算子
通過選擇方式獲取適應(yīng)度優(yōu)異的染色體個體,優(yōu)秀個體很大幾率成為父代,通過交叉與變異產(chǎn)生子代。高適應(yīng)度值選擇算子與以往輪盤賭選擇方式不同,總結(jié)方法為:定義[n]表示初始種群,隨后求取全部染色體的適應(yīng)度值并排序(由大到小),均分種群規(guī)模,復(fù)制兩份適應(yīng)度值最優(yōu)個體,復(fù)制一份適應(yīng)度值較優(yōu)個體,染色體中適應(yīng)度值最小的種群不復(fù)制[12]。這種方式令適應(yīng)度值較大種群存在更大幾率進(jìn)入交叉階段,種群大小沒有改變,與優(yōu)勝劣汰原則一致,該方法有效避免了輪盤賭選擇的隨機誤差。染色體適應(yīng)度值排序如圖2所示,其中,[f]表示染色體適應(yīng)度值,由大到小排列。
1.2.2? 高適應(yīng)度值交叉算子
采用高適應(yīng)度值方法選擇遺傳算法算子,提升新種群適應(yīng)性能,在新種群中交叉得到兩個染色體作為父代,置換父代染色體基因后得到兩個新個體[13]。新個體攜帶父代特征,由于選擇算子在一定程度上破壞了種群多樣性,所以采用高適應(yīng)度值方法獲取交叉算子,方法為:選擇滿足要求的父本與母本后,以此為基礎(chǔ),基于隨機交叉點位展開[n]次多點交叉,每次交叉操作均產(chǎn)生兩個新個體,在新產(chǎn)生的個體中選取2個適應(yīng)度值最優(yōu)的個體作為初始種群,展開變異操作[14]。這種方式保障了種群多樣性、未改變種群規(guī)模,而且每個個體均遺傳父代基因特點,有利于改善新種群整體性能。
1.3? 基于極限學(xué)習(xí)機改進(jìn)算法的讀者借閱行為分析
基于上述高適應(yīng)度值遺傳算法確定極限學(xué)習(xí)機輸入權(quán)值與閾值,分析讀者借閱行為,步驟如下:
Step1:基于特征優(yōu)選策略選取圖書館讀者借閱行為特征數(shù)據(jù),將圖書借閱類型、月平均借閱次數(shù)、單次借閱圖書數(shù)量、借閱時間段4種特征作為圖書館讀者借閱用戶行為特征集的內(nèi)容,可準(zhǔn)確體現(xiàn)讀者借閱行為。歸一化處理讀者借閱行為特征集,作為極限學(xué)習(xí)機算法訓(xùn)練數(shù)據(jù)。
Step2:確定極限學(xué)習(xí)機輸入層神經(jīng)元、隱層神經(jīng)元以及輸出層神經(jīng)元數(shù)量。
Step3:編碼極限學(xué)習(xí)機輸入層至隱層的權(quán)值與閾值,獲取遺傳算法初始種群。
Step4:通過解碼操作得到權(quán)值與閾值,使用新獲取的權(quán)值與閾值展開極限學(xué)習(xí)機訓(xùn)練。
Step5:極限學(xué)習(xí)機訓(xùn)練完成,采用測試樣本展開測試,此時適應(yīng)度函數(shù)為測試樣本期望值與預(yù)測值的誤差平方和。
Step6:對種群執(zhí)行選擇、交叉、變異操作獲取更新后的種群,若網(wǎng)絡(luò)權(quán)值與閾值的誤差平方和最小,符合標(biāo)準(zhǔn)[15];反之,執(zhí)行Step2。
Step7:得到優(yōu)化完成的權(quán)值與閾值,代入訓(xùn)練模型中,求取隱層輸出矩陣[D]與矩陣的MoorePenrose廣義逆,即[D+]。
Step8:求取極限學(xué)習(xí)機輸出層權(quán)值[η=D+T],由此基于極限學(xué)習(xí)機的圖書館讀者借閱行為分析模型訓(xùn)練完成,將預(yù)處理完成的讀者行為測試特征樣本輸入到訓(xùn)練模型中,輸出結(jié)果即為圖書館讀者借閱行為分析結(jié)果。
2? 高校圖書館讀者借閱行為的測試實驗
2.1? 實驗環(huán)境設(shè)置
以某高校圖書館作為讀者借閱行為分析對象,采用本文方法分析讀者借閱行為,選取2019年3—5月之間產(chǎn)生的讀者借閱數(shù)據(jù)作為訓(xùn)練樣本。該高校讀者為教師與在校學(xué)生,均辦理借閱證,圖書借閱類型、月平均借閱次數(shù)、單次借閱圖書數(shù)量、借閱時長等讀者數(shù)據(jù)均記錄在借閱證中。測試樣本數(shù)據(jù)為2019年6月產(chǎn)生的讀者借閱數(shù)據(jù),內(nèi)容同上。高適應(yīng)度值遺傳算法的種群大小與遺傳代數(shù)最大值分別設(shè)置為60,45;變量二進(jìn)制位數(shù)為10,交叉與變異概率分別為0.65,0.01。本文方法圖書館讀者借閱行為樣本訓(xùn)練的誤差平方和如圖3所示,由圖3可知,高適應(yīng)度值遺傳算法迭代至30次時,誤差平方和趨于穩(wěn)定,穩(wěn)定值為1.50。由此可知,迭代30次時即可得到最優(yōu)的極限學(xué)習(xí)機輸入權(quán)值與閾值,無需達(dá)到最大次數(shù)45,縮短模型訓(xùn)練時長。
定義極限學(xué)習(xí)機輸入神經(jīng)元數(shù)量、隱層神經(jīng)元數(shù)量、輸出層神經(jīng)元數(shù)量分別是4,15,6,輸入神經(jīng)元即圖書館讀者借閱行為特征,分別為圖書借閱類型、月平均借閱次數(shù)、單次借閱圖書數(shù)量、借閱時間段;輸出層神經(jīng)元即讀者借閱行為輸出結(jié)果,分別為文科型、理工型、頻繁借閱、偶爾借閱、少量借閱、大量借閱6種。
2.2? 圖書館讀者借閱行為分析
基于以上設(shè)置,極限學(xué)習(xí)機讀者借閱行為類型與神經(jīng)元輸出情況見表1。
表1體現(xiàn)了不同讀者借閱行為分析結(jié)果形式,以測試數(shù)據(jù)中8個學(xué)生數(shù)據(jù)為例,展示讀者借閱行為分析結(jié)果,如表2所示。
由圖書館學(xué)生借閱行為分析結(jié)果能夠看出,不同院系、不同專業(yè)學(xué)生借閱圖書的行為,如編號為1的市場營銷專業(yè)學(xué)生偶爾到圖書館借閱,每次借閱圖書數(shù)量較少;編號為2的經(jīng)濟學(xué)專業(yè)學(xué)生每次借閱少量圖書,借閱次數(shù)頻繁;編號為7的統(tǒng)計學(xué)專業(yè)學(xué)生借閱理工型圖書,每次借閱圖書量少,偶爾借閱。
上述分析顯示,通過本文方法得到的圖書館學(xué)生借閱行為分析結(jié)果能夠清楚分析讀者借閱圖書的行為,明確讀者喜歡的圖書類型、掌握讀者喜好、了解每個讀者借閱習(xí)慣,為合理規(guī)劃圖書館圖書資源提供借鑒。
3? 結(jié)? 論
本文采用極限學(xué)習(xí)機算法分析圖書館讀者借閱行為時,采用高適應(yīng)度值遺傳算法確定極限學(xué)習(xí)機的輸入權(quán)值與閾值,降低極限學(xué)習(xí)機算法的隨機性。高適應(yīng)度值遺傳算法相對傳統(tǒng)遺傳算法而言,改變選擇算子與交叉算子方式,采用高適應(yīng)度值選擇算子代替輪盤賭選擇算子,這種方式使適應(yīng)度值較大的種群具有更大機率進(jìn)入交叉階段,有效避免輪盤賭選擇的隨機誤差。高適應(yīng)度值交叉算子保障種群的多樣性,并且無需改變種群規(guī)模。由此可知,高適應(yīng)度值遺傳算法為極限學(xué)習(xí)機確定精準(zhǔn)的輸入權(quán)值與閾值,提升了極限學(xué)習(xí)機分析圖書館讀者借閱行為的可靠程度。
參考文獻(xiàn)
[1] 陳美.圖書館數(shù)字資源管理困境與創(chuàng)新[J].現(xiàn)代情報,2017,37(6):119?123.
[2] 秦東方,陸曉曦.21世紀(jì)我國高校圖書館人力資源管理研究述評[J].大學(xué)圖書館學(xué)報,2017,35(5):24?30.
[3] 劉鵬,王學(xué)奎,黃宜華,等.基于Spark的極限學(xué)習(xí)機算法并行化研究[J].計算機科學(xué),2017,44(12):33?37.
[4] 李佩佳,石勇,汪華東,等.基于有序編碼的核極限學(xué)習(xí)順序回歸模型[J].電子與信息學(xué)報,2018,40(6):1287?1293.
[5] 趙大興,余明進(jìn),許萬.基于高適應(yīng)度值遺傳算法的AGV最優(yōu)路徑規(guī)劃[J].計算機工程與設(shè)計,2017,38(6):1635?1641.
[6] 高彩云,崔希民,高寧.熵權(quán)遺傳算法及極限學(xué)習(xí)機地鐵隧道沉降預(yù)測[J].測繪科學(xué),2016,41(2):71?75.
[7] 周書仁,曹思思,蔡碧野.基于改進(jìn)極限學(xué)習(xí)機算法的行為識別[J].計算機工程與科學(xué),2017,39(9):1749?1757.
[8] 高琪娟,劉鍇,陳佳.面向Spark的圖書借閱數(shù)據(jù)關(guān)聯(lián)模型的研究[J].安徽農(nóng)業(yè)大學(xué)學(xué)報,2018,45(4):768?771.
[9] 陸俊,陳志敏,龔鋼軍,等.基于極限學(xué)習(xí)機的居民用電行為分類分析方法[J].電力系統(tǒng)自動化,2019,43(2):97?104.
[10] 謝發(fā)徽.高校圖書館座位管理系統(tǒng)的讀者行為分析[J].圖書館論壇,2018,38(3):108?116.
[11] 金奇文.公共圖書館少年兒童讀者借閱分析及館藏優(yōu)化建議:以上海圖書館為例[J].圖書館雜志,2018,37(7):53?62.
[12] 劉浩然,趙翠香,李軒,等.一種基于改進(jìn)遺傳算法的神經(jīng)網(wǎng)絡(luò)優(yōu)化算法研究[J].儀器儀表學(xué)報,2016,37(7):1573?1580.
[13] 劉玉梅,魏歐,黃鳴宇,等.應(yīng)用改進(jìn)的遺傳算法優(yōu)化軟件產(chǎn)品線特征選擇[J].小型微型計算機系統(tǒng),2017,38(1):35?39.
[14] 文藝,潘大志.用于求解TSP問題的改進(jìn)遺傳算法[J].計算機科學(xué),2016,43(z1):90?92.
[15] 辛宇,童孟軍,華宇婷.一種基于最優(yōu)特征選擇改進(jìn)的遺傳算法[J].傳感技術(shù)學(xué)報,2018,31(11):1747?1752.