李芳
摘 要: 針對(duì)傳統(tǒng)的基于支持向量機(jī)的高相似度英語詞語自主選取系統(tǒng)一直存在選取效果差、精度低的問題,提出一種基于數(shù)據(jù)挖掘的高相似度英語詞語自主選取系統(tǒng)設(shè)計(jì)方法。首先根據(jù)英語詞語的相似度概念,計(jì)算出兩個(gè)英語詞語義項(xiàng)的最短路徑與其距離最近的公共父節(jié)點(diǎn)之間的深度。利用數(shù)據(jù)挖掘法將英語詞語文本特征選擇轉(zhuǎn)換為一個(gè)多目標(biāo)優(yōu)化問題;然后以英語詞語特征維數(shù)最少、分類正確率相對(duì)最高為選取標(biāo)準(zhǔn),采用蟻群算法找到英語詞語的最優(yōu)特征子集;最后通過建立神經(jīng)網(wǎng)絡(luò)分類器完成高相似度英語詞語自主選取系統(tǒng)設(shè)計(jì)。實(shí)驗(yàn)結(jié)果證明,所提方法可以精確地選取出高相似度英語詞語,且選取時(shí)間較短,實(shí)用性廣泛。
關(guān)鍵詞: 高相似度英語詞語; 數(shù)據(jù)挖掘; 自主選?。?系統(tǒng)設(shè)計(jì)
中圖分類號(hào): TN02?34; TP391 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2017)23?0147?04
Abstract: Since the traditional high?similarity English words autonomous selection system based on support vector machine has the problems of poor selection effect and low accuracy, a design method of high?similarity English words autonomous selection system based on data mining is put forward. According to the similarity concept of English words, the shortest path of the semantic item between the two English words and its nearest depth among the common parent nodes are calculated. The data mining method is used to convert the text feature selection issue of English words into a multi?objective optimization problem. Taking the least English words feature dimensions and relatively?high classification accuracy as the selection standards, the ant colony algorithm is adopted to find out the optimal feature subset of English words. The neural network classifier is established to complete the design of the high?similarity English words autonomous selection system. The experimental results show that the proposed method can select the English words with high similarity accurately, and has short selection time and broad practicability.
Keywords: high?similarity English word; data mining; autonomous selection; system design
0 引 言
英語詞語之間的語義相似度研究課題作為自然語言處理和計(jì)算機(jī)人工智能的基礎(chǔ)性研究[1?3],如選取、搜索、分類以及歧義消除等,需要依賴于包含現(xiàn)實(shí)世界概念的知識(shí)體系[4]。英語詞語的相似度是對(duì)英語詞語之間語義相似緊密程度的度量,在機(jī)器翻譯、數(shù)據(jù)信息檢索等方面具有重要的實(shí)用價(jià)值[5]。在不同的實(shí)際應(yīng)用場(chǎng)景中,英語詞語相似度具有不同的用途[6]。另外,在構(gòu)造統(tǒng)計(jì)英語詞語語言模型的過程中,由于數(shù)據(jù)分布稀疏導(dǎo)致未登錄英語詞語的統(tǒng)計(jì)信息無法計(jì)算的問題[7],需要進(jìn)行高相似度英語詞語自主選取系統(tǒng)設(shè)計(jì)。在國內(nèi),隨著計(jì)算機(jī)人工智能的不斷發(fā)展,更準(zhǔn)確地進(jìn)行高相似度英語詞語自主選取系統(tǒng)設(shè)計(jì)引起了很多國內(nèi)外專家與學(xué)者的重視。
文獻(xiàn)[8]提出基于樸素貝葉斯的高相似度英語詞語自主選取系統(tǒng)設(shè)計(jì),首先介紹知網(wǎng)中的英語詞語相似度基本概念和體系結(jié)構(gòu),利用知網(wǎng)的義原層次體系結(jié)構(gòu)計(jì)算得到英語詞語的義原相似度,計(jì)算出英語詞語概念的相似度;然后通過支持向量機(jī)分類器完成自主選取系統(tǒng)設(shè)計(jì)。該方法較為簡(jiǎn)單,但是存在英語詞語相似度計(jì)算不清的問題,導(dǎo)致在自主選取過程中準(zhǔn)確率不高。文獻(xiàn)[9]提出基于Corpus庫的高相似度英語詞語自主選取系統(tǒng)設(shè)計(jì),首先構(gòu)建英語詞語語義關(guān)聯(lián)庫,利用該庫使英語詞語空間與關(guān)系空間結(jié)構(gòu)化,保存英語詞語與其上下文之間的總體信息,通過閱讀大量的英語詞語語料數(shù)據(jù)來訓(xùn)練相似度英語詞語的相關(guān)數(shù)據(jù),并對(duì)訓(xùn)練過程中涌現(xiàn)的大量英語詞語關(guān)系進(jìn)行剪裁,利用樸素貝葉斯分類器完成對(duì)高相似度英語詞語的自主選取。該方法存在對(duì)高相似度英語詞語的自主選取時(shí)間過長(zhǎng),且英語詞語的相似度計(jì)算準(zhǔn)確率較低的問題。
針對(duì)上述問題,本文提出一種基于數(shù)據(jù)挖掘的高相似度英語詞語自主選取系統(tǒng)設(shè)計(jì)方法,所提系統(tǒng)設(shè)計(jì)方法可以精確地選取出高相似度英語詞語,且選取時(shí)間較短,實(shí)用性廣泛。
1 高相似度英語詞語自主選取系統(tǒng)設(shè)計(jì)
1.1 高相似度英語詞語選取系統(tǒng)設(shè)計(jì)endprint
考慮到人們對(duì)高相似度英語詞語自主選取系統(tǒng)設(shè)計(jì)需求的精準(zhǔn)性與靈活性[10],將英語詞語的相似度計(jì)算結(jié)果與數(shù)據(jù)挖掘特點(diǎn)相結(jié)合,設(shè)計(jì)出一種高相似度英語詞語自主選取系統(tǒng),如圖1所示。
本文高相似度英語詞語的自主選取系統(tǒng)設(shè)計(jì)對(duì)硬件系統(tǒng)設(shè)計(jì)不作考量,主要研究軟件和算法。
1.2 基于路徑和深度的英語詞語高相似度計(jì)算方法
1.3 基于數(shù)據(jù)挖掘的高相似度英語詞語自主選取
為了能夠有效地在網(wǎng)絡(luò)中挖掘出高相似度英語詞語,在處理兩個(gè)英語詞語義項(xiàng)的最短路徑與其距離最近公共父節(jié)點(diǎn)的基礎(chǔ)上,利用數(shù)據(jù)挖掘?qū)⒂⒄Z詞語文本特征選擇轉(zhuǎn)換為一個(gè)多目標(biāo)優(yōu)化問題;然后以英語詞語特征維數(shù)最少、分類正確率相對(duì)最高為選取標(biāo)準(zhǔn),采用蟻群算法找到英語詞語的最優(yōu)特征子集;最后通過神經(jīng)網(wǎng)絡(luò)建立英語詞語相似度文本自動(dòng)分類器。具體描述過程如下:
式中:[σ]為英語詞語神經(jīng)網(wǎng)絡(luò)隱節(jié)點(diǎn)寬度;[c]表示英語詞語第[r]個(gè)神經(jīng)網(wǎng)絡(luò)隱節(jié)點(diǎn)中點(diǎn);[w]為英語詞語神經(jīng)網(wǎng)絡(luò)輸出權(quán)值。參數(shù)[w,][c,][σ]對(duì)神經(jīng)網(wǎng)絡(luò)分類起決定性作用,要想獲得高性能神經(jīng)網(wǎng)絡(luò),需要對(duì)參數(shù)進(jìn)行優(yōu)化。在此基礎(chǔ)上完成對(duì)高相似度英語詞語的自主選擇。
2 實(shí)驗(yàn)結(jié)果與分析
實(shí)驗(yàn)環(huán)境建立的PC機(jī)配置為:CPU Core i7?4790 3.60 GHz,RAM=4 GB,Windows7操作系統(tǒng),通過Java語言編寫實(shí)現(xiàn)。實(shí)驗(yàn)過程中設(shè)置32個(gè)存儲(chǔ)節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)的最大存儲(chǔ)容量為1 TB,數(shù)據(jù)通道為2 000 Mb/s,英語詞語文本采集與數(shù)據(jù)存儲(chǔ)均為10 TB。根據(jù)參與對(duì)比的系統(tǒng)設(shè)計(jì)使用的英語詞語語義資源所收錄的英語詞語情況,本文從該英語詞語測(cè)試集中篩選出一些無法計(jì)算的英語詞語對(duì),最終結(jié)果保留10對(duì)英語詞語用于測(cè)試,如表1所示。
從表1中可以看出,[S1]的英語詞語相似度計(jì)算結(jié)果在數(shù)值上普遍較低,主要是由于基于Corpus庫的高相似度英語詞語自主選取系統(tǒng)設(shè)計(jì)方法考慮眾多英語詞語特征,加上一些其他干擾因素的影響,從而造成英語詞語特征高維向量的相似度普遍偏低;[S2]數(shù)值跨度較大,這是由于基于百度百科的高相似度英語詞語自主選取系統(tǒng)設(shè)計(jì)方法通常情況下在某些方面與人工思維沒有較好的符合。
利用1.3節(jié)中的平衡最大英語詞語特征識(shí)別率與英語詞語特征維數(shù)的權(quán)值[λ,]對(duì)高相似度英語詞語自主選取系統(tǒng)設(shè)計(jì)方法的選取效率影響,如圖2所示。
由圖2可知,選取參與測(cè)試的英語詞語數(shù)據(jù)集為700個(gè),選取英語詞語測(cè)試數(shù)據(jù)為200,400,600時(shí)對(duì)應(yīng)的高相似度英語詞語自主選取系統(tǒng)設(shè)計(jì)的選取效率,其中,當(dāng)[λ=1]時(shí),高相似度英語詞語自主選取系統(tǒng)設(shè)計(jì)的選取效率分別為30%,38%和60%;當(dāng)[λ=3]時(shí),高相似度英語詞語自主選取系統(tǒng)設(shè)計(jì)的選取效率分別為42%,48%和72%;當(dāng)[λ=5]時(shí),當(dāng)高相似度英語詞語自主選取系統(tǒng)設(shè)計(jì)的選取效率分別為60%,70%和90%。通過分析可知平衡最大英語詞語特征識(shí)別率與英語詞語特征維數(shù)的權(quán)值[λ]在區(qū)間[1,5]時(shí),本文所提系統(tǒng)設(shè)計(jì)方法的選取效率最高。
3 結(jié) 語
采用當(dāng)前系統(tǒng)設(shè)計(jì)方法對(duì)高相似度英語詞語進(jìn)行自主選取時(shí),存在選取效率低、選取時(shí)間過長(zhǎng)等問題。本文提出基于數(shù)據(jù)挖掘的高相似度英語詞語自主選取系統(tǒng)設(shè)計(jì)方法。通過實(shí)驗(yàn)證明,所提系統(tǒng)設(shè)計(jì)方法可精確地對(duì)高相似度英語詞語進(jìn)行自主選取,具有良好的應(yīng)用價(jià)值。
參考文獻(xiàn)
[1] 黃宏濤,程清杰,萬慶生,等.基于語義信息內(nèi)容的FCA概念相似度計(jì)算方法[J].計(jì)算機(jī)應(yīng)用研究,2015,32(3):731?735.
[2] 陳海燕.基于搜索引擎的詞匯語義相似度計(jì)算方法[J].計(jì)算機(jī)科學(xué),2015,42(1):261?267.
[3] 王立印,張輝,陳勇.一種基于Dice?Euclidean相似度計(jì)算的協(xié)同過濾算法[J].計(jì)算機(jī)應(yīng)用研究,2015,32(10):2891?2895.
[4] 李中,劉洋洋,張鐵峰.基于形態(tài)相似距離的時(shí)間序列相似度計(jì)算[J].計(jì)算機(jī)工程與設(shè)計(jì),2016,37(3):679?683.
[5] 王濤,覃錫忠,賈振紅,等.基于相似度和信任度的關(guān)聯(lián)規(guī)則微博好友推薦[J].計(jì)算機(jī)應(yīng)用,2016,36(8):2262?2267.
[6] 郭勝國,邢丹丹.基于詞向量的句子相似度計(jì)算及其應(yīng)用研究[J].現(xiàn)代電子技術(shù),2016,39(13):99?102.
[7] 于蕾,吳強(qiáng).一個(gè)基于社區(qū)相似度分析的物流網(wǎng)絡(luò)優(yōu)化算法[J].現(xiàn)代電子技術(shù),2016,39(6):45?48.
[8] 薛蘇琴,牛永潔.基于向量空間模型的中文文本相似度的研究[J].電子設(shè)計(jì)工程,2016,24(10):28?31.
[9] 王俊華,左萬利,閆昭.基于樸素貝葉斯模型的單詞語義相似度度量[J].計(jì)算機(jī)研究與發(fā)展,2015,52(7):1499?1509.endprint