一種基于人工和機器學(xué)習(xí)相結(jié)合的教學(xué)網(wǎng)絡(luò)資源分類方法

2013-12-29 00:00:00許琦

中國信息技術(shù)教育 2013年12期

摘要：本文探討了教學(xué)網(wǎng)絡(luò)資源的分類方法，對如何應(yīng)用人工與機器學(xué)習(xí)相結(jié)合的方法建立類別特征模型進行了研究。簡述了K最臨近分類法的基本思想。提出在領(lǐng)域?qū)＜业膸椭?，采用人工的方法選取類別特征項，建立類別特征模型；在小樣本集環(huán)境下，采用機器學(xué)習(xí)的方法訓(xùn)練類別特征項權(quán)重。并給出了教學(xué)網(wǎng)絡(luò)資源和類別特征模型匹配程度的計算方法。通過實驗，對所提出的分類方法的可行性和有效性進行了驗證。

關(guān)鍵詞：資源分類；K最臨近分類法；類別特征模型；機器學(xué)習(xí)

● 引言

為了實現(xiàn)教學(xué)網(wǎng)絡(luò)資源效用的最大化，必須對這些資源進行有效的組織管理。分類是教學(xué)網(wǎng)絡(luò)資源組織管理的重要方法。由于教學(xué)網(wǎng)絡(luò)資源多維性、動態(tài)性、交互性的特點，使得教學(xué)網(wǎng)絡(luò)資源分類體系缺少邏輯性和規(guī)范化，不能揭示資源之間的邏輯關(guān)系，主要體現(xiàn)在以下幾方面[1]：①類別設(shè)置缺少規(guī)律性。教學(xué)網(wǎng)絡(luò)資源分類中，其類別設(shè)置往往同時采取多個標(biāo)準(zhǔn)，每個標(biāo)準(zhǔn)在使用時又并不完整，有時甚至列出不同等級的類別，使得類別的設(shè)置顯得很混亂，缺乏邏輯性和規(guī)律性，從而影響用戶查找信息的效率。②類名不規(guī)范。有些類別有多個名稱，其歸屬也很隨意，不利于用戶的檢索。③類別沒有注釋或提示，用戶不能直接找到所需類別，必須逐級翻尋。

因此，有必要建立一個規(guī)范的分類體系，來組織管理教學(xué)網(wǎng)絡(luò)資源。

● K最臨近分類法概述

現(xiàn)有的分類方法主要包括以下幾種：K最臨近分類、決策樹歸納法、貝葉斯分類法、遺傳分類法等，各種方法分別適合不同的數(shù)據(jù)模型。[2]

K最臨近分類法（K Nearest Neighbor，KNN）是基于類比學(xué)習(xí)的方法。其基本思想是：類別樣本用n維數(shù)值屬性描述，每個樣本表示為n維空間的一個向量，這樣所有的類別樣本都存放在n維模型空間中，給定一個待分類資源，K最臨近分類法搜索模型空間，找出最接近待分類資源的k個類別樣本，待分類資源就被分配到k個最臨近樣本的最公共的類中。當(dāng)k=1時，待分類資源被指定到模型空間中與之最臨近的類別樣本的類中。該方法的優(yōu)點是容易實現(xiàn)和訓(xùn)練快速，并且該方法的啟發(fā)性搜索是簡單的。同時也存在一些缺點，首先如果將所有的類別樣本都存起來，分類器就變得笨重并且反應(yīng)變慢。其次，對于高維向量的資源，對分類起主要作用的維數(shù)遠遠低于資源本身的維數(shù)，相當(dāng)多維對于資源分類意義不大甚至成為噪聲數(shù)據(jù)，這將增加分類的時間和空間復(fù)雜度。

● 分類方法

本文對K最臨近分類法做簡約化處理，取k=1，并對類別特征模型構(gòu)建和分類算法做出如下改進。

1.類別特征模型構(gòu)建

K最臨近分類法是通過搜索與待分類資源最臨近的（相似度最大）k個類別樣本來分類的，因此分類的準(zhǔn)確程度很大程度上取決于類別特征項選取的合理性和分類算法的科學(xué)性。相關(guān)學(xué)者提出了許多選取類別特征項的方法：有的提出了基于CHI概率統(tǒng)計選取類別特征項的方法[3]；有的提出了基于互信息差值選取類別特征項的方法[4]；有的提出了基于正交質(zhì)心算法選取類別特征項的方法。[5]這些方法的基本思想是為類別選擇一定數(shù)量51a2dd7ace0c6cd667456bd3b3d5ad4381220ed961ee6136af9f979b70812323的樣本，按一定的算法從樣本集中訓(xùn)練得到類別特征項，建立類別特征模型，本質(zhì)上是基于機器學(xué)習(xí)的方法。這些方法是從一定數(shù)量的樣本出發(fā)，而不是從類別層次出發(fā)來考慮類別特征項的重要性和價值的，因此訓(xùn)練得到的類別特征項的權(quán)威性和合理性無法驗證。本文考慮將人工和機器學(xué)習(xí)結(jié)合起來構(gòu)建類別特征模型。具體步驟如下：

（1）在領(lǐng)域?qū)＜业膸椭拢捎萌斯さ姆椒ㄟx取類別特征項。

在領(lǐng)域?qū)＜业膸椭?，綜合考慮重要性、代表性、權(quán)威性、合理性等因素，人工選取類別特征項。考慮到不同的特征項對類別的貢獻是不一樣的，因此把類別特征項分為三部分：一級核心特征項、二級核心特征項和外圍特征項。其中，外圍特征項具有一定的類別特征信息，但不豐富；二級核心特征項含有比較豐富的類別特征信息；一級核心特征項含有最豐富的類別特征信息。通常情況下，外圍特征項占大部分，而一級、二級核心特征項只占其中的小部分。類別特征項以關(guān)鍵詞來表示，如下所示：

其中，Cj表示類別j，CjF、CjS和CjN分別表示類別j的一級核心特征、二級核心特征和外圍特征，kjFx、kjSy和kjNz分別表示類別j的第x個一級核心特征項、第y個二級核心特征項和第z個外圍特征項，l、n、m分別是一級核心特征、二級核心特征和外圍特征中特征項的個數(shù)，λf和λs分別是一級核心特征項和二級核心特征項的權(quán)重，由第二個步驟訓(xùn)練得到。公式（2）則表示CjF、CjS和CjN互不包容。

（2）在小樣本集環(huán)境下，采用機器學(xué)習(xí)的方法訓(xùn)練類別特征項權(quán)重。

設(shè)訓(xùn)練集包含num個樣本，Tr={D1，D2，…，Dnum}，權(quán)重向量λ=[λf， λs]T，最優(yōu)權(quán)重向量為λbest=[λfbest， λsbest]T，權(quán)重增量（訓(xùn)練步長）λa=[λa1， λa2]T，訓(xùn)練集人工標(biāo)定類別向量Vt=[t1，t2，…，tnum]T，訓(xùn)練集分類結(jié)果向量Va=[a1，a2，…，anum]T，預(yù)測誤差為Eo，最小誤差為Emin，分類誤差為E，計算公式如下：

為了得到最優(yōu)的λf和λs，在小樣本集環(huán)境下，訓(xùn)練方法如下：[6]

（a）初始化： λ=[1， 1]T， λa=[1， 0.5]T， λbest=[1， 1]T， Eo=1， Emin=1， times=0；

（b）while （E o>0.05 or times<100）

（c） times++；

（d） Va=Class（Tr， λ）； //調(diào)用分類函數(shù)對訓(xùn)練集進行分類

（e）按公式（3）計算分類誤差E；

（f） if （E< E o） λ=λ+λa；

（g） else λ=λ-0.5λa；

（h） End if

（i） Eo =E；

（j） if （Eo < Emin） {Emin =E； λbest =λ；}

（k） End if

（l） End while

訓(xùn)練結(jié)束之后，λbest=[λfbest， λsbest]T就是得到的最優(yōu)核心特征項權(quán)重。

2.分類算法

分類算法是計算待分類資源與類別的匹配程度（相似度），將待分類資源分配給與之最匹配的類別。那么資源分類則轉(zhuǎn)換為計算待分類資源與類別特征模型的相似度問題。待分類資源Di與類別特征模型Cj相似度計算公式如下：

相似度包括三部分：待分類資源與一級核心特征的相似度、待分類資源與二級核心特征的相似度以及待分類資源與外圍核心特征的相似度。

三者計算方法類似，因此這里只討論計算待分類資源與一級核心特征的相似度。

相似度計算公式如下：

該公式在計算Di與CjF兩個向量的余弦相似度的基礎(chǔ)上，引入特征權(quán)重λf以表征一級核心特征、二級核心特征和外圍特征不同的重要程度。

● 實驗驗證

1.實驗方法

為了檢驗所提出的分類方法的有效性，筆者以中國職業(yè)教育信息資源網(wǎng)（http：//www.tvet.org.cn/）為實驗數(shù)據(jù)源，通過實驗進行驗證。從該網(wǎng)站的遠程教育、數(shù)字校園、精品教材、院校改革等欄目中下載了3213個樣本，以保證各欄目樣本分類正確。然后下載其他非欄目樣本400個，摻入欄目樣本中。實驗原始數(shù)據(jù)如下：遠程教育欄目489個樣本，數(shù)字校園欄目1203個樣本，精品教材欄目429個樣本，院校改革欄目237個樣本，名優(yōu)設(shè)備欄目188個樣本，產(chǎn)業(yè)升級欄目31個樣本，企業(yè)創(chuàng)新欄目217個樣本，國際合作欄目52個樣本，國家戰(zhàn)略欄目94個樣本，地方行動欄目273個樣本，其他非欄目樣本400個。

2.性能評價指標(biāo)

為了評價分類方法的性能，分類結(jié)果的統(tǒng)計數(shù)據(jù)一般采用關(guān)聯(lián)表來表示，如下表所示。其中，真正確tp（true positive）和真錯誤tn（true negative）表示分類正確的樣本數(shù)目，偽正確fp（false positive）表示被錯分為欄目類的非欄目樣本數(shù)目，偽錯誤fn（false negative）表示被錯分為非欄目類的欄目樣本數(shù)目。

網(wǎng)絡(luò)資源分類的性能評價可以參考信息檢索的性能評價指標(biāo)：查全率（recall）和查準(zhǔn)率（precision）。這種評價方法在自然語言處理研究中具有通用性。[7]

查全率定義為分類正確的樣本數(shù)量與該樣本數(shù)量的比值，反映了對分類方法某一類別的識別正確程度。

查準(zhǔn)率定義為分類正確的樣本數(shù)量與分為該類別的樣本總數(shù)的比值，反映了分類方法對非欄目樣本的排斥能力。

此外，查全率和查準(zhǔn)率還可以采用一個更全面的綜合度量尺度F測度（F Measure）。F測度定義為查全率和查準(zhǔn)率的函數(shù)。

3.實驗結(jié)果

實驗樣本包括遠程教育、數(shù)字校園、精品教材、院校改革等欄目的3213個欄目樣本和400個非欄目樣本，特征空間總維度為100。實驗分別采用本文提出的分類方法（以下簡稱為方法1）和K最臨近分類法（以下簡稱為方法2）對3613個樣本進行分類，方法1和方法2的查全率、查準(zhǔn)率和F測度等性能評價指標(biāo)分別如圖1和圖2所示。

從圖1可以看出，和方法2比較而言，方法1具有較好的欄目識別性能和分類效果，各項性能評價指標(biāo)均有一定程度的提高，其中各欄目的Recall基本上達到80%以上，Precision達到90%以上，F(xiàn)達到85%以上。在實驗中發(fā)現(xiàn)，個別欄目如企業(yè)創(chuàng)新、國家戰(zhàn)略等，分類效果欠佳，Recall、Precision等較低。分析表明，是由于建立類別特征模型時選取欄目特征項不夠科學(xué)造成的，即未充分考慮欄目特征項重要性、代表性、權(quán)威性和合理性等因素。因為這部分工作是由人工完成的，所以受主觀影響較大，爭取在以后的工作中對此加以改進。從總體上講，方法1達到了較好的分類效果，在一定程度避免了非欄目樣本的誤判所引起的欄目模糊效應(yīng)。實驗表明，在行業(yè)網(wǎng)站中，尤其是門戶網(wǎng)站，本文提出的方法具有一定的應(yīng)用價值。

● 結(jié)束語

針對教學(xué)網(wǎng)絡(luò)資源多維性、動態(tài)性、交互性的特點，本文提出了一種基于人工和機器學(xué)習(xí)相結(jié)合的分類方法。采納K最臨近分類法的基本思想，在領(lǐng)域?qū)＜业膸椭?，綜合考慮重要性、代表性、權(quán)威性、合理性等因素，從類別層次出發(fā)人工選取類別特征項。在小樣本集環(huán)境下，通過機器學(xué)習(xí)的方法訓(xùn)練類別特征項權(quán)重。在向量余弦相似度的基礎(chǔ)上，引入類別特征權(quán)重以表征一級核心特征、二級核心特征和外圍特征不同的重要程度，計算待分類資源與類別的匹配程度。最后通過實驗驗證得出：本文提出的分類方法具有較好的欄目識別性能和分類效果，查全率、查準(zhǔn)率以及F測度等各項性能評價指標(biāo)均有一定程度的提高。

參考文獻：

[1]張帆.信息存儲與檢索[M].北京：高等教育出版社，2003.

[2]方金城.分類挖掘算法綜述[J].沈陽工程學(xué)院學(xué)報，2006，2（1）：73-76.

[3]錢曉東，王正歐.基于改進KNN的文本分類方法[J].情報科學(xué)，2005，23（4）：550-554.

[4]胡鑫.中文文本分類的特征選取研究[J].甘肅科技，2006，22（5）：119-120.

[5]余俊英，王明文，盛俊.文本分類中類別信息特征選擇方法[J].山東大學(xué)學(xué)報（理學(xué)版），2006，41（3）：144-148.

[6]萬樂，劉萬春.類別特征詞權(quán)重加權(quán)文本分類方法[J].軍民兩用技術(shù)與產(chǎn)品，2006，（3）：38-39.

[7]董寶力.Web制造資源的語義發(fā)現(xiàn)關(guān)鍵技術(shù)研究[D].博士學(xué)位論文，浙江大學(xué)，2006.

基金項目：浙江省哲學(xué)社會科學(xué)規(guī)劃課題“基于專利引證網(wǎng)絡(luò)的知識基因提取方法探索”（13NDJC19YBM），浙江省軟科學(xué)研究計劃項目“技術(shù)標(biāo)準(zhǔn)下提升企業(yè)自主創(chuàng)新能力——基于專利池的組建與管理”（2013C35064），臺州市哲學(xué)社會科學(xué)規(guī)劃課題“技術(shù)標(biāo)準(zhǔn)下面向自主創(chuàng)新的專利池構(gòu)建與管理研究”（12GHB02），臺州市高校重點學(xué)科“機械制造及其自動化”（臺教高[2010]28號），臺州市教育科學(xué)規(guī)劃研究課題“網(wǎng)絡(luò)環(huán)境下基于VRML的虛擬機械加工實驗室建設(shè)探索”。

中國信息技術(shù)教育2013年12期

中國信息技術(shù)教育的其它文章: 巧用班級博客優(yōu)化課堂作文教學(xué); 數(shù)學(xué)多媒體教學(xué)存在的問題及防范策略; 《算法與程序設(shè)計》教學(xué)的思考與對策; 巧用網(wǎng)絡(luò)，改進農(nóng)村教學(xué)的方式; 初中信息技術(shù)高效課堂的實現(xiàn)途徑; 在案例研討中學(xué)習(xí)與反思

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

一種基于人工和機器學(xué)習(xí)相結(jié)合的教學(xué)網(wǎng)絡(luò)資源分類方法