• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      高校教師信息素養(yǎng)指標(biāo)體系研究
      ——基于RreliefF特征選擇算法

      2022-08-29 09:36:34曾慧平
      關(guān)鍵詞:特征選擇分類樣本

      曾慧平

      (江西交通職業(yè)技術(shù)學(xué)院,江西 南昌 330013)

      0 引言

      信息素養(yǎng)包括文化素養(yǎng)、信息意識(shí)和信息技能三個(gè)層面,決定了什么時(shí)候需要什么樣的信息,在哪里能獲取到信息,并能夠評(píng)價(jià)和有效利用所需的信息。信息素養(yǎng)是人在信息時(shí)代所必備的技能,決定了其對(duì)社會(huì)的適應(yīng)能力與對(duì)事件的應(yīng)對(duì)能力。信息素養(yǎng)涉及多方面的內(nèi)容,人文、技術(shù)、經(jīng)濟(jì)、法律甚至周邊學(xué)科的專業(yè)知識(shí),都會(huì)影響個(gè)人的信息素養(yǎng)水平。高校教師作為國(guó)家人才的培養(yǎng)者,更需要具備高層次的信息素養(yǎng),以便在信息爆炸的大背景下敏銳地捕捉到先進(jìn)、正確的科學(xué)知識(shí),并傳授給學(xué)生。但是高校教師作為科研育人的特殊群體,如何評(píng)價(jià)其信息素養(yǎng),如何確定具體人員的信息素養(yǎng)構(gòu)成要素,都是一個(gè)有待深入研究的課題。

      RreliefF特征選擇算法是對(duì)各個(gè)影響要素的權(quán)重進(jìn)行賦值、綜合評(píng)定的一種運(yùn)算方法。在算法中,首先考慮了對(duì)事件結(jié)果可能產(chǎn)生影響的所有影響要素,其次注重各要素間的相互作用,用發(fā)展的視角看待各要素對(duì)結(jié)果的制約作用,還可以根據(jù)初始條件的不同,動(dòng)態(tài)選擇參與計(jì)算的要素種類和內(nèi)容。因此RreliefF特征選擇算法可以更真實(shí)地反映模擬計(jì)算結(jié)果。

      將RreliefF特征選擇算法應(yīng)用于高校教師的信息素養(yǎng)指標(biāo)評(píng)定,可以區(qū)分不同專業(yè)、不同需求教師群體的特殊性,并在歸一化的基礎(chǔ)條件之上客觀評(píng)價(jià)教師的信息素養(yǎng)?;诖怂枷?,該文開(kāi)發(fā)了高校教師信息素養(yǎng)指標(biāo)體系。

      1 基于RreliefF特征選擇算法的信息素養(yǎng)指標(biāo)體系

      1.1 RreliefF算法

      RreliefF算法的基本思想是對(duì)每個(gè)屬性進(jìn)行權(quán)重分配,通過(guò)迭代的方式來(lái)確定權(quán)重,再通過(guò)權(quán)重的方式來(lái)確定屬性的子集合,進(jìn)而使優(yōu)秀的屬性集合在一起,而非獨(dú)立的個(gè)體。對(duì)高校教師信息素養(yǎng)的評(píng)價(jià),需要枚舉出影響因素。為規(guī)范評(píng)價(jià)行為,針對(duì)影響因素進(jìn)行分類匯總,根據(jù)不同高校的專業(yè)領(lǐng)域、教師的具體研究方向,概括為人文素質(zhì)選項(xiàng)、技術(shù)實(shí)力選項(xiàng)、經(jīng)濟(jì)能力選項(xiàng)、法律儲(chǔ)備選項(xiàng)以及用于個(gè)性化定制的其他選項(xiàng)。在每一個(gè)選項(xiàng)中,還可以細(xì)分為二級(jí)考核點(diǎn),例如人文素質(zhì)選項(xiàng)中可包括人文常識(shí)、表達(dá)能力、寫(xiě)作能力和文字功底等很多考核點(diǎn);技術(shù)實(shí)力選項(xiàng)細(xì)分為專業(yè)技術(shù)、通用技術(shù)、周邊技術(shù)、融合能力和知識(shí)產(chǎn)權(quán)等。基于此細(xì)分原則,假設(shè)給定單標(biāo)簽數(shù)據(jù)集有個(gè)類標(biāo)簽,其訓(xùn)練數(shù)據(jù)集記為{(,)(,)…(x,y)},其中xR(=1,2,…,),R為樣本特征空間,為樣本特征空間的序號(hào),yR(=1,2,…,),R為樣本類別空間。如果第個(gè)樣本x屬于第k類,則記為y()=1,否則記為y()=0。因此,數(shù)據(jù)集可看作是由的特征矩陣[,,…,x]和的標(biāo)簽矩陣[,,…,y]構(gòu)成的,且矩陣的每一列只有1個(gè)元素值為1。

      將訓(xùn)練數(shù)據(jù)集輸入之后,其迭代的次數(shù)即為,樣本個(gè)數(shù)為最接近的值,特征權(quán)值向量在輸出時(shí)最明顯[6]。特征權(quán)值向量()=0.0最開(kāi)始會(huì)出現(xiàn)數(shù)據(jù)顯現(xiàn),其內(nèi)容為=1,2,3,…,。在中不按規(guī)則地選取一個(gè)隨即樣本,這個(gè)隨機(jī)樣本被記作R;尋找與這個(gè)隨機(jī)樣本R一樣的最近鄰值記作,對(duì)每個(gè)類≠class(R),尋找和R不一樣類別的個(gè)最近鄰值M(),for:=1:更新每個(gè)特征權(quán)值,如公式(1)(RreliefF算法)所示。

      式中:[]為特征全職矩陣集合;(R)為樣本R擁有的類標(biāo)簽;(,R,M())為樣本關(guān)于特征的距離;()為類別的可能性;((R))為R擁有的類標(biāo)簽的可能性;M()為第C類目標(biāo)的第個(gè)樣本;(·)為按照采樣大小設(shè)置和。

      在確定各屬性權(quán)重后,權(quán)重較大,則說(shuō)明各屬性具有較好的判別能力,由此可以利用門限選取新的特征子集,并在子集中降低維度。

      該方法是在訓(xùn)練集合中隨意選擇一個(gè)例子,然后對(duì)相鄰的1個(gè)例子進(jìn)行檢索,在該例子中,相似(擊中)的分類樣品被稱作,而相似(錯(cuò)誤)的分類樣品被稱作?;谠撌纠臄?shù)值對(duì)各屬性的差異值進(jìn)行了評(píng)估,并按照下列準(zhǔn)則進(jìn)行加權(quán)。當(dāng)1個(gè)例子和1個(gè)樣本分類的屬性數(shù)值不一樣時(shí),這個(gè)特性會(huì)把2個(gè)執(zhí)行個(gè)體從1個(gè)相同的類中分開(kāi),從而降低了1個(gè)品質(zhì)評(píng)估。當(dāng)1個(gè)例子和1個(gè)試品樣品的屬性數(shù)值不一樣時(shí),它會(huì)把2個(gè)例子從1個(gè)非相似的例子中分開(kāi),并且相應(yīng)地提高它們的品質(zhì)。上述步驟反復(fù)多次,最終求出每個(gè)特性的加權(quán)平均值,各屬性的權(quán)值愈高,則其分類性能愈好;相反,則表明此特性的分類性能較差。從算法上可以看到,在尋找最接近領(lǐng)值時(shí),只把每一個(gè)樣品歸入1個(gè)類別,并沒(méi)有將這個(gè)樣品歸入多個(gè)類別(也就是多標(biāo)記的資料),并且在步驟中,特征權(quán)的計(jì)算也沒(méi)有將多類別標(biāo)記的貢獻(xiàn)度計(jì)算在內(nèi),所以ReliefF為單一標(biāo)記,不能用于多標(biāo)記的屬性選取,多標(biāo)記的選取還需要更深入探討。

      1.2 多類數(shù)據(jù)處理

      RreliefF是一種求解多類別數(shù)字挖掘的擴(kuò)展方法,其實(shí)質(zhì)是將多個(gè)類型的問(wèn)題分解成單一對(duì)多個(gè)的問(wèn)題。RreliefF是一種擴(kuò)展的方法,該方法利用多重隨機(jī)取樣把多個(gè)屬性選取問(wèn)題分為2個(gè)類型。從各個(gè)分類中隨意選取2種不同類型的情況,可以不做任何修改。采用RreliefF方法對(duì)這2種類型問(wèn)題進(jìn)行分類后,將各類型的屬性權(quán)重合并,進(jìn)而得出最終的屬性評(píng)估。ReliefF并未考慮多個(gè)分類的情況下,搜索的最鄰近和屬性權(quán)重的變化情況,很明顯不適合多標(biāo)記的特征選取。為了解決這個(gè)問(wèn)題,該文設(shè)計(jì)把ReliefF方法推廣到多標(biāo)記問(wèn)題,并在此基礎(chǔ)上給出了1種多標(biāo)記的特征選取方法。

      假定樣本所具有的類別標(biāo)記對(duì)其的貢獻(xiàn)是相同的,在屬性權(quán)重計(jì)算中添加了貢獻(xiàn)度,并對(duì)其進(jìn)行了修正。在查找最近鄰時(shí),需要先找到樣本擁有的個(gè)類標(biāo)簽,記=(,,…,h),然后分別考慮每個(gè)類標(biāo)簽h=(=1,2,…,),該方法可以有效地克服ReliefF方法無(wú)法處理多類的共現(xiàn)問(wèn)題。多標(biāo)記的訓(xùn)練資料集合在標(biāo)記矩陣中,每個(gè)欄的取樣可以歸入多個(gè)分類,因此每個(gè)欄的單元數(shù)值是1。在ReliefF算法中,W是選取樣本,R是每個(gè)類標(biāo)簽對(duì)其的貢獻(xiàn)程度,其他參數(shù)基本一致。用1表示樣品的全部標(biāo)記貢獻(xiàn)的總和,則樣本R每個(gè)標(biāo)簽的貢獻(xiàn)值W為1/,這種方法通常叫作一范式加權(quán)方法。該權(quán)值分布將多標(biāo)記與單一標(biāo)記的資料并列,但多標(biāo)記的資料包括了更多的資訊,應(yīng)該給予更多的關(guān)注與更大的權(quán)值。另外一個(gè)是使用了一個(gè)簡(jiǎn)單的加權(quán)指派,即每類對(duì)樣本R的貢獻(xiàn)都設(shè)為1(稱單位權(quán)重法),那么它的全部貢獻(xiàn)是標(biāo)記數(shù)目的總和。

      該方法將類別標(biāo)記的權(quán)值與標(biāo)記數(shù)目相等,許多試驗(yàn)結(jié)果顯示該權(quán)值的分配方式再次強(qiáng)調(diào)了多重標(biāo)記的重要性。根據(jù)標(biāo)準(zhǔn)規(guī)范化的思路,將各標(biāo)記權(quán)重因子之和設(shè)為1,則每個(gè)標(biāo)簽的貢獻(xiàn)值W定為范權(quán)重法。在強(qiáng)調(diào)多個(gè)標(biāo)記的同時(shí),不能設(shè)置多個(gè)標(biāo)記的加權(quán),如果樣本R有1個(gè)類標(biāo)簽,貢獻(xiàn)值W的值總為1,這說(shuō)明ReliefF算法是一種特殊情況。

      1.3 特征選擇

      特征選擇的屬性抽取是將原資料中的變量進(jìn)行線性或非線性結(jié)合,生成新的群組變量,進(jìn)而獲得與所要解決的問(wèn)題有關(guān)的某些問(wèn)題。該文提出一種基于偏極最小二乘子的方法來(lái)驗(yàn)證該方法的正確性,設(shè)計(jì)了一種基于多元統(tǒng)計(jì)的新分析模型。該算法將、這2個(gè)變量都進(jìn)行了拆分,分別從、中隨機(jī)抽取各分量(一般稱作“因素”),然后根據(jù)這些因素的相互關(guān)系由大到小依次進(jìn)行排序。這種算法的目的主要是利用最少的方差來(lái)尋找一套最好的函數(shù),也就是利用一種簡(jiǎn)便的算法來(lái)獲得某些不知道的真數(shù)值,并使2個(gè)錯(cuò)誤的平方和最少。偏最小二乘法近似為多元線性回歸,結(jié)合經(jīng)典相關(guān)性和主成份分析,將其應(yīng)用到多元線性回歸的研究中的最簡(jiǎn)化的方法是,用單一的線性模式對(duì)和預(yù)期組的相關(guān)性進(jìn)行分析?;谏鲜龇椒?,該文提出了一種基于濾波的特性篩選方法,該方法在對(duì)該特性進(jìn)行評(píng)估時(shí),根據(jù)該特性的基本性質(zhì),對(duì)各特征行進(jìn)行相應(yīng)的打分,此計(jì)算方法無(wú)須借助RreliefF就可進(jìn)行。假設(shè)是所有消息的集合,且={,,…,x},()是給定消息的概率,那么的熵()的定義為公式(2)所示。

      在信息學(xué)中,互信息是一種重要的信息測(cè)量方法。概率理論與信息學(xué)都可以利用2個(gè)隨機(jī)變數(shù)的交互信息使它們彼此依賴,在范圍內(nèi)交互信息(;)的表達(dá)式為公式(3)所示。

      式中:()為的熵;(,)為聯(lián)合熵,其定義如公式(4)所示。

      式中:(,)為特征選擇結(jié)果的最終概率。

      在采用5類信息篩選方法進(jìn)行分類評(píng)估時(shí),一般會(huì)先將其與分類的相關(guān)資訊分開(kāi),若資訊數(shù)值高,說(shuō)明該特性與分類之關(guān)系愈大,也就是該特性對(duì)分類的辨識(shí)能力更強(qiáng)。把各屬性按互信息量的遞減順序排列,可以得出各屬性對(duì)分類的優(yōu)劣程度。在資訊增益方面,通過(guò)觀測(cè)特性所能給的分類體系的訊息數(shù)目便可以測(cè)度該特性是否有類別分的能力,此即是資訊擴(kuò)增的基礎(chǔ)概念,1個(gè)特性為分類所能提供的資訊愈多,則該特性愈具價(jià)值。1個(gè)特性在1個(gè)特定的屬性集中,其信息的數(shù)量會(huì)隨著時(shí)間的推移而改變,其大小就是該特性所能提供的信息,即為教師個(gè)人的信息素養(yǎng)評(píng)價(jià)結(jié)果。

      2 對(duì)比試驗(yàn)

      2.1 試驗(yàn)準(zhǔn)備

      試驗(yàn)內(nèi)容包括2個(gè)方面:一個(gè)是ReliefF法中的不同貢獻(xiàn)度的計(jì)算,另一個(gè)是對(duì)比了各種特征選取方法。試驗(yàn)選用KNN作為分類器(為3),使用5 fold交叉校驗(yàn),按特征權(quán)大小由大到小選擇。該研究選取3位教師的信息素質(zhì)之綜合指數(shù)資料,其中的數(shù)據(jù)集包括很多部分,這3個(gè)數(shù)據(jù)集的情況見(jiàn)表1。

      表1 試驗(yàn)所需數(shù)據(jù)集數(shù)值內(nèi)容

      根據(jù)以上2種方法分別求取相應(yīng)的貢獻(xiàn)度,再采用ReliefF算法選取特征子集中,根據(jù)ReliefF算法進(jìn)行多標(biāo)記的分類,并通過(guò)數(shù)據(jù)對(duì)ReliefF的效果進(jìn)行比較。

      2.2 試驗(yàn)結(jié)果

      根據(jù)以上方法在試驗(yàn)中的貢獻(xiàn)值的確定W,采用 ReliefF方法選取了多個(gè)特征點(diǎn),并將其歸類為多標(biāo)記,并對(duì)其效果進(jìn)行了對(duì)比。3個(gè)貢獻(xiàn)度對(duì)ReliefF的作用如圖1所示。在這些數(shù)據(jù)中,橫軸代表了所選取的特征量所占的比例。

      圖1 貢獻(xiàn)值對(duì)算法的影響

      根據(jù)圖1可知,二范權(quán)重法的分類準(zhǔn)確率最少,表現(xiàn)為穩(wěn)定性;當(dāng)屬性維度一致時(shí),采用一范權(quán)重法對(duì)多標(biāo)記與單一標(biāo)記的數(shù)據(jù)進(jìn)行比較,選擇的屬性不夠理性,因此一范權(quán)重法的分類準(zhǔn)確率最低。而單元加權(quán)法過(guò)于注重多項(xiàng)指標(biāo),因此其分類準(zhǔn)確率比二范權(quán)重法的準(zhǔn)確率低。

      對(duì)ReliefF和ALA-ReliefF這2種特征選取方法進(jìn)行對(duì)比,以全面檢驗(yàn)該方法的正確性。ALA-ReliefF方法是將多個(gè)標(biāo)記的資料集合轉(zhuǎn)換為單一標(biāo)記,再使用ReliefF方法進(jìn)行標(biāo)記的選取。ReliefF方法采用二次加權(quán)方法,對(duì)其進(jìn)行了求解。如表2所示,在2個(gè)特征選擇算法中,對(duì)最早20%的屬性進(jìn)行了分類,在80%以上的情況下也同樣對(duì)其進(jìn)行了分類。

      根據(jù)表2可知,當(dāng)具有同樣的特征維度時(shí),基于ReliefF方法的識(shí)別準(zhǔn)確度要比ALA-ReliefF方法好得多,因?yàn)锳LAReliefF在將多個(gè)標(biāo)記的信息向單個(gè)標(biāo)記的轉(zhuǎn)換過(guò)程中會(huì)形成一些干擾,進(jìn)而使其識(shí)別準(zhǔn)確度下降。ReliefF方法在進(jìn)行了特征選取后,其準(zhǔn)確度明顯優(yōu)于未進(jìn)行特征選取的情況,表明ReliefF方法能有效地消除噪聲,并能有效地改善其識(shí)別準(zhǔn)確度。ReliefF方法在識(shí)別準(zhǔn)確率方面的差異要比ALAReliefF方法低,表明ReliefF方法具有很好的穩(wěn)定性,其獲得的教師信息素養(yǎng)指標(biāo)體系評(píng)價(jià)結(jié)果更能夠反映真實(shí)情況。

      表2 2種特征選擇算法的分類正確率

      3 結(jié)語(yǔ)

      該文基于我國(guó)大學(xué)教師的信息素質(zhì)評(píng)價(jià)指標(biāo),分析了我國(guó)大學(xué)教師的信息素質(zhì)特征,并對(duì)其構(gòu)成進(jìn)行了分析。然后基于RreliefF特征選擇算法對(duì)大學(xué)英語(yǔ)專業(yè)教師的信息素質(zhì)進(jìn)行了分析,并建立了相應(yīng)的評(píng)估指標(biāo)和評(píng)估標(biāo)準(zhǔn)。大學(xué)教師的信息素質(zhì)指數(shù)是一個(gè)多層次、多結(jié)構(gòu)且綜合性強(qiáng)、可測(cè)性高的量化性時(shí)代性評(píng)定方法。制定高校教師信息素養(yǎng)指標(biāo)體系是一個(gè)龐大而復(fù)雜的系統(tǒng)工程,該文的指標(biāo)體系只是一個(gè)探索和嘗試,希望更多的研究機(jī)構(gòu)和專家學(xué)者參與相關(guān)研究,基于RreliefF特征選擇算法早日制定出符合我國(guó)國(guó)情的高校教師信息素養(yǎng)指標(biāo)體系。

      猜你喜歡
      特征選擇分類樣本
      分類算一算
      用樣本估計(jì)總體復(fù)習(xí)點(diǎn)撥
      分類討論求坐標(biāo)
      推動(dòng)醫(yī)改的“直銷樣本”
      數(shù)據(jù)分析中的分類討論
      教你一招:數(shù)的分類
      隨機(jī)微分方程的樣本Lyapunov二次型估計(jì)
      Kmeans 應(yīng)用與特征選擇
      電子制作(2017年23期)2017-02-02 07:17:06
      村企共贏的樣本
      聯(lián)合互信息水下目標(biāo)特征選擇算法
      泾源县| 定西市| 金山区| 桃江县| 安徽省| 武平县| 宁波市| 文登市| 浦江县| 南通市| 社会| 璧山县| 定南县| 钟山县| 托克逊县| 大同县| 庆阳市| 荆门市| 化隆| 山阴县| 遵义县| 勐海县| 宣化县| 大兴区| 盐山县| 兰州市| 和田县| 蒙自县| 即墨市| 吉木萨尔县| 楚雄市| 伊春市| 甘肃省| 昌平区| 大城县| 翁源县| 长白| 栾川县| 松桃| 曲阳县| 鄢陵县|