• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于聚類算法的英語動(dòng)詞詞形分類方法研究

      2022-07-14 09:43:04吳沛瑾
      關(guān)鍵詞:詞形語義聚類

      吳沛瑾

      (蚌埠學(xué)院,安徽 蚌埠 233000)

      1 引言

      英語是被廣泛使用的國際語言,在經(jīng)濟(jì)全球化和世界多元文化格局下,提高全民的英語水平,逐步消除英語溝通障礙顯得十分重要。動(dòng)詞是英語語法中的核心詞匯,具有較高的開放性,存在很多詞形變化的特征[1]。英語動(dòng)詞詞形不僅需要和主語人稱以及數(shù)量保持對應(yīng),還需要依據(jù)句子的時(shí)態(tài)、語態(tài)和語氣進(jìn)行轉(zhuǎn)變。英語動(dòng)詞詞形可以反映動(dòng)作發(fā)生的時(shí)間或存在的狀態(tài)以及反映主語和動(dòng)作之間的關(guān)系[2],同時(shí)還可以表示對某個(gè)動(dòng)作的命令、請求等。由于漢語不包含詞形變化,因長期受到母語的影響,導(dǎo)致很難理解及區(qū)分英語動(dòng)詞詞形,進(jìn)而影響人們的英語學(xué)習(xí)效果。因此,有必要對英語動(dòng)詞詞形進(jìn)行有效分類,幫助人們更好地掌握動(dòng)詞的用法。英語動(dòng)詞詞形分類不僅能為英語教學(xué)提供輔助,還可以豐富翻譯單位和語料庫研究,同時(shí)對于詞典編纂、教材編寫以及文本分析等也發(fā)揮著不可估量的作用[3,4]。傳統(tǒng)分類方法以人工識(shí)別形式為主,雖然準(zhǔn)確度較高,但存在耗時(shí)費(fèi)力以及受數(shù)量限制大等弊端,并且部分非常用詞形很容易被忽略。因此,研究可靠并具有大批量處理能力的英語動(dòng)詞詞形分類方法成為當(dāng)前學(xué)術(shù)領(lǐng)域關(guān)注的重點(diǎn)課題。

      很多學(xué)者均在該課題的研究上取得重大進(jìn)展,例如牛振東等人利用深度隨機(jī)森林完成英語動(dòng)詞詞形分類,該方法能很好地應(yīng)對大規(guī)模數(shù)據(jù)處理問題,但對于復(fù)雜動(dòng)詞詞形的分類效果欠佳[5];丁勇等人利用主題和關(guān)鍵詞特征完成英語動(dòng)詞詞形分類,該方法的泛化能力和時(shí)間性能較為優(yōu)異,但在特征提取時(shí)未考慮特征的詞頻信息[6]。

      為此,本文設(shè)計(jì)了了基于聚類算法的英語動(dòng)詞詞形分類方法。隨著大數(shù)據(jù)時(shí)代的發(fā)展,以聚類算法為核心環(huán)節(jié)的信息檢索技術(shù)在語言識(shí)別領(lǐng)域得到廣泛應(yīng)用,通過K-means 算法和支持向量機(jī)算法的相互協(xié)作,達(dá)到準(zhǔn)確判斷英語動(dòng)詞詞形類別的目的。并通過實(shí)驗(yàn)分析驗(yàn)證了本文分類方法的有效性。

      2 英語動(dòng)詞詞形分類方法設(shè)計(jì)

      2.1 英語動(dòng)詞詞形語義結(jié)構(gòu)模型構(gòu)建

      為了實(shí)現(xiàn)英語動(dòng)詞詞形的分類,首先構(gòu)建了英語動(dòng)詞詞形的語義架構(gòu)模型。英語動(dòng)詞詞形用CS描述,其包含的語義結(jié)構(gòu)數(shù)量為m,在其基礎(chǔ)上通過多元特征分布重新塑造語法規(guī)則,得到英語動(dòng)詞詞形語義特征分布模型,并借助權(quán)重約束手段獲取語義結(jié)構(gòu)特征分布集,同時(shí)引入模糊度檢測,完成英語動(dòng)詞詞形狀態(tài)特征量的提取。令語義策略用Ai描述,在此策略下,英語動(dòng)詞詞形狀態(tài)分布集用V描述,其屬于謂語中心詞,相應(yīng)的承受者用O 描述,英語動(dòng)詞的分級特征量用S 描述,且S=V,任意一個(gè)英語動(dòng)詞用Wi描述,其多級知識(shí)結(jié)構(gòu)用S 和V 描述,Wi的特征語義修飾對象用WGi描述,則可以使用公式(1)描述英語動(dòng)詞詞形狀態(tài)分布的相關(guān)度計(jì)算過程:

      定義β 代表英語動(dòng)詞詞形特征分布的實(shí)數(shù)集,且滿足β∈[0,T],其中英語動(dòng)詞詞形評價(jià)集S內(nèi)的元素有T 個(gè),通過語法樹將英語動(dòng)詞詞形多級知識(shí)表達(dá)模型創(chuàng)建于S 中,并利用最小屬性特征分割對英語動(dòng)詞詞形結(jié)構(gòu)進(jìn)行組合分析[7,8],以獲取公式(2)所示語義信息分布狀態(tài)特征量求解過程:

      式中,ak的取值介于[-0.5,0.5]范圍內(nèi),取整算子用round 描述。依據(jù)語法量化集對該式進(jìn)行求解,可獲得英語動(dòng)詞詞形狀態(tài)特征量,用m 描述。

      針對多級知識(shí)結(jié)構(gòu)的劃分,可以通過分段劃分的形式來完成,使其變?yōu)锳B、AA、PD,并從英語動(dòng)詞的特征分布集中查找相應(yīng)的簡單語義集,分別用AB+S、AA+S 和PD+V 描述,最后借助語義本體特征構(gòu)造方法反映英語動(dòng)詞詞形語義特征,如L→AAPDAB,從而實(shí)現(xiàn)英語動(dòng)詞詞形語義結(jié)構(gòu)模型構(gòu)建。

      2.2 英語動(dòng)詞詞形語義特征表達(dá)

      在上述構(gòu)建的英語動(dòng)詞詞形語義結(jié)構(gòu)模型基礎(chǔ)上,為描述英語動(dòng)詞詞形語義特征,使用語義本體特征構(gòu)造方法來實(shí)現(xiàn),進(jìn)而有效提取英語動(dòng)詞詞形狀態(tài)特征量。

      二元語義信息用{(s1,a1),(s2,a2),…,(sn,an),}描述,與其相匹配的權(quán)重向量用ω=((ω1,a′1),(ω2,a′2),…,(ωn,a′n),)T描述,其中ωj的取值介于[0,1]范圍內(nèi),可使用公式(3)表示加權(quán)算術(shù)平均算子的計(jì)算過程:

      通過有向圖模型重組英語動(dòng)詞詞形狀態(tài),得出相應(yīng)的語法樹模型[9,10]。定義R(rij,aij)m×n代表英語動(dòng)詞詞形評價(jià)矩陣,多級知識(shí)反映的指標(biāo)權(quán)重用W=((ω1,β1),…,(ωn,βn))描述,則公式(4)為將語法樹使用模糊度尋優(yōu)完成歸一化后所得結(jié)果:

      依據(jù)上式所得結(jié)果,獲取有向圖模型內(nèi)的指標(biāo)權(quán)重以及綜合評價(jià)矩陣,分別用W=((ω′2,β2),…,(ω′n,β′n))、X=(rij,a′ij)m×n描述。

      2.3 英語動(dòng)詞詞形狀態(tài)特征量的相似度計(jì)算

      使用余弦相似度對上述過程中獲取的英語動(dòng)詞詞形狀態(tài)特征量之間的相似度進(jìn)行計(jì)算。英語動(dòng)詞詞形間的相似度,即英語動(dòng)詞詞形狀態(tài)特征量之間的夾角余弦值,若想表明英語動(dòng)詞詞形之間具有較高相似度,則余弦值應(yīng)取較大值[11]。該方法的計(jì)算過程用公式(5)描述:

      式中,兩個(gè)英語動(dòng)詞詞形狀態(tài)特征量分別用x、y 描述,兩者位于空間上的距離用Sim(x,y)描述,x的第k 維權(quán)重值用xk描述,y 的第k 維權(quán)重值用yk描述,英語動(dòng)詞詞形狀態(tài)特征量總數(shù)用n 描述,x和y 的模分別用||x||、||y||描述。該式可以轉(zhuǎn)化為公式(6)所示形式:

      通過單位化處理英語動(dòng)詞詞形狀態(tài)特征量x,能夠得到公式(7)所示結(jié)果:

      可采用同樣方式處理英語動(dòng)詞詞形狀態(tài)特征量y,進(jìn)而獲得以下所示公式(5)的轉(zhuǎn)化結(jié)果:

      通過上述轉(zhuǎn)化過程,可顯著提升英語動(dòng)詞詞形狀態(tài)特征量之間相似度的計(jì)算效率。

      2.4 英語動(dòng)詞詞形分類實(shí)現(xiàn)

      依據(jù)上小節(jié)獲得的英語動(dòng)詞詞形狀態(tài)特征量之間相似度的計(jì)算結(jié)果,使用K-means 算法和支持向量機(jī)算法相結(jié)合的方法,對英語動(dòng)詞詞形進(jìn)行分類。

      2.4.1 K-means 算法

      K-means 算法是當(dāng)前應(yīng)用最廣泛的非監(jiān)督、間接性聚類算法之一。該算法定義的參數(shù)用k 描述,據(jù)其將數(shù)量為n 的對象劃分成k 個(gè)簇,以使簇內(nèi)和簇間的相似度分別處于較高、較低水平[12]。其中利用簇內(nèi)對象的均值便能得出簇內(nèi)相似度。

      K-means 算法基本原理:采用隨機(jī)形式抽取數(shù)量為k 的對象,各對象均能表示一個(gè)聚類中心,針對未抽取到的對象,依據(jù)某對象和每個(gè)聚類中心間的距離,將其劃分至與自身相似度最高的聚類中,并重新求解各聚類的聚類中心。循環(huán)執(zhí)行以上步驟,當(dāng)準(zhǔn)則函數(shù)達(dá)到收斂狀態(tài)時(shí),則停止循環(huán)。

      (1)假設(shè)英語動(dòng)詞詞形劃分的類別個(gè)數(shù)為k,則需要以隨機(jī)形式選取數(shù)量為k 的初始中心向量。

      (2)對各英語動(dòng)詞詞形和k 個(gè)聚類中心之間的距離進(jìn)行計(jì)算,依據(jù)相似度結(jié)果將所有英語動(dòng)詞詞形歸入相應(yīng)的類別。當(dāng)運(yùn)算執(zhí)行次數(shù)為m 時(shí),第i類的聚類中心用Ci(m)描述,其中i 的取值介于[1,k]范圍內(nèi)。在滿足D(t)-Cj(m)<D(t)-Ci(m)的條件下,且i和j 的值不相等時(shí),則表明英語動(dòng)詞詞形D(t)和聚類中心Cj(m)的相似度最高,將其分配到類θj中。

      (3)在計(jì)算k 個(gè)類的平均距離的基礎(chǔ)上,利用公式(9)求解k 個(gè)新聚類中心:

      式內(nèi),類θj內(nèi)的總點(diǎn)數(shù)用Mj描述。

      (4)依據(jù)最小距離原則,利用求出的新聚類中心重新實(shí)現(xiàn)所有英語動(dòng)詞詞形的聚類。循環(huán)執(zhí)行上述過程,停止條件為聚類中心不再發(fā)生變化。

      2.4.2 支持向量機(jī)算法

      創(chuàng)建符合分類標(biāo)準(zhǔn)的最優(yōu)超平面,并將其視為決策曲面,以最大化正、反例間的隔離邊緣[13,14],即支持向量機(jī)(Support Vector Machine,SVM)的基本原理。

      針對線性可分問題,假設(shè)訓(xùn)練樣本用{Xi,yi)}Ni=1描述,其中輸入模式中次序?yàn)閕 的例子用Xi描述,表示為Xi=(x1,…,x2,…xn),目標(biāo)輸出用yi描述,則可使用公式(10)描述分類超平面符合的約束條件:

      式中,權(quán)值向量用W 描述;偏置用k 描述;i 的取值介于[1,n]范圍內(nèi)。此時(shí)可使用Δ=2/||W||2表示分類間隔,因此能將最優(yōu)超平面建立問題轉(zhuǎn)化為在公式(10)的條件下,求解Φ(x)=||W||2/2 的問題,該式的解僅存在一個(gè),最優(yōu)超平面即最小化Φ(x)的分類平面。

      針對線性不可分問題,通過正松弛因子和錯(cuò)誤懲罰參數(shù)的引入,將上式轉(zhuǎn)化為公式(11)所示形式,同時(shí)使用公式(12)描述目標(biāo)函數(shù):

      式中,正松弛因子錯(cuò)誤懲罰參數(shù),分別用ξi、C描述。

      依據(jù)拉格朗日(Lagrange)乘子法,使用公式(13)描述以上問題轉(zhuǎn)化后的對偶形式:

      式中,Lagrange 乘子用α 描述,αi的值大于等于0,且小于等于C。αi、W 和k 的最優(yōu)解分別用αi*、W*以及k*描述,對其進(jìn)行計(jì)算 可獲得 公式(14)所示分類函數(shù):

      式中,符號函數(shù)用sgn(·)描述;輸入向量用X描述。

      通過非線性映射處理輸入向量,使其呈現(xiàn)在高維特征向量空間[15],最優(yōu)分類面可在該空間內(nèi)進(jìn)行創(chuàng)建,并選取合適的核函數(shù),即可將非線性問題轉(zhuǎn)化為線性分類。

      2.4.3 融合K-means 和SVM 的英語動(dòng)詞詞形分類過程

      (1)初始聚類。輸入樣本用D(t)=[d1(t,)d2(t),…,dn(t)]T描述,使用K-means 算法實(shí)現(xiàn)輸入樣本的初始聚類,獲得類別數(shù)為k。

      (2)選擇訓(xùn)練樣本。針對以上步驟生成的各類樣本,以其內(nèi)英語動(dòng)詞詞形數(shù)量作為標(biāo)準(zhǔn),從中選取距離聚類中心較近的英語動(dòng)詞詞形進(jìn)行SVM 訓(xùn)練。

      (3)使用SVM 完成分類。利用以上步驟獲得的訓(xùn)練集對SVM 進(jìn)行訓(xùn)練,并通過完成訓(xùn)練的SVM重新分類初始樣本,以獲得新的英語動(dòng)詞詞形分類結(jié)果。

      3 實(shí)驗(yàn)分析

      將從某語料庫不同使用頻率的英語動(dòng)詞集中,抽取的2000 個(gè)不同詞形變化的英語動(dòng)詞作為實(shí)驗(yàn)對象,其包含動(dòng)詞原形、第三人稱單數(shù)、過去式、過去分詞和現(xiàn)在分詞5 種英語動(dòng)詞詞形類別,且存在不規(guī)則變化的動(dòng)詞,使用本文方法對這2000 個(gè)英語動(dòng)詞進(jìn)行分類,以驗(yàn)證該方法的分類能力。

      分別從5 種英語動(dòng)詞詞形類別中隨機(jī)選擇3個(gè)規(guī)則動(dòng)詞,再另外選擇2 個(gè)不規(guī)則動(dòng)詞進(jìn)行分類測試,使用表1 描述本文方法計(jì)算的各英語動(dòng)詞詞形狀態(tài)特征量的相似度結(jié)果,與之對應(yīng)的英語動(dòng)詞詞形分類結(jié)果用表2 描述。

      表1 英語動(dòng)詞詞形狀態(tài)特征量的相似度

      表2 英語動(dòng)詞詞形分類結(jié)果

      從表2 可以看出,不同英語動(dòng)詞詞形類別中不存在分類錯(cuò)誤的動(dòng)詞,對于規(guī)則變化的動(dòng)詞,過去式和過去分詞類別中的動(dòng)詞完全相同,這是由于這兩種類型具有一致的英語動(dòng)詞詞形變化方式;對于不規(guī)則變化的動(dòng)詞became 和broken,本文方法均能將其分類到正確的類別中。表明本文方法對規(guī)則及不規(guī)則變化的英語動(dòng)詞詞形均具有較優(yōu)異的分類效果,且該方法的英語動(dòng)詞詞形狀態(tài)特征量的相似度計(jì)算結(jié)果準(zhǔn)確性較高,能夠?yàn)楹罄m(xù)分類提供可靠依據(jù)。

      引入調(diào)整蘭德系數(shù)(Adjusted Rand Index,ARI)衡量本文方法的英語動(dòng)詞詞形分類性能,該系數(shù)的取值介于[0,1]范圍內(nèi),其值越大,表明方法的分類結(jié)果與實(shí)際情況的吻合度越高。將錯(cuò)誤懲罰參數(shù)分別設(shè)置為3、6、9、12,測試不同正松弛因子下,本文方法的分類調(diào)整蘭德系數(shù)結(jié)果,具體用圖1 描述。

      圖1 英語動(dòng)詞詞形分類調(diào)整蘭德系數(shù)結(jié)果

      分析圖1 可以發(fā)現(xiàn),在正松弛因子不斷增大的情況下,不同錯(cuò)誤懲罰參數(shù)對應(yīng)的英語動(dòng)詞詞形分類調(diào)整蘭德系數(shù)均呈現(xiàn)出先上升,并在達(dá)到極值后開始下降的趨勢,當(dāng)正松弛因子增大至3000 時(shí),不同錯(cuò)誤懲罰參數(shù)對應(yīng)的分類調(diào)整蘭德系數(shù)均處于最高值,其中最大值十分接近于1,當(dāng)正松弛因子一定時(shí),錯(cuò)誤懲罰參數(shù)取9 時(shí)對應(yīng)的分類調(diào)整蘭德系數(shù)始終保持最高,且在達(dá)到極值后的下降速率極其緩慢,其余值對應(yīng)的分類調(diào)整蘭德系數(shù)下降速率較快。以上結(jié)果可得,將正松弛因子和錯(cuò)誤懲罰參數(shù)分別設(shè)置為3000、9 時(shí),可獲得更好的英語動(dòng)詞詞形分類效果。

      4 結(jié)束語

      英語動(dòng)詞詞形分類對語言研究和語言教學(xué)的發(fā)展起著重要的推動(dòng)作用,為解決已有分類方法存在的分類效果較差等問題,本文研究基于聚類算法的英語動(dòng)詞詞形分類方法。該方法利用余弦相似度能準(zhǔn)確計(jì)算英語動(dòng)詞詞形狀態(tài)特征量之間的相似度,從而為分類提供可靠的數(shù)據(jù)支持。該方法通過K-means 算法和支持向量機(jī)的相互協(xié)作,可以對規(guī)則變化與不規(guī)則變化的英語動(dòng)詞詞形進(jìn)行有效分類,并且該方法通過測試已證明可以獲得更好分類效果的參數(shù)設(shè)置。

      猜你喜歡
      詞形語義聚類
      詞形變換解題指導(dǎo)
      韓國學(xué)校語法中副詞形語尾的變遷
      語言與語義
      帶前置功能的詞形《 в сопоставлениис 》的結(jié)構(gòu)與搭配
      山東青年(2018年7期)2018-11-06 06:13:12
      基于DBSACN聚類算法的XML文檔聚類
      電子測試(2017年15期)2017-12-18 07:19:27
      “上”與“下”語義的不對稱性及其認(rèn)知闡釋
      基于改進(jìn)的遺傳算法的模糊聚類算法
      一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
      認(rèn)知范疇模糊與語義模糊
      自適應(yīng)確定K-means算法的聚類數(shù):以遙感圖像聚類為例
      昭通市| 杭州市| 上饶县| 乐业县| 浦北县| 通山县| 金湖县| 阿克陶县| 岑巩县| 电白县| 东海县| 阿瓦提县| 石屏县| 青阳县| 襄樊市| 沙坪坝区| 湟中县| 黄陵县| 碌曲县| 乌兰县| 米脂县| 嘉义市| 九寨沟县| 阿坝县| 赞皇县| 平果县| 沽源县| 鄂温| 武鸣县| 柘荣县| 宣化县| 青阳县| 岳阳县| 顺义区| 华容县| 中西区| 寿光市| 西安市| 昌乐县| 衡阳市| 中卫市|