穆曉巖
【摘要】聚類(lèi)分析,還可以被稱(chēng)為是數(shù)值分類(lèi)學(xué),這屬于一種多元統(tǒng)計(jì)的分類(lèi)技術(shù)。該技術(shù)主要運(yùn)用在商業(yè)和生物與工程以及人類(lèi)學(xué),還有社會(huì)學(xué)等多種領(lǐng)域中。語(yǔ)言學(xué)中的研究存在很多分類(lèi)問(wèn)題,然而學(xué)者們選擇定性法分類(lèi)的非常多,計(jì)量手段的分類(lèi)法非常罕見(jiàn)。鑒于此,本文將對(duì)聚類(lèi)分析在外國(guó)語(yǔ)言學(xué)研究中的應(yīng)用進(jìn)行分析。
【關(guān)鍵詞】聚類(lèi)分析 外國(guó)語(yǔ)言 研究 應(yīng)用
【中圖分類(lèi)號(hào)】H087 【文獻(xiàn)標(biāo)識(shí)碼】A 【文章編號(hào)】2095-3089(2018)04-0003-01
現(xiàn)階段在聚類(lèi)分析中的新方法非常多,對(duì)聚類(lèi)算法來(lái)說(shuō),其使用的技術(shù)并不一樣,在理論背景上彼此交叉和重疊,并不能容易地歸類(lèi)一個(gè)比較統(tǒng)一的標(biāo)準(zhǔn),聚類(lèi)分析法能夠被分為層次聚類(lèi)方法和基于劃分下的聚類(lèi)方法與圖論聚類(lèi)方法以及密度下與網(wǎng)格基礎(chǔ)下的方法等多種。上述方法盡管從不同角度方面多運(yùn)用的理論方法也不同,然而對(duì)存在差異的實(shí)際問(wèn)題來(lái)說(shuō),聚類(lèi)分析當(dāng)中的基本內(nèi)容一直是人們研究的重點(diǎn)。
一、聚類(lèi)方法淺析
(一)層次聚類(lèi)方法分析
就層次聚類(lèi)算法來(lái)說(shuō),其主要優(yōu)點(diǎn)是指,不需要實(shí)現(xiàn)知曉用戶(hù)指定的聚類(lèi)數(shù)目,能夠靈活地對(duì)不同層次聚類(lèi)粒度進(jìn)行控制,同時(shí),還可以比較清晰地對(duì)簇之間所具備的層次關(guān)系進(jìn)行表達(dá)。然而,層次聚類(lèi)算法在運(yùn)用中的缺點(diǎn)也是非常明顯的,主要有,層次聚類(lèi)時(shí),不能追溯已有的簇結(jié)構(gòu)處理;上一層次簇形成之后,一般是不能在之后的執(zhí)行過(guò)程中進(jìn)行調(diào)整的。現(xiàn)階段,很多層次聚類(lèi)算法在計(jì)算過(guò)程中都有一定的復(fù)雜度,這一過(guò)程中,0是數(shù)據(jù)集中數(shù)據(jù)點(diǎn)的數(shù)量。計(jì)算開(kāi)銷(xiāo)是非常大的,已經(jīng)是促進(jìn)層次聚類(lèi)算法中性能提高的一個(gè)瓶頸,導(dǎo)致其不能適用于規(guī)模較大的數(shù)據(jù)集。
(二)劃分聚類(lèi)方法的分析
這一聚類(lèi)方法早已在模式識(shí)別和數(shù)據(jù)挖掘等不同領(lǐng)域有了廣泛的應(yīng)用,截至目前為止,還是多個(gè)研究工作中的思想源頭。如果目標(biāo)函數(shù)具有可微性,就要對(duì)數(shù)據(jù)集進(jìn)行初始劃分,再將其作為起點(diǎn),并對(duì)樣本點(diǎn)的歸屬進(jìn)行調(diào)整,進(jìn)而讓目標(biāo)函數(shù)實(shí)現(xiàn)最優(yōu)。如果目標(biāo)函數(shù)得到收斂,就能夠獲得最終的聚類(lèi)結(jié)果。k-means與FCM都是該類(lèi)算法中比較典型的代表,在現(xiàn)階段的研究成果包括:密度加權(quán)的模糊類(lèi)聚類(lèi)算法,以及在混合距離學(xué)習(xí)下的雙指數(shù)模糊的均值算法等。其在具體使用過(guò)程中的優(yōu)點(diǎn)主要包括,收斂速度比較快,容易擴(kuò)展,存在的缺點(diǎn)是指需要知曉事先所指定的聚類(lèi)數(shù)目。除此之外,初始簇的中心選擇和噪聲數(shù)據(jù)存在與聚類(lèi)數(shù)目本身的設(shè)置都會(huì)嚴(yán)重影響聚類(lèi)結(jié)果。
(三)密度與網(wǎng)格聚類(lèi)方法的分析
基于密度與網(wǎng)格之上的聚類(lèi)方法主要來(lái)自于基于密度聚類(lèi)方法與基于網(wǎng)格聚類(lèi)方法。其中,密度聚類(lèi)方法一般主要在數(shù)值屬性的數(shù)據(jù)集中進(jìn)行運(yùn)用,后者可以在任何屬性數(shù)據(jù)集中進(jìn)行運(yùn)用。因?yàn)樵摲椒▽?duì)數(shù)據(jù)進(jìn)行處理過(guò)程中,都注重使用樣本點(diǎn)空間的分布信息,同時(shí),總是經(jīng)常地結(jié)合使用,所以可以歸結(jié)在一塊使用。
二、國(guó)外語(yǔ)言研究中對(duì)于聚類(lèi)分析法的具體應(yīng)用
聚類(lèi)分析法主要在語(yǔ)義和句法型式與認(rèn)知語(yǔ)言學(xué)以及心理語(yǔ)言學(xué),還有計(jì)算語(yǔ)言學(xué)與社會(huì)語(yǔ)言學(xué)等多種研究領(lǐng)域當(dāng)中被應(yīng)用。聚類(lèi)分析法在實(shí)際中的應(yīng)用主要是和語(yǔ)料庫(kù)數(shù)據(jù)進(jìn)行結(jié)合。主要應(yīng)用的領(lǐng)域包括以下幾點(diǎn)。
(一)在詞匯語(yǔ)義學(xué)中的應(yīng)用
在語(yǔ)言學(xué)的研究中有這樣一個(gè)假設(shè)。如果語(yǔ)言項(xiàng)目語(yǔ)境在分布信息對(duì)該語(yǔ)言項(xiàng)目本身的語(yǔ)義和功能特點(diǎn)進(jìn)行了揭示。語(yǔ)言成分本身的意義即是該語(yǔ)言成分在分布中的條件或者是限制。例如,F(xiàn)irth曾經(jīng)提出:“觀一詞之同伴可知一詞”;此外,Hanks曾經(jīng)指出:“動(dòng)詞語(yǔ)義是由其補(bǔ)足語(yǔ)的模式所決定的?!闭Z(yǔ)料庫(kù)給予了詞在分布環(huán)境中的信息,例如共現(xiàn)詞和其頻率。按照語(yǔ)料庫(kù)所給予的共現(xiàn)特征中的頻率信息,該分析方法能夠用來(lái)較客觀和系統(tǒng)地對(duì)近義詞和反義詞進(jìn)行辯解。聚類(lèi)分析法應(yīng)用在詞匯語(yǔ)義學(xué)當(dāng)中是非常有必要的,其對(duì)于詞典的編纂和外語(yǔ)的教學(xué)都非常有實(shí)用價(jià)值。
(二)在句法型式的研究領(lǐng)域中進(jìn)行應(yīng)用
聚類(lèi)分析法能夠幫助人們對(duì)語(yǔ)料庫(kù)當(dāng)中存在的句法結(jié)構(gòu)實(shí)施聚類(lèi),有助于相關(guān)人員對(duì)經(jīng)驗(yàn)數(shù)據(jù)性的句法進(jìn)行研究。例如,相關(guān)人員可以對(duì)語(yǔ)料庫(kù)當(dāng)中的一個(gè)單詞進(jìn)行全部索引行并聚類(lèi),對(duì)這一單詞進(jìn)行識(shí)別和提取,例如,動(dòng)詞的所有句法型式,進(jìn)而獲得對(duì)指定單詞句法行為進(jìn)行全局性和系統(tǒng)性地了解和認(rèn)識(shí)。有助于數(shù)據(jù)驅(qū)動(dòng)句法的研究,并對(duì)其詞典進(jìn)行編撰,同時(shí)在外語(yǔ)教學(xué)中的價(jià)值也非常大。
(三)語(yǔ)言文體的變異研究
語(yǔ)篇當(dāng)中會(huì)出現(xiàn)很多語(yǔ)言結(jié)構(gòu)的單位在使用中統(tǒng)計(jì)的特征。主要有詞長(zhǎng)和句長(zhǎng)與型符類(lèi)符比以及單現(xiàn)詞比例,還有詞性比例和句型比例等。從多數(shù)研究中可以看出,各種語(yǔ)言的結(jié)構(gòu)特征在不同體裁當(dāng)中的文本也存在著客觀地變異情況。語(yǔ)言風(fēng)格和文體與體裁都是因?yàn)椴煌Z(yǔ)言的結(jié)構(gòu)單位特征所產(chǎn)生的。該頻率分布的不同造成分析語(yǔ)篇的風(fēng)格和文體物質(zhì)的基礎(chǔ)。利用各種特征統(tǒng)計(jì)分析文本的思想比較早的是數(shù)學(xué)家Morgan在19世紀(jì)中期的猜想與建議。很多研究人員可以結(jié)合該語(yǔ)言的結(jié)構(gòu)單位進(jìn)行不同風(fēng)格和文體文本以及語(yǔ)篇的分析。
(四)語(yǔ)言本身的社會(huì)變異和功能變異研究
語(yǔ)言變異和社會(huì)結(jié)構(gòu)之間的關(guān)系非常復(fù)雜,運(yùn)用以往的一般研究的手段不能進(jìn)行處理。在以往的研究方法當(dāng)中,對(duì)于研究變量進(jìn)行選擇和假設(shè)建立也是研究人員按照某種理論框架和既定的研究個(gè)案與個(gè)人在研究領(lǐng)域中形成的經(jīng)驗(yàn)和靈感所展開(kāi)的。這是截至目前位置一直被延用的一種研究方法。盡管人們不能否認(rèn)該研究方法是有一定意義的,然而還是必須承認(rèn),以往的研究方式基本也是瞎子摸象,存在很大的盲目性,加之,在某些時(shí)候?qū)儆跂|一榔頭西一棒子的模式,沒(méi)有系統(tǒng)性地研究。按照個(gè)人在這一領(lǐng)域中的經(jīng)驗(yàn)或者是出現(xiàn)的靈感所提出的語(yǔ)言研究假設(shè)不可避免地存在很大地盲目性,由于和大規(guī)模語(yǔ)言數(shù)據(jù)的對(duì)比,個(gè)人在經(jīng)驗(yàn)和靈感來(lái)源上都非常有限。將聚類(lèi)分析法運(yùn)用在其中,能夠更好地克服該局限的出現(xiàn)。
三、結(jié)束語(yǔ)
總而言之,在未來(lái)的發(fā)展中,對(duì)于大規(guī)模語(yǔ)言數(shù)據(jù)的進(jìn)行依賴(lài)的程度會(huì)也來(lái)越大,在此基礎(chǔ)上的數(shù)據(jù)挖掘也逐漸增多。規(guī)模較大的語(yǔ)言數(shù)據(jù)在人工和肉眼下是不能被有效處理的。這時(shí),聚類(lèi)分析等多種數(shù)據(jù)挖掘的方法是人們重要的工具。外語(yǔ)研究人員要加強(qiáng)對(duì)包括聚類(lèi)分析在內(nèi)的數(shù)據(jù)挖掘技術(shù)進(jìn)行研究,保障研究與時(shí)俱進(jìn)。
參考文獻(xiàn):
[1]唐成成.聚類(lèi)分析在高校課堂教學(xué)質(zhì)量評(píng)價(jià)中的應(yīng)用[D].重慶師范大學(xué),2017.
[2]楊昱梅,李婧.聚類(lèi)分析算法在大學(xué)生心理健康分析中的應(yīng)用研究[J].中國(guó)教育學(xué)刊,2015(S1):27-29.
[3]王駿,王士同,鄧趙紅.聚類(lèi)分析研究中的若干問(wèn)題[J].控制與決策,2012,27(03):321-328.