張麗霞
(山西旅游職業(yè)學(xué)院旅游外語系,山西太原 030000)
當(dāng)前在語言學(xué)研究領(lǐng)域中,聚類分析的使用相當(dāng)廣泛。目前針對聚類分析的定性分類分析方法最為常見,而配合計量分析手段的相關(guān)探索資料和研究卻非常得少。國內(nèi)在語言類的研究當(dāng)中針對于聚類分析的方法在運用方式上需要進(jìn)一步提升,尤其在外國語言研究領(lǐng)域的探索還需要深入。
在沒有基本類別標(biāo)記信息對象的背景下所構(gòu)成的集合內(nèi),所有信息對象都是具有其對應(yīng)屬性與特征的,在這里要采用到聚類分析,參考集合內(nèi)不同對象所具有的不同算法展開自動類別劃分,保證每個類別的相關(guān)內(nèi)容都能實現(xiàn)自動識別。聚類分析也存在著較高的異質(zhì)性內(nèi)涵,就一般情況來說,在語言對象劃分方面應(yīng)該參考相應(yīng)指標(biāo),它主要基于大量數(shù)量指標(biāo)進(jìn)行定比定距分析,即實施類別劃分。在這里,還要利用到信息對象特征向量內(nèi)容,專門針對每一個信息對象進(jìn)行標(biāo)記處理,如此就能實現(xiàn)對信息對象的聚類劃分。整體而言,聚類分析對于數(shù)據(jù)結(jié)構(gòu)模式的了解相當(dāng)深入,它認(rèn)識到在不同變量之間所存在的某種關(guān)聯(lián)關(guān)系,所以目前所采用的聚類分析算法種類相當(dāng)繁多,且還在不斷豐富完善中。在過去十年中,我國針對外國語言學(xué)的聚類分析研究不夠深入,聚類分析技術(shù)的使用率明顯低于傳統(tǒng)純描述性統(tǒng)計與簡單推理統(tǒng)計,還難以做到以聚類為搜索核心展開操作。
聚類分析技術(shù)在語言領(lǐng)域研究中的應(yīng)用主要體現(xiàn)在3個方面:語義研究、句法型式研究和認(rèn)知語言研究。在通常情況下,聚類分析在應(yīng)用過程中需要大量的語料庫數(shù)據(jù)相結(jié)合才能完成。在外國語言學(xué)研究中,它主要針對語言文體的變異情況進(jìn)行分析,針對外國語言學(xué)中的較多語言結(jié)構(gòu)單位實施特征統(tǒng)計,其語言中是具有多種統(tǒng)計特征的,比如說在絕大部分實證分析研究過程中,可能針對不同語言特點的變化分析相當(dāng)深入,它就構(gòu)成了不同的語言結(jié)構(gòu)單位,基于不同特征頻率背景下所產(chǎn)生的變化構(gòu)成了獨具風(fēng)格的外國語言學(xué)研究形式,它奠定了外國語言學(xué)文體基礎(chǔ)的結(jié)構(gòu)特征,在對文體特征進(jìn)行統(tǒng)計分析過程中也提出了諸多大膽創(chuàng)新優(yōu)化。
就聚類分析技術(shù)的應(yīng)用而言,它所展現(xiàn)出的最大優(yōu)勢特征就是定量分析,它可實現(xiàn)對信息對象的客觀認(rèn)識,深入了解基于不同信息背景下的對象可重復(fù)性,在聚類分析開展過程中也能參考利用真實數(shù)據(jù)建立基礎(chǔ)條件特征,充分體現(xiàn)聚類分析結(jié)果所具備的客觀性特征,同時排除其中所存在的諸多主觀性內(nèi)容。在針對于外國語言學(xué)的科學(xué)分析過程中,聚類分析在算法選擇、計算方式以及聚類數(shù)值特征三方面體現(xiàn)優(yōu)越性,保證聚類分析所采用數(shù)據(jù)指標(biāo)在人為設(shè)定后體現(xiàn)出明確的檢驗特征,這也為聚類分析結(jié)果的精確性判斷提供了有力技術(shù)支持條件。如果再從主觀層面進(jìn)行定位分析,也可了解到聚類分析方法中的重復(fù)性應(yīng)用是相對偏低的,就這一點來講不同專家在經(jīng)驗總結(jié)與理論素養(yǎng)討論上都存在明顯差異,必須對所得到結(jié)果所存在顯著差異問題進(jìn)行分析,這體現(xiàn)了科學(xué)研究的客觀性特征,它同時說明了聚類分析技術(shù)應(yīng)用具有一定的科學(xué)價值和諸多的優(yōu)勢[1]。
進(jìn)行聚類分析的時候,我們要進(jìn)一步確定其應(yīng)用的定義和原理,也就是等于給無類別標(biāo)記的信息確定的對象構(gòu)建集合X,它應(yīng)該表示為X=。集合中的每一個對象都需要具備k個屬性,通過使用聚類分析來完成對所有對象特征值的有效分析,利用算法保證集合值內(nèi)容自動分組優(yōu)化,如此要保證所有分組自動識別內(nèi)容都要區(qū)分于其它分組,同時體現(xiàn)分組高同質(zhì)性與異質(zhì)性,基于不同分組可建立一個不同的簇,如此就能滿足聚類分析技術(shù)應(yīng)用基本條件[2]。
如果從外國語言學(xué)分析角度看來,它主要參考某一個指標(biāo)針對對象進(jìn)行定性分類。而如果是面對多個指標(biāo)時,則必須對定比、定距數(shù)量指標(biāo)進(jìn)行計算分析。在外國語言學(xué)分析過程中,主要利用到了特征向量來代表數(shù)據(jù)內(nèi)部結(jié)構(gòu)、模式以及變量特征,體現(xiàn)聚類分析的多種豐富算法,結(jié)合觀察結(jié)果可以發(fā)現(xiàn)聚合型層次聚類分析方法在目前的語言學(xué)研究中是比較常見的,應(yīng)用廣泛且應(yīng)用效果突出[3]。
1.研究問題的提出
目前國內(nèi)針對聚類分析的研究文獻(xiàn)并不豐富。在研究實踐中,針對外國語言學(xué)的聚類分析要排在中國文學(xué)、中國語言學(xué)之后位居第三位,基于外國語言學(xué)的聚類分析主要圍繞學(xué)科量化研究需求展開。這說明許多研究者并沒有意識到外國語言學(xué)進(jìn)行深入探討和研究的真正意義,我們從其中的調(diào)查數(shù)據(jù)得到僅有7%左右的教師對聚類分析這個教學(xué)方式有了解,同時并能夠有效運用到課堂教學(xué)中,其他的教師對于該技能的掌握嚴(yán)重不足[4]。
2.外國語言學(xué)聚類分析研究應(yīng)用領(lǐng)域的分析
目前,外國語言學(xué)聚類分析在語言的問題風(fēng)格變異研究方面是最為深入的,它主要基于語篇語言結(jié)構(gòu)的具體使用,同時涵蓋了詞長、句長以及句型比例的教學(xué)內(nèi)容。在研究中發(fā)現(xiàn),基于語言產(chǎn)出分析外國語言學(xué)結(jié)構(gòu)單位的個性化使用,需要具體分析其統(tǒng)計特征,這被比作為對外國語言學(xué)的語言指紋分析,它主要圍繞作品的語言使用情況進(jìn)行統(tǒng)計[5]。整體來說,外國語言學(xué)的聚類分析領(lǐng)域是相當(dāng)廣泛的,其中就要參考其語言的地理變異情況進(jìn)行方言聚類分析,這能夠?qū)崿F(xiàn)外國語言學(xué)聚類分析的有效細(xì)化[6]。
3.外國語言學(xué)聚類分析研究的實踐應(yīng)用
在外國語言學(xué)聚類分析研究中,它主要針對語言的社會變異與功能變異情況展開研究,獲得分析結(jié)果?;谀撤N理論框架,結(jié)合具體分析的案例特點,不能進(jìn)行較為盲目的分析和研究,要實施一定的語言數(shù)據(jù)分析和比對。在研究中,主要利用聚類分析來克服這一局限性問題,對數(shù)據(jù)結(jié)構(gòu)的系統(tǒng)性內(nèi)容進(jìn)行闡述,確保統(tǒng)計結(jié)果顯著。另外,則需要研究外國語言學(xué)的研究變量,結(jié)合與變量相連的假設(shè),制定理論研究模型,使用假設(shè)系統(tǒng)性的解決方式,同時體現(xiàn)分析過程的全局優(yōu)勢,它也能在一定程度上減少研究盲目性[7]。
在該過程中,我國學(xué)者主要使用的是聚類分析來進(jìn)行外國語言學(xué)的數(shù)據(jù)分析和研究,找出語言變異和社會因素之間存在的具體區(qū)別和影響,與此同時,還針對在不同環(huán)境背景下內(nèi)容進(jìn)行連接,從中獲得些趣味性假設(shè)結(jié)果。在進(jìn)行對外國語言學(xué)中的聚類分析實施研究的過程中,我們看到它就主要利用語言功能變體來展開研究,了解語域中的各類情景因素實施研究和分析。簡單來講,在這種語域案例當(dāng)中所涵蓋的就是廣告語言和文學(xué)作品等等,這些都是外國語言學(xué)研究的主要內(nèi)容。國內(nèi)學(xué)者需要基于這一點為外國語言學(xué)建立大型語料庫,在這一過程中建立聚類分析語言研究鏈,基于多維度分析,展開宏觀研究,對統(tǒng)計技術(shù)精巧運用內(nèi)容進(jìn)行分析,識別外國語言學(xué)中不同語域中的親疏關(guān)系[8]。
結(jié)合探索,快速發(fā)現(xiàn)聚類結(jié)果在權(quán)力關(guān)系建立方面的特征,同時需要分析聚類分析在語言方面的應(yīng)用形式,分析權(quán)力關(guān)系接觸頻率。結(jié)合變量中的動態(tài)關(guān)系給出假設(shè)提議,確定語境變量和指標(biāo)變量間存在的聯(lián)系,將掌握的信息作為參考元素??紤]到語域、體裁語域中的聚類分析內(nèi)容進(jìn)行分析,制作形成多種多元分析的使用工具,來針對于系統(tǒng)功能的語料庫進(jìn)行量化分析和研究探索[9]。
聚類分析在21世紀(jì)大數(shù)據(jù)時代建立外國語言學(xué)研究語料庫過程中,可以成為分析語言學(xué)的有利工具。如通過聚類分析合理的應(yīng)用語言用法數(shù)據(jù),進(jìn)行語言穩(wěn)定性的研究工作,通過語言內(nèi)部的關(guān)聯(lián),快速掌握語言間存在的生態(tài)效應(yīng),并且可以在語言數(shù)據(jù)的輔助下,提高生態(tài)效應(yīng)。在研究工作中應(yīng)該清楚外國語言學(xué)研究在技術(shù)方面的使用需求,合理地將聚類分析插入其中,在數(shù)據(jù)輔助下深度挖掘、整理語言素材,在人工智能的輔助下對龐大的數(shù)據(jù)進(jìn)行科學(xué)的分析,提高數(shù)據(jù)整理工作的有效性。從而確保聚類分析技術(shù)能夠有效深入到語言數(shù)據(jù)中,深入分析研究其語言研究手段,確保針對外國語言學(xué)的數(shù)據(jù)挖掘技術(shù)進(jìn)行分析理解,建立聚類分析體系,確保語言分析研究到位[10]。
在外國語言學(xué)研究過程中,就要深入利用聚類分析法應(yīng)用的特點和優(yōu)勢,通過定性的分類方式來對聚類分析實施事實數(shù)據(jù)的研究和計算,體現(xiàn)聚類分析技術(shù)應(yīng)用客觀性,它在分析過程中完全排除了某些主觀因素,確保聚類數(shù)值特征與算法選擇到位,體現(xiàn)聚類分析可檢驗性,基于主觀定性分類方法重復(fù)性較差這一問題展開分析,保證客觀分析到位,體現(xiàn)科學(xué)研究要求與基礎(chǔ)內(nèi)涵。此外,基于聚類分析的優(yōu)勢可實現(xiàn)大規(guī)模處理數(shù)據(jù),保證發(fā)現(xiàn)其中結(jié)構(gòu)內(nèi)容解析來優(yōu)化外國語言學(xué)認(rèn)知能力,發(fā)現(xiàn)數(shù)據(jù)中的某些結(jié)構(gòu)規(guī)律內(nèi)容,提出合理猜想與假設(shè)內(nèi)容。在聚類分析下處理數(shù)據(jù),提出針對性假設(shè),確保聚類分析產(chǎn)生于假設(shè)案例之中[11]。
在外國語言學(xué)研究中,需要清楚聚類分析的特征,并掌握影響聚類分析應(yīng)用效果的因素。考慮到影響聚類分析結(jié)果的因素眾多,因此應(yīng)該從變量選取以及特征指標(biāo)兩個層面重新定義特征權(quán)重,從而可以在合理分配的方式下,使聚類分析在語言學(xué)客觀的評估下,提高聚類結(jié)果效度水平。在當(dāng)前大數(shù)據(jù)時代,需要基于語料庫數(shù)據(jù)豐富度進(jìn)行聚類算法分析,合理運用大數(shù)據(jù)與數(shù)據(jù)挖掘技術(shù)來體現(xiàn)語言數(shù)據(jù)批評與質(zhì)疑過程,分析語言直覺的語言數(shù)據(jù)內(nèi)容展開探討[12]。
總之,聚類分析可以和語料庫相結(jié)合,從而在外國語言學(xué)研究方面具備較多的優(yōu)勢。為了進(jìn)一步提高外國語言學(xué)研究工作水平,使聚類分析可以在此項工作中展現(xiàn)更多的應(yīng)用價值,必須根據(jù)外國語言學(xué)研究需求以及聚類分析工作特性,及時調(diào)整聚類分析的工作模式,體現(xiàn)聚類分析技術(shù)應(yīng)用過程中的有效性,從而可以結(jié)合語料庫語言,輔助外國語言學(xué)研究工作的進(jìn)行,彌補(bǔ)我國在外國語言學(xué)方面的不足。