• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于LNRE模型的碩士研究生畢業(yè)論文詞匯豐富度研究

      2021-06-03 00:04:54李森
      文化創(chuàng)新比較研究 2021年14期
      關鍵詞:詞匯量插值語料

      李森

      (北方工業(yè)大學圖書館,北京 100144)

      近年來,隨著研究生教育的不斷深入,碩士教育水平逐漸上升。畢業(yè)論文作為衡量在校生學術規(guī)范意識的培養(yǎng)、研究方法的掌握與語言表達能力的積累和訓練等方面內(nèi)容的綜合手段,為國內(nèi)外絕大多數(shù)培養(yǎng)單位采用。同前兩個方面相比,表達能力也許是最容易被忽視的,但實際上其表現(xiàn)并不樂觀[1]。學生畢業(yè)后,其進一步選擇主要包括繼續(xù)在國內(nèi)深造、直接工作和出國留學。如將考察對象只集中于詞匯的使用,在前兩種選擇中,學生均會繼續(xù)使用本民族語言進行產(chǎn)出性語言行為,二者只是在詞匯的使用范疇上存在一定差別,卻未產(chǎn)生本質(zhì)性差異[2-3];雖然學生出國后會較少使用本民族語言,但與學業(yè)技能發(fā)展關系最為緊密的“認知/學業(yè)語言能力”可為雙語者在不同語言中共享,且具有可遷移性[4],因為本民族語言的提升能在其他語言的使用上得到體現(xiàn),所以學生在校期間漢語能力的培養(yǎng)對今后的工作與深造均具有積極作用。因此僅通過對畢業(yè)論文的用詞情況來探究碩士的語言能力、進而衡量在校生的學習積累和對比不同專業(yè)間研究生培養(yǎng)效果的研究可以得到理論上的支持,且具有較高的應用價值。在可見的文獻中,研究生語言能力的研究基本集中于外語水平的比較,且多數(shù)僅通過人工測試或語料庫的簡單統(tǒng)計[5-6]。這些方法雖能表現(xiàn)部分語言使用者的語言情況,卻無法反映研究對象的語言能力,因此還需將這種表現(xiàn)“外推(extrapolation)”至能夠代表其語言能力和個人或群體特征的語言總體(population)或某個總體子集,但通過此類認識與研究手段進行的、專門針對某一群體漢語能力的研究尚未被作者發(fā)現(xiàn),因此如能填補這一空白將會有較高的理論與實踐價值。

      基于研究開展的便利性,本研究采用詞作為計量單位,通過詞匯豐富度(lexical richness)探究文獻作者群體的語言能力。由于傳統(tǒng)測量詞匯豐富度的各種統(tǒng)計量在語料規(guī)模不斷增長的情況下不遵守大數(shù)定律,所以就無法從此角度估計總體大小[7],需要訴諸于其他方法。立足于人類語言的大量罕見事件(Large Number of Rare Events,LNRE) 性質(zhì),Baayen將已有的多種模型引入語言學[8]。后經(jīng)Evert 與Baroni 的研究認為其中僅有廣義逆高斯—泊松(Generalized Inverse Gau-Poisson,GIGP) 模型具有較好的解釋與預測能力[9],且Evert 提出的齊普夫曼德爾布羅特(Zipf-Mandelbrot,ZM)模型與有限齊普夫曼德爾布羅特(finite Zipf-Mandelbrot,fZM)模型[10]也具有較好的擬合與外推效果,并基于這3 種模型開發(fā)了zipfR 程序包[11-12]。他們所做的工作為該研究的開展提供了方法論支持的同時帶來了工具使用上的便利。

      1 研究語料簡介與模型擬合

      為使用定量的方法考察不同研究群體的漢語語言能力,需要收集能夠充分代表群體特征的語料,因此在語料庫建立階段應充分考慮文獻所代表總體的共性與個性。同時在基于語料獲取便利性,筆者收集了北方工業(yè)大學2018 屆及2019 屆經(jīng)濟管理、法律、計算機與機械工程4 個專業(yè)的部分碩士研究生的畢業(yè)論文作為語料來源。由于該研究僅針對漢語,所以對論文語料進行分詞(分詞采用R 語言中jiebaR 程序包,版本號0.11,用戶詞典采用搜狗輸入法中與研究專業(yè)相關的詞庫。)后去掉了標點與非漢字符號,按不同專業(yè)組成語料庫,每個語料庫詞例(token)數(shù)約84.3 萬左右,詞型(type)數(shù)排序為法律(26 838)、經(jīng)管(24 108)、機械(22 438)和計算機(18 069)。

      通過zipfR (計算使用的程序包版本號為0.6-66,擬合效果按默認設置最好,因此該研究均采用默認參數(shù)。)可以方便地擬合上述3 種模型,所得χ2與P 值如表1 所示。其中多元卡方檢驗的原假設為實際值與模型期望值間無顯著性差異,顯著性水平為0.05,若P 值大于此值,則接受原假設,表示該模型可以較好地描述總體,且卡方值χ2越小,描述效果越好(見表1)。

      結(jié)果中GIGP 表現(xiàn)最好,即使最小的P 值(0.049)也非常接近0.05,且同一語料的結(jié)果中該模型的χ2最小;fZM 次之,但P 值除計算機類語料外均小于0.05,且χ2大于GIGP;ZM 的表現(xiàn)最差??梢姵鼼IGP 外,ZM 與fZM 的表現(xiàn)并不理想。

      2 擬合結(jié)果分析

      產(chǎn)生兩種模型擬合不佳的兩個可能的因素分別為:模型不遵守LNRE 的球罐模型(urn model)假設和該假設同語言事實不符。

      表1 模型的擬合優(yōu)度與S 近似值

      為證實第一種情況,Baayen 曾提出過基于大規(guī)模語料數(shù)據(jù),對比語料二項式內(nèi)插值(binomial interpolation)與模型內(nèi)插值的方法。每種語料結(jié)果均表現(xiàn)相似,這里僅以經(jīng)管為例,圖1 繪制了兩種內(nèi)插值的頻譜(frequency spectrum)數(shù)據(jù)與詞匯增長曲線(Vocabulary Growth Curves,VGC)。前者的頻譜數(shù),后者包括全體詞匯V 增長曲線(較粗部分)與獨頻詞(hapax legomena)V1 增長曲線(較細部分)兩部分。作者很難從視覺上分辨出二者間差異,之后設置原假設為每種語料中的兩種內(nèi)插值均不存在顯著性差異,通過柯爾莫可洛夫-斯米洛夫檢驗(Kolmogorov—Smirnov test)得出的P 值均接近1,證實了視覺判斷的正確性,說明每種模型都較好地遵守了球罐假設。

      第二種情況的檢驗需將模型的內(nèi)插值與實際數(shù)據(jù)予以對比,圖1 同樣分別繪制了頻譜數(shù)據(jù)與VGC的實際值。相較實際值,模型的期望值確實存在一定程度的偏差。具體表現(xiàn)為在頻譜圖中,3 種模型會產(chǎn)生明顯的高估或低估的現(xiàn)象,其中在m=1 時ZM 的高估最為顯著,而fZM 與GIGP 則表現(xiàn)為低估;當m=2 或3 時,情況正好相反,但實際偏差遠小于在m=1 時ZM 高估所帶來的差值; 隨著m 值的逐漸增大,偏差逐漸減小,但這種現(xiàn)象仍然存在。在VGC中,模型高估現(xiàn)象較為明顯,二項式內(nèi)插值同三種模型內(nèi)插值的中前段基本重合,但ZM 在語料大小N的整個增長過程中均保持對V 和V1 的高估,而其他曲線則在語料鄰近結(jié)束時基本保持了同實際值的一致。通過以上分析可以認為球罐模型在描述語言事實方面確實需要進一步改善,但fZM 與GIGP 可以較為準確地反映實際詞匯的增長趨勢,且與頻譜變化差別較小,因此可以作為語言總體大小大致或趨勢估計的主要依據(jù)。ZM 擬合結(jié)果較差的原因應該源自其總體無限大的模型假設,這是同語言事實不符的,因此不予采用。

      圖1 經(jīng)管語料的頻譜圖與VGC

      表1 中同樣展示了fZM 與GIGP 模型預測的不同語料總體近似值S。由于Baayen 認為內(nèi)插階段的高估會引起外推階段的低估,且這一看法在其他文獻中均得到證實[9-13],所以該值也僅為總體實際規(guī)模的下限。因此可以通過對比S 值同VGC 中V 與V1來評價各語言群體的詞匯量下限和詞匯豐富度。由此可知各語言群體在論文撰寫過程中,經(jīng)管類畢業(yè)生的漢語詞匯量下限最高,其次為法律、機械和計算機,其中非工科畢業(yè)生同工科生之間的差距較大,但工科專業(yè)間的差距較小。

      fZM 與GIGP 在內(nèi)插階段幾乎重合,因此圖2 僅提取了圖1 中各類V 與V1 的VGC 實際值與fZM內(nèi)插值,二者基本保持增長趨勢的一致。結(jié)合頻譜圖中的低頻數(shù)據(jù)實際值可以認為在現(xiàn)有語料中,法律專業(yè)學生的漢語詞匯豐富度最高,之后依次為經(jīng)管、機械與計算機。在詞匯使用上,現(xiàn)有模型較為準確地預測了工科畢業(yè)生低于非工科生的情況,但最終預測的漢語總體詞匯量卻不完全與語料中詞匯豐富情況吻合,如VGC 實際值與內(nèi)插值均存在法律類高于經(jīng)濟類的情況,但表1 中S 值卻正好相反,因此可以預期在未收集到的語料中后者的詞匯增長率更高;兩類工科論文的VGC 中V 的實際值或內(nèi)插值之間差距大于模型預測的S 差值,因此在未收集的語料中同樣存在詞匯增長率有較大變化的可能性。

      圖2 V 與V1 的VGC 實際值與fZM 內(nèi)插值

      雖然現(xiàn)有模型仍有可改善空間,但仍可得出結(jié)論:通過模型預測和語料事實,非工科研究生的詞匯量與詞匯豐富程度確實高于工科生,這體現(xiàn)了不同專業(yè)碩士研究生群體的語言能力。論文寫作是論文撰寫者在著重使用產(chǎn)出性學術詞匯開展的語言行為,不同專業(yè)領域的學術詞匯量固然存在差異,但其并不能作為實際語言能力高低的判別標準[14]。產(chǎn)生的可能源自不同專業(yè)學生在撰寫論文過程中,同其他領域結(jié)合時對非該專業(yè)詞匯的引入程度差異。雖詞匯的豐富性在研究生培養(yǎng)與論文撰寫上常被忽視,但相關培養(yǎng)單位或?qū)熑缒茉诖T士生培養(yǎng)、選題與論文撰寫方面多關注該專業(yè)同其他相關學科與領域的結(jié)合和應用,為學生帶來的好處恐怕不僅是語言能力的提升。

      3 不足與展望

      該研究雖完成了對語料的擬合與內(nèi)插分析,但以上結(jié)論僅基于fZM 與GIGP 模型擬合結(jié)果展開,內(nèi)插曲線的高估現(xiàn)象使得可信度仍有可以討論的余地,且不同專業(yè)學生的詞匯量同VGC 之間也存在部分需進一步解釋之處。為解決這些問題需要通過外推等技術開展進一步研究,但由于外推過程可能存在低估現(xiàn)象,所以需要將探索高估的成因放在首位。對模型的評價也僅局限于擬合優(yōu)度,存在較大過擬合風險,缺乏更為豐富和全面的評價手段與改善擬合結(jié)果的解決方案。所用語料類型較為單一,缺乏通過多類型語料考察模型的適用性、開展非同質(zhì)性研究的過程。另外Baayen 最初的分析基本只集中于部分歐洲語言,該論文限于篇幅所限并未展示其結(jié)論在漢語中的適用性。這些都是該研究的不足之處。在后續(xù)研究中,筆者認為應將精力主要集中在模型外推與模型內(nèi)插階段高估原因探索兩個方面。針對前者除了采用更為適合的評價手段外,應充分利用交叉驗證之類的技術,通過訓練語料與測試語料選擇適當?shù)哪P?,避免過擬合風險;對于后者,應專門針對句法與詞匯層面分別展開分析,更應將關注點放在語料庫建立或所用模型的改善上; 另外展示并分析傳統(tǒng)測量詞匯豐富度方法在漢語中的情況也應考慮在內(nèi)。

      4 結(jié)語

      該文首先介紹了該研究的意義與所用語料的詳細情況,之后使用3 種LNRE 模型對所用語料進行了擬合。通過對擬合結(jié)果的分析得出結(jié)論:GIGP 和fZM 模型優(yōu)于ZM 模型,可以認為經(jīng)管和法律專業(yè)學生在論文撰寫階段所用的漢語詞匯量與詞匯豐富度最高,機械與計算機專業(yè)較低,并在分析原因后給出了建議。最后該文分析了研究的不足之處與后續(xù)方向,為下一步的研究指明了努力方向。

      猜你喜歡
      詞匯量插值語料
      用詞類活用法擴充詞匯量
      基于Sinc插值與相關譜的縱橫波速度比掃描方法
      Receptive and Productive Vocabulary in Language Teaching
      基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
      一種改進FFT多譜線插值諧波分析方法
      基于四項最低旁瓣Nuttall窗的插值FFT諧波分析
      華語電影作為真實語料在翻譯教學中的應用
      《苗防備覽》中的湘西語料
      詞匯量測試對語言水平的預測性的實證研究
      國內(nèi)外語用學實證研究比較:語料類型與收集方法
      平山县| 锡林郭勒盟| 微山县| 丹巴县| 五莲县| 灵寿县| 鄂尔多斯市| 格尔木市| 喀什市| 浦城县| 板桥市| 赤峰市| 通榆县| 祁东县| 岱山县| 闻喜县| 正安县| 五大连池市| 彰武县| 虹口区| 萝北县| 大庆市| 中江县| 自贡市| 青神县| 牙克石市| 正阳县| 旬阳县| 天津市| 千阳县| 罗定市| 辛集市| 常州市| 天水市| 武陟县| 大冶市| 乳山市| 繁峙县| 宣武区| 马鞍山市| 高碑店市|