• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      Perl & R在語料庫(kù)語言學(xué)中的應(yīng)用

      2018-02-01 10:48:49劉磊朱敏
      軟件導(dǎo)刊 2018年1期
      關(guān)鍵詞:語料語言學(xué)語料庫(kù)

      劉磊+朱敏

      摘要:

      語料庫(kù)語言學(xué)需要從大規(guī)模文本提取語言特征,通過量化分析研究語言規(guī)律?,F(xiàn)有語料庫(kù)工具過于注重索引和檢索功能,無法開展涉及復(fù)雜統(tǒng)計(jì)的多因素分析。通過3個(gè)基于語料庫(kù)的研究實(shí)例,探討編程語言Perl和R在研究方法層面的應(yīng)用。結(jié)果表明,Perl和R能夠處理大規(guī)模文本,進(jìn)行多變量統(tǒng)計(jì)與可視化分析,可以彌補(bǔ)現(xiàn)有語料庫(kù)軟件的不足,幫助研究者分析數(shù)據(jù)與驗(yàn)證假設(shè),為后續(xù)定性研究奠定基礎(chǔ)。

      關(guān)鍵詞:

      語料庫(kù)語言學(xué);語料庫(kù)工具;Perl;R

      DOIDOI:10.11907/rjdk.172822

      中圖分類號(hào):TP312

      文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào)文章編號(hào):16727800(2018)001005303

      Abstract:Corpus linguistics aims to find language patterns based on linguistic features extracted from largescale texts. However, current corpus tools are dedicated to developing concordance and search functions while lack of functions to perform multivariate statistical analysis. This paper illustrates with three case studies how programming languages such as Perl & R can be used in corpusbased linguistic studies. It is found that Perl can extract linguistic features from texts and organize them in formats that are amenable to statistical analysis in R. When combined, these two kinds of software can help researchers explore the linguistic data and validate search hypothesis in a more flexible way and complement the functions of readymade corpus tools.

      Key Words:corpus linguistics; corpus tools; Perl; R

      0引言

      基于語料庫(kù)的語言學(xué)研究需要借助工具處理大量文本文件,提取其中的語言特征進(jìn)行統(tǒng)計(jì)分析。目前,語料庫(kù)工具已由第一代單機(jī)版進(jìn)化到第四代網(wǎng)絡(luò)版,界面更加友好,運(yùn)行速度更快,可以幫助研究者開展基于詞表、搭配和主題詞等功能的研究[12]。但現(xiàn)有工具過于注重檢索和索引功能,無法處理涉及復(fù)雜數(shù)據(jù)的多變量統(tǒng)計(jì)問題,研究者仍需編寫程序滿足特定的研究需求。本文探討如何用編程語言Perl和R解決現(xiàn)有工具面臨的技術(shù)問題,幫助研究者開展基于語料庫(kù)的量化實(shí)證研究。

      1Perl & R簡(jiǎn)介

      Perl的模式匹配功能強(qiáng)大,擅長(zhǎng)從大規(guī)模語料中提取各種詞匯和語法特征[3];R支持描述性、推論性和探索性統(tǒng)計(jì)以及數(shù)據(jù)可視化分析,在基于用法的語言學(xué)(usagebased linguistics)研究中應(yīng)用廣泛[4]。使用Perl & R開展量化研究涉及以下3個(gè)步驟:①建立子語料庫(kù)。語料庫(kù)通常包括豐富的元信息,如國(guó)別、區(qū)域、年代和文本類型等。Perl可以根據(jù)元信息從大型通用語料庫(kù)提取文本,構(gòu)建面向特定研究問題的子語料庫(kù);②檢索語言特征。Perl可以從經(jīng)過詞性或句法標(biāo)注的語料中提取詞匯語法特征,構(gòu)建特征矩陣;③進(jìn)行統(tǒng)計(jì)分析。用R處理步驟②得到的矩陣,分析特征變量間的關(guān)系,并以可視化方式呈現(xiàn)結(jié)果。

      本文通過3個(gè)案例說明如何結(jié)合Perl和R開展基于語料庫(kù)的語言學(xué)研究。

      2案例分析

      2.1短語框架

      在語料庫(kù)語言學(xué)中,短語框架是指由兩個(gè)以上詞語構(gòu)成,反復(fù)出現(xiàn)的連續(xù)或非連續(xù)詞語組合[5]。Sinclair[6]將語言中的短語化傾向稱為習(xí)語原則,是意義研究的基本單位。短語并不是完全固定的,在具體語境中,其內(nèi)部會(huì)產(chǎn)生變化,例如4詞短語框架“as * as the”中的 “*” 可由不同單詞替換,如“as well as the”、“as far as the”和“as soon as the”等。

      本案例考察BNC語料庫(kù)國(guó)際事務(wù)類文本中3~6詞短語框架的分布情況,只考慮框架內(nèi)部的位置變化,一個(gè)n詞短語框架包含n-2種類型,例如5詞短語框架包括以下3種類型:A * C D E、A B * D E和A B C * E。具體研究步驟如下:①?gòu)腂NC語料庫(kù)選取有關(guān)世界事務(wù)的文本61篇,共2 325 465詞;②提取子語料庫(kù)中的連續(xù)n詞序列,統(tǒng)計(jì)其頻率和覆蓋率。有些序列的頻率雖高但覆蓋率低,如“the labour league of youth”共出現(xiàn)18次,但只出現(xiàn)在1個(gè)文本中。本研究關(guān)注反映語體一般屬性的n詞序列,將覆蓋率的值設(shè)定為大于等于5,排除類似上例話題性較強(qiáng)的專有名詞;③從連續(xù)多詞序列中提取多詞短語框架,統(tǒng)計(jì)其形符和類符頻率以及各框架槽位中的詞匯分布。

      如表1所示,短語框架的類符數(shù)差異較大,如“in the * of the”的種類最多,而“by * end of the”只有一種類型“by the end of the”。進(jìn)一步分析后發(fā)現(xiàn),“in the * of the”槽位中的詞匯類型可分為以下3類:事件內(nèi)容(如“in the hands of the”)、事件時(shí)間或地點(diǎn)(如“in the middle of the”、“in the center of the”)和事件敘述方式(如“in the case of the”)。本案例的統(tǒng)計(jì)數(shù)據(jù)只反映了短語框架的總體分布趨勢(shì),研究者還需借助索引行觀察短語的具體語境,分析其意義和功能。endprint

      2.2語體變異

      語體變異源于變異社會(huì)語言學(xué),指語言隨時(shí)間、地域、場(chǎng)合以及使用者年齡、性別和社會(huì)階層不同而變化的現(xiàn)象。本案例研究英語情態(tài)動(dòng)詞“can”的后續(xù)實(shí)義動(dòng)詞語態(tài)在小說、新聞、通用和學(xué)術(shù)語體中的變化趨勢(shì),所用語料來自CRWON和CLOB語料庫(kù),共2 029 895詞。本研究用Perl提取與“can”共現(xiàn)的實(shí)義動(dòng)詞,然后使用R的對(duì)數(shù)線性模型分析動(dòng)詞語態(tài)在各語體中的分布是否存在顯著差異,得到表2所示的統(tǒng)計(jì)結(jié)果。

      由表2可知,“can + 動(dòng)詞”結(jié)構(gòu)的語態(tài)(Voice)與文本類型(Genre)顯著相關(guān)。具體來說,與小說相比,新聞、通用和學(xué)術(shù)文體中動(dòng)詞被動(dòng)與主動(dòng)語氣的比值分別上升了3.8、5.3和12.6倍,計(jì)算方法如式(1)所示。其中OD為比值比(odds ratio),本例中代表各語體被動(dòng)與主動(dòng)語氣的比值,e≈2.718,estimate為表2 參數(shù)估計(jì)列的值[7]。

      小說文本常用“can+主動(dòng)語氣”表明說話人的意愿,如“I know that I dont look old enough to handle this job but I assure you I can do it”;而學(xué)術(shù)文體在用can表達(dá)某一命題的可能性時(shí),經(jīng)常要隱藏事件的實(shí)施者,減少個(gè)人觀點(diǎn)的表達(dá),如“The actant analysis is a device that can theoretically be used to analyse any real or thematised action”。本案例說明除了對(duì)比不同語料間的詞頻差異外,語料庫(kù)語言學(xué)研究還可擴(kuò)展到語法層面,利用Perl和R提取語法結(jié)構(gòu),分析詞匯與語法間的相互關(guān)系。

      2.3詞匯語義

      基于語料庫(kù)的詞匯語義研究與搭配密切相關(guān),與中心詞共現(xiàn)的搭配詞可以反映該詞的語義特征,出現(xiàn)在相似語境的詞匯意義也相似[8]。表3說明了如何利用搭配詞分析中心詞“apricot”、“pineapple”、“digital”和“information”之間的語義關(guān)系,表中數(shù)字代表中心詞與搭配詞的共現(xiàn)頻率,用于構(gòu)建描述詞匯的特征向量[9],如f apricot = [01001101],f digital = [00111010]。

      得到特征向量后,可根據(jù)式(2)計(jì)算向量間的歐幾里德距離,建立詞匯距離矩陣,然后使用聚類算法分析詞匯的意義聯(lián)系,從定量的角度驗(yàn)證人們對(duì)語言的直覺認(rèn)識(shí)。

      本案例聚焦程度副詞“fairly”、“fucking”、“pretty”、“really”、“so”和“very”之間的語義關(guān)系。研究數(shù)據(jù)從BNC口語語料選取,共153篇,4 219 309詞。具體步驟如下:從語料提取上述6個(gè)強(qiáng)調(diào)詞所修飾的形容詞,然后按表3格式輸出搭配詞的種類和頻數(shù),最后用R進(jìn)行聚類分析。結(jié)果如圖1所示,其中縱軸為詞匯間的語義距離,如“very”與“really”之間距離最小,語義最接近。

      圖1強(qiáng)調(diào)詞聚類

      進(jìn)一步觀察發(fā)現(xiàn),“very”和“really”的高頻搭配詞都是“good”和“nice”,兩者合計(jì)占到各自搭配詞總數(shù)的29.6%和27.6%;低頻搭配詞如“small”和“expensive”的比例也相似,均為0.1%左右,因此兩者語義關(guān)系最近。另外,“so”的常見搭配是“funny”(6.5%)和“bad”(5.5%);“fairly”的高頻搭配是“easy”(5.5%)和“good”(4.8%),雖然被歸為一類,但由于距離較大,兩者意義還是相差較遠(yuǎn)。聚類分析為研究詞匯語義關(guān)系提供了新的視角,但也有其局限性。如“fucking”和“pretty”兩詞因?yàn)榇钆湓~相似,在層級(jí)圖上距離接近,但兩詞的使用可能與使用者性別有關(guān),需要考慮更多變量加以區(qū)分。

      3結(jié)語

      從以上案例可以看出,Perl可以快速?gòu)拇笠?guī)模語料提取各種語言特征及其頻率,構(gòu)建詞-詞或詞-文本共現(xiàn)矩陣,R擅長(zhǎng)矩陣處理和統(tǒng)計(jì)分析。兩者結(jié)合可以幫助研究者分析數(shù)據(jù),初步形成研究假設(shè),為后續(xù)定性研究奠定基礎(chǔ)。需要注意的是,工具是研究的“利器”,但研究者還需學(xué)習(xí)語言學(xué)理論,專注語言層面的分析,擴(kuò)展研究思路和視角。

      參考文獻(xiàn):

      [1]梁茂成.梁茂成談?wù)Z料庫(kù)語言學(xué)與計(jì)算機(jī)技術(shù)[J].語料庫(kù)語言學(xué),2015(2):1525.

      [2]許家金,吳良平.基于網(wǎng)絡(luò)的第四代語料庫(kù)分析工具CQPWeb及應(yīng)用實(shí)例[J].外語電化教學(xué),2014(5):1015.

      [3]NUGUES P M. Language processing with perl and prolog,second edition[M].Berlin:Springer,2014.

      [4]LEVSHINA N. How to do linguistics with R[M].Amsterdam:John Benjamins,2015.

      [5]RMER U. Establishing the phraseological profile of a text type:the construction of meaning in academic book reviews[J]. English Text Construction,2010,3(1):95119.

      [6]SINCLAIR J. Trust the text: language, corpus and discourse[M].London:Routledge,2004.

      [7]AGRESTI A. An introduction to categorical data analysis,second edition[M].Hoboken,NJ:Wiley,2007.

      [8]梁茂成.語料庫(kù)語言學(xué)研究的兩種范式:淵源、分析及前景[J].外語教學(xué)與研究,2012,44(3):323335.

      [9]JURAFSKY D,MARTIN J H. Speech and language processing:an introduction to natural language processing[M]. Upper Saddle River,NJ:Prentice Hall,2009.

      (責(zé)任編輯:何麗)endprint

      猜你喜歡
      語料語言學(xué)語料庫(kù)
      《語料庫(kù)翻譯文體學(xué)》評(píng)介
      把課文的優(yōu)美表達(dá)存進(jìn)語料庫(kù)
      基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
      認(rèn)知語言學(xué)與對(duì)外漢語教學(xué)
      華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
      基于JAVAEE的維吾爾中介語語料庫(kù)開發(fā)與實(shí)現(xiàn)
      語言與翻譯(2015年4期)2015-07-18 11:07:45
      《苗防備覽》中的湘西語料
      國(guó)內(nèi)外語用學(xué)實(shí)證研究比較:語料類型與收集方法
      語言學(xué)與修辭學(xué):關(guān)聯(lián)與互動(dòng)
      語料庫(kù)語言學(xué)未來發(fā)展趨勢(shì)
      西城区| 如东县| 平果县| 高陵县| 新龙县| 伊吾县| 普定县| 嘉义县| 秦皇岛市| 肇州县| 滨海县| 泰宁县| 上杭县| 方正县| 嘉荫县| 汪清县| 鸡东县| 渝北区| 竹山县| 潍坊市| 五大连池市| 唐河县| 临海市| 吉林省| 文安县| 西青区| 越西县| 荃湾区| 咸宁市| 广灵县| 惠水县| 永安市| 合水县| 曲沃县| 红河县| 石泉县| 通州市| 湖南省| 高邑县| 孟州市| 开远市|