• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      《如何用R開展語言學研究:數(shù)據(jù)探索和統(tǒng)計分析》述評*

      2019-03-03 03:51:22燕山大學
      語料庫語言學 2019年1期
      關(guān)鍵詞:構(gòu)式語言學語料庫

      燕山大學 劉 磊

      1.引言

      R是一款免費開源的編程語言,支持描述性和推斷性統(tǒng)計及數(shù)據(jù)可視化,研究者可根據(jù)需求自行編寫和運行腳本程序,具有較大的靈活性。R的統(tǒng)計和繪圖模塊由社區(qū)成員維護,數(shù)量眾多,更新及時,其中不乏專門處理語言數(shù)據(jù)的模塊,如koRpus和languageR等。鑒于上述優(yōu)點,R在語言學的眾多分支領(lǐng)域得到廣泛應(yīng)用(Baayen 2008;Glynn & Fischer 2010;Gries 2013,2017;Mizumoto & Plonsky 2015)。

      《如何用R開展語言學研究:數(shù)據(jù)探索和統(tǒng)計分析》一書介紹了如何用R開展基于用法的語言學(usage-based linguistics)研究,可作為量化實證研究的語言學教材和參考手冊,供語言學研究者使用。

      2.內(nèi)容簡介

      全書分為4個部分,共20章,全面總結(jié)了R在語言學研究中的應(yīng)用。

      第一部分(第1至2章)是后續(xù)章節(jié)的鋪墊。第1章介紹統(tǒng)計學的基本概念,如零假設(shè)、備擇假設(shè)、顯著性水平和臨界值等。作者介紹了定類、定序、定距和定比變量的區(qū)別,指出應(yīng)根據(jù)變量類型選擇合適的統(tǒng)計方法。第2章講解R及其統(tǒng)計模塊的安裝,介紹了R的基本變量類型、運算符和函數(shù)。作者詳述了導(dǎo)入外部數(shù)據(jù)(如Excel、CSV等)的方法,強調(diào)了R對商業(yè)軟件的良好兼容性。

      第二部分(第3至4章)介紹描述性統(tǒng)計。第3章討論如何測量數(shù)值變量的集中和離散趨勢。作者以語料庫詞頻分布和齊夫定律為例,分析了偏態(tài)分布的特點,并使用R的對數(shù)函數(shù)演示了偏態(tài)和正態(tài)分布的相互轉(zhuǎn)換。第4章探討分類變量的描述性統(tǒng)計。作者首先介紹變量的3種可視化方法:餅狀圖、條形圖和圓點圖,然后以美國當代英語語料庫(COCA)中的英語基本色彩詞為例,說明如何用觀察頻率、預(yù)期頻率和比例偏差(deviation of proportions)描述變量在不同語域的分布差異。

      第三部分(第5至第14章)從案例入手,分析推論性統(tǒng)計在語料庫語言學、心理語言學和認知語言學中的應(yīng)用。第5章介紹如何檢測兩個樣本均值是否存在顯著性差異。作者指出,首先應(yīng)使用分位圖、直方圖和帶狀圖等可視化方法檢測變量是否呈正態(tài)分布。如果不滿足正態(tài)分布條件,應(yīng)使用非參數(shù)秩和檢驗,而非獨立樣本t檢驗檢測零假設(shè)是否成立。第6章探討如何測量變量間的相關(guān)系數(shù)。本章以皮爾遜相關(guān)系數(shù)為例,指出相關(guān)性測試需滿足3個條件,即變量呈正態(tài)分布、同方差性和殘差無相互關(guān)聯(lián)。當違背上述條件時,可使用斯皮爾曼和肯德爾系數(shù)測量相關(guān)性。最后,作者推薦使用相關(guān)圖(correlogram)直觀展示多變量間的相互關(guān)系。第7章從單變量線性回歸出發(fā),介紹最小二乘法求解變量參數(shù)的過程和模型擬合度的評測方法。作者以心理語言學的詞匯判斷任務(wù)為例,探討了如何使用R構(gòu)建多元回歸模型,重點闡述了前向、后向和雙向篩選法選取最佳變量組合的過程。作者建議,為避免小樣本多變量造成的過擬合現(xiàn)象,可使用自助抽樣法(bootstrap sampling)多次訓(xùn)練和檢測模型,求得最佳參數(shù)值。第8章首先介紹獨立樣本單因素和多因素方差分析的4個條件:1)樣本相互獨立;2)因變量為定距或定比變量;3)樣本呈正態(tài)分布;4)樣本方差相同。當條件3)或4)不成立時,可使用基于自助抽樣法的非參數(shù)檢驗進行方差分析。作者以心理語言學的啟動實驗為例,探討了混合模型多因素方差分析。作者指出,混合模型同時測量變量的固定和隨機效應(yīng),能夠有效排除個體差異對實驗結(jié)果的影響。第9章討論分類變量相關(guān)性檢驗。作者使用列聯(lián)表描述了口語和學術(shù)語篇中介詞over的隱喻和非隱喻用法分布,然后用卡方和費舍爾精確檢驗分析頻率分布是否存在顯著差異。除顯著性p值外,作者建議匯報Cramér's V和φ相關(guān)系數(shù)以評測變量間的關(guān)聯(lián)強度。第10章以俄語雙及物構(gòu)式為例,討論了詞匯-構(gòu)式搭配強度的計算方法。作者對比了費舍爾精確檢驗、對數(shù)似然比、互信息、Z檢驗和t檢驗等21種搭配強度算法后指出,當樣本數(shù)據(jù)較小時,費舍爾精確檢驗的信度高于Z檢驗和t檢驗;而對數(shù)似然比受樣本量影響較小。在匯報研究結(jié)果時,應(yīng)按搭配強度、觀察頻數(shù)和預(yù)期頻數(shù)排列與構(gòu)式相互吸引或排斥的詞素。第11章探討如何用顯著共現(xiàn)詞素分析法研究構(gòu)式搭配。作者分析了美國和英國英語中“quite+形容詞”構(gòu)式與形容詞的搭配強度。結(jié)果發(fā)現(xiàn)在英國英語中,與quite共現(xiàn)的多為量度形容詞(如happy、hard等);而美國英語多使用限制形容詞(如certain、successful等),并呈現(xiàn)積極的語義韻。第12章介紹基于二元邏輯回歸模型的多因素分析研究。本章以荷蘭語致使類助動詞(doen和laten)為因變量,探討致使結(jié)構(gòu)功能、致使動詞及物性和使用者國別等因素如何影響助詞的選擇。使用R構(gòu)建邏輯回歸模型后,作者詳述了模型中各參數(shù)的含義,如截距、參照類(reference level)、對數(shù)發(fā)生比(log odds ratio)和變量交互作用等。第13章以英語使令結(jié)構(gòu)為例,討論基于多元邏輯回歸的多因素分析。作者考察了影響使令結(jié)構(gòu)動詞(allow、let、permit)選擇的4個因素:主語生命度、動詞語氣、語域和使用年代。作者以let為參照類,建立了多個二元回歸模型。結(jié)果發(fā)現(xiàn),let的使用概率隨時間推移逐步升高;allow和permit更傾向與無靈主語共現(xiàn);語域?qū)κ沽顒釉~的影響并不顯著。第14章介紹條件推理樹和隨機森林算法。條件推理樹是一種分類算法,具體步驟如下:1)選擇與因變量相關(guān)性最強的自變量;2)使用該變量將數(shù)據(jù)分裂為兩個子集;3)采用遞歸方法,重復(fù)步驟1)和2)分裂各子集,直到無法找到與因變量顯著相關(guān)的自變量為止。隨機森林是包含多個推理樹的分類器,最終的分類結(jié)果由各推理樹輸出類別的眾數(shù)決定。作者指出,隨機森林算法適用于小樣本多變量并且變量高度相關(guān)的數(shù)據(jù)。

      第四部分(第15至20章)討論如何用探索性統(tǒng)計揭示多變量間的隱含關(guān)系。第15章使用行為概貌法(behavioural profile)研究近義詞匯和構(gòu)式。作者從BNC語料庫選取450例包含9種致使結(jié)構(gòu)的例句,提取與之共現(xiàn)的語法和語義特征及其頻率,構(gòu)建特征向量;然后用蘭氏距離算法計算向量間的距離,使用層次聚類分析變量的語義關(guān)系,并通過平均輪廓寬度確定了最佳聚類數(shù)。第16章為基于向量空間模型的詞匯語義研究。作者從COCA語料庫中選取了10個烹飪類動詞及其搭配詞,構(gòu)建中心詞-搭配詞共現(xiàn)矩陣,用余弦相似度算法構(gòu)建中心詞相似度矩陣,然后用聚類算法分析動詞間的語義關(guān)系,并與人工編纂的語義知識庫WordNet和心理語言學的詞匯相似度實驗相互驗證。作者指出,行為概貌法多采用人工標注分析詞匯和構(gòu)式的共現(xiàn)語境,而向量空間模型一般使用“詞袋”(bag of words)模型自動統(tǒng)計詞匯共現(xiàn)信息,是一種更加激進的數(shù)據(jù)驅(qū)動的研究方法。第17章使用多維尺度變換進行多變量數(shù)據(jù)的可視化分析。本章首先討論了經(jīng)典多維尺度變換,使用歐式距離算法構(gòu)建多個變量間的距離矩陣,然后將矩陣中的多維變量投射到二維或三維平面,以圖形方式顯示變量間的關(guān)系。作者指出,如果數(shù)據(jù)為定序或定類變量,可使用非度量型變換算法,采用高氏距離計算變量距離后再進行降維處理和可視化分析。第18章介紹多維度分析研究。該方法首先從語料中提取各類特征的標準化頻數(shù),然后使用因子分析和主成分分析等統(tǒng)計方法歸并共現(xiàn)頻率較高的語言特征,并據(jù)此分析各語域特有的話語功能。本章以BNC語料庫中的5種語體為例,重點介紹如何用特征值(eigenvalue)和因子負載(factor loading)選擇維度數(shù)量和語言特征,同時討論了在二維平面展示各語體特征的可視化方法。第19章用對應(yīng)分析法研究德語中兩類詞匯范疇Stuhl(chair)和Sessel(armchair)的特征和原型,重點探討了如何用R的繪圖功能顯示多維分類變量間的相關(guān)性,發(fā)現(xiàn)各范疇中的典型特征和示例。第20章用動態(tài)圖(motion chart)研究語言的歷時變化。作者從美國近當代語料庫(COHA)中提取構(gòu)式“be going to+動詞”和“will+動詞”槽位中的動詞頻率,考察了1820—2000年間兩個構(gòu)式的演變過程。作者指出,動態(tài)圖可反映構(gòu)式的整體變化趨勢,也能聚焦具體詞匯的發(fā)展軌跡,幫助研究者發(fā)現(xiàn)新的研究問題。

      3.簡要評價

      本書內(nèi)容廣泛,結(jié)構(gòu)合理。全書介紹了十余種統(tǒng)計方法在語言學中的應(yīng)用,各章銜接緊密,邏輯性強。作者開篇闡述了變量類型和統(tǒng)計方法之間的關(guān)系,為后續(xù)描述性和推斷性統(tǒng)計的討論奠定了基礎(chǔ)。在描述性統(tǒng)計章節(jié)中,除介紹平均數(shù)、中位數(shù)、方差和標準差的基本概念外,重點討論了如何用分位圖(Q-Q plot)和箱線圖(boxplot)檢測變量是否呈正態(tài)分布。第三部分為本書重點,共10個章節(jié),但在前兩部分的鋪墊之下,顯得脈絡(luò)清晰。作者在介紹各類推斷性統(tǒng)計方法時,建議用可視化分析驗證數(shù)據(jù)是否滿足正態(tài)分布假設(shè),若假設(shè)成立選擇參數(shù)檢驗,否則選擇基于自助抽樣的非參數(shù)檢驗。同時,作者強調(diào)除顯著性p值外,研究結(jié)果還應(yīng)匯報效應(yīng)量(effect size),考慮樣本量大小對研究結(jié)果的影響。

      本書內(nèi)容新穎。第10-11章介紹了認知語言學中的構(gòu)式搭配分析法,通過對構(gòu)式槽位中的詞素進行聚類,揭示構(gòu)式的深層意義(Schmid & Küchenhoff 2013)。作者綜合前人研究,用R實現(xiàn)了20余種構(gòu)式搭配強度的計算方法,并公開了腳本程序,為后續(xù)相關(guān)研究提供了便利。第12-13章探索語言學中的多因素分析,使用二元和多元邏輯回歸探討影響近義詞匯或構(gòu)式選擇的潛在因素(Gries 2015;房印杰 2016)。邏輯回歸的自變量和應(yīng)變量均為分類變量,適合挖掘語言特征間的交互作用?,F(xiàn)有語言學統(tǒng)計教材以線性回歸模型為主,鮮有邏輯回歸的介紹,本書彌補了這一不足。第15-16章借鑒了自然語言處理領(lǐng)域的向量空間模型計算詞匯語義相似度,該方法的理論基礎(chǔ)是語言學家Harris(1954)提出的分布假設(shè),即詞匯的意義由其使用語境決定。近年來,基于詞匯向量的研究大幅度提高了計算機語義理解的準確率(Turney & Pantel 2010),為語言學提供了新的研究視角。此外,本書第17-20章討論了語言數(shù)據(jù)的可視化分析,可以幫助研究者發(fā)現(xiàn)多變量間的隱含關(guān)系,形成新的研究假設(shè)。

      本書實踐性強,通過具體案例講解統(tǒng)計方法。這些案例涉及語言研究的各個層面,如頻率效應(yīng)、語體變異、構(gòu)式語法和詞匯語義研究等。作者以語言學理論指導(dǎo),形成研究假設(shè),然后收集數(shù)據(jù),設(shè)計實驗流程和可操作變量,最后用R進行統(tǒng)計檢驗,驗證假設(shè)是否成立。讀者可從配套網(wǎng)站(https://benjamins.com/sites/z.195/)下載本書案例使用的數(shù)據(jù)、R腳本和習題,自行考察是否掌握了各章內(nèi)容。

      需要注意的是,本書案例的數(shù)據(jù)規(guī)模較小,未涉及大規(guī)模語言數(shù)據(jù)的統(tǒng)計分析。計算機處理能力和網(wǎng)絡(luò)技術(shù)的提高為研究者收集數(shù)據(jù)提供了便利,數(shù)據(jù)的規(guī)模日益增長。因此,如何加工和分析大規(guī)模語料是研究者需要解決的問題(梁茂成 2015)。事實上,近年來R社區(qū)也涌現(xiàn)出了一批面向大數(shù)據(jù)處理的模塊,如text2vec(Selivanov 2017)。讀者可以借助這些模塊拓展本書提到的統(tǒng)計算法,探索更具普遍性的語言規(guī)律。

      猜你喜歡
      構(gòu)式語言學語料庫
      《語料庫翻譯文體學》評介
      把課文的優(yōu)美表達存進語料庫
      認知語言學與對外漢語教學
      基于JAVAEE的維吾爾中介語語料庫開發(fā)與實現(xiàn)
      語言與翻譯(2015年4期)2015-07-18 11:07:45
      “XV的(不)是Y”構(gòu)式探微
      語言與翻譯(2014年1期)2014-07-10 13:06:14
      “有一種X叫Y”構(gòu)式的語義認知考察*——從語法構(gòu)式到修辭構(gòu)式的接口探索
      當代修辭學(2012年2期)2012-01-23 06:44:06
      語言學與修辭學:關(guān)聯(lián)與互動
      當代修辭學(2011年2期)2011-01-23 06:39:12
      語料庫語言學未來發(fā)展趨勢
      基于認知語言學的“認知修辭學”——從認知語言學與修辭學的兼容、互補看認知修辭學的可行性
      當代修辭學(2010年1期)2010-01-23 06:35:14
      從語法構(gòu)式到修辭構(gòu)式(下)
      當代修辭學(2010年4期)2010-01-21 02:27:30
      东台市| 南木林县| 阿拉善左旗| 肥乡县| 三亚市| 望奎县| 云安县| 大埔县| 岑巩县| 云安县| 明星| 屯昌县| 台中县| 漯河市| 安新县| 出国| 瑞安市| 奎屯市| 常州市| 吉水县| 甘孜县| 丰原市| 商水县| 安阳县| 靖西县| 安泽县| 西丰县| 萝北县| 礼泉县| 邳州市| 开平市| 扎囊县| 嵊州市| 天柱县| 敦煌市| 辽中县| 上杭县| 大方县| 文水县| 五台县| 淮滨县|