• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于語料庫的詞匯和句子層面的宮澤賢治童話文體總體特征分析

      2018-09-18 07:34:38劉超
      世界家苑 2018年9期
      關鍵詞:語料庫詞匯

      劉超

      摘 要:本文將從青空文庫下載的宮澤賢治的80篇童話作為研究對象,處理為“Wordsmith Tools”可識別的形式后得到樣本語料庫,利用“Wordsmith Tools”這一語料庫檢索工具的Wordlist(詞表)功能,通過與參照語料庫——處理過后的“日語書面語均衡語料庫”中的小說類別的文本對比,分析兩者的詞表,從詞匯和句子兩個方面在宏觀上把握宮澤賢治童話文體的總體特征。

      關鍵詞:宮澤賢治童話;語料庫;Wordlist;詞匯;句子;總體特征

      引言

      語料庫在文體上的應用促成了語料庫文體學的誕生,從此文學作品分析有了語料庫的新方法,相對于文學作品的傳統(tǒng)分析方法,語料庫方法因為有了現(xiàn)實數(shù)據(jù)的支撐,結果更加客觀可信。宮澤賢治是家喻戶曉的日本童話作家,本文結合語料庫檢索工具“Wordsmith Tools”,從詞匯和句子兩個方面在宏觀上把握宮澤賢治童話文體的總體特征。

      1.詞匯

      根據(jù)Wordlist的statistics項,樣本語料庫大小為8898172個字符,參照語料庫大小為161404560個字符,樣本語料庫大小比參照語料庫小得多。分析樣本語料庫和參照語料庫各自在類符、形符、類符形符比、標準類符形符比、平均詞長、詞長標準差、2字符以下的詞匯百分比這七個方面的情況,如表1所示。

      単位語を同じ語か異なる語かという基準で整理して得られる語を見出し語と呼び、テキストに含まれているすべての見出し語の數(shù)を異なり語數(shù)と呼び、同じテキスト中に含まれている?yún)g位語の総數(shù)を延べ語數(shù)という。(『語彙の研究と教育(上)』P82)(將單位詞按照是否是同一詞的標準整理得到的詞稱為詞條,文本中所含的所有詞條的數(shù)稱為類符數(shù),同一文本中所含的單位詞的總數(shù)稱為形符數(shù))。類符形符比表明文章的豐富程度,即詞匯密度,該值越大說明詞匯密度越大,使用相同詞匯的比例越低,詞匯種類越豐富。由于兩個語料庫的文本收容能力不同,因此相對于類符形符比,通常用標準類符形符比來計算詞匯密度。平均詞長是文本中詞匯的平均長度,以字符數(shù)為單位,表明文本中所用詞匯的復雜程度。平均詞長越長,表明該文本中使用長詞匯越多。詞長標準差則反映了文本中各詞匯的長度和文本的平均詞長之間的差異,該值越大,表明文本中使用的各詞匯長度存在較大差異。

      具體分析表1中的數(shù)據(jù),樣本語料庫和參照語料庫類符數(shù)分別為10354、72680。樣本語料庫和參照語料庫形符數(shù)分別為339443、8382729??芍?,樣本語料庫文本的詞匯數(shù)比參照語料庫文本的詞匯數(shù)小得多。樣本語料庫和參照語料庫的標準類符形符比分別為31.69、34.34,即參照語料庫文本中的詞匯種類更豐富,文本更充實。關于詞長標準差,樣本語料庫和參照語料庫的詞長標準差分別為0.82、0.87,即樣本語料庫文本中所使用的各詞匯的詞匯長度差異更小。Wordlist中Statistics項的詞匯長度的跨距也可以證明這一點。參照語料庫的詞匯長度跨距為1-14字符,樣本語料庫則為1-11字符。由此可以說明樣本語料庫文本用詞相對而言更加整齊。另外,樣本語料庫2字符以下的詞匯百分比達到了總詞數(shù)的89.12%,由此也可以知道樣本語料庫文本的詞匯多為較短詞匯。

      2.句子

      樣本語料庫和參照語料庫有關平均句長,句長標準差的情況如下表2所示。

      句長在某種程度上能反映句子的復雜程度。樣本語料庫和參照語料庫文本的平均句長分別為34.55、342.61,也就是說,宮澤賢治童話作品的平均句長比參照語料庫文本的平均句長短的多。句長標準差反映了文本中句子的長度和文本平均句長之間的差異,該值越大表明文本各句子間長度差異越大。樣本語料庫和參照語料庫文本的句長標準差分別為2363.38、30580.62,從這兩個數(shù)據(jù)以及平均句長的數(shù)據(jù)可以看出,宮澤賢治童話作品句子間長度差異比參照語料庫中的小的多,因而從整體來看,文本語言顯得更加平穩(wěn)簡潔。

      3.結論

      綜上所述:在用詞方面,宮澤賢治童話并沒有一般小說用詞豐富;宮澤賢治童話中所使用的各詞匯的詞匯長度差異更小,用詞相對而言更加整齊,且所用詞匯多為較短詞匯。在句子方面,宮澤賢治童話作品的平均句長比一般小說的平均句長短的多,句子間長度差異也比一般小說小的多,因而從整體來看,宮澤賢治童話語言顯得更加平穩(wěn)簡潔。

      本文利用語料庫輔助工具“Wordsmith Tools”的詞表功能,從詞匯和句子兩個方面較為淺層地分析了宮澤賢治童話文體的總體特征,今后還要充分利用“Wordsmith Tools”的主題詞和索引功能,從童話自身語言出發(fā),對宮澤賢治童話文體作具體深入的分析。

      參考文獻

      [1]國立國語研究所.語彙の研究と教育(上)[M].昭和59年9月20日 発行

      [2]王立非,梁茂成.Wordsmith方法在外語教學研究中的應用 [J].外語電化教學,2007.

      [3]毛文偉.現(xiàn)代日語書面語均衡語料庫應用研究[J].日語學習與研究,2013年 第2期 總165號

      [4]王璐怡.語料庫文體學:文學語篇分析的新手段 [J].科技創(chuàng)新導報,2014.

      (作者單位:天津工業(yè)大學人文學院)

      猜你喜歡
      語料庫詞匯
      本刊可直接用縮寫的常用詞匯
      一些常用詞匯可直接用縮寫
      《語料庫翻譯文體學》評介
      本刊可直接用縮寫的常用詞匯
      基于語料庫“隱秘”的詞類標注初步探究
      一些常用詞匯可直接用縮寫
      把課文的優(yōu)美表達存進語料庫
      基于JAVAEE的維吾爾中介語語料庫開發(fā)與實現(xiàn)
      語言與翻譯(2015年4期)2015-07-18 11:07:45
      本刊可直接用縮寫的常用詞匯
      本刊一些常用詞匯可直接用縮寫
      禹州市| 浑源县| 屯留县| 康马县| 阿勒泰市| 泽库县| 桦南县| 玉环县| 大关县| 石门县| 聂拉木县| 沽源县| 抚州市| 宁明县| 宁陵县| 晋宁县| 从化市| 敦煌市| 城步| 丰原市| 武夷山市| 南澳县| 辛集市| 武功县| 普安县| 肥西县| 江西省| 香河县| 界首市| 九江市| 永仁县| 普兰县| 清原| 永靖县| 英德市| 包头市| 耒阳市| 淳安县| 禹州市| 石首市| 繁昌县|