• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于語料庫方法的“Friends”腳本詞塊研究

      2010-09-20 07:57:54
      河北職業(yè)教育 2010年7期

      王 穎

      (深圳信息職業(yè)技術(shù)學(xué)院,廣東 深圳 518029)

      “語料庫是按照一定的語言學(xué)原則,運用隨機抽樣方法,收集自然出現(xiàn)的連續(xù)的語言運用文本或話語片斷而建成的具有一定容量的大型電子文本庫”。[1]語料庫現(xiàn)已成為語言學(xué)實證研究的一個重要手段。語料庫的研究方法有:生成單詞表、多項檢索、設(shè)置語境詞檢索、正則檢索、詞項重組、提取關(guān)鍵詞表、通過搭配(Collocation)選項觀察詞語的搭配情況、近義詞辨析等。

      詞塊稱作“語塊”、“程式化語言”、“詞匯短語”、它是指一個具有一定結(jié)構(gòu),表達(dá)一定意義的預(yù)制的多詞單位,它以整體形式被記憶儲存,并在即時交際時被整體提取,而不需要使用語法規(guī)則來加工分析。我們可以認(rèn)為詞塊為“在語料庫中頻繁出現(xiàn)的不同長度的連續(xù)詞語片段。”[2]根據(jù)文獻(xiàn)[3]的結(jié)論“語塊個數(shù)、語塊運用頻度與二語口語流利性之間存在著相關(guān)性,也就是說,語塊個數(shù)越多、語塊使用頻度越高,口語表達(dá)越流利。”所以要培養(yǎng)學(xué)生以詞塊為基本單位記憶和使用詞匯的習(xí)慣。語言尤其是口語不應(yīng)該只學(xué)習(xí)單詞,而是學(xué)習(xí)預(yù)制結(jié)構(gòu),這樣會加快學(xué)習(xí)過程并且增強口語的流利性。[1]

      一、研究目的、方法

      為了提高學(xué)生習(xí)得的詞塊個數(shù)和口語流利程度,本文嘗試運用AntConc免費綠色軟件和COCA美國當(dāng)代英語語料庫作為研究工具,結(jié)合風(fēng)靡美國多年的長篇情景喜劇《老友記》(“Friends”)腳本語料庫中的詞塊從以下三個方面進(jìn)行研究:高頻詞塊的提取、提取語境共現(xiàn)(Concordance)發(fā)現(xiàn)單詞的普遍用法、提取搭配詞表發(fā)現(xiàn)詞塊的搭配信息。

      AntConc是日本早稻田大學(xué)Laurence Anthony博士實驗室研發(fā)的多平臺的語料庫分析工具。AntConc可以免費下載使用并具有良好的語言教學(xué)輔助功能:生成單詞表、索引呈現(xiàn)(Concordance)、檢索詞或詞組在上下文中高亮顯示、設(shè)定關(guān)鍵詞左右語境、檢索結(jié)果的打印和存儲等。

      COCA(corpus of contemporary American English)—美國當(dāng)代英語語料庫(http://www.americancorpus.org/)由美國楊伯翰大學(xué)Mark Davies 教授開發(fā),該語料庫庫容量目前為4億多詞匯,涵蓋美國1990~2009年的口語、小說、流行雜志、報紙和學(xué)術(shù)期刊五大類型的語料,該語料庫免費在線供研究者和學(xué)習(xí)者使用。

      二、詞塊研究

      1.提取高頻詞塊(n-gram)

      詞塊的頻數(shù)高低反映詞塊在真實語言材料中的使用情況,詞塊的頻數(shù)信息也可以使學(xué)生初步掌握詞塊,并了解詞塊的難易程度,AntConc軟件中的ngram功能可以提取高頻詞塊。n-gram是由n個連續(xù)單詞組成的序列,一個、兩個、三個詞組成的元組分別叫uni-gram,bi-gram,tri-gram等。需要強調(diào)的是,由于計算機只是機械地切分統(tǒng)計詞塊的頻數(shù),所以對于計算機生成的詞塊表,一定要進(jìn)行后期的意義分析,把生成詞塊表中沒有意義的詞塊或者與研究主題不相關(guān)的詞塊去除。本文以二元詞塊和四元詞塊為例?!癋riends”腳本語料庫的二元詞塊經(jīng)過處理后的檢索結(jié)果如下:

      表1 “Friends”腳本語料庫的二元詞塊

      本文以“kind of”為例:“kind of”在“Friends”腳本語料庫中總共出現(xiàn)292次,在292個索引行中去除表示類別(type)的意思后,剩下的153個索引行經(jīng)過觀察分析是模糊用語(hedge),部分索引行如下:

      表2 “kind of”作為模糊用語的索引行

      我們發(fā)現(xiàn)模糊用語的發(fā)言者通常都語氣含糊,對所說的話不肯定或者負(fù)責(zé)任的程度較低。模糊標(biāo)簽語的功能主要是語用的,它給聽話者提供了解讀話語的方向和框架范圍。由于實時話語的壓力和對客觀世界知識的局限,許多信息不可能準(zhǔn)確地表達(dá),而為了保險起見或出于禮貌的考慮,說話者會故意不準(zhǔn)確地表達(dá)信息。這些動因?qū)е铝四:龢?biāo)簽語在本族語話語中的大量使用。表面上話語似乎顯得空洞無物,但極為自然和適切,體現(xiàn)合作與禮貌原則等。[2]模糊語言的使用在英語教學(xué)過程中并未引起重視,所以可以將關(guān)于“kind of”的索引行向?qū)W生展示并截取相應(yīng)的視頻供學(xué)生欣賞并反復(fù)操練,改正學(xué)生的話語具有書面用語的特征并且缺乏口語交際的語用品質(zhì),使得學(xué)生的話語能夠做到交互性、合作性、禮貌性、適切性等品質(zhì)?!癋riends”腳本語料庫的四元詞塊的檢索結(jié)果如下:

      表3 “Friends”腳本語料庫的四元詞塊

      本文以“I can’t believe”為例:“I can’t believe”總共出現(xiàn)了335次,以下是部分索引行的展示:

      表4 “I can’t believe”部分索引行

      根據(jù)對索引行的分析,“I can’t believe”通常后面都跟人稱代詞,表達(dá)對問題的看法,通常是一些憤怒、驚訝和質(zhì)疑的態(tài)度。(I can’t believe(epistemic)+(you,it,they)personal involvement,emphatically,indignation,emotional and emphatic)。它可以被認(rèn)為是一個組織性詞塊,是一種完全預(yù)制或部分預(yù)制單位。預(yù)制詞塊就像單詞一樣作為不可分的組塊儲存在大腦詞庫中,很容易自動檢索。所以,這樣的一些預(yù)制詞塊給學(xué)生提供在缺乏豐富的語言資源時自我表達(dá)的可能性,學(xué)生無需知道其內(nèi)部結(jié)構(gòu)就可以流利地表達(dá),在交際時可以整體快速提取使用,大大減輕大腦的語言編碼壓力,極大地提高語言的流利性。同時,詞塊大都是按照一定的語法規(guī)則生成的語言單位,可以保證語言使用的正確性。

      2.提取語境共現(xiàn)(Concordance)發(fā)現(xiàn)單詞的普遍用法

      本文運用AntConc軟件的語境共現(xiàn)(Concordance)中的KWIC顯示格式(關(guān)鍵詞居中對齊顯示)查看檢索結(jié)果,檢索結(jié)果可以保存為text文件。

      本文以attracted為例觀察到“attracted”20個例子中有18個是“be attracted to”的用法?;バ畔I值(Mutual Information)是對隨機的兩個詞相關(guān)性的度量,也就是要查詢的詞和可能性搭配詞在所有語料庫中的共現(xiàn)搭配比重(百分比),根據(jù)互信息MI值衡量的是詞語搭配的力度,觀察MI值很容易發(fā)現(xiàn)語料庫中的專有名詞、科技術(shù)語、特殊詞組和固定搭配,并且語料庫的整體容量對MI值的影響并不是很大。一般認(rèn)為當(dāng)MI>=3.0時,搭配呈現(xiàn)出顯著性?!癮ttracted”在“Friends”腳本語料庫中搭配詞的MI值如下:

      表5 “attracted”在“Friends”腳本語料庫中搭配詞的MI值

      綜合分析頻數(shù)和MI值,我們發(fā)現(xiàn)“be attracted to”是“attracted”的普遍用法,那么該數(shù)據(jù)是否只是在“Friends”腳本中的個案體現(xiàn)呢?我們在COCA口語語料庫中同樣輸入“attracted”并且把結(jié)果按照相關(guān)度排列(Relevance),它能過濾掉高頻搭配的噪音詞(empty words),并給出與所查詢的詞關(guān)系最為緊密的搭配詞,查詢結(jié)果按所查詢的詞的互信息(MI)值的高低排列。本文僅展示部分?jǐn)?shù)據(jù):

      表6 “attracted”在COCA口語語料庫中搭配詞的MI值

      表頭的英文說明如下:“CONTEXT”是上下文限定,也就是“attracted”的搭配詞;“TOT”表示詞塊出現(xiàn)的總數(shù);“ALL”表示所查到的與attracted搭配的詞在整個語料庫中出現(xiàn)的總數(shù)。檢索出現(xiàn)的495個“attracted to”的組成部分又是那些呢?首先我們輸入“[be]attracted to ”

      表7 “[be]attracted to”在COCA口語語料庫中的頻數(shù)

      然后我們再輸入“[be]* attracted to”

      表8 “[be]* attracted to”在COCA口語語料庫中的頻數(shù)

      總結(jié)表7和表8中的數(shù)據(jù):“be attracted to”出現(xiàn)的總次數(shù)超過400次,所以綜合運用AntConc軟件和COCA語料庫,我們證實“be attracted to”是“attracted”的普遍用法。

      3.提取搭配詞表發(fā)現(xiàn)詞塊的搭配信息

      本文運用AntConc的搭配(Collocation)功能,觀察要進(jìn)行搭配研究的節(jié)點詞(nod),將跨度(span)定義為節(jié)點兩側(cè)與其相關(guān)的詞語數(shù)量,在跨度范圍內(nèi)的詞項為搭配詞(collocate)。辛克萊教授一直在尋找搭配跨度的最佳設(shè)置,他提出:“搭配是兩個詞同時出現(xiàn),而中間間隔不超過四個單詞。這是橫組合方向最簡單、最明顯的關(guān)系?!彼?jīng)過十三年的研究實踐的檢驗,認(rèn)為4:4的詞匯跨度是最合理的設(shè)置。故此,本文把搭配跨度設(shè)置為4:4,以下是”odds”在“Friends”腳本語料庫中的搭配信息:

      表9 “odds”在“Friends”腳本語料庫中搭配詞的MI值

      所以發(fā)現(xiàn)最常見的搭配詞是:the,are,what等,這些搭配詞構(gòu)成了“what are the odds”詞塊,那么 “what are the odds”是不是odds的惟一搭配呢?參考美國COCA口語語料庫的odds的搭配詞及其MI值數(shù)據(jù)如下:

      表10 “odds”在COCA口語語料庫中搭配詞的MI值

      表10顯示against是與odds最常見的搭配,相關(guān)的搭配詞塊行如下:

      表11 “against*odds”在COCA口語語料庫中出現(xiàn)次數(shù)

      通過分析以上數(shù)據(jù),我們對“odds”的詞語搭配情況有了全面的了解。詞語搭配分析對研究詞語行為具有重要的意義,因為,“詞語像人類一樣喜歡聚集”,一個詞的出現(xiàn)往往預(yù)示或決定其他詞的出現(xiàn)。所以,研究詞語與詞語搭配在句法學(xué)、語義學(xué)以及語用學(xué)研究中具有重要價值。在外語學(xué)習(xí)中,學(xué)習(xí)者并不是孤立地學(xué)習(xí)單個的詞匯,而是成組成塊地學(xué)習(xí)和運用。[4]

      三、結(jié)束語

      本文綜合利用AntConc軟件和COCA口語語料庫對“Friends”腳本語料庫進(jìn)行某些詞塊的定量分析,以期在口語教學(xué)中引入自然真實的語料并找到一些普遍用法促進(jìn)英語詞匯教學(xué)。目前,在校生包括很多英語教師都沒有在英語國家口語交際的實戰(zhàn)經(jīng)驗,口語語料庫的詞塊學(xué)習(xí)可以彌補這個缺憾。詞塊的熟練掌握使學(xué)生節(jié)省編碼時間、緩解交際的實時壓力、增加語言范例、提高口語流利性等。所以,我們應(yīng)重視詞塊的研究和教學(xué),培養(yǎng)學(xué)生理解和運用詞塊的能力,掌握詞塊學(xué)習(xí)這一提高英語口語交際的重要學(xué)習(xí)策略。

      [1]楊惠中.語料庫語言學(xué)導(dǎo)論[M].上海:上海外語教育出版社,2002:33.

      [2]衛(wèi)乃興.中國學(xué)生英語口語的短語學(xué)特征研究—COLSEC語料庫的詞塊證據(jù)分析[J].現(xiàn)代外語,2007,(8):289,281.

      [3]原萍.語塊與二語口語流利性的相關(guān)性研究[J].外語界,2010,(1):61.

      [4]李文中.語料庫索引在外語教學(xué)中的應(yīng)用[J].解放軍外國語學(xué)院學(xué)報,2001,(3):22.

      襄城县| 恩施市| 乐昌市| 隆林| 章丘市| 莆田市| 武宁县| 九江县| 克什克腾旗| 武强县| 和龙市| 龙井市| 奉节县| 缙云县| 清远市| 铜川市| 无棣县| 重庆市| 紫云| 安仁县| 舞阳县| 根河市| 阜阳市| 长岛县| 新民市| 卢龙县| 贵港市| 两当县| 中方县| 襄汾县| 大邑县| 康乐县| 沾益县| 河西区| 崇左市| 桐庐县| 罗定市| 武乡县| 哈密市| 同心县| 兴业县|