一種基于河南方音的英語語音學(xué)習(xí)系統(tǒng)
李楠
(河南師范大學(xué) 外國語學(xué)院,河南 新鄉(xiāng) 453007)
[摘要]在評價現(xiàn)有的語音學(xué)習(xí)軟件的基礎(chǔ)上,結(jié)合河南英語語音教學(xué)的需求,提出了建立語音學(xué)習(xí)系統(tǒng)的模型與基本方法,并嘗試結(jié)合以河南方音為背景的學(xué)生來形成相應(yīng)診斷,進而提升其英語語音學(xué)習(xí)水平。
[關(guān)鍵詞]方音背景;非本族語的英語語音識別;機助語音學(xué)習(xí)系統(tǒng);二語語音習(xí)得
[基金項目]教育部人文社科項目“基于詞匯坐標的英語語料庫檢索平臺研究”(12YJC740062);教育部人文社科項目“基于語料庫的中國學(xué)習(xí)者英語搭配認知模式研究”(12YJC740088)。
[作者簡介]李楠(1980-),女,河南安陽人,講師,主要從事應(yīng)用語言學(xué)研究。
[中圖分類號]G434
[收稿日期]2015-05-11
一、引言
目前,英語語音的重要性及其在外語教學(xué)中的首要地位已成為每一位英語教師及學(xué)習(xí)者必須承認的現(xiàn)實。英語語音教學(xué)已經(jīng)成為貫穿英語學(xué)習(xí)各個階段的重點。然而,河南省英語語音教學(xué)方面依然存在一些問題。這些問題阻礙了河南省英語教學(xué)質(zhì)量的整體提高,亟待解決。英語教學(xué)資源配置向城市傾斜、農(nóng)村英語教學(xué)的師資素質(zhì)問題及英語學(xué)習(xí)環(huán)境的嚴重缺乏成為阻礙提高英語語音教學(xué)整體質(zhì)量的關(guān)鍵[1,2]。據(jù)河南省次方言區(qū)的調(diào)查顯示,有32.05%的學(xué)生反映自己的單詞的發(fā)音水平較差,26.92%的學(xué)生反映自己對重音的把握能力較差,而只有分別為11.53%和21.79%的學(xué)生認為自己對單詞的發(fā)音和重音的把握基本可以[3]。對此,英語課堂教師及研究者提出了各種解決方案:進行滲透式語音教學(xué);提高教師業(yè)務(wù)素質(zhì),完善硬件設(shè)施的配備,使英語教學(xué)方式多樣化等[4]。經(jīng)過政府教育機構(gòu)和教師們多年的共同努力,在英語教學(xué)改革上取得了一定的進展,但是其效果遠遠未能滿足當(dāng)今社會的需求。教師隊伍整體素質(zhì)的提高需要不間斷的努力,不能一蹴而就。另外,硬件配置又受多方限制,不能一朝一夕得到解決。相對而言,如果能夠有一個集檢測、評價、反饋功能于一體的軟件來指導(dǎo)學(xué)習(xí)者英語語音習(xí)得過程中的聽和說,那么學(xué)習(xí)者就可以通過該軟件的評價系統(tǒng)更加清晰地了解自己發(fā)音的不足之處,對自己的語音水平有一個整體的把握;通過該軟件的反饋系統(tǒng)就可以對發(fā)音困難進行糾錯和跟讀模仿訓(xùn)練,這樣就等于有了一個貼身老師,從而可以取得更大的進步。
從語言本身的特點而言,雖然學(xué)習(xí)者學(xué)習(xí)動機較強,模仿也很認真,但是他們的發(fā)音仍存在一些問題,語音在某些內(nèi)容上可意會不可言傳的特性導(dǎo)致了這種局面,如音高、音強、音長等物理特性就很抽象。英漢語音的諸多差異更為細微和難以把握。教學(xué)中希望有一種儀器使發(fā)音的特征通過可視的形式顯示出來,可使學(xué)生直觀認知,再進行操練,與樣本對照,不斷修正自己的發(fā)音,提高語音學(xué)習(xí)效果。
二、研究背景
目前,國內(nèi)外對于英語語音的研究分為音段層面(如音位)及超音段層面(如語調(diào))。在英語語音教學(xué)中對超音段往往沒有給予足夠的重視,或者缺乏有效的訓(xùn)練手段,而利用計算機軟件提供的視覺反饋來進行訓(xùn)練是解決這一問題的有效途徑。中國學(xué)生的語音練習(xí)通常采用聽錄音并且跟讀模仿的方法,練習(xí)過程中學(xué)生得不到任何反饋引導(dǎo),因此我們很難確定機器播放出的語音與學(xué)生跟讀兩者之間的相關(guān)性。在課堂教學(xué)中,即使有教師指導(dǎo),也很難做到對學(xué)生的語音、語調(diào)提出實時的、準確的指點,使學(xué)生立即明白問題出在什么地方。針對上述種種問題,國外不少語言研究機構(gòu)都致力于開發(fā)用于語音訓(xùn)練的計算機軟件,其中有以旨在訓(xùn)練口語的基于一定句法規(guī)則的Y Nut[5],也有 PRAAT語音學(xué)習(xí)分析軟件。國內(nèi)也有語音助學(xué)軟件,如百度語音、超級語音學(xué)習(xí)系統(tǒng)(SuperSpeech)、新東方國際音標發(fā)音軟件?,F(xiàn)有語音學(xué)習(xí)軟件大都以習(xí)得標準目標語為目的,不考慮方音因素。要么以神經(jīng)網(wǎng)絡(luò)和監(jiān)控理論為框架[6],要么通過對比標準語音庫和學(xué)習(xí)者語音產(chǎn)出給出評分,少有軟件能夠根據(jù)學(xué)習(xí)者語音產(chǎn)出進行相應(yīng)診斷,給出改進方法或建議??偟膩碚f,國內(nèi)的機助語音學(xué)習(xí)軟件大都停留在音段音位層面,對非連續(xù)語流中的音段音位的判斷相對準確。而對于超音段音位層面的重讀、節(jié)奏以及語調(diào)的判定較為模糊。相比之下,國外的此類軟件則相對成熟,但是,由于母語背景不同,以及界面語言采用的并非漢語,中國英語學(xué)習(xí)者使用起來較為費力,并且針對性不強。地處中原的河南省擁有眾多的次方言區(qū),有些方音差別極大,甚至?xí)a(chǎn)生省內(nèi)交流不能相互通達的情況,方音背景的差別使得英語語音學(xué)習(xí)也出現(xiàn)了諸多問題。
本研究以河南方音為背景的英語學(xué)習(xí)者為依托,首先找出英語發(fā)音困難較大的典型次方言區(qū)的學(xué)習(xí)者,采集他們的發(fā)音數(shù)據(jù)。通過對發(fā)音數(shù)據(jù)的分析,得出發(fā)音困難的模式,形成凸顯發(fā)音困難的語音數(shù)據(jù)庫,以方便與標準英語參照數(shù)據(jù)庫進行比照?;诜揭糇詣臃治龊妥R別技術(shù),對學(xué)習(xí)者的語音輸入自動識別、歸類,并根據(jù)分析結(jié)果給出反饋和評價。在此基礎(chǔ)上為不同方言背景和發(fā)音困難的學(xué)習(xí)者訂制練習(xí),從而增強語音學(xué)習(xí)的交互性和靈活性,提高學(xué)生參與學(xué)習(xí)的主動性和積極性,使學(xué)生更加容易掌握語音知識。
三、理論模型
語言學(xué)習(xí)遵循聽、說、讀、寫這一發(fā)展順序的軌道[7],即聽說在先,讀寫在后。沒有聽覺輸入的語音產(chǎn)出在正常條件下幾乎是不可能做到的。所以,聽為語音產(chǎn)出提供了前提和基礎(chǔ),而說是語音輸入的檢驗。傳統(tǒng)的語言學(xué)習(xí)是基于文本,或叫做基于教材的學(xué)習(xí)?;诮滩牡膶W(xué)習(xí)一直是學(xué)校教育所采取的最基本的教學(xué)手段,長久以來,它對于語言能力的訓(xùn)練的效果是毋庸置疑的。但是在傳統(tǒng)的基于文本的教學(xué)過程中,聽與說的能力的鍛煉未能得到很好的體現(xiàn)。同時,人們也開始質(zhì)疑基于文本學(xué)習(xí)的效率[8,9]。以聽力和口語鍛煉為基礎(chǔ)的活動是不能只靠文本形式的教科書實現(xiàn)的,但是通過視覺、語音的輸入,聽力和口語活動開展起來卻事半功倍。隨著時代的發(fā)展,對英語學(xué)習(xí)者的口語表達能力提出了越來越高的要求。同時,成功的語言交際又離不開可以為國際言語交際社團所接受的語音。
3.1框架設(shè)計
開發(fā)一個系統(tǒng),首先需要建立整個系統(tǒng)的框架,確定系統(tǒng)的體系結(jié)構(gòu)由哪些模塊組成,模塊間的調(diào)用關(guān)系如何,需要哪些全局變量等。通過分析和查閱文獻,參考現(xiàn)有的語音學(xué)習(xí)軟件的開發(fā)理念,我們總結(jié)出如圖1所示的系統(tǒng)結(jié)構(gòu)圖[7]。
正如圖1所展示的那樣,精心設(shè)計的多媒體練習(xí)可以激活視覺處理器、聽覺處理器及概念處理器,并且技術(shù)上可以實現(xiàn)多媒體練習(xí)與三個處理器的實時、同步運作。這對提高系統(tǒng)效能有著非比尋常的意義。與此同時,他們和學(xué)習(xí)者的現(xiàn)時記憶及長時記憶相互作用。于是,學(xué)習(xí)者便能夠?qū)⒄Z言和多媒體練習(xí)提供的感官輸入拼湊在一起,形成有意義的理解。學(xué)習(xí)者的長時記憶、系統(tǒng)提供的視覺信息及概念處理器共同工作可以將看到、聽到的語音信息解碼,最終形成自己的理解。通過練習(xí),學(xué)習(xí)者可以將腦部系統(tǒng)中的相關(guān)機制調(diào)動起來,為學(xué)習(xí)過程提供便利。這樣,不僅可以鍛煉學(xué)習(xí)者的口語表達能力,還能經(jīng)過反復(fù)練習(xí),充分調(diào)動腦部相關(guān)機制,便于學(xué)習(xí)者從練習(xí)中發(fā)現(xiàn)語言的規(guī)則和模式。這種有意義的、反復(fù)的練習(xí)對口語流利性的達成是十分有益的。
在語音練習(xí)這個最主要的模塊中,系統(tǒng)不光向?qū)W習(xí)者提供反復(fù)聆聽、錄音、發(fā)音對比的功能,還可以在學(xué)習(xí)者聽取系統(tǒng)提供的規(guī)范發(fā)音的同時,提供與語音信號同步的視覺畫面。這樣,學(xué)習(xí)者不僅可以鍛煉發(fā)音,還可以掌握在真實的語言環(huán)境下得體地使用語言的交際能力。
3.2 工作原理
本文所描述的語音學(xué)習(xí)系統(tǒng)與以往的語音學(xué)習(xí)軟件最大的不同之處就在于加入了方言的因素。所以,以圖1所示的語音識別系統(tǒng)的設(shè)計原理為指導(dǎo),我們建構(gòu)了以河南方音為背景的機助語音學(xué)習(xí)系統(tǒng)。我們的系統(tǒng)仍然保留原有的標準語音庫,即聲學(xué)參數(shù)模板。它是用訓(xùn)練和聚類的方法,從一人或多人的多次重復(fù)的語音參數(shù)之中,經(jīng)過長時間的訓(xùn)練而聚類得到的。或者我們可以參照現(xiàn)有的語音庫。但是,我們將在標準語音庫之外設(shè)計一個以河南方音為背景的英語學(xué)習(xí)者的發(fā)音數(shù)據(jù)庫(或稱為方言數(shù)據(jù)庫),作為原有的標準語音庫的補充數(shù)據(jù)。測度估計是語音識別的核心,用來表征參數(shù)與模板之間的測度。這樣做,在測度估計中,可以參照方言數(shù)據(jù)庫提供的以河南方音為背景的英語學(xué)習(xí)者的發(fā)音數(shù)據(jù),以增加對學(xué)習(xí)者的失誤發(fā)音或錯誤發(fā)音的判決的準確度。在輸出識別結(jié)果之后,可以通過語音評價機制對學(xué)習(xí)者的發(fā)音做出反饋。通過在視覺上規(guī)范語譜圖和學(xué)習(xí)者語譜圖的對比、聽覺上規(guī)范發(fā)音和學(xué)習(xí)者發(fā)音的對比,可以更快地幫助學(xué)習(xí)者改正錯誤的發(fā)音習(xí)慣、掌握正確的發(fā)音方法。系統(tǒng)將向?qū)W習(xí)者提供反復(fù)聽、練習(xí)的機會,直到學(xué)習(xí)者達到自己預(yù)期的語音水平。除此之外,我們還將在聽取系統(tǒng)規(guī)范發(fā)音的同時提供與發(fā)音同步的視覺畫面,這樣能夠使學(xué)習(xí)者在真實的語言環(huán)境下掌握和使用正確的發(fā)音。
四、方音的凸顯與自動分析
自動語音識別是任何語音學(xué)習(xí)平臺的核心技術(shù)。一般采用的基本方法有三:基于聲道模型及語音知識的方法、模板匹配的方法和利用人工神經(jīng)網(wǎng)絡(luò)的方法[10]。本語音訓(xùn)練系統(tǒng)采用的是模板匹配的方法,其核心概念支持為隱馬爾可夫理論(Hidden Markov Model,簡稱HMM)。自動語音識別技術(shù)領(lǐng)域亟待解決的一個難題就是必須在自適應(yīng)性能方面有待進一步地提高,做到不受特定人、口音或者方言的影響[11]??谡Z方音研究主要圍繞兩大問題展開,通過發(fā)音建模的口音適應(yīng)以及方音的識別[12]來進行。方音較重造成的語音錯誤在所有發(fā)音錯誤中占據(jù)了相當(dāng)一部分比重[13,14]。另外,同一方音背景的人在語音產(chǎn)出中會犯類似的錯誤?;阱e誤數(shù)量比重大及錯誤類型模式集中這樣兩點,基于方音的建模就成為一個理想的解決方案[15]。在我們的研究中,也就是收集并建立有河南方音的英語發(fā)音數(shù)據(jù)庫。
語音識別基元的選取和識別是以方言為背景的語音學(xué)習(xí)平臺建立中的另一個重要問題。它對于語音識別系統(tǒng)的實現(xiàn)和準確度的高低有著重要的意義,必須要對它進行準確地界定。同時還需要確保有足夠的數(shù)據(jù)對其進行訓(xùn)練,使其涵蓋數(shù)據(jù)群體特征[16]。此語音識別系統(tǒng)的識別基元采用音素建模。音素是采用最多的英語語音識別基元[17]。由于受方音背景影響的英語發(fā)音情況的復(fù)雜性,在識別操作過程中應(yīng)充分考慮對識別影響較大的因素,如清輔音的濁化、詞尾輔音的加音、鼻輔音的脫落等[14]。
此外,語言模型和聲學(xué)模型是語音識別的基礎(chǔ),必須具有抗噪的強健性[18]。其性能受諸多因素的影響,包括不同的說話人、說話方式、環(huán)境噪音、傳輸信道等等[19]。提高系統(tǒng)強健性,就要提高系統(tǒng)克服這些因素影響的能力,使其在不同的應(yīng)用環(huán)境條件下工作性能穩(wěn)定。一個高效的語音識別系統(tǒng)還必須同時具有一定的自適應(yīng)能力,根據(jù)不同的影響來源,自動地、有針對性地對系統(tǒng)進行調(diào)整,在使用中通過語音輸入的增加得到不斷地訓(xùn)練從而逐步提高性能。
五、機助語音學(xué)習(xí)系統(tǒng)的發(fā)展前景
機助語音學(xué)習(xí)系統(tǒng)的建立同語音識別技術(shù)的發(fā)展密不可分。從一定程度上來講,機助語音學(xué)習(xí)系統(tǒng)的有效性很大部分上取決于語音識別率的高低。盡管語音識別的研究已長達半個世紀,但現(xiàn)有的語音識別系統(tǒng)離實用化的要求還存在一定的差距。在語音識別中遇到的另外一個難題是語音識別基元的選擇,在實際應(yīng)用中表現(xiàn)為,如何根據(jù)存貯空間、搜索速度和使用者個體特點的要求,選擇合適的識別單元,如詞、音節(jié)、音素。目前,語音識別系統(tǒng)中很少涉及到的一個語言特征就是韻律信息。韻律信息指的是說話之中的重音、語調(diào)等超音段信息。說話的韻律可以傳達出很多重要信息。因此,如何在語音識別中結(jié)合韻律信息還有待進一步的研究。
由于技術(shù)和資源方面的局限性,以方言為背景的語音識別技術(shù)在語音教學(xué)中的應(yīng)用還鮮為人們所涉及。但是,此項研究卻具有重大的理論意義和現(xiàn)實意義。一方面,以方言為背景的語音識別為現(xiàn)有語音識別技術(shù)增加了一個新的研究層面。從語音習(xí)得的角度講,以方音為背景的機助語音學(xué)習(xí)系統(tǒng)的建立更是二語語音習(xí)得研究的一項有益嘗試。另一方面,針對河南省英語教學(xué)銜接不夠合理、教師的知識結(jié)構(gòu)落后、硬件設(shè)施配備不完善等現(xiàn)實問題,以及中國和河南方音情況復(fù)雜這樣一個現(xiàn)狀,以方言為背景的機助語音學(xué)習(xí)系統(tǒng)的建立更是迫在眉睫。以方言為背景的機助語音學(xué)習(xí)系統(tǒng)的建立能為語音教學(xué)提供有效的手段,從而有效地促進不同方言區(qū)的語音教學(xué)。
[參考文獻]
[1]高鵬. 中學(xué)英語口語教學(xué) [J]. 康定民族師范高等專科學(xué)校學(xué)報,2002,9(2):60-62.
[2]顧俊秀. 中學(xué)英語課堂教學(xué)改革小議 [J]. 大同職業(yè)技術(shù)學(xué)院學(xué)報,2006,20(4):93-94.
[3]馬均平,賈慧范.農(nóng)村中小學(xué)英語詞匯及語音教學(xué)情況調(diào)查及研究(未發(fā)表)[Z].全國教育科學(xué)“十一五”規(guī)劃2007年度教育部規(guī)劃課題研究論文. 2012.
[4]吳效鋒.新課程怎樣教 [M].沈陽:遼寧大學(xué)出版社,2005,1-324.
[5]Timo, O L N, Bissyandé, T. F. Y Nut, a Phonetic-Based Learning System for Spoken Languages [Z]. E-Infrastructure and E-Services for Developing Countries -- 5th International Conference, AFRICOMM 2013, Blantyre, Malawi, November 25-27, 2013, Revised Selected Papers, 229-233.
[6]Moulin-Frier, C, Arbib, M A. Recognizing speech in a novel accent: the motor theory of speech perception reframed [J]. Biological Cybernetics, 2013, (4): 421-447.
[7]Knowles, L. The Evolution of Computer Assisted Language Learning [J]. Journal of Communication and Publication, 2004, (1): 1-38.
[8]Thompson, C L. Pronouns and Voice in Koyukon Athapaskan: A Text-Based Study [J]. International Journal of American Linguistics, 1989, (1): 1-24.
[9] McCarthy, J C, Miles, V C, & Monk, A F. An Experimental Study of Common Ground in Text-based Communication [R]. CHI ’91 Proceedings of the SIGHI Conference on Human Factors in Computing Systems: Reaching through Technology. New York: Association for Computer Machinery, 1991: 209-217.
[10]Lee, Kai-Fu. Automatic Speech Recognition: The Development of the SPHINX System [M]. Norwell: Kluwer Academic Publisher, 1989: 1-211.
[11]鐘玉琢. 多媒體技術(shù)基礎(chǔ)及應(yīng)用[M]. 北京:清華大學(xué)出版社,2006,1-376.
[12]Huang, C, Chen, T, & Chang, E. Accent Issues in Large Vocabulary Continuous Speech Recognition [J]. International Journal of Speech Technology, 2004, 7 (2-3): 141-153.
[13]Huang, C, Chang, E, Zhou, J L, & Lee, K F. Accent modeling based on pronunciation dictionary adaptation for large vocabulary Mandarin speech recognition [C]. Proceedings of International Conference on Spoken Language Processing, 2000, 3: 818-821.
[14]李楠. Problematic English Phones for Chinese EFL Learners [D]. 中國優(yōu)秀碩士學(xué)位論文全文數(shù)據(jù)庫,2009, 8(8).
[15]Sangwan, A, Hansen, J H L. Automatic analysis of Mandarin accented English using phonological features. Speech Communication, 2012, 54: 40-54.
[16]Lawrence, R. Fundamentals of Speech Recognition [M]. New Jersey: Pearson Education, 2008: 1-540.
[17]Goronzy, S. Robust Adaptation to Non-Native Accents in Automatic Speech Recognition [M]. Verlag, Berlin & Heidelberg: Springer, 2002, 1-144.
[18]Flanagan, J L, et al. Automatic speech recognition in severe environments - A Report Prepared by National Research Council (U.S.), Committee on Computerized Speech Recognition Technologies, National Research Council (U.S.) [C]. Washington, D.C.: National Academy Press, 1984, 1-81.
[19]韓紀慶,張磊,鄭鐵然. 語音信號處理 [M]. 北京:清華大學(xué)出版社,2004,1-328.
[責(zé)任編輯:K]