北京外國語大學 季晶靜
提要:對于漢語學習者而言,閱讀報刊新聞是提升學習者語言能力的有效途徑之一,但目前報刊新聞課普遍存在難學、難教的問題。本文借助語料庫相關工具提取主題詞群的方法幫助教師與學習者構建文本的主題圖式,將思維導圖的思想引入語料庫驅動的報刊新聞課堂教學中,并通過語料庫的相關工具對教學材料的選編進行分析,以期在人工判斷和計算機統計中尋找一個平衡點,更好地幫助研究人員編排教材。同時,以“圖式理論”為指導幫助漢語學習者構建“主題圖式”,切實提高學習者閱讀中文報刊的解碼能力。本文以意大利報刊教材《漢語報刊》為分析對象,對新聞進行歸類,通過提取相關領域的主題詞群構建語義網絡,闡述主題詞與課文主旨表述之間的關系,并根據主題詞明確文本主題的相互關聯性。同時,借助語料庫相關工具,考察詞匯復雜度、獨異度、密度及文本長度等對于文本難易度的影響,更合理地安排課程順序。最后,簡要總結主題詞群在對外漢語教學中的作用。
在對外漢語教學中,報刊課是一種“主題教學”。課堂上,教師由一個核心主題推導出層層相扣的知識網絡,并在特定時間內完成該主題的講授和操練。核心主題還有獨立存在而又相互聯系的不同子主題,能夠滿足不同水平學習者的要求。這種教學理念的理論基礎是圖式理論。圖式作為知識構建的各個組塊,由各種關系進行重組,相互影響和聯系,在人腦中形成一個縱橫交錯的多維網絡。在這個多維網中,不同等級的圖式,環(huán)環(huán)相扣,層層相連,交互影響。
在現今的對外漢語教學中,針對報刊閱讀的研究大多都是在不同教材中進行對比分析、教材編寫研究,報刊閱讀課的教學模式和方法層出不窮,但將圖式理論用于報刊閱讀課的探索還很少。同時,語料庫語言學的快速發(fā)展為此提供了契機,我們可以借助語料庫工具,高效地提取主題詞群,形成關于某一主題或文本的主題圖式,幫助學習者排除語言障礙,提高閱讀理解能力。
綜上所述,本文提出兩個研究問題:(1)教師如何通過提取主題詞群的特征構建連貫的主題圖式,幫助學習者記憶與理解文章內容;(2)如何借助Uber、Originality等工具分析文本難易度,為教材的選編開辟新途徑。
主題詞分析是語料庫技術中研究文本語言特征的重要手段。提取主題詞首先要生成觀察語料庫和參照語料庫的參考詞頻表,然后用參考詞頻表計算主題詞。主題詞不是指文本中使用最頻繁的詞匯,而是指頻率顯著高于或低于參照語料庫中對應詞頻率的詞匯。比較觀察語料庫中的詞頻和參照語料庫中的對應詞的詞頻,考察兩個語料庫詞頻之間是否存在顯著差異,從而明晰語篇中詞語的分布情況與文章主題之間的關系。文本中詞語的使用具有規(guī)律性,通過提取主題詞可以找到規(guī)律。主題詞分析既是一種詞語運用的統計方法,又是一種在詞語分布視角下觀察文本的策略。
本文使用的觀察語料是意大利羅馬大學使用的漢語教材《報刊漢語》,從中選取20篇課文[均選自新華網(2008—2012年)],形符數為6,950,類符數為1,880。采用《人民日報》網站中提取的通用詞表作為參照詞表,該詞表收錄的詞大致反映了《人民日報》新聞用語的特點,故使用范圍較廣、頻率較高的助詞,如“的”等詞語未收錄在內。研究使用北京外國語大學研發(fā)的語料庫分析軟件PowerConc 1.0,該軟件界面簡潔,操作便捷,用來處理中文語料切分以便統計詞頻和生成主題詞表。(參照孫琳 2016)。
本研究的數據處理步驟如下。
(1)文本純凈化。文本凈化后轉存為UTF-8格式的純文本文件。
(2)主題聚類。對語料庫文本按主題進行分類和聚集,即把同一主題領域的課文放置在同一個目錄下。
(3)切分語料。用NLPIR-Parser對語料庫進行切分和詞性標注。
(4)統計詞頻。利用PowerConc的N-gram list分別統計各個主題所用的詞語的頻次,生成觀察詞表。
(5)建立主題詞表。利用keyness(主題性)導入參照詞表,將其與觀察詞表對照,自動生成主題詞表。在計算某一個詞項的主題性時,需要考慮到該詞在觀察語料庫中的頻數、觀察語料庫的庫容,該詞在參照語料庫中的頻數和參照語料庫的庫容。
我們首先對20篇文本進行主題分類,共分為7個領域。其中政治類文本2篇(占10%)、經濟類文本3篇(占20%)、環(huán)境類2篇(占15%)、體育類文本3篇(占15%)、社會類文本4篇(占20%)、文化類文本3篇(占15%)、外交類文本3篇(占15%)。本研究主要分析社會類文本。
由于報刊閱讀課屬于主題式教學,文章圍繞一個核心主題層層散發(fā)開來。上述7個領域可以看作核心領域,每一個核心領域下又包含著子領域,每一個子領域又可以細化為具體的篇章主題。一篇文章只有一個核心領域,卻可以涉及多個子領域,比如“幸福生活少不了公平”一文中,核心主題是“保障制度的完善”,除此之外還有經濟總量翻番、“拿起筷子吃肉、放下筷子罵娘”等俗語,它們類屬于經濟、文化等領域,彼此交織。對于初級學習者而言,教師們只需要以核心主題為主展開講解,其他領域主題可以一帶而過。對于高級學習者而言,教師可以把握住主題間層層嵌套的網絡,進行適當的延展教學,在課堂討論的時候學生的發(fā)言就會有更大的視野,尋找更多的思考方向。本研究中20篇文本的多層級主題劃分如表1所示。
表1 文本主題劃分
下面以社會類的主題為例分析主題詞的特征。本文首先統計了4篇文本的詞頻,將頻次大于10的列為高頻詞,共有1,516個形符,639個類符。這些詞語使用頻率高,表明它們在4篇課文中通用度高,但不能精確反映某一具體領域的主題,在提取主題詞表時應進行人工過濾,將這些通用詞語篩選出去,從而得到一份較為精準的主題詞表。高頻詞如下所示:
的、是、了、在、不、幸福、和、中國、個、她、有、也、北京、一、美國、年、對、房子、就、孩子、旅游、要、上、增長、經濟、買、這、制造、中、最、先、已經、可以、一種、生活、沒有、什么、自己、美國、問題、許多、都、說、部分、世界、起來、通過、現在、北京、個人、房子、一些、認為、重要、成為、工作、社會、他、都是、發(fā)生、進行、人們、需要、影響、制造、感到、國家、來說、收入
利用keyness功能與參照詞表對照,進行人工剔除,社會類文本前10名的主題詞如表2所示。
表2 “社會類”主題詞群
從詞義上看,這10個主題詞都是文章中的關鍵詞,分別指向地點、行動者、接受者、主要行為等。依據這些主題特征能夠推測出文章的主要內容或側重點,所描述的事件的共性在于,它們同屬于社會問題或現象。從詞性上看,主題詞群中多是名詞,接著是動詞。在主題詞群中,名詞性的概念占主要地位。因此,在提取文本的主題詞群時,我們的參考原則是提取名詞概念、具有主題特點的動詞性和形容詞性的詞和短語,同時將其他領域特征表現弱的詞語篩除出去。
不僅同一領域內的文章都具有共性與共同的主題指向,任何一篇文章也有主題指向。即使是同樣主題的文章,也有不同的表達重點。也就是說,有該文本獨特的個性,也稱為“文章指紋”。文章的個性體現在個性詞語的使用方面,我們發(fā)現主題詞語的提取對確定文章的主題很有幫助?,F代社會在學術、文學方面抄襲等事件層出不窮,“文章指紋”可用來判定是否抄襲。
報刊新聞教學的任務之一是培養(yǎng)學生歸納文章主題的能力,即在文本中尋找主題。而我們利用計算機也可以做到這一點,這是對人類語感的一個模擬。
下面來看同一主題的文本是如何表現其個性的。選取社會類文本的子領域中“生活”領域的2個文本——“旅游節(jié)”和“什么是幸福”,分別見表3和表4。
表3 “旅游節(jié)”文本1的主題詞群
表4 “什么是幸?!蔽谋?的主題詞群
(待續(xù))
(續(xù)表)
從這兩個文本的主題詞群可以判斷,文本1“旅游節(jié)”的主要內容是北京因美食、文化等因素吸引越來越多的國際游客,游客人數增長。同時,中國人也改變了春節(jié)的活動方式,選擇旅游過春節(jié)。文本2“什么是幸?!蓖怀隽私诸^巷尾人們對“幸?!钡挠懻摷安煌x,有人認為幸福是物質需求的滿足,有人認為是夫妻相親相愛,也有人認為是人與人之間交往的寬容。
從上面這些單文本的主題詞群可以看出,雖然這些文章所屬的主題領域相同,但每篇文章的具體內容又各不相同,每篇文章都有自己的個性主題。文本的主題詞群基本能表現出文本的個性主題,這對教學來說有一定的實用價值。
主題教學是盛行于歐美國家的一種教學形式。主題教學主要采用主題圖的形式,主題圖中包括主題、連接和層級結構。主題用專有名詞或符號進行標記,交叉連接表示同一主題中概念之間的相互關系層級結構是主題的展現方式,主題結構圖的核心部分是中心主題,位于下位的是從屬概念。因此,主題圖是一個縱橫交錯的多維網絡結構圖,反映了該核心主題下各個概念之間的聯系。
報刊新聞課的信息量大,如何在文本中抓取關鍵信息進行有效地學習成為關鍵。結構化的主題圖最大限度地壓縮知識,整理信息,使其具有規(guī)律性,為教師提供幫助。從學生角度來說,主題圖將新舊知識有機結合,不僅幫助他們溫故知新,還勾勒了看似龐大卻有助于記憶的知識網絡,最大限度地提煉了知識結構,促進了學生的積極學習。同時,主題圖還是一種元認知策略。學生根據主題網絡相連的各領域主題詞群探尋知識的各個層面,拓展視野,提高認知能力。
任何一個報刊新聞的領域都可以用主題圖的形式表示出來。從大領域到子領域再到具體的主題,主題圖可以標明層級關系,而在不同的層級里,都有相應的主題詞群來支持。這可以為報刊新聞教學搭建一個知識系統平臺。例如,面對一篇文章,教師可以給學生提供以主題詞群為基礎的主題圖,幫助學生理清文章脈絡,拓展思維,有利于學生自主學習。本研究以一篇標題為“第14屆國際游泳比賽在上海閉幕”的文章為例,經過處理后,呈現如下主題詞群:
項目、上海、金牌、運動員、國際、游泳、世界、共、最、閉幕式、大賽、俄羅斯、選手、舉辦、獲得、完成、城市、參加、屆、中國選手、銅、銀、摘、落幕、鏖戰(zhàn)、得主、包攬、水準、參賽、圓滿、爭奪、勇奪、閉幕、激烈、參與、突破、記錄、創(chuàng)造、成績、實現、菲爾普斯
這些圍繞游泳比賽話題時觸發(fā)和激活的主題詞組織嚴密,通過語義關系形成復雜的網絡關系,并且與話題內容緊密結合(見圖1)。從上述主題詞群可以看到這篇文章的主題及相關內容如下:
文本主題:這些主題詞群都有一種語義向心性和網絡性,指向“游泳比賽”這一中心主題
比賽的特征詞語:項目、金牌、大賽、金牌、屆
相關場景:上海、城市、俄羅斯
相關人物:中國選手、菲爾普斯
相關行為:舉辦、獲得、完成、參加、摘、鏖戰(zhàn)、落幕、包攬、參賽、爭奪、勇奪、閉幕、參與、突破、創(chuàng)造、實現
相關程度:最、激烈
圖1 《第14屆國際游泳比賽在上海閉幕》主題圖式
我們在用主題詞串聯課文時,能夠重復使用生詞,提高生詞的復現率,有利于學習者更好地習得。在教學中每一個主題都有必學詞語和擴散的與主題相關的詞語,但是文本主題詞群才是核心內容,比如本篇課文還提到俄羅斯金牌壟斷的問題,但據統計的主題詞表顯示,“壟斷”一詞主題性不強,因而不作為文章的核心內容,對于初級學習者而言,上課略提即可。這些詞語是在某一主題范圍內高頻使用的詞語,能讓學生的自主學習有明確的方向性,以主題詞群為基礎的主題圖教學就是在一定范圍內給學生一個知識擴散的指導。主題圖符合學生的認知規(guī)律,主題詞群的研究是主題教學的基礎,使詞匯的擴充更加科學化。主題教學符合認知規(guī)律,有利于詞語的拓展,給學生提供一個可擴展的主題詞群,在課堂討論時能夠提供更多的思考方向。
編寫教材不僅是將不同的文本編排在不同的章節(jié),還要考慮到各個文本由易到難的順序。教材的編寫僅依靠編撰者的經驗和直覺,是缺乏科學依據的,因此,通過計算機處理得出的客觀難易度判斷標準十分必要。
文本的難易度是一個相對的概念,是相對于各個不同級別的學生來說的。同一個文本,在學生語言發(fā)展的不同時期,會呈現出不同的難易度。此外,同一個文本,在不同的學生面前,難易度也有所不同。面對母語非漢語的留學生來說,我們在編寫教材、設計教學方案、制定教學計劃時需要有詞語和文本難易度的等級標準,由此客觀判斷該文章適用于學生何種階段水平,這個等級標準也是教材編撰時選擇文本材料的依據。
從詞語使用的角度分析文本的難易度,需要難易等級詞匯表,如漢語水平考試甲、乙、丙、丁四級詞表。對照處理后得出的詞表與不同難度級別的詞表,根據對不同級別詞語覆蓋的情況判斷文本的難易度。從文本來看,難易度由以下因素決定:
(1)詞匯的復雜度(高級詞匯及超綱詞覆蓋率越大越難);
(2)詞匯的通用程度(獨異詞的覆蓋率越大越難);
(3)詞匯密度(實義詞覆蓋率越高,單位文本的承載信息越多,難度越大);
(4)文本長度(一般情況下,文本越長越難);
(5)語法結構復雜度(復雜結構的覆蓋率越大越難);
(6)文本所在的領域也就是領域度的問題,一些領域較另一些領域更為人熟悉,相應的文本難度會降低(史艷嵐 2006:137)。
本文主要考察文本長度、詞匯復雜度、獨異度及詞匯密度對文本難易度的影響。
本文詞匯復雜性的操作定義是每個文本中使用《漢語水平詞匯與漢字等級大綱》中的丙級詞、丁級詞及超綱詞總數占每個文本詞匯種類總數的比例。本文采用Uber進行統計,統計結果見表5。
表5 等級詞匯覆蓋率
從課文的編排順序上看,甲級詞的覆蓋率循環(huán)下降,表明隨著學習者漢語水平的提高,適當的減少了難度較低的詞匯。乙級詞的覆蓋率稍有提升,乙級詞的上升趨勢呈現的也是循環(huán)式的,乙級詞覆蓋率下降時,甲級詞多半呈現上升趨勢,兩者互為補充,使得之前一些學過的詞在一定范圍內復現,符合記憶規(guī)律,可以幫助學習者鞏固舊知識。此外乙級詞總量高于丙級詞和丁級詞,丙級詞語丁級詞的覆蓋率波動較小,變化較為平緩?!秷罂瘽h語》作為三年級學生使用的高級漢語教材,從統計數據來看,它的丙級詞與丁級詞所占比率略低,雖然《報刊漢語》作為報刊類閱讀教材會有部分特殊用語和專用詞,可能會減少日常詞匯的使用,但從整體比率上看,丙級詞的詞量仍然較低,教材中應該逐步增加丙級詞覆蓋率,這也符合i+1理論。從超綱詞的覆蓋率來看,整體上呈遞增趨勢,新聞報刊類教材由于自身的特殊性,超綱詞往往高于其他類型的教材,難度也要高于其他類型的教材。但是值得注意的是,在第5、11、16課中,超綱詞的覆蓋率出現了較大的上升(見圖2)。
圖2 《漢語水平詞匯等級大綱》甲乙丙丁四級及超綱詞匯覆蓋率
回歸到課文發(fā)現,這幾課分別是《傳統建筑風水博物館》《環(huán)境污染》《國際游泳比賽》,文本專用詞較多,且文本長度突然增長,詞匯多樣性隨之提高,從而導致超綱詞的覆蓋率驟增。在編排文本時,我們可以將此類文本長度較長、詞匯多樣性較高、主題延伸較廣、高等級詞匯數量有所增加的文本放置在教材的后半部分,使學習者能夠循序漸進地適應課程。
上文提到的詞匯多樣性是指在文本中使用多種不同的詞,如同義詞、上位詞和其他關系的詞,本文同樣采用Uber度量詞匯多樣性,計算結果如圖3所示。
圖3 詞匯多樣性
U值越大表明詞匯越豐富,本冊教材U值的變化幅度與文本總詞數的走向趨于一致,表明本冊教材中的文本長度與詞匯的多樣性呈正相關。
U值的最高點在第17課《老百姓的生活壓力》,表明第17課的詞匯最豐富,但是這并不能說明第17課的文本最難。據圖2顯示,第17課詞匯中乙級詞、丙級詞和丁級詞的覆蓋率都呈下降趨勢,整篇課文的詞匯理解起來難度不大。與之相反的是第16課《國際游泳比賽》U值最低,詞匯豐富性降低,但是甲級詞減少,超綱詞驟增,詞匯難度等級加大。而且從主題上看,第20課《世錦賽》的主題專用程度更高,學習者的熟悉度較低,因而理解起來也更難。如果僅依據文本長度,那么就會出現把2,000字的用詞簡單的文章判成難度高,而把200字的專業(yè)詞語多的文章判成難度低。所以,詞匯的多樣性及文本的長度與文本的難易程度關聯不大。
由于報刊新聞類教材的獨特性,在分析時,既要統計普通詞匯的難易度和覆蓋率,也要考慮到主題詞匯或專用詞匯的難度及分布(王均松、崔維霞 2012)。如果將詞匯劃分為通用詞匯與專用詞匯,那么文本的詞匯的難易程度還表現在通用詞匯的覆蓋率上。也就是說,一篇文章中通用詞匯越多,相應的專用詞匯或主題詞匯越少,那么這篇文章就越簡單,反之則越難。本文主題詞匯的覆蓋率通過利用Originality計算出獨異詞來表現,獨異詞比率越高,則主題詞覆蓋率越高,文章的通用詞匯越少,文章越難。預設難易等級:
獨異詞占50%以上 難
獨異詞占40—50% 偏難
獨異詞占30—40% 中
獨異詞占20%—30% 偏易
獨異詞占10%—20% 易
獨異詞占10%以下 極易
下面以同在“經濟形勢”主題下的三篇文本的獨異性為例,見表6。
表6 文本獨異性
作為報刊類題材,課文受主題限制,使用的詞匯可能較為集中,專用性較強。從獨異度的數值來看,三篇文本的獨異度都在25%以上,主題詞覆蓋率適中,通用詞覆蓋率較低,文本較難。《報刊漢語》作為一本中高級的漢語教材,文本略有難度是比較恰當的編排。從單篇文本的安排順序上看,第7課的主題詞覆蓋率較低,相比第9課和第10課較為容易,因此可以將本課向前安排。由于獨異度需要在同一主題領域下進行計算,只能對文本進行小范圍的調整,對于按主題編排的教材而言,利用它來安排課文的先后順序、判斷文本難易度的適用性更強。
詞匯密度反映的是句中實詞所占的比例。由于在句中通常由實詞來傳遞大部分信息,因此,如果一句話的詞匯密度越大,則使用實詞越多,所負荷的信息量也越大。反之,信息量就越少。這也通用于語篇中的詞匯密度,即語篇中的詞匯密度越大,其承載的信息量就越大,文本的語義理解難度加大。因此,在文本編排上,詞匯密度大的文本排在詞匯密度小的文本的后面。本文利用Density計算詞匯密度,見表7。《報刊漢語》教材中出現的詞性賦碼共有15種,本文只計算NN、VC、NR、CD、VV、M、NT、VA、JJ、AD這9類實義詞在文本中的覆蓋率。
表7 詞匯密度
如表7所示,本冊教材每課的實義詞覆蓋率無顯著差異,因此,詞匯密度對文本難易度影響不大,僅起輔助判斷的作用,不具備決定性功能。此外,由于詞匯密度主要表示句子所負荷的信息量,它主要用來判斷文本語義的復雜度而非文本難易度,即使詞匯密度存在顯著差異,也需要在按照詞匯難度及通用度編排過后,在依據詞匯密度進行局部的調整。
綜上所述,詞匯多樣性、文本長度及詞匯密度對本冊教材難易度的影響不大,而詞匯復雜度與通用度對文本難易度的影響較大。因此,我們在編排教材時,應該將人工判斷與計算機統計相結合,科學地區(qū)分材料的難易程度,由易到難地安排課文順序。但是由于詞匯復雜度與通用度對文本都有較大的影響,以哪一個作為主要評判標準還有待討論,抑或可以采用交叉計算的方式,將兩者融合起來進行判斷。
首先,主題詞群的提取數量和文本選擇的長度有關,因此,控制文章的難易度要在文本的長度方面有所限制,文章越長,主題詞群的提取數量越多,文章理解起來越復雜。通用詞語在文本中使用得越多,文章越容易,反過來說,獨異度高的主題詞群使用的越多,則文章就越難。所以我們在教材選篇時要注意控制文章的長度和難度。由于主題詞群是表示該主題的特征詞語,在文本分類方面,以主題詞群為對照詞表可以提高文本分類的精度。
其次,教師可通過主題模式教學呈現出與某一主題相關的主題詞及其主題圖式。一方面,通過主題模式教學培養(yǎng)學生圍繞某一主題建構主題詞及其主題圖式的能力,使學生在口語交際時能夠做到“言之有物”。另一方面,對主題進行層級劃分,所劃分的核心領域主題、子領域主題等可以引導學生優(yōu)化輸入和儲存不同主題的主題詞和圖式。由于提取出來的主題詞群多為名詞性短語和動作性動詞,教師在教學過程中也應重點強調表達具體意義和行為的詞匯,并逐漸實現從有到優(yōu)、從簡到詳,從而構建高效的主題圖式和激活機制,提升口語交際能力。
最后,主題詞群教學由于集中了大量與主題相關的有效詞語,對學習者的閱讀理解和表達能力都有很大幫助。在閱讀理解方面,知識面隨主題詞群的拓展而拓寬,能夠提高學習者的閱讀速度和理解水平。在成段敘述和表達方面,由于主題詞群教學能增加學生的詞匯量,特別是主題詞群的中心性和網絡性使學生能夠有意識地運用與主題相關的詞語,使原本分散的詞匯聚合在一起,形成一個詞匯場,是學生擴大詞匯量的有效方法之一。
本文主要通過提取主題詞群的方法幫助教師與學習者構建文本的主題圖式,將思維導圖的思想引入語料庫驅動的報刊新聞類教材的教學中,并借助語料庫的相關工具對教學材料的選編進行了簡單的分析,期望在人工判斷和計算機統計中尋找一個平衡點,更好地幫助研究人員編排教材。本研究的局限是所選的語料數量較少,有些主題下僅有一篇相關文本,從中提取的主題詞不能代表該主題下的所有核心成分,所以無法形成該主題的專用詞表。關于新聞報刊類教材的時效性問題,《報刊漢語》這本教材的語料多為2012年前的新聞,所選定的觀察語料庫中的語料有些陳舊,不能夠完全地反映出當代社會的熱點或現狀,因而提取的部分主題詞的適用性和通用性較弱,這一問題有待擴大觀察語料庫或更新語料后開展進一步研究。