□孫 琳
基于NLPIR漢語分詞系統(tǒng)和BFSU PowerConc 1.0的警務漢語詞頻與搭配研究
——以禁毒案件為例
□孫 琳
警務漢語教學是專門用途漢語教學的新興分支。本文以禁毒案件為例,使用NLPIR漢語分詞系統(tǒng)和語料庫檢索軟件BFSU PowerConc1.0統(tǒng)計禁毒案件高頻詞作為參照,與現(xiàn)有警務漢語教材相關課文的生詞表對比,考察高頻詞命中情況。同時,以高頻詞表中出現(xiàn)的一組近義詞為例,使用語料庫軟件分析其搭配特點,辨析詞義,探索將語料庫應用于專門用途漢語教學的新思路。
警務漢語 語料庫 詞頻 搭配
警務漢語屬專門用途漢語,是國際漢語教學領域新興的教學分支。近年來國際警務合作日益頻繁,為更好地打擊國際犯罪,提高合作效率,2006年9月,中國公安部國際合作局委托北京外國語大學中文學院開辦執(zhí)法聯(lián)絡員漢語培訓項目。這是中國長期(為期一年)、系統(tǒng)地開展警務漢語教學的首次嘗試①。發(fā)展近十年來,警務漢語在課程設置和教材編寫方面積累了經(jīng)驗,但尚未對教學方法和教材編寫進行系統(tǒng)的研究。以詞匯教學為例,警務漢語詞匯的甄選原則是什么?哪些詞匯是教學重點?如何處理大量同現(xiàn)的近義詞?這些問題都有待回答。
基于語料庫的漢語教學研究提供了解決問題的新思路。據(jù)郭曙綸(2013)梳理的目錄,漢語語料庫已被應用于漢語本體研究、漢語教學研究、教材編寫以及詞典編纂②。特別是在統(tǒng)計字頻詞頻、研究詞語搭配方面,語料庫語言學研究方法與傳統(tǒng)語言學研究相比,具有快捷、精準、解釋力強的優(yōu)勢。警務漢語多見于警務新聞和警務報告中,案件分類清晰,文本相對集中,容易采集整理。通過自建小型語料庫來研究警務漢語詞匯、輔助詞匯教學是可行的。本文以禁毒案件文本為例,使用NLPIR漢語分詞系統(tǒng)和語料庫檢索軟件BFSU PowerConc 1.0考察警務漢語高頻詞匯和詞語搭配,并與現(xiàn)有教材收錄的詞匯進行比較,以期為警務漢語教學提供有益的參考,也為專門用途漢語教學研究探索一條新路。
(一)研究工具
1.NLPIR漢語分詞系統(tǒng)
本文使用NLPIR漢語分詞系統(tǒng)2016版在線大數(shù)據(jù)搜索與挖掘平臺③統(tǒng)計詞頻和切分生詞。該平臺可在抓取文本后一鍵實現(xiàn)文本分析,顯示內容包括分詞標注、實體抽取、詞頻統(tǒng)計、文本分類、情感分析、關鍵詞提取、相關詞導圖(Word2vec)、依存語法、繁簡轉換、自動注音和摘要提取等。研究重點使用分詞標注和詞頻統(tǒng)計功能。
2.BFSU PowerConc 1.0
本文使用語料庫分析軟件BFSU PowerConc 1.0統(tǒng)計分析詞語搭配。PowerConc 1.0支持包括漢語在內的多語種語料,可以處理中文生語料、中文切分語料和中文標注語料,操作便捷,界面簡潔。研究使用該軟件處理中文切分語料。
(二)研究步驟
1.采集語料
警務案件分類繁多,本文僅以禁毒案件為例。上網(wǎng)采集2012~2014三年間公安部每年發(fā)布的十大禁毒案件報告作為語料樣本,共計6077字。研究使用微型語料基于以下兩點考慮:第一,禁毒案件報告來源單一,信息集中,語言特征明顯。鄭艷群(2013)指出,數(shù)據(jù)規(guī)模是無法決定數(shù)據(jù)結果的可靠性的。數(shù)據(jù)規(guī)模對研究結果可信程度的貢獻主要體現(xiàn)在估計的顯著程度上。因此,只要說明分析結果所依據(jù)的數(shù)據(jù)庫的數(shù)據(jù)來源、語料特征以及數(shù)據(jù)規(guī)模即可④。第二,便于切分語料。本文研究目的不在于建立警務漢語語料庫,而在于探索研究的新思路,提供新方法。小規(guī)模語料能夠在短時間內完成人工切分,符合研究目的。
2.切分語料
切分語料分三步進行。
第一步,將生語料輸入NLPIR漢語分詞系統(tǒng)分析平臺,完成自動切分。
第二步,人工復查切分結果,并使用“用戶自定義詞”功能進行調整。禁毒案件涉及法律術語、毒品名稱等特殊專有名詞,平臺不能自動識別。如“冰毒”,自動切分時會作為兩個詞標記,需要人工修改過來。分詞標注舉例如圖1。
圖1:
第三步,根據(jù)調整后的分詞標注生成切分語料文本,以空格分隔相鄰的兩個詞。例如:
生語料: 云南公安機關禁毒部門成功偵破何定榮販毒案NLPIR分詞標注語料: 云南/ns公安/n機關/n禁毒/vn部門/n成功/ad偵破/v“/wyz何定榮/nr販毒/vi案/ng切分語料: 云南 公安 機關 禁毒 部門 成功 偵破 何定榮 販毒 案
注意將標點符號也同時替換為空格。帶有空格的切分語料文本將用于BFSU PowerConc 1.0做進一步分析。
3.統(tǒng)計詞頻
NLPIR漢語分詞系統(tǒng)的最大特點是,能夠在生語料的基礎上直接實現(xiàn)分詞,統(tǒng)計出詞頻。在線平臺自動顯示名詞、動詞、形容詞排在前十位的高頻詞。展現(xiàn)方式包括柱形圖和折線圖兩種,也提供數(shù)據(jù)文本,即按照詞頻從高到低羅列所有高頻詞,并在后面標注詞頻數(shù)。
將切分語料文本導入BFSU PowerConc 1.0,再次統(tǒng)計詞頻。
4.調整高頻詞表
根據(jù)語料可以預測,某些已經(jīng)學習過的詞,如“公安”、城市名等,詞頻較高,所以在第一次統(tǒng)計詞頻后,剔除與禁毒案件關聯(lián)不緊密的詞語,二次生成高頻詞表。備選詞首先從NLPIR的分詞數(shù)據(jù)文本中選取相同詞頻或者最相近詞頻的詞語,然后與BFSU PowerConc 1.0統(tǒng)計的詞頻列表對照,補足高頻詞表中的空位。
5.高頻詞對照
將調整后生詞的高頻詞與現(xiàn)有警務漢語教材生詞表對照,考察選詞情況。
6.近義高頻詞搭配檢索與分析
使用BFSU PowerConc 1.0檢索語料樣本中近義高頻詞例句,分析搭配特點,為近義詞辨析提供教學依據(jù)。
統(tǒng)計高頻詞的意義在于弄清禁毒案件文本中最常出現(xiàn)的警務詞語有哪些。換句話說,在理解這類文本時,有哪些詞語是反復出現(xiàn)、繞不開的。
(一)詞頻統(tǒng)計結果
經(jīng)人工自定義調整后,使用NLPIR漢語分詞系統(tǒng)統(tǒng)計詞頻,生成柱狀圖如圖2。
圖2:詞頻統(tǒng)計柱狀圖
詞頻列表見表1。
表1:詞頻列表
其中,“制販”是兩個動詞的連用,不能算一個詞,應剔除;“成功”顯示了兩個詞頻,使用BFSU PowerConc 1.0復查,發(fā)現(xiàn)NLPIR將“成功+v.”(如“成功破獲”)和“成功+n.”(如“成功典范”)里的“成功”區(qū)別為兩類,可合并在一起,統(tǒng)計詞頻數(shù)為26。
從表1可以看出,一些名詞和動詞在禁毒案件報告中使用頻率非常高。最高頻使用的形容詞是“成功”,體現(xiàn)了警務報告凸顯成績的特點。從列表中的高頻名詞可以得到這樣幾條信息:2012~2014三年間,廣東與福建是禁毒案件高發(fā)省,多為團伙作案,繳獲的主要制毒原料以及毒品是麻黃堿和冰毒。再看動詞,多為動補或動賓結構,強調結果;使用相同語素的近義詞較多,如“禁毒、制毒、販毒”“抓獲、繳獲、破獲”“破獲、偵破”等。形容詞總體詞頻較低,出現(xiàn)的一組近義詞為“縝密、嚴密、密切”。
從詞頻統(tǒng)計可以得出禁毒案件報告文本的基本特征:使用名詞、動詞頻率較高;高頻名詞能夠提供案件總體基本信息;使用相同語素的近義詞(包括動詞、形容詞)較多。
需要指出的是,由于NLPIR漢語分詞系統(tǒng)僅顯示了名詞、動詞、形容詞三類最主要實詞的詞頻,一些其他詞類的高頻詞并沒有顯示在其中,例如,區(qū)別詞“非法”(23)、“特大”(20)等。
(二)調整高頻詞表
表1高頻名詞中,“公安、部門、機關、廣東、福建”是已經(jīng)學習過的一般警務詞語,同禁毒案件聯(lián)系不夠緊密。另外上文提到,“制販”“成功”也帶來了兩個空缺。以補足高頻動詞空缺為例,首先,查看NLPIR的分詞數(shù)據(jù)文本。“制販”詞頻為13,文本顯示,詞頻相同的動詞除“聯(lián)合”以外,還有“配合”“摧毀”。接下來查看BFSU PowerConc 1.0統(tǒng)計得到的這兩個詞的詞頻,發(fā)現(xiàn)“配合”實際詞頻為15,而“摧毀”為13。通過查看索引行,發(fā)現(xiàn)有“/n的配合”與“/d配合”兩類,NLPIR將前者標記為“/vd”,后者標記為“/v”,所以詞頻有出入。本文將其統(tǒng)一處理為動詞,即“配合”詞頻為15。名詞、形容詞的選取也用同樣的方法。補足空缺后生成表2。
表2:禁毒案件高頻詞表
需要說明的是,名詞在按詞頻甄選時,沒有收入以下高頻詞:“?。?9)、公安部(14)、公安局(13)、案件(13)、人(12)、云南(12)、湖南(11)、警方(11)、山東(10)、河南(10)、市(9)、湖北(9)”。本文統(tǒng)計高頻詞語,目的在于為警務漢語教學服務,而這些詞語為一般警務詞語或者省級行政區(qū)名稱,與禁毒案件關系不夠密切,故剔除。表2收入了更多毒品和制毒化學品名稱。
(三)與教材生詞表對照結果分析
本文選取兩本教材中禁毒相關課文的生詞表:
1.《警務漢語·專業(yè)篇·高級》⑤第九課《加強對毒品的打擊力度》,下簡稱“專業(yè)篇-9”;
2.《警務漢語視聽說》⑥第一課《緝毒》⑦,下簡稱“視聽說-1”。
兩課生詞列表見表3。
表3:禁毒相關課文生詞列表
以表2作為參照,生詞表命中的高頻詞如表4。
表4:生詞命中高頻詞表
從高頻詞命中結果來看,專業(yè)篇-9好于視聽說-1。從詞類來看,名詞、動詞均有命中,而形容詞為0。這與本文使用的語料樣本和兩篇課文的語體有關。語料樣本是公安部發(fā)布的官方信息,屬于公文語體,書面語色彩很濃;注重陳述事實,突出結果;因為都是重案、要案,傾向使用形容詞來加強表達力度。專業(yè)篇-9課文內容包括一篇采訪對話和一篇閱讀,內容主要是介紹我國毒品犯罪基本形勢和“金三角”地區(qū)的新毒情;既有比較正式的訪談語體,又有書面語體,以客觀介紹為主。視聽說-1使用重慶衛(wèi)視《拍案警世》中一則禁毒案件紀實作為學習內容,其中包括主持人的解說、辦案民警的口述等,口語風格明顯。由于不同課程側重訓練的技能不同,課文編排時選擇的材料必然有差別。另外,一些高頻詞沒有出現(xiàn)在生詞表中,是因為在此前的警務漢語課程中已經(jīng)學習過,如“犯罪嫌疑人、團伙、窩點、配合、抓獲、破獲”等。畢竟禁毒案件只是諸多案件中的一類,上述詞語在警務漢語中是通用的。另外,雖然兩課生詞表高頻詞命中數(shù)都不多,但不難發(fā)現(xiàn),專業(yè)篇-9命中的高頻詞與禁毒案件的相關性更高,而視聽說-1命中的則是通用警務漢語。因此,視聽說-1在根據(jù)案件紀實視頻選擇生詞時,應該特別注意與禁毒案件的相關度。
搭配與語言應用的領域有關。Smadja(1993)將“領域相關搭配”(Domain-dependent collocations)作為單獨的一類⑧。這類搭配有兩種情況,一種是含有外行人完全聽不懂的專業(yè)詞匯,一種則是詞匯易懂,但組合在一起卻完全不是外行人理解的意思。相比之下,前者只要通過專門學習就可以掌握,警務漢語就屬于這一種。通過詞頻統(tǒng)計可以看出,警務漢語中存在高頻出現(xiàn)的含有相同語素的近義詞。相同的語素能夠提供理解和記憶的線索,不同的另一半則帶來語義的差異。掌握這類近義詞是學習警務漢語的重點也是難點。本文以“抓獲”“繳獲”“破獲”為例,使用BFSU PowerConc 1.0索引功能,在語境中考察這些動詞與賓語的搭配情況,為警務詞匯教學提供參考。
首先,考察“抓獲”后面賓語的情況。導入空格語料文本后,在索引欄內輸入“抓獲”,搜索顯示所有含目標詞的句子列表:
如圖選擇R1,考察“抓獲”后面第一位的詞語,顯示如下圖:
結果一目了然,“抓獲+犯罪嫌疑人”出現(xiàn)次數(shù)非常多。再用對數(shù)似然率(log-likelihood)考察其搭配強度:
“犯罪嫌疑人”與“抓獲”的對數(shù)似然率為298.0508,遠遠高于其他詞。因此可以確定,“抓獲+犯罪嫌疑人”是一組強搭配。
同理,考察“繳獲”后面第一位詞的情況,如圖:
結果表明,“繳獲+毒品名稱”是最常見的搭配。
最后來看一下“破獲”后第一位詞的情況:
搜索結果不能顯示出“破獲”與后一位詞的強搭配關系。通過索引句列表可以看出,在“破獲”后面的詞組其實是案件的名稱。如果將這些名稱作為專有名詞來處理,即內部不進行切分,“破獲+……案”的搭配強度明顯增加。
綜上,在禁毒案件中,“抓獲+犯罪嫌疑人”“繳獲+毒品名稱”是強搭配;“破獲+……案”雖然是強搭配格式,但標記不明顯,“案”前大量涉及案件信息的限定詞語可能對學生識別這一搭配造成干擾。使用BFSU PowerConc 1.0提供含近義詞的索引句列表,能夠清楚地呈現(xiàn)目標詞與后位詞的搭配關系和搭配強度,這對于教材編寫、預測學習問題、教學中幫助學生迅速掌握近義詞詞義和使用上的區(qū)別都十分有意義。
專門用途漢語需要自己的語料庫。首先,語料采集難度適中,語料庫的構建有可行性。以警務漢語為例,案件有明確的分類,各類案件報道、報告文本集中;案件偵破過程的采訪、紀實類影音文件在網(wǎng)絡上也很容易獲得,而且普遍配有字幕,獲取文本的難度不大。第二,基于專門用途漢語語料庫的詞頻統(tǒng)計,為教材生詞的甄選提供依據(jù)。目前警務生詞的選取主要基于編寫者的主觀判斷,從研究結果來看,并非不可取,只是編寫者使用的材料或者編寫的內容會有局限。如果能夠把語料庫統(tǒng)計得出的高頻詞作為基礎,再補充進其他相關生詞,教學的重點會更突出,學習內容的針對性和實用性也會增強。第三,詞頻統(tǒng)計還能為課文內容的編寫提供信息線索。例如,禁毒案件高頻名詞可以顯示案件高發(fā)省份、主要毒品種類等信息,這樣在編寫課文時,就能把握好搜集信息的方向,兼顧內容的可學性和真實性。第四,語料詞頻受文本語體特征影響非常大,建立語料庫時應標記語體分類,這樣才能為側重點不同的課型的教材編寫提供更有針對性的信息。第五,專門用途漢語語料庫還可以應用于教學。僅以考察近義詞搭配為例,如果建立起界面簡潔、操作方便的專門用途漢語語料庫,學生就可以自己使用索引查找大量例句,辨析詞義,總結哪些是高頻搭配。有語料庫工具作為輔助,教師在課堂上可以由講授者變?yōu)橐龑д吆椭笇д撸阂环矫嬉龑W生自己探索發(fā)現(xiàn)一般規(guī)律,變被動聽講為主動學習,帶著問題來上課,提高課堂學習效率;另一方面對學生自主學習的情況提供反饋和指導,投入更多精力指導學生提高聽說讀寫技能。
本文是對警務漢語詞頻和搭配研究的初探,存在以下不足:(一)語料樣本較小,語體風格單一,統(tǒng)計出的高頻詞語作為與教材生詞的對照解釋力不足;(二)僅以禁毒案件為例,不能反映警務漢語的全貌;(三)搭配研究暫時只考察了近義詞的動賓搭配,賓語只考察了動詞后一位。動詞與前面詞語、后幾位詞語的搭配情況如何,在警務漢語中這類搭配有沒有普通漢語中未見的特點,其他詞類搭配有什么特點等等,這些問題有待研究。
注釋:
①池宇.警務漢語教學與教材編寫初探[J].人文叢刊,2013,(0).
②郭曙綸.漢語語料庫應用教程[M].上海:上海交通大學出版社,2013.
③NLPIR漢語分詞系統(tǒng)是北京理工大學張華平博士開發(fā)的免費自然語言處理與信息檢索共享平臺,網(wǎng)址為http://ictclas. nlpir.org。
④鄭艷群.語料庫技術在漢語教學中的應用透視[J].語言文字應用,2013,(1).
⑤張京京、池宇編寫,執(zhí)法聯(lián)絡員漢語培訓項目專用教材,待出版。
⑥筆者編寫,執(zhí)法聯(lián)絡員漢語培訓項目專用教材。
⑦以視頻字幕轉寫文本作為課文內容。
⑧Frank Smadja.Retrieving Collocations from Text:Xtract [J].Computational Linguistics,1993,(19).
[1]池宇.警務漢語教學與教材編寫初探[J].人文叢刊,2013,(0).
[2]郭曙綸.漢語語料庫應用教程[M].上海:上海交通大學出版社,2013.
[3]梁茂成,李文中,許家金.語料庫應用教程[M].北京:外語教育與研究出版社,2010.
[4]孫茂松,黃昌寧,方捷.漢語搭配定量分析初探[J].中國語文,1997,(1).
[5]許家金,賈云龍.基于R-gram的語料庫分析軟件PowerConc的設計與開發(fā)[J].外語電化教學,2013,(1).
[6]鄭艷群.語料庫技術在漢語教學中的應用透視[J].語言文字應用,2013,(1).
[7]Frank Smadja.Retrieving Collocations from Text:Xtract[J]. Computational Linguistics,1993,(19).
(孫琳 北京外國語大學中國語言文學學院 100089)