朱淑琴,沈雨辰
(北京聯(lián)合大學(xué)師范學(xué)院,北京 100011)
新聞漢語(yǔ)句式系統(tǒng)
朱淑琴,沈雨辰
(北京聯(lián)合大學(xué)師范學(xué)院,北京 100011)
新聞漢語(yǔ)是國(guó)際漢語(yǔ)教學(xué)中一門重要課程,新聞中有一些固定句式和常用句型,掌握這些句式能有效提高新聞文本的閱讀能力。從現(xiàn)有新聞漢語(yǔ)教材中進(jìn)行整理收集,構(gòu)建新聞漢語(yǔ)句式庫(kù),基于自然語(yǔ)言處理技術(shù)實(shí)現(xiàn)對(duì)這些句式的自動(dòng)識(shí)別,為了方便用戶查詢搜索以及句式管理,設(shè)計(jì)開(kāi)發(fā)可視化的框架句式管理平臺(tái)。
新聞漢語(yǔ);句式;自然語(yǔ)言處理;可視化管理平臺(tái)
近年來(lái),中國(guó)的快速發(fā)展吸引了全球目光,各國(guó)與中國(guó)的經(jīng)濟(jì)往來(lái)越來(lái)越頻繁,出現(xiàn)越來(lái)越多漢語(yǔ)學(xué)習(xí)者。而新聞漢語(yǔ)學(xué)習(xí)能夠讓漢語(yǔ)學(xué)習(xí)者接觸到最新、最流行的漢語(yǔ),通過(guò)閱讀新聞漢語(yǔ)也能夠很好地了解中國(guó)文化。新聞漢語(yǔ)是適應(yīng)新聞交際需要而形成的特殊漢語(yǔ)體式,它跟日??谡Z(yǔ)交際的日常漢語(yǔ)不太一樣,它是漢語(yǔ)書(shū)面語(yǔ)的一種特殊表現(xiàn)形式。新聞?dòng)幸恍┕潭ň涫胶统S镁湫?,如“以……為指?dǎo),深入貫徹……觀,總結(jié)……經(jīng)驗(yàn),提出……要求,做出……部署”等政論文最常見(jiàn)的套話,掌握這些套話能有效提高新聞的閱讀能力。
句式結(jié)構(gòu)對(duì)于外國(guó)留學(xué)生語(yǔ)漢語(yǔ)學(xué)習(xí)者理解句義、培養(yǎng)語(yǔ)感,具有事半功倍的作用,也能夠間接提高學(xué)生的應(yīng)試能力[1-3]。中文書(shū)籍的特點(diǎn)是“兩多”,即框架結(jié)構(gòu)多,長(zhǎng)句多。而框架結(jié)構(gòu)相對(duì)于長(zhǎng)句來(lái)說(shuō),無(wú)論是在本體方面的研究,還是在對(duì)外漢語(yǔ)教學(xué)方面的研究仍存在著欠缺之處,因而也有待于我們?cè)诰涫娇蚣芙Y(jié)構(gòu)的研究進(jìn)一步深入探索。
本文從現(xiàn)有新聞漢語(yǔ)教材課后習(xí)題或者語(yǔ)言點(diǎn)中進(jìn)行整理收集,構(gòu)建框架句式庫(kù),在此基礎(chǔ)上采用自然語(yǔ)言處理技術(shù)進(jìn)行框架句式的自動(dòng)識(shí)別和獲取,并開(kāi)發(fā)可視化的框架句式管理平臺(tái),方便用戶查詢搜索以及句式管理。
本文搜集了大量的新聞漢語(yǔ)教材,并將教材課后習(xí)題或者語(yǔ)言點(diǎn)中句式進(jìn)行整理,創(chuàng)建句式表,將句式相關(guān)信息填入表中,句式信息如表1所示:
表1 句式信息表
每項(xiàng)信息都是依照參考書(shū)目中的句式提取下來(lái)的,數(shù)據(jù)信息按照書(shū)名進(jìn)行排序,最終概覽如圖1所示。
在句式庫(kù)的基礎(chǔ)上采用自然語(yǔ)言處理技術(shù)進(jìn)行句式的自動(dòng)識(shí)別,利用正則表達(dá)式為句式逐一編寫(xiě)規(guī)則,并且逐條驗(yàn)證。正則表達(dá)式是對(duì)字符串操作的一種邏輯公式,就是用事先定義好的一些特定字符,及這些特定字符的組合,組成一個(gè)“規(guī)則字符串”,這個(gè)“規(guī)則字符串”用來(lái)表達(dá)對(duì)字符串的一種過(guò)濾邏輯[4]。
本文將句式表中的句式表達(dá)式分為三類:短句、詞組、漢字。短句的結(jié)構(gòu),類似“令人擔(dān)憂的是……”字?jǐn)?shù)稍多,并且在句式中間不能加入別的任何字;詞組的結(jié)構(gòu)與短句相似,例如“一旦……”但是為了結(jié)果的準(zhǔn)確,會(huì)在這種句式的前(或后)加上一些限制;最后一種漢字,是編寫(xiě)時(shí)最為困難的,要一步步的剔除與這個(gè)字能組成詞語(yǔ)的其他字,一般情況下,漢字不單獨(dú)組成句式,可以與漢字、詞組或者短句組成類似“像……一樣”這種結(jié)構(gòu)的句式。
圖1 句式庫(kù)信息概覽圖
表2 句式分類
從表2可以看出短句類常用句式的正則表達(dá)式就是其自身,因?yàn)樽謹(jǐn)?shù)多,所以不會(huì)產(chǎn)生其他相似的匹配結(jié)果。相比于短句而言,詞組類句式表達(dá)式就復(fù)雜一些了,要將詞語(yǔ)作為成語(yǔ)或常用短語(yǔ)中的情況排除,以防匹配出的信息不準(zhǔn)確。很明顯地可以感覺(jué)到漢字類句式表達(dá)式比之前兩種的都長(zhǎng)了很多,這是因?yàn)閱蝹€(gè)漢字可以組成大量的詞語(yǔ),在匹配時(shí)會(huì)出現(xiàn)搜尋到包含這個(gè)漢字的詞組,所以要將這些情況一一清除,所以漢字類的表達(dá)式才會(huì)這么多。與漢字或詞組相關(guān)聯(lián)的單詞都是從專業(yè)的詞典中查詢得到的。
在前面新聞漢語(yǔ)句式數(shù)據(jù)庫(kù)的基礎(chǔ)上,本文開(kāi)發(fā)可視化的句式管理平臺(tái),將數(shù)據(jù)庫(kù)信息可視化,實(shí)現(xiàn)框架句式搜索功能,方便用戶查詢搜索以及管理員后臺(tái)管理句式[5]。
3.1 角色定義
管理員是指對(duì)網(wǎng)站進(jìn)行開(kāi)發(fā)和維護(hù)的人員,這個(gè)角色可以在后臺(tái)執(zhí)行登錄,當(dāng)管理員進(jìn)行登錄操作后,可以進(jìn)行用戶管理、句式管理和網(wǎng)站管理。在對(duì)用戶進(jìn)行管理的時(shí)候可以執(zhí)行修改信息和刪除用戶信息;可以對(duì)已有句式進(jìn)行查找或修改不正確內(nèi)容,刪除重復(fù)句式,添加句式(不可重復(fù)添加);隨時(shí)發(fā)布系統(tǒng)公告或維護(hù)信息,查看用戶反饋信息,完善網(wǎng)站。管理員信息存在數(shù)據(jù)庫(kù)中,在網(wǎng)頁(yè)上不能直接注冊(cè)。管理員功能用例如圖2所示:
圖2 管理員功能例圖描述
圖3 用戶功能例圖描述
用戶是指網(wǎng)站的主要面向?qū)ο?,也就是網(wǎng)站的使用者,在執(zhí)行完登錄之后,可以對(duì)自己查看的句式信息進(jìn)行意見(jiàn)反饋,一般的游客可以瀏覽網(wǎng)站,查看已有句式的信息,但不能對(duì)句式進(jìn)行意見(jiàn)反饋,其他部分都可以進(jìn)行操作。信息檢索部分,可以輸入想要查找的句式的關(guān)鍵字進(jìn)行模糊查詢。句式識(shí)別時(shí),可以輸入一句話或者一段文字。用戶功能用例如圖3所示。
3.2 具體實(shí)現(xiàn)及效果
(1)句式管理:管理員登錄后臺(tái)系統(tǒng)之后,可以對(duì)查看所有句式,對(duì)句式進(jìn)行修改,刪除所選句式,并且可以添加新的句式。句式信息表分為:常用句式、句式釋義、作者、頁(yè)碼、出處、發(fā)布時(shí)間等相關(guān)信息字段。句式管理界面如圖4所示:
圖4 句式管理
(2)句式搜索:網(wǎng)站的搜索功能主要是面向用戶,打開(kāi)搜索界面后能夠能夠看到所有的句式,當(dāng)用戶想要查找某個(gè)特定句式時(shí),就可以利用模糊搜索功能找到需要的句式。具體界面如圖5所示:
圖5 句式搜索
(3)句式識(shí)別:用戶提供需要檢測(cè)的短文,可以在短文中識(shí)別出常用句式,如圖6所示:
圖6 句式識(shí)別界面
句式識(shí)別核心實(shí)現(xiàn)代碼如下:
本文從現(xiàn)有國(guó)際漢語(yǔ)教材課后習(xí)題或者語(yǔ)言點(diǎn)中進(jìn)行整理,收集大量句式信息,構(gòu)建框架句式庫(kù);在此基礎(chǔ)上采用自然語(yǔ)言處理技術(shù)進(jìn)行句式的自動(dòng)識(shí)別和獲取,利用正則表達(dá)式為句式逐一編寫(xiě)規(guī)則;并開(kāi)發(fā)可視化的框架句式管理平臺(tái),方便用戶查詢搜索以及句式管理。
[1]張娟.國(guó)內(nèi)漢語(yǔ)構(gòu)式語(yǔ)法研究十年[J].漢語(yǔ)學(xué)習(xí),2013(02):65-77.
[2]Jing He,Weiming Peng,Jihua Song,and Hongzhang Liu.Annotation Schema for Contemporary Chinese Based on JinXi Li’s Grammar System[A].Proceedings of The 14th Chinese Lexical Semantics Workshop.CLSW2013[C].Beijing:Springer,2013,668-681.
[3]彭煒明,何靜,宋繼華.句本位語(yǔ)法圖解析句系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[A].項(xiàng)潔.數(shù)位人文研究叢書(shū)5——數(shù)位人文研究與技藝[C].臺(tái)灣:國(guó)立臺(tái)灣大學(xué)出版中心,2014,195-210.
[4]Yan Zhang,Jihua Song,Xue Zhu,Weiming Peng.The identification of Grammar Points in International Language Teaching Materials Based on Sentence-based Annotation[A].Proceedings of 2014 International Conference of Educational Innovation through Technology. EITT 2014[C].CPS,2014,29-36.
[5]梅峻韜,宋麗紅,董靜.面向移動(dòng)終端和Web的智能自習(xí)室管理系統(tǒng)[J].現(xiàn)代計(jì)算機(jī)(專業(yè)版),2015(21).
News Chinese Sentence Pattern System
ZHU Shu-qin,SHEN Yu-chen
(Teachers'College of Beijing Union University,Beijing 100011)
News Chinese is an important course in the international Chinese teaching.There are some fixed sentence patterns in the news text.Mastering these sentence patterns can effectively improve the reading ability of the news text.Collects fixed sentence patterns from the existing Chinese teaching textbooks,constructs the database of news Chinese sentence pattern,and realizes the automatic recognition of these sentence patterns based on natural language processing technology.In order to facilitate the user to search and manage the sentence patterns,designs and develops a visual management platform for the sentence patterns.
New Chinese;Sentence Pattern;Natural Language Processing;Visual Management Platform
1007-1423(2016)33-0073-04
10.3969/j.issn.1007-1423.2016.33.017
朱淑琴(1978-),女,碩士,研究方向?yàn)橹形男畔⑻幚?/p>
2016-09-20
2016-11-18