李 果,劉任任
(1. 湘潭大學(xué) 信息工程學(xué)院,湖南 湘潭 411105;2. 湖南文理學(xué)院 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,湖南 常德 415000)
地方新聞指通過(guò)各種渠道傳播的以地方區(qū)域?yàn)榉秶男侣劇H绻胤叫侣勔l(fā)較大范圍乃至全國(guó)民眾的共同興趣和共同感受,被全國(guó)性媒體播發(fā),那么便演變成全國(guó)性新聞,比如騰訊網(wǎng) 2017年 10月1日?qǐng)?bào)道杭州西湖景區(qū)4G信號(hào)被“擠斷”,引發(fā)全國(guó)范圍網(wǎng)民對(duì)國(guó)慶出行的熱議。但多數(shù)情況下,地方新聞并不具備對(duì)較大范圍民眾的吸引力,比如中國(guó)常德政府網(wǎng)2017年6月22日?qǐng)?bào)道常德境內(nèi)的西湖公園建設(shè)如火如荼,大多數(shù)外地網(wǎng)民并不會(huì)關(guān)注,而對(duì)于當(dāng)?shù)孛癖?,公園的建設(shè)會(huì)極大改善周邊環(huán)境、提升生活質(zhì)量,可以說(shuō)與他們的切身利益密切相關(guān)。中國(guó)幅員遼闊,人口眾多,現(xiàn)有34個(gè)省級(jí)行政區(qū),每個(gè)省區(qū)又下轄眾多市縣鄉(xiāng)鎮(zhèn),以湖南省為例,截止2017年6月30日,全省設(shè)14個(gè)地級(jí)市、州;設(shè)17個(gè)縣級(jí)市、70個(gè)縣、35個(gè)市轄區(qū),計(jì)122個(gè)縣級(jí)行政建制;設(shè)387個(gè)街道辦事處、1135個(gè)鎮(zhèn)、318個(gè)鄉(xiāng)、83個(gè)民族鄉(xiāng)。每天都有大量的各類信息從全國(guó)各個(gè)地方產(chǎn)生,但囿于有限的版面和時(shí)長(zhǎng),只有極少數(shù)新聞能被主流媒體報(bào)道傳播,而發(fā)布地方新聞的地方各級(jí)網(wǎng)站訪問(wèn)量不高、傳播影響力有限,許多地方新聞信息被埋沒(méi)而失去價(jià)值。事實(shí)上,地方新聞信息往往和當(dāng)?shù)孛癖娗猩砝婢o密相關(guān),地方新聞信息的挖掘?qū)τ诋?dāng)?shù)孛癖姟⒚襟w從業(yè)者、決策者、地方關(guān)切者及相關(guān)專業(yè)人士具有重要意義。
現(xiàn)實(shí)世界中,信息的傳播內(nèi)容往往具有地理空間特性,這些信息可通過(guò)紙質(zhì)或電子地圖等圖形化方式表達(dá),還有很多以文本的方式來(lái)表達(dá)。日常生活中,人們通常通過(guò)文本方式接收和傳遞地理空間信息 ,例如,在信息檢索領(lǐng)域,WWW中約有18.78%的網(wǎng)頁(yè)描述是本地化信息,而在信息檢索中約有18.6%的檢索查詢中包含地理空間定位信息[1]。新聞寫作六要素包括地點(diǎn)、時(shí)間、人物、事件、原因和發(fā)生過(guò)程,互聯(lián)網(wǎng)中大量分布的新聞文本便富含地理空間信息,一篇新聞報(bào)道中總會(huì)提及大大小小各級(jí)別的地理名詞。這里便出現(xiàn)一個(gè)問(wèn)題,如何從大量非結(jié)構(gòu)化、不規(guī)律的自然語(yǔ)言文本中提取地理空間信息,并將其與現(xiàn)實(shí)中的行政區(qū)劃空間相關(guān)聯(lián)。
針對(duì)中文文本分類和提取地理特征信息,目前國(guó)內(nèi)學(xué)者主要從三個(gè)角度開(kāi)展了相關(guān)研究:一是不針對(duì)特定主題的文本聚類研究,比如基于統(tǒng)計(jì)和機(jī)器學(xué)習(xí)的文本分類方法得到了學(xué)者的廣泛關(guān)注,當(dāng)前性能較好的機(jī)器學(xué)習(xí)方法包括如樸素貝葉斯、KNN、支持向量機(jī)等[2-4];二是基于特定類別或主題展開(kāi)挖掘的文本分類研究,比如對(duì)醫(yī)學(xué)文本分類、農(nóng)業(yè)文本分類、飲食健康文本分類的研究等[5-7];三是基于中文自然語(yǔ)言文本的地名識(shí)別研究,比如基于條件隨機(jī)場(chǎng)對(duì)地名的識(shí)別、基于復(fù)合特征對(duì)地名的識(shí)別、基于本體的中文地名識(shí)別等[8]?,F(xiàn)有的研究極少涉及將中文新聞文本與特定行政區(qū)劃相關(guān)聯(lián),本文提出一種基于文本地名自動(dòng)識(shí)別的地方新聞分類方法,并以湖南省常德市為例,通過(guò)對(duì)新聞文本中地名識(shí)別完成地理特征信息的提取,實(shí)現(xiàn)與特定行政區(qū)劃——市縣(區(qū)、市)鎮(zhèn)(鄉(xiāng))三級(jí)行政區(qū)的匹配。
表1 本地地名詞典局部示例Tab.1 Examples of local geographical names dictionaries
本方法以互聯(lián)網(wǎng)抓取的規(guī)范化的新聞文本為素材,通過(guò)中文分詞、去除停用詞、地名識(shí)別將原始文本轉(zhuǎn)換為地名詞集,對(duì)于地名詞集,利用地名標(biāo)準(zhǔn)化和地名消歧技術(shù)進(jìn)一步精簡(jiǎn)特征信息,最后通過(guò)規(guī)則匹配實(shí)現(xiàn)新聞文本的按行政區(qū)劃分類?;谏鲜鏊枷?,系統(tǒng)流程設(shè)計(jì)如圖1所示。實(shí)現(xiàn)上述功能主要解決3方面關(guān)鍵技術(shù):一是構(gòu)建基于本地地名的地名詞典;二是通過(guò)分詞完成地名識(shí)別;三是通過(guò)建立規(guī)則實(shí)現(xiàn)分類。
圖1 系統(tǒng)流程示意圖Fig.1 System flow chart
以湖南省常德市為例,行政區(qū)劃呈現(xiàn)市、縣(區(qū)、市)和鄉(xiāng)(鎮(zhèn))三級(jí)結(jié)構(gòu),現(xiàn)轄9縣(區(qū)、市)和199個(gè)鄉(xiāng)(鎮(zhèn))[9]。在通用分詞詞庫(kù)中,鄉(xiāng)鎮(zhèn)等地域特色濃厚的地名收錄很不完備,通過(guò)建立本地地名詞典,可以提高地名識(shí)別效果,也為最終新聞的行政區(qū)劃分類提供便利。
本地地名詞典S以2到7位數(shù)字不等長(zhǎng)編碼,如表1所示:S0是未識(shí)別狀態(tài),設(shè)置為00;S1是以三級(jí)行政區(qū)劃為基本的分類詞庫(kù),編碼10開(kāi)頭,以常德市為根,覆蓋9縣(市、區(qū))和199個(gè)鄉(xiāng)(鎮(zhèn));S2是地名相關(guān)詞庫(kù),編碼11開(kāi)頭,如楓樹(shù)鄉(xiāng)(楓樹(shù)維回鄉(xiāng)簡(jiǎn)稱)、夷望溪(夷望溪鎮(zhèn)地名脫落的省寫);S3是本地?zé)衢TPOI(point of interest)詞庫(kù),編碼12開(kāi)頭,如本地景點(diǎn)柳葉湖、楓林花海等,雖然不是行政區(qū)劃名,但單獨(dú)出現(xiàn)頻率高;S4是地名歧義詞,編碼20開(kāi)頭,如我市、全縣等,需要借助文本其他詞匯消歧。其中,S=S0∪S1∪S2∪S3∪S4,且?0≤i 中文分詞的方法大致可歸納為基于字典詞庫(kù)匹配、基于統(tǒng)計(jì)和基于知識(shí)理解三種方法。目前已有大量成熟開(kāi)源的中文分詞方案,比如 jieba、SnowNLP、THULAC、NLPIR等。本文選用 jieba分詞進(jìn)行web文本的分詞。jieba分詞思想是采用圖結(jié)構(gòu)和動(dòng)態(tài)規(guī)劃查找最大概率路徑,找出基于詞頻的最大切分組合[10],分詞精度高、速度快。jieba分詞在通用詞匯識(shí)別上有較高的精度,但是在鄉(xiāng)鎮(zhèn)等極具地域特色的詞匯識(shí)別上精度較差,比如常德市漢壽縣下轄的太子廟鎮(zhèn)是常張高速和石長(zhǎng)鐵路上一個(gè)交通要沖,jieba分詞卻將太子廟鎮(zhèn)識(shí)別為“太子”和“廟鎮(zhèn)”。究其原因是地方地名詞庫(kù)的不完備,因此在分詞前,須利用jieba庫(kù)提供的add_word功能導(dǎo)入常德本地地名詞匯,以提高分詞對(duì)本地地名的識(shí)別精度。 jieba分詞是基于篇章對(duì)文本進(jìn)行全文分詞。分詞結(jié)束后,web文本便轉(zhuǎn)換為離散的詞匯空間,但大多數(shù)詞語(yǔ)和新聞的行政區(qū)劃識(shí)別沒(méi)有關(guān)聯(lián)。因此,在文本分詞的基礎(chǔ)上,需要進(jìn)一步去除停用詞。停用詞是指文本中出現(xiàn)頻率較高、但沒(méi)有太大檢索意義的詞,如“的、是、太、of”等,百度停用詞表具有較好的使用效果[11]。通過(guò)去除停用詞,可以減少文本識(shí)別中的噪音干擾,去除無(wú)用信息,提高特征提取效率和精度。 經(jīng)過(guò)分詞和去停用詞,文本詞匯空間進(jìn)一步精簡(jiǎn),利用構(gòu)建的區(qū)域地名詞典庫(kù)進(jìn)行查找匹配,最終原始新聞文本轉(zhuǎn)換為精簡(jiǎn)的地名詞匯列表V和地名代碼集 V′。設(shè) V={x1,x2…xn},V′={c1,c2…cn}。 通過(guò)分詞等工作將原始web文本轉(zhuǎn)換為地名代碼集V′,然后從V′中提取行政區(qū)劃特征,并最終實(shí)現(xiàn)歸類,這里需要經(jīng)過(guò)地名標(biāo)準(zhǔn)化、地名消歧和規(guī)則匹配三個(gè)過(guò)程。 地名標(biāo)準(zhǔn)化是將同一地名不同表現(xiàn)形式進(jìn)行規(guī)范化處理,從而保證最終歸類的一致性。主要面臨以下幾種問(wèn)題:一是中文地名常見(jiàn)的地名脫落問(wèn)題,“桃源縣”經(jīng)常省略為“桃源”,即地名中諸如市、縣、鄉(xiāng)等通用詞常被省略;二是地方新聞中常見(jiàn)的行政區(qū)劃代指,比如常德日?qǐng)?bào)發(fā)布的新聞標(biāo)題“我市部署易地扶貧搬遷自查工作”,可通過(guò)信息源和標(biāo)題分詞判斷此處“我市”即“常德市”;三是同一地名的多種稱呼,比如“安鄉(xiāng) 縣城”、“安鄉(xiāng) 城關(guān)鎮(zhèn)”、“深柳鎮(zhèn)”三個(gè)名字為同一地理區(qū)劃,在地名詞典編制時(shí)便可注明,而在地名標(biāo)準(zhǔn)化過(guò)程中上述三個(gè)名字均規(guī)范為“深柳鎮(zhèn)”。 地名通常存在兩種類型的歧義:一是地名/非地名的歧義,比如安鄉(xiāng)縣下轄“安全鄉(xiāng)”,單獨(dú)提取“安全”一詞極易引發(fā)歧義,因此在分詞時(shí)通過(guò)與通用詞后綴“鄉(xiāng)”聯(lián)系起來(lái),這樣可以消除歧義;二是地名/地名的歧義,比如石門縣下轄“太平鎮(zhèn)”,在國(guó)內(nèi)有數(shù)十個(gè)鎮(zhèn)級(jí)行政區(qū)以“太平”命名,通過(guò)與web文本中其他地名建立關(guān)聯(lián)或從web來(lái)源中發(fā)掘出相關(guān)區(qū)劃信息,比如在地名集中發(fā)現(xiàn)與“太平鎮(zhèn)”強(qiáng)相關(guān)的“常德”或“石門”詞匯,那么可以消除該歧義。 經(jīng)過(guò)地名標(biāo)準(zhǔn)化和消除歧義,?xi∈V,有xi∈S1,同時(shí)V′={c1,c2…cn}相應(yīng)轉(zhuǎn)換。依據(jù)地名詞匯集中地名元素之間的邏輯關(guān)系,設(shè)最終分類結(jié)果為R,分類規(guī)則如下:1)若 n=1 且 c1=’00’,則 R=’00’;2)若 n=1 且 c1∈S1,則 R=c1;3)若 n>1,?len(ci)>len(cj)有 cjin ci,且? maxlen=len(ck),len(ck)≠len(cothers),則 R=ck;4)若 n>1,i≠j,? maxlen=len(ci)=len(cj),有ck=LCS(V′),LCS為最長(zhǎng)子串,則R=ck。 實(shí)驗(yàn)素材來(lái)源為常德地區(qū)各級(jí)政府機(jī)構(gòu)網(wǎng)站、主要媒體網(wǎng)站以及紅網(wǎng)等湖南省主要地方媒體網(wǎng)站,還有新華網(wǎng)、騰訊網(wǎng)等國(guó)內(nèi)熱門新聞網(wǎng)站。利用python爬蟲(chóng)技術(shù)獲取web文本并規(guī)范化,本方法基于python 3.6.4版本實(shí)現(xiàn),分步驟分類識(shí)別效果如圖2所示。 在中文信息處理領(lǐng)域,通用的度量指標(biāo)有準(zhǔn)確率P、召回率R以及加權(quán)平均指數(shù)F值,計(jì)算公式如下: 根據(jù)最終實(shí)驗(yàn)結(jié)果,準(zhǔn)確率為87.05%,召回率為90.12%,F(xiàn)值為88.55%,對(duì)實(shí)驗(yàn)素材具有較好的識(shí)別率,一方面基于新聞文本素材本身具有較高的規(guī)范性,另一方面本方法建立在較小規(guī)模地名詞典庫(kù)的基礎(chǔ)上,規(guī)避了大規(guī)模地名庫(kù)歧義的發(fā)生。在實(shí)驗(yàn)基礎(chǔ)上,增加素材的時(shí)間跨度,識(shí)別準(zhǔn)確率則明顯下降,原因是近年來(lái)大規(guī)模的鄉(xiāng)鎮(zhèn)合并和更名,而本設(shè)計(jì)中沒(méi)有建立鄉(xiāng)鎮(zhèn)地名歷史溯源機(jī)制。同時(shí),樣本未識(shí)別率達(dá)到12.59%,互聯(lián)網(wǎng)中存在大量文本不含有顯著地理區(qū)劃信息,單純依賴文本地名識(shí)別難以獲取地理區(qū)劃特征。 圖2 新聞原始文本分步驟行政區(qū)劃分類示例Fig.2 The classification of the administrative division of the original news text 對(duì)于具有較高規(guī)范性的新聞文本,利用地名識(shí)別技術(shù)在完善規(guī)則的支撐下進(jìn)行行政區(qū)劃分類,具有較高的精確度,方法以常德市為例,但對(duì)于我國(guó)同類行政區(qū)劃信息分類也具有參考意義。在實(shí)現(xiàn)三級(jí)行政區(qū)劃分類中,一些特殊地名的識(shí)別仍然具有挑戰(zhàn)性,單純依靠分詞和規(guī)則匹配難以避免歧義的無(wú)法識(shí)別。而近年來(lái)隨著微博、公眾號(hào)等自媒體的興起,大量非規(guī)范化文本信息產(chǎn)生,對(duì)于上述文本信息的區(qū)域分類則有待下一步的研究。 參考文獻(xiàn) [1] Hill L L.Georeferencing: The GeographicAssociations of Information[M]. Cambridge: MITPress, 2009. [2] Bo Tang, Steven M Kay, Haibo He. Toward Optimal Feature Selection in Naive Bayes for Text Categorization[J]. IEEE Transactions on Knowledge and Data Engineering, 2016(9):2508-2521. [3] 袁愛(ài)領(lǐng), 齊偉, 錢旭. 基于流形正則化的支持向量機(jī)文本分類[J]. 軟件, 2013, 34(2): 65-68. [4] 陳磊磊. 不同距離測(cè)度的K-Means文本聚類研究[J]. 軟件,2015, 36(1): 56-61. [5] Rajni Jindal, Shweta Taneja. A Lexical Approach for Text Categorization of Medical Documents[J]. Procedia Computer Science, 2015(46): 314-320. [6] 劉波, 郭平, 沈岳, 等. 農(nóng)業(yè)文本特征重組向量矩陣算法優(yōu)化與仿真[J]. 軟件, 2015, 36(4): 6-13. [7] 趙明, 杜會(huì)芳, 董翠翠, 等. 基于word2vec和LSTM的飲食健康文本分類研究[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào), 2017(10): 202-208. [8] 杜萍, 劉勇. 基于本體的中文地名識(shí)別[J]. 西北師范大學(xué)學(xué)報(bào)(自然科學(xué)版), 2011(6): 87-93 [9] 常德政府網(wǎng).常德區(qū)劃人口[EB/OL]. http://www.changde.gov.cn/col/col27/index.html.2018. [10] Sun Junyi.jieba中文分詞[EB/OL]. https://github.com/fxsjy/jieba.2018. [11] 官琴, 鄧三鴻, 王昊. 中文文本聚類常用停用詞表對(duì)比研究[J]. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn), 2017(3): 72-80.1.3 文本分詞
1.4 歸類原則
2 實(shí)驗(yàn)與評(píng)測(cè)
3 結(jié)語(yǔ)