陳 輝 黃強(qiáng)松 鄭丹青 黃凱翔 董明昱
中國電信江蘇號百信息服務(wù)有限公司
12345熱線是市民參與社會管理的重要平臺。傳統(tǒng)的數(shù)據(jù)統(tǒng)計(jì)分析系統(tǒng)由于功能所限造成了資源的閑置和浪費(fèi)。為此熱線依托科技支撐,利用先進(jìn)的計(jì)算機(jī)軟件技術(shù),開發(fā)了千萬量級的智能化大數(shù)據(jù)平臺,實(shí)現(xiàn)了受理坐席精細(xì)化管理,市民訴求自動化歸檔、轉(zhuǎn)辦和考核,訴求輿情自動分析,辦理工作扁平化管理等智能化功能,并且還實(shí)現(xiàn)了大數(shù)據(jù)的自動對比,為前瞻性研判和具體事件的辦理提供了數(shù)據(jù)參考。此項(xiàng)功能走在了全國同行業(yè)的前列。
但在數(shù)據(jù)處理的過程中,我們發(fā)現(xiàn)了一些問題。在熱線系統(tǒng)中,其系統(tǒng)數(shù)據(jù)往往分為系統(tǒng)自動生成數(shù)據(jù)、系統(tǒng)可選數(shù)據(jù)及接線員記錄的描述數(shù)據(jù),如表1所示。系統(tǒng)自動生成數(shù)據(jù)往往為編號數(shù)據(jù)、時(shí)間數(shù)據(jù)等等,而系統(tǒng)可選數(shù)據(jù)一般分為熱線形式類別、熱線內(nèi)容類別等等,而接線員記錄的描述數(shù)據(jù)往往是記錄的詳細(xì)時(shí)間地點(diǎn)人物事件等等。
表1 12345系統(tǒng)數(shù)據(jù)樣例
在進(jìn)行數(shù)據(jù)處理時(shí),發(fā)現(xiàn)自動生成數(shù)據(jù)、系統(tǒng)可選數(shù)據(jù)較好處理成格式化數(shù)據(jù),并可以直接參與統(tǒng)計(jì)、挖掘及分析,但是接線員人為記錄的較多信息很難通過簡單的方法將信息準(zhǔn)確的提取出來,若這些信息難以提取,則有用信息大大減少。因此,人為記錄數(shù)據(jù)的分析預(yù)處理是自然語言處理的重點(diǎn)。
所謂自然語言處理就是研究能使計(jì)算機(jī)像人一樣理解自然語言的一門邊緣科學(xué)。它的主要任務(wù)是從語言中提取意義,從而使得計(jì)算機(jī)能夠?qū)λ幚淼恼Z言材料有更深入的了解,目前這一領(lǐng)域的研究包括:自然語言數(shù)據(jù)庫的構(gòu)造與查詢,自然語言人機(jī)接口,自然語言語篇生成與摘要,自然語言文檔查閱,智能文本處理,自然語言專家系統(tǒng),機(jī)器翻譯,自然語言情報(bào)檢索等等。自然語言處理的成功可對人類生活產(chǎn)生巨大的影響,如:它可消除人與機(jī)器間的語言障礙、人類之間的語言溝通問題和知識瓶頸。
人類自然語言的表述通常有語音和文字兩種形式,本文從文字表述的角度來論述自然語言處理。自然語言處理研究包括基礎(chǔ)研究、共性技術(shù)和應(yīng)用研究,應(yīng)用研究當(dāng)前主要有機(jī)器翻譯、信息檢索和社會計(jì)算等幾個(gè)方面。
自然語言處理的流程如圖1所示:
字→詞→短語→句子→段落→篇章
針對自然語言的處理過程,可從字詞句子段落入手,同時(shí)利用最新的分詞軟件,進(jìn)行精準(zhǔn)分詞。
圖1 自然語言處理流程圖
通常情況下,描述事件的要素為時(shí)間、地點(diǎn)、人物、事件。通過分析政府熱線數(shù)據(jù),我們發(fā)現(xiàn)文本數(shù)據(jù)中的時(shí)間較好處理,熱線撥打市民的個(gè)人情況屬于需要保護(hù)的個(gè)人隱私,無需重點(diǎn)研究,而數(shù)據(jù)處理的難點(diǎn)是無法精確定位問題的關(guān)鍵詞(事件、發(fā)生的地點(diǎn))。因此,本文分析的總體工作為確定發(fā)生時(shí)間、事件(動作關(guān)鍵詞)、地點(diǎn),而難點(diǎn)工作為確定事件及地點(diǎn)。
政府熱線的時(shí)間記錄樣例為:17052923082782785830。對于時(shí)間的解析比較簡單,觀察數(shù)字序列可以得出,前兩位為年份,第三位至第四位為月份,第五位至第六位為日期,第七位至第八位為小時(shí),第九位至第十位為分鐘,第十一位至第十二位為秒,后續(xù)為其他編號。根據(jù)實(shí)際需要,我們重點(diǎn)提取了年份、月份、日期和小時(shí),而分鐘與秒的顆粒度太細(xì),意義不大。因此,根據(jù)以上規(guī)則,時(shí)間解析的樣例如表2所示:
表2 12345系統(tǒng)時(shí)間解析樣例
用戶的反饋信息多為固定格式的記錄信息,形如:某市民來電反映:某某地區(qū)某菜市場有小販?zhǔn)褂酶咭衾?,噪音十分?jǐn)_民。請相關(guān)部門盡快處理。
對于此類信息,首先去除與主體無關(guān)的信息,即去除開頭及結(jié)尾等固定格式內(nèi)容,僅留下反饋信息主體。
而后,對信息主體進(jìn)行分解,將其按標(biāo)點(diǎn)符號分成多句。而后分別對其進(jìn)行分詞及詞性標(biāo)注。
對于句意及主謂賓等結(jié)構(gòu)完整的語句,如第一句,對分詞結(jié)果進(jìn)行遍歷,選取動詞及之后遇到的名詞,多個(gè)名詞算為一個(gè)動詞短語,如:使用/v,高音/n,喇叭/n,將提取出的詞語放入集合去重。
對于詞語過少的語句,如第二句,則同樣提取動名詞短語或名詞動詞短語,如:噪音/n,十分/d, 擾民/v,從中提取噪音擾民,同樣將結(jié)果放入集合去重。
部分信息中可能包含可以表達(dá)整個(gè)反饋事件的詞語,可將其加入詞庫直接匹配信息,如反饋屋頂、樓上或樓房漏水此類的信息,可直接將“漏水”添加至詞庫。
對于提取出的詞語,可能語義不清晰或根本不成詞語,可將其加入過濾詞庫進(jìn)行結(jié)果修正,以便在結(jié)果中去除此類詞語。
對于事件解析主要就是針對關(guān)鍵詞的提取,基于上述生成的詞庫,采用TF-IDF算法對生成的詞庫進(jìn)行排序。
在TF-IDF算法中, TF代表詞頻,指的是詞語在其對應(yīng)文本中出現(xiàn)的頻率,它對詞語出現(xiàn)次數(shù)進(jìn)行了歸一化操作,避免它偏向長的文本,對于某一個(gè)特定文本里的詞語來說,詞頻TF可以表示為:
分子是該詞在文本里出現(xiàn)的次數(shù),分母是在文本中所有字詞的數(shù)量之和。
逆向文件頻率(IDF)是由總文本數(shù)目除以包含該詞語的文本的數(shù)目,再對得到的商取對數(shù):
其中|D|是所有的文件總數(shù),j表示包含目標(biāo)詞語文本的數(shù)目。
最后計(jì)算詞頻和逆向文件頻率的乘積,某一文本內(nèi)的高詞語頻率,以及該詞在整個(gè)文本集中的低文件頻率,可以得到較高的TF-IDF值,因此TF-IDF算法可以很好地過濾掉常見的詞語,從而保留關(guān)鍵的詞語。
通過TF-IDF算法對所有類別的文本進(jìn)行計(jì)算,得到詞語的相應(yīng)TF-IDF值,對于TF-IDF值高的詞語,一般代表著這一類事件中的投訴關(guān)鍵點(diǎn),將會予以保留并進(jìn)行深度分析。
最后將所有類別的投訴反饋文本信息中TF-IDF值最高的幾個(gè)進(jìn)行匯總統(tǒng)計(jì),分析出所有投訴信息中用戶最為關(guān)心的重點(diǎn)問題。
接線員人工記錄語句中,由于熱線撥打市民上報(bào)地址的習(xí)慣不同,地址的記錄往往比較隨意,具體的情況往往為:(1)某某小區(qū)業(yè)主來電;(2)某某區(qū)市民來電反映;(3)某某鎮(zhèn)石橋某某村拆遷戶來電反映。
以上內(nèi)容均為市民在投訴時(shí)上報(bào)地址的說法,從以上說法實(shí)例來看,市民上報(bào)的地點(diǎn)往往只上報(bào)一個(gè)或者兩個(gè)維度,并不能同時(shí)完整地告知接線員自己歸屬的區(qū)、街道(鎮(zhèn))、社區(qū)、路、小區(qū)等信息,比如市民只告訴接線員自己是某小區(qū)業(yè)主,或者告訴接線員自己在某某區(qū)某某路等等。這樣在進(jìn)行統(tǒng)計(jì)和挖掘算法計(jì)算時(shí),很難完整地對區(qū)、街道等行政區(qū)域進(jìn)行分析。因此,需要建立地址進(jìn)行樹形結(jié)構(gòu),用樹形結(jié)構(gòu)補(bǔ)全市民上報(bào)信息,即使市民只上報(bào)了某某村或者某某小區(qū),也能將其對應(yīng)至相應(yīng)的區(qū)或者街道。此種做法的最大好處是可以精確對區(qū)或者街道級的問題數(shù)量進(jìn)行分析統(tǒng)計(jì)。
對區(qū)、街道(鎮(zhèn))、社區(qū)、小區(qū)進(jìn)行層級編號,如表3所示:
表3 區(qū)、街道(鎮(zhèn))、社區(qū)、小區(qū)層級編號樣例
其中11位編號對應(yīng)關(guān)系為:第一位為區(qū)(縣)編碼,第二位至第四位為街道(鎮(zhèn))的編碼,第五位至第七位為社區(qū)(村)編碼,第八位至第十一位為小區(qū)編碼。
熱線數(shù)據(jù)經(jīng)過處理后的地址結(jié)構(gòu)化樣例如表4所示:
表4 12345系統(tǒng)數(shù)據(jù)地址結(jié)構(gòu)化處理后樣例
通過數(shù)據(jù)處理,可以清晰定位熱線發(fā)生或投訴對象的地點(diǎn)。
在完善和提取完所有信息后,數(shù)據(jù)變?yōu)橐韵卤?樣式,根據(jù)此數(shù)據(jù),可以進(jìn)行相關(guān)統(tǒng)計(jì)分析和挖掘。
表5 12345系統(tǒng)數(shù)據(jù)全結(jié)構(gòu)化處理后樣例
基于以上數(shù)據(jù),可以根據(jù)各種維度進(jìn)行不同分析。下面描述兩個(gè)具體需求的實(shí)現(xiàn)。
統(tǒng)計(jì)某某區(qū)在某某時(shí)段發(fā)生的事件排名;根據(jù)區(qū)域和時(shí)段利用SPSS軟件建立相應(yīng)交叉列聯(lián)表,并根據(jù)交叉列聯(lián)表得出相應(yīng)的事件排名。
相應(yīng)的列聯(lián)表如下表6所示:
表6 某某區(qū)在某某時(shí)段發(fā)生的事件排名
統(tǒng)計(jì)某個(gè)時(shí)段發(fā)生某個(gè)事件的街道排名:根據(jù)時(shí)段和街道,利用SPSS軟件建立相應(yīng)交叉列聯(lián)表,并根據(jù)交叉列聯(lián)表得出相應(yīng)的排名。
相應(yīng)的列聯(lián)表如下表7所示:
表7 某某區(qū)在某某時(shí)段發(fā)生的事件排名
市民反映的問題五花八門,但是在眾多的現(xiàn)象背后,肯定有一些問題存在著因果、依存關(guān)系。在處理市民的問題時(shí),往往有這樣的情形,若一個(gè)問題解決,若干個(gè)相關(guān)的問題得到緩解;一個(gè)問題沒有解決,若干個(gè)問題仍處于待解決的狀態(tài)。因此,找到問題背后的深層聯(lián)系顯得非常重要。
根據(jù)數(shù)據(jù)特點(diǎn),將問題細(xì)分小類作為主ID,把事件按照發(fā)生時(shí)段的次數(shù)、區(qū)域次數(shù)等作為特征值,樣例如表8所示:
表8 事件相關(guān)性挖掘數(shù)據(jù)源表
對上述變量使用Python進(jìn)行聚類分析。聚類分析是研究多要素事物分類問題的數(shù)量方法.基本原理是根據(jù)樣本自身的屬性,用數(shù)學(xué)方法按照某種相似性或差異性指標(biāo),定量地確定樣本之間的親疏關(guān)系,并按這種親疏關(guān)系程度對樣本進(jìn)行聚類。常見的聚類分析方法有系統(tǒng)聚類法、K-均值法和模糊聚類法等。
根據(jù)聚類的K-均值法的聚類分析過程及結(jié)果如下:
采用K-均值法的聚類方法進(jìn)行聚類,表8中共有7個(gè)問題,即為7個(gè)樣本;每個(gè)樣本有8個(gè)特征,即為8個(gè)特征值,計(jì)算這7個(gè)樣本的聚類結(jié)果:
第一步:隨機(jī)選擇K個(gè)初始質(zhì)心,即將所有樣本聚到K個(gè)分類上,經(jīng)多次實(shí)驗(yàn)取K=4;
第二步:分別計(jì)算所有樣本到這K個(gè)質(zhì)心的距離;
第三步:如果樣本離質(zhì)心Si最近,那么這個(gè)樣本屬于Si點(diǎn)群;如果到多個(gè)質(zhì)心的距離相等,則可劃分到任意組中;
第四步:按距離對所有樣本分完組之后,計(jì)算每個(gè)組的均值,作為新的質(zhì)心;
第五步:比較新的聚類中心與老的質(zhì)心之間的距離,若大于設(shè)定的閾值,則跳到第二步; 否則輸出分類結(jié)果和質(zhì)心,算法結(jié)束。經(jīng)過聚類算法,將7個(gè)問題分為了4類,如表9所示。
表9 事件聚類分析結(jié)果
在1-6月的某某市投訴和舉報(bào)問題的排名上,違建問題共4733條,其中違建問題(已建成)總件數(shù)為2344件,而在建2389件,若和并計(jì)算,則為投訴舉報(bào)第一大問題。
根據(jù)在文本中獲取的有效地址,并在樹形地址庫進(jìn)行匹配,得出違建在建問題和違建已建成問題按照行政區(qū)進(jìn)行分類,發(fā)現(xiàn)區(qū)1無論建成和在建問題均投訴最多,區(qū)2的投訴最少,區(qū)3的違建建成問題較為嚴(yán)重。而對街道一級繼續(xù)進(jìn)行分析,可以得到每個(gè)街道的問題分類。
從絕對數(shù)量上可以看到,已建成違建、在建違建問題的解決率最高的地方均為區(qū)2,并且其投訴也最少,說明區(qū)2在問題總數(shù)、問題解決方面均較為優(yōu)秀。而已建成違建、在建違建問題解決率最低的為區(qū)1,而其問題的總數(shù)也較多,其投訴總量已達(dá)1300條,平均一天就有10條投訴該區(qū)的違建問題。究其原因,區(qū)1面積大,廠房多,廠房的違建也多,其舉報(bào)多、拆除難,最終導(dǎo)致了區(qū)1的違建問題投訴最多。區(qū)1違建的分布區(qū)域熱力圖如圖2所示(圖2僅為展示用,與實(shí)際場景及問題無關(guān))。
圖2 違建的分布區(qū)域熱力圖(僅做示意,為隨機(jī)生成數(shù)據(jù))
隨著城市的發(fā)展,噪音問題變得越來越嚴(yán)重,目前被認(rèn)為是當(dāng)今社會第三大公害。通過使用自然語言分析方法,解析動作描述詞,得到鎮(zhèn)江噪音問題的投訴描述,如圖3所示:
圖3 噪音問題的投訴描述
從上圖可以看出,通過文本解析投訴內(nèi)容,施工、播放音樂、高音喇叭、軋石機(jī)、使用音響占據(jù)了動作關(guān)鍵詞。施工、軋石機(jī)和施工相關(guān),屬于建筑噪音,而播放音樂、高音喇叭、使用音響主要是音響類的噪音,和小區(qū)廣播、商業(yè)經(jīng)營有關(guān)系,屬于生活噪音。從投訴的關(guān)鍵詞來看,建筑噪音和生活噪音是噪音問題的主要組成部分。
本文依據(jù)12345熱線數(shù)據(jù),通過自然語言分析技術(shù),對人工記錄的數(shù)據(jù)進(jìn)行深度文本分析處理,提取原始數(shù)據(jù)中的時(shí)間、事件、地址以及用戶投訴的關(guān)鍵信息,并應(yīng)用分析統(tǒng)計(jì)方法和數(shù)據(jù)挖掘方法,找出問題,定位問題,找尋不同問題之間的相關(guān)性,從而得出典型問題發(fā)生的原因,并提供合理的意見建議。本文充分應(yīng)用了數(shù)據(jù)分析的技術(shù)方法來研究數(shù)據(jù)背后反映的社會生活問題,從而幫助更準(zhǔn)確高效地解決問題,服務(wù)于社會。