基于知識(shí)地圖的政府訴求文件自動(dòng)推送模型研究

2015-12-14 10:43:45鄭小雪

現(xiàn)代情報(bào) 2015年8期

鄭小雪

〔摘要〕當(dāng)前不少政府部門在其官網(wǎng)上設(shè)置了意見反饋欄目，旨在為公眾提供申訴和表達(dá)意見的渠道。為了表示對(duì)公眾訴求意見的重視，有關(guān)部門必須快速且正確地將訴求文件推送至對(duì)口部門進(jìn)行處理及回應(yīng)。為解決上述問題，本文提出基于知識(shí)地圖的政府訴求文件自動(dòng)推送模型，主要包括通過(guò)歷史文件的處理構(gòu)建政府知識(shí)地圖的模型和機(jī)制，并實(shí)現(xiàn)知識(shí)地圖與新進(jìn)訴求文件的匹配，實(shí)現(xiàn)文件到部門的正確推送，有助于減少人工分揀文件的作業(yè)，提高政府行政效率。

〔關(guān)鍵詞〕知識(shí)地圖；訴求文件；自動(dòng)推送

DOI：10.3969/j.issn.1008-0821.2015.08.009

〔中圖分類號(hào)〕D035〔文獻(xiàn)標(biāo)識(shí)碼〕B〔文章編號(hào)〕1008-0821（2015）08-0043-04

近年來(lái)，隨著互聯(lián)網(wǎng)的快速發(fā)展，促使了我國(guó)網(wǎng)絡(luò)用戶的大幅度增加；同時(shí)隨著信息科技與產(chǎn)業(yè)競(jìng)爭(zhēng)環(huán)境的日新月異，對(duì)于客戶關(guān)系管理（Customer Relationship Management，CRM）來(lái)說(shuō)，建立一套完整的客戶信息系統(tǒng)是最為必要的，其目的在于管理和維護(hù)客戶關(guān)系，開發(fā)出適合客戶個(gè)性需求的產(chǎn)品或服務(wù)，從而提高客戶的滿意度同時(shí)吸引優(yōu)質(zhì)的新客戶。對(duì)于服務(wù)型政府部門而言，公眾就是它的客戶，同樣需要有良好的客戶關(guān)系管理來(lái)提升公眾對(duì)政府部門的滿意度。

借助于客戶關(guān)系管理理論及相關(guān)技術(shù)，許多企業(yè)利用互聯(lián)網(wǎng)提供各種網(wǎng)絡(luò)服務(wù)，方便客戶在沒有時(shí)間、地點(diǎn)的限制下接受企業(yè)服務(wù)，如：網(wǎng)上購(gòu)物、技術(shù)咨詢、問題反饋等。同樣地，政府部門開通了不少便民服務(wù)平臺(tái)，收集民眾關(guān)于社會(huì)生活的各種訴求問題，通過(guò)對(duì)問題的回應(yīng)和處理，完善政府的行政管理機(jī)制，為公眾提供更便捷有效的政府服務(wù)，提高公民對(duì)政府的滿意度。以福建省福州市“便民呼叫中心12345”為例，該平臺(tái)疊加了網(wǎng)站、E-mail、短信、傳真、QQ等多種方式，自2006年3月由鼓樓區(qū)升級(jí)到福州市級(jí)層面應(yīng)用以來(lái)，截至2012年12月31日，共辦理訴求件928 255件次，及時(shí)回復(fù)率為9874%，群眾基本滿意率達(dá)9333%。然而，縱觀我國(guó)各種政府便民服務(wù)網(wǎng)站，雖然不乏像“福州12345”這樣的優(yōu)秀的公共平臺(tái)，但是仍然存在諸多問題：首先，現(xiàn)有的便民服務(wù)平臺(tái)的輻射范圍有限，僅能維持市一級(jí)（及以下）的回應(yīng)民意服務(wù)；其次，由于網(wǎng)絡(luò)輿情問題越來(lái)越受到政府、公眾及社會(huì)各界人士的關(guān)注，現(xiàn)今政府便民平臺(tái)回應(yīng)民眾的準(zhǔn)確率和時(shí)效性不高，容易激化輿情矛盾；最后，我國(guó)行政組織結(jié)構(gòu)過(guò)于龐大，而公眾陳情或請(qǐng)求回應(yīng)的文件過(guò)于復(fù)雜，常常需要人工分辨后才能指派給相關(guān)部門進(jìn)行處理，政府回應(yīng)過(guò)慢容易導(dǎo)致民怨，而培訓(xùn)專業(yè)的分派人員又需要長(zhǎng)期訓(xùn)練和熟悉業(yè)務(wù)，才能準(zhǔn)確分配，這些問題無(wú)疑嚴(yán)重影響了政府互聯(lián)網(wǎng)便民服務(wù)的效率和效果。本文研究的基于知識(shí)地圖的政府訴求文件自動(dòng)推送模型，重點(diǎn)解決“政府知識(shí)地圖的構(gòu)建”和“訴求文件自動(dòng)化分類”兩個(gè)問題，有利于降低人工處理投資文件的成本，縮短政府回應(yīng)民意的時(shí)間，同時(shí)提升政府部門積極服務(wù)的形象。

2015年8月第35卷第8期現(xiàn)？代？情？報(bào)Journal of Modern InformationAug，2015Vol35No82015年8月第35卷第8期基于知識(shí)地圖的政府訴求文件自動(dòng)推送模型研究Aug，2015Vol35No81模型架構(gòu)

首先以訓(xùn)練文檔建立政府知識(shí)地圖，接著通過(guò)對(duì)比的方式，為網(wǎng)絡(luò)輿情事件中的不同政務(wù)需求找出所應(yīng)負(fù)責(zé)處理的政府部門。模型架構(gòu)如圖1所示，主要分為知識(shí)獲取和訴求文件分配兩個(gè)模塊，獲取知識(shí)模塊主要是訓(xùn)練樣本文檔階段，先利用文件處理子模塊找出文件的特征詞，再使用知識(shí)地圖構(gòu)建模塊，利用關(guān)聯(lián)規(guī)則技術(shù)，找出特征詞與政府部門之間的關(guān)聯(lián)，進(jìn)而建立政府知識(shí)地圖；而訴求文件分配模塊則是針對(duì)實(shí)際應(yīng)用階段，先通過(guò)訴求文件處理子模塊找出新進(jìn)訴求文件的特征詞，再透過(guò)分配處理子模塊將文檔與知識(shí)地圖作對(duì)比，進(jìn)而決定訴求文件應(yīng)由哪些政府部門負(fù)責(zé)處理。圖1基于知識(shí)地圖的政府訴求文件自動(dòng)推送模型

2知識(shí)獲取模塊

知識(shí)獲取模塊主要功能是建立政府部門知識(shí)地圖，作為進(jìn)行訴求文件分配時(shí)文檔對(duì)比的依據(jù)，通過(guò)訴求文件與事先建立好的知識(shí)地圖對(duì)比，可預(yù)測(cè)出該訴求文件所分配的具體政府部門，優(yōu)化政府決策。該模塊的資料來(lái)源于政府網(wǎng)站的各種文件和FAQ問答集，主要功能模塊包括了文件處理子模塊和知識(shí)地圖構(gòu)建子模塊，各子模塊的處理流程描述如下。

21文件處理子模塊

該模塊是從文件中挖掘出有用的特征詞，作為建立特征詞表的基礎(chǔ)詞源；主要包括3個(gè)步驟：分別為文件預(yù)處理、文件特征詞處理及文件特征詞表構(gòu)建，處理流程如圖2所示。

211文件預(yù)處理

這部分主要包括文件分詞處理與特征詞提取兩個(gè)重要

的步驟。文件預(yù)處理子模塊需要各政府部門提供該部門有代表性的政府職能描述文件，然后，利用分詞處理模塊對(duì)收集來(lái)的文件進(jìn)行分詞處理，再通過(guò)詞性合并的規(guī)則挖掘出有意義的特征詞。

（1）分詞處理

中文與拉丁語(yǔ)系的分詞過(guò)程大相徑庭，一般的英文文件只要以空白間隔將文件分解成一個(gè)個(gè)詞（Word）即可做后續(xù)的處理，本文研究的是中文文件為主，沒有空白格進(jìn)行斷詞。因此，中文分詞較英文分詞更難處理，現(xiàn)階段比較流行的中文分詞方法大致分為3種類型[3]：基于規(guī)則的分詞方法、基于理解的分詞方法、基于統(tǒng)計(jì)的分詞方法。本文運(yùn)用目前最常用的開放中文分詞工具CKIP中文斷詞系統(tǒng)[4]，該系統(tǒng)綜合運(yùn)用了上述分詞方法，將內(nèi)容切分成一組組的詞匯，并按照不同詞性對(duì)每組詞匯進(jìn)行標(biāo)記，例如詞類標(biāo)記Na/Nb/Nc分別是普通名詞、專有名詞及地方詞，且均可統(tǒng)一歸類為名詞（N）。接著過(guò)濾掉各文件中標(biāo)點(diǎn)符號(hào)等不具有語(yǔ)義的符號(hào)和不必要的停頓詞（Stop Words）。在中文的特征詞匯中，名詞（Nouns）與動(dòng)詞（Verbs）所代表的意義最為重要，基本能代表文件中的重要概念，因此，本研究近保留名詞與動(dòng)詞的單字詞，其他詞性的字詞均可忽略。endprint

（2）特征詞提取

“特征詞提取”的任務(wù)是整理合并經(jīng)過(guò)分詞處理后的詞匯，使之形成能夠代表文件的特征詞表。根據(jù)CKIP系統(tǒng)所產(chǎn)生的結(jié)果，本研究雖然僅保留了名詞與動(dòng)詞的詞組，但是根據(jù)其他學(xué)者的研究表明[5]，如果不做詞性組合，仍然有很多無(wú)意義的字詞存在?；诒疚牡倪\(yùn)用背景和對(duì)象，發(fā)現(xiàn)諸多政務(wù)類詞匯，若不經(jīng)過(guò)詞性組合，將大大影響模型效果；例如：當(dāng)“環(huán)保人員”和“市政人員”兩個(gè)詞經(jīng)過(guò)分詞處理后，分布得到“環(huán)?！?、“人員”及“市政”、“人員”，所得到的“人員”對(duì)于政府知識(shí)地圖的構(gòu)建是沒有意義的，因此，必須建立詞性合并的規(guī)則，具體范例如下：

詞性組合范例N+N“禽流感”（N）+“疫苗”（N）=“禽流感疫苗”（N）此外，為能使特征詞對(duì)于決定未來(lái)訴求文件推送至何部門時(shí)具有參考性，需先請(qǐng)專家以人工方式判斷文件所屬的政府部門，并將部門名稱加入文件的特征詞表中。另外，特征此表中的一些專有名詞（如疾病名稱、藥品名詞）因出現(xiàn)的頻率低，在建立知識(shí)地圖模塊階段，可能無(wú)法找出有效的關(guān)聯(lián)規(guī)則，為了解決此問題，將收集和分析各政府部門官方網(wǎng)站收集來(lái)文件及FAQ問答集，依各部門屬性建立特定名詞的特征詞表，以“特定名詞”取代出現(xiàn)頻率較少的專有名詞，例如以流行病代替“H1N1，H7N9”。

212文件特征詞處理

并非所有的詞匯都是重要的詞匯，所以要通過(guò)權(quán)重篩選的方式，以保留重要的特征詞。特征詞權(quán)重計(jì)算主要包括了兩個(gè)步驟：首先是利用TF-IDF加權(quán)模式計(jì)算各特征詞權(quán)重，最后根據(jù)特征詞出現(xiàn)的位置與事先設(shè)定的“特定特征詞”作權(quán)重加乘。

一般而言，文件詞匯的權(quán)重計(jì)算方法有TF加權(quán)和TF-IDF加權(quán)等[6]。TF表示詞頻，即字詞在某一個(gè)文件中出現(xiàn)的頻率，一般而言，TF越高表示該詞對(duì)這篇文件來(lái)說(shuō)越重要。TF-IDF是一種統(tǒng)計(jì)方法，用以評(píng)估某個(gè)詞對(duì)于資料庫(kù)中的其中一份文件的重要程度。計(jì)算公式如下：

TF-IDF權(quán)重=wij×idf=wij×logNni（1）

wij=1+log10ifij？當(dāng)tfij>0時(shí)

0當(dāng)ifij=0時(shí)（2）

公式（2）中tfij為字詞ti在文件j出現(xiàn)的詞頻，公式（1）中wij為字詞ti在文件j出現(xiàn)的對(duì)數(shù)詞頻[7]，ni為資料庫(kù)中含有字詞ti出現(xiàn)的文件篇數(shù)，N為資料庫(kù)總的文件數(shù)。該公式的內(nèi)涵在于字詞的重要性隨著它在各文件中出現(xiàn)的次數(shù)成正比增加，但同時(shí)會(huì)隨著它在資料庫(kù)中出現(xiàn)的頻率成反比下降?？紤]到本文采集的信息來(lái)源于各個(gè)政府部門官方網(wǎng)站的文件和FAQ問答集，文件長(zhǎng)短不一，單用詞頻來(lái)計(jì)算權(quán)重會(huì)受到每篇文件字詞多寡的影響，選用TF-IDF來(lái)計(jì)算權(quán)重不僅考慮到了詞頻還考慮到出現(xiàn)詞匯的文件數(shù)量。

另一方面，還需要考慮到文件結(jié)構(gòu)對(duì)詞匯重要性的影響，并修正權(quán)重：文件中的特征詞出現(xiàn)的位置不同，也將給予不同的權(quán)重。一般政府文件或FAQ分為“標(biāo)題”和“內(nèi)容”兩個(gè)部分，“標(biāo)題”通常代表文件的主旨，位于“標(biāo)題”的特征詞代表文件的可能性更高，因此需要增加位于“標(biāo)題”的特征詞權(quán)重；若文件“內(nèi)容”已經(jīng)出現(xiàn)了相關(guān)政府部門的名稱，則文件被推送至這個(gè)相關(guān)部門的幾率越高，因此有必要增加此類政府部門名稱特征詞的權(quán)重。

TF-IDF修正權(quán)重=tfij×idfi×（1+s1×02+s2×01+s3×02）（3）

公式（3）中s1，s2和s3為布爾型數(shù)值，當(dāng)詞匯出現(xiàn)在文件“標(biāo)題”時(shí)s1為1，否則為0，當(dāng)詞匯出現(xiàn)在文件“內(nèi)容”時(shí)s2為1，否則為0，當(dāng)詞匯為部門名稱特征詞時(shí)s3為1，否則為0。

213建立文件特征詞表

特征詞的權(quán)重可以代表著該特征詞在整篇文件中所占的重要性，權(quán)重越高越可代表文件概念，從每篇文件中挑選出權(quán)重值最高的前10個(gè)特征詞用于代表該文件。將所有資料庫(kù)中的文件都整理成以特征詞的形式，并建立文件特征詞表，以此當(dāng)作建立知識(shí)地圖的基礎(chǔ)資料，透過(guò)編碼轉(zhuǎn)換以方便下階段的關(guān)聯(lián)規(guī)則的挖掘。

22知識(shí)地圖建立模塊

文件處理子模塊將所有文件都轉(zhuǎn)換成以特征詞表示，形成特征詞表。利用數(shù)據(jù)挖掘技術(shù)對(duì)文件資料庫(kù)的特征詞表進(jìn)行關(guān)聯(lián)規(guī)則的挖掘，透過(guò)設(shè)定關(guān)聯(lián)規(guī)則的最小支持度及置信度門檻值，以挑選出真正有效的關(guān)聯(lián)規(guī)則[8]；從有效的關(guān)聯(lián)規(guī)則中，找出各政府部門與特征詞之間的關(guān)聯(lián)。為避免重要的特征詞未被選入單位的特征詞集合，故設(shè)置較低的支持度，例如設(shè)定最小支持度為支持個(gè)數(shù)2，最小置信度07，所產(chǎn)生的關(guān)聯(lián)規(guī)則摘要如表1所示。

4討論

本文提出一個(gè)智能型政府知識(shí)地圖的構(gòu)建機(jī)制，來(lái)協(xié)助上級(jí)政府部門以自動(dòng)化的形式將公眾的訴求意見迅速地分送至對(duì)口的政府部門，有利于相關(guān)部門

快速回應(yīng)民意，以提升政府部門的行政績(jī)效，同時(shí)節(jié)省了處理訴求文件的人力、物力等資源。未來(lái)的研究工作包括：首先，本文的研究前提是公眾訴求文件內(nèi)只能描述一個(gè)政府部門所負(fù)責(zé)的政務(wù)范圍，然而由于公眾對(duì)政府部門分工的不熟悉，使得文件內(nèi)往往包含了多類別的意見，如何處理復(fù)雜關(guān)聯(lián)的文件將是未來(lái)一個(gè)重要的研究課題；另外，由于時(shí)空環(huán)境的變遷，可能會(huì)出現(xiàn)不同的流行語(yǔ)或關(guān)注點(diǎn)，因此文件的特征詞會(huì)不斷變更，如何設(shè)計(jì)一個(gè)有效率的特征詞自動(dòng)更新模型和機(jī)制也是將來(lái)一個(gè)思考方向。

參考文獻(xiàn)

東南網(wǎng).“12345”：老百姓呼叫政府[EB/OL].http：∥www.fz12345.gov.cn/article.jsp？articleId=1708，2013-05-04.

鄭麗珍，賴美慧.結(jié)合知識(shí)地圖之工部門陳述文件自動(dòng)化分案系統(tǒng)[J].資訊管理學(xué)報(bào)，2011，18（4）：7-11.

[3]Christopher D，Hinrich Schutze.統(tǒng)計(jì)自然語(yǔ)言處理基礎(chǔ)[M].苑春發(fā)，等譯.北京：電子工業(yè)出版社，2004：1-50.

[4]中文詞知識(shí)庫(kù)小組.“CKIP”中文詞知識(shí)庫(kù)小組[EB/OL].http：∥rocling.iis.sinica.edu.tw/CKIP/，2013-04-20.

[5]邱登裕，潘雅真.結(jié)合資訊檢索與分群演算法構(gòu)建知識(shí)地圖[J].資訊管理學(xué)報(bào)，2006，13（8）：137-160.

[6]Salton G，Buckley.Term-weighting approaches in automatic text retrieval[J].Information Processing and Management，1988，24（5）：513-523.

[7]貝澤耶茨.現(xiàn)代信息檢索[M].黃萱菁，張奇，邱錫鵬，譯.北京：機(jī)械工業(yè)出版社，2012：90-155.

[8]Agrawal R，Inielinski T，Swami A.Mining association rules between sets of items in large databases[A].In Proc.1993 ACM-SIGMOD Int.Conf.Management of Data（SIGMOD93）[C].Washington，DC，1993：207-216.

[9]黃國(guó)禎，朱蕙君，曾秋蓉，等.具有自我調(diào)試功能之線上課程問題自動(dòng)回復(fù)系統(tǒng)[J].電子商務(wù)學(xué)報(bào)，2007，9（3）：599-624.

（本文責(zé)任編輯：馬卓）endprint

現(xiàn)代情報(bào)2015年8期

現(xiàn)代情報(bào)的其它文章: 基于大數(shù)據(jù)的圖書館異構(gòu)數(shù)據(jù)整合機(jī)制研究; 移動(dòng)互聯(lián)網(wǎng)時(shí)代競(jìng)爭(zhēng)情報(bào)在企業(yè)電子商務(wù)中的應(yīng)用策略; 虛擬社區(qū)成員感知價(jià)值與鎖定效應(yīng)實(shí)證研究; 用戶關(guān)注微信公眾訂閱號(hào)動(dòng)機(jī)研究; 基于共詞聚類分析的國(guó)外知識(shí)密集服務(wù)研究熱點(diǎn)分析; O2O在線外賣用戶滿意度研究與實(shí)證分析