張 鑫,歐文孝,王寅森,潘 巖,殷風(fēng)景
(國防科技大學(xué) 系統(tǒng)工程學(xué)院, 湖南 長沙 410073)
當(dāng)前,很多社會工作的評估評價還相對薄弱。以擁軍優(yōu)屬工作為例,其評價主要存在三方面問題:一是尚無獨立的針對性評估體系。已有的考評標準,如《全國雙擁模范城(縣)考評標準》(下文簡稱“考評標準”),同時涵蓋(政府和群眾)擁軍優(yōu)屬和(軍隊)擁政愛民兩方面,其中很多指標二者兼顧,難以剝離,只能算是“相關(guān)”評估,針對性不夠強。二是現(xiàn)有相關(guān)評估的間隔長、成本高。一般兩年或四年才開展一次,無法隨時評、時時評,不利于依據(jù)評估或抽檢結(jié)果及時改進工作,也容易引發(fā)“重評時、輕平時”的問題。而且,參評城市需要按標準整理提報材料,評審方還需要組織專班審核材料、打分評比以及開展平時抽檢,雙方都需要消耗大量人力物力,工作成本較高。三是相關(guān)評估的部分評價指標有待優(yōu)化,具體表現(xiàn)在:①有些指標只考察有無,未衡量多寡,區(qū)分度不夠,容易導(dǎo)致“干多干少一個樣”;②很多指標需依據(jù)政府部門掌握的內(nèi)部資料,導(dǎo)致詳細評分不便公開,不利于顯示評估結(jié)果的公信力;③部分指標比較綜合,涵蓋教育、文化、法律、醫(yī)療、住房等多領(lǐng)域,不便參評城市之間細化比較,各自發(fā)現(xiàn)優(yōu)勢和弱勢領(lǐng)域,以便下步針對性地固強補弱。
在現(xiàn)今互聯(lián)網(wǎng)時代,社會工作相關(guān)的通知公告、新聞報道、體驗評價等大多能見諸網(wǎng)上,既給相關(guān)群體獲取信息帶來便利,也給利用開源大數(shù)據(jù)評估這些工作的推進力度提供了可能。鑒于此,研究人員從2014年左右開始嘗試利用大數(shù)據(jù)完成不同評估任務(wù),包括:風(fēng)險評估[1-5]、信用評價[6-8]、傳播或宣傳效果評估[9-11]、政策評估[12-15]、保健水平評估[16]等。通常,評估對象不同,構(gòu)建的指標體系就不同,所需的數(shù)據(jù)也不同。比如,評估消費者個人信用指數(shù)時,Jiang等[6]使用了消費者在信息咨詢平臺上的問詢記錄、跨平臺失信信息、線上購物信息等;評估公共政策時,則可使用政策文件數(shù)據(jù)、互聯(lián)網(wǎng)文本數(shù)據(jù)(包括新聞、社交帖文)、電子商務(wù)數(shù)據(jù)等[15]。但是,與傳統(tǒng)利用領(lǐng)域(小)數(shù)據(jù)進行評估不同,大數(shù)據(jù)中噪聲多、價值密度低,如何快速獲取相關(guān)數(shù)據(jù),并從中提取真正有用信息,是基于大數(shù)據(jù)的評估方法所面臨的共同挑戰(zhàn),高效的數(shù)據(jù)采集獲取和分析挖掘必不可少。值得一提的是,受困于這一挑戰(zhàn),有相當(dāng)一部分現(xiàn)有研究(如[8-9, 13-15])還處于理論分析和方法構(gòu)想層面,尚未實際獲取大數(shù)據(jù)、針對所關(guān)注評估對象具體開展評估實證。另外,盡管現(xiàn)有研究已經(jīng)探索了利用大數(shù)據(jù)來評估很多不同任務(wù)對象,但還未發(fā)現(xiàn)利用它們來評估擁軍優(yōu)屬等社會工作的相關(guān)成果被公開報道。
為此,本文以擁軍優(yōu)屬作為案例,提出一種利用開源大數(shù)據(jù)的社會工作實時評估方法,建立綜合網(wǎng)絡(luò)信息特點與指標可測性(即能否利用開源數(shù)據(jù)測量計算)的分層指標評估體系;設(shè)計開發(fā)了原型軟件,針對給定的參評對象,通過持續(xù)爬取其網(wǎng)上信息,以增量方式實現(xiàn)指標得分與綜合評分的快速計算。
定量評估是指依據(jù)統(tǒng)計數(shù)據(jù),建立數(shù)學(xué)模型,并用模型計算評估對象各項指標得分來實現(xiàn)評估分析的方法。其中,“數(shù)學(xué)模型”即定量評估模型,其構(gòu)建往往需要:首先確定左右評價的影響因素,其次建立指標體系(包括確立指標、定義指標測算方法、明確指標間的關(guān)系和權(quán)重等),最后定義相應(yīng)的綜合評分方法或公式。其中,指標篩選可用定性方法(如德爾菲法[17]),也可用定量方法(如主成分分析[18]或其改進方法[19]);指標測算方法和指標關(guān)系分析因任務(wù)而異,通常需要人工參與;指標賦權(quán)則可使用啟發(fā)式方法(如層次分析法或其改進[20])或機器學(xué)習(xí)方法(如邏輯回歸、支撐向量回歸或其他神經(jīng)網(wǎng)絡(luò)[21]),前者往往離不開人工參與,而后者則需要訓(xùn)練樣本,即事先獲取的、通常由人工標注的評估樣本(這些樣本既有指標得分,又有綜合評估結(jié)果)。此外,雖然機器學(xué)習(xí)中有增量學(xué)習(xí)[22-23](incremental learning)的相關(guān)研究,但主要關(guān)注如何針對新增樣本,或類別、屬性快速更新模型參數(shù),而聚焦于新的數(shù)據(jù)不斷獲取之后,如何以增量方式快速計算指標得分與總評分的研究成果還比較少見。
以現(xiàn)實生活中的擁軍優(yōu)屬工作評估為例,從現(xiàn)有相關(guān)考評標準中遴選擁軍優(yōu)屬相關(guān)指標作為基礎(chǔ),針對網(wǎng)上開源信息的特點,重點從指標可測性和區(qū)分性兩方面對它們加以調(diào)整,借此構(gòu)建基于開源大數(shù)據(jù)的擁軍優(yōu)屬工作評估指標體系。
最新版考評標準一共設(shè)置了10大考評項目(共78個評分項),分別是:①組織領(lǐng)導(dǎo)堅強有力;②宣傳教育廣泛深入;③擁軍工作扎實有效;④擁政愛民成果顯著;⑤政策法規(guī)落到實處;⑥雙擁活動堅持經(jīng)常;⑦軍民共建富有成效;⑧軍政軍民關(guān)系融洽;⑨群眾滿意度測評;⑩加分項目。其中,與擁軍優(yōu)屬相關(guān)的評分項主要分布在①、②、③、⑤、⑥、⑨考評項目中,可歸為四大方面:組織領(lǐng)導(dǎo)、宣傳教育、政策制定與落實、相關(guān)活動開展。下面圍繞它們來討論本文評估指標體系建立。
考評標準中“組織領(lǐng)導(dǎo)”方面的評分項主要考察雙擁辦等機構(gòu)設(shè)置情況和相關(guān)經(jīng)費是否列入預(yù)算。對此,通過互聯(lián)網(wǎng)檢索結(jié)果可發(fā)現(xiàn),幾乎所有省(自治區(qū))轄市州和(直轄)市轄區(qū)都設(shè)置了相關(guān)機構(gòu),并定期召開黨委議軍、雙擁促進等會議;且從所公開的預(yù)算信息中也都能找到雙擁和優(yōu)撫專項預(yù)算。所以,考慮到區(qū)分性,本文不設(shè)立“組織領(lǐng)導(dǎo)”方面的擁軍優(yōu)屬評估指標。
“宣傳教育”相關(guān)評分項主要考察各地線上、線下宣傳開展情況。網(wǎng)絡(luò)時代,互聯(lián)網(wǎng)已成為輿論宣傳主陣地,無論從形式多樣性、內(nèi)容生動性、受眾覆蓋面,還是從成本控制、節(jié)能環(huán)保等角度,線上宣傳都具有線下不可比擬的優(yōu)勢。因此,本文主要通過爬取各地相關(guān)單位的互聯(lián)網(wǎng)信息,評估其宣傳教育開展情況。
“政策制定與落實”方面,考慮到政府部門會在網(wǎng)上頒布相關(guān)政策制度,且一經(jīng)公布通常都會得到較好執(zhí)行。擁軍優(yōu)屬政策往往涉及就業(yè)、教育、住房等不同領(lǐng)域,政策覆蓋的領(lǐng)域越全,說明當(dāng)?shù)貙?yōu)撫群體的照顧越周到,單個領(lǐng)域的政策越多,則往往反映當(dāng)?shù)卦谠擃I(lǐng)域的優(yōu)撫力度越大。因此,本文從網(wǎng)上采集各地相關(guān)政府部門頒布的政策規(guī)范類文件,并通過考察它們的領(lǐng)域覆蓋面和各領(lǐng)域的政策數(shù)量來評估當(dāng)?shù)負碥妰?yōu)屬政策制定與落實情況。
“相關(guān)活動開展”與“宣傳教育”類似,各地通常都通過互聯(lián)網(wǎng)發(fā)布新聞動態(tài),其中常包含擁軍優(yōu)屬活動(如懸掛光榮牌、走訪慰問、組織定向招聘等)開展情況。鑒于此,通過抓取各地相關(guān)單位的網(wǎng)上新聞,然后進行事件分析和計量以評估當(dāng)?shù)叵嚓P(guān)活動開展情況。
基于以上分析,本文圍繞宣傳教育、政策制定與落實、相關(guān)活動開展三方面,構(gòu)建如圖1所示的評估指標體系。其中,鑒于宣傳教育和活動開展情況主要通過相關(guān)單位的網(wǎng)上新聞動態(tài)發(fā)布,所以將二者合并,設(shè)立一級指標“新聞動態(tài)”,其下不設(shè)立二級指標(或者說二級指標是它自身)。政策制定與落實方面,鑒于教育、醫(yī)療、住房、就業(yè)堪稱最重要的民生領(lǐng)域,所以劃分5個預(yù)定義領(lǐng)域,即上述4個和“其他”,后者涵蓋不能劃歸前4個領(lǐng)域的所有政策文件。相應(yīng)地,設(shè)置1個一級指標(“政策制度”)和5個二級指標(即“教育”“醫(yī)療”“住房”“就業(yè)”“其他”)。此外,通過與軍人軍屬訪談了解到,各種優(yōu)先優(yōu)惠措施(包括車站、機場、醫(yī)院等公共場所的優(yōu)先通道設(shè)置,酒店、餐飲等民間優(yōu)惠,以及景區(qū)的票價減免等),往往直接左右他們對一個地方擁軍優(yōu)屬力度的觀感評價。而且,這些優(yōu)惠措施也是一種落實于行動的、廣大民眾更常接觸的社會性擁軍優(yōu)屬宣傳教育??紤]到其重要性,本文單獨設(shè)立1個一級指標“優(yōu)先優(yōu)惠”,包含“優(yōu)先通道”“民間優(yōu)惠”“景區(qū)優(yōu)免”3個二級指標。
圖1 模型評價指標樹Fig.1 Hierarchy of the evaluation indices
由于上述指標體系中各類二級指標數(shù)量不多且相互關(guān)聯(lián)性不明顯,所以采用層次分析法(analytic hierarchy process, AHP)進行指標賦權(quán)。鑒于考評標準中考評大項和評分項(見1.1節(jié))的賦分體現(xiàn)了雙擁領(lǐng)域權(quán)威專家對這些項目重要性的集體評判,本文以它們作為確定指標權(quán)重的重要參考,考慮如下三方面:①政策制度是政府頒布的擁軍優(yōu)屬法律文件,最能直接反映其擁軍優(yōu)屬工作情況,也最具權(quán)威性,所以該一級指標權(quán)重最高。本文認為教育、住房、醫(yī)療、就業(yè)和其他這5個民生領(lǐng)域?qū)τ谲娙塑妼俣酝戎匾栽O(shè)置相應(yīng)各二級指標重要性相同。②優(yōu)先優(yōu)惠體現(xiàn)了企事業(yè)單位擁軍優(yōu)屬落實情況和響應(yīng)力度,往往讓軍人軍屬直接有感,不過擁軍優(yōu)屬工作并不僅限于民間優(yōu)先優(yōu)惠,因此該一級指標應(yīng)有較大權(quán)重,但應(yīng)略低于政策制度。此外,一個地區(qū)的旅游景點數(shù)量受地理位置、資源環(huán)境等非人力因素限制,為降低其對評估結(jié)果公平性的可能影響,設(shè)定二級指標中景區(qū)優(yōu)惠的重要性要略低于其他兩個指標。③新聞報道活躍度既可反映當(dāng)?shù)卣畬碥姽ぷ鞯闹匾暢潭?、宣傳力度,也可反映其擁軍工作落實情況。但上新聞的往往是當(dāng)?shù)匾恍┫鄬χ匾墓ぷ?,而細微工作,包括很多基層活?如某軍供站為退休干部發(fā)放防疫物資)時常并未涵蓋其中,因此,“新聞動態(tài)”的權(quán)重應(yīng)比前兩個一級指標更低。
基于上述分析,本文分別構(gòu)建了一級指標和“優(yōu)先優(yōu)惠”下屬的二級指標判斷矩陣(判斷矩陣中的數(shù)值表示行列對應(yīng)指標的相對重要性關(guān)系)[4],計算各指標權(quán)重并分別進行一致性檢驗,結(jié)果分別如表1和表2所示。
表1 一級指標判斷矩陣Tab.1 Comparison matrix of the 1st level criteria
表2 二級指標判斷矩陣Tab.2 Comparison matrix of the 2nd level criteria
經(jīng)計算表1~2中兩個判斷矩陣的一致性比例(consistency ratio, CR)值分別為0.007 939和0,均小于0.1,一致性檢驗通過。進一步將兩層評價指標判斷矩陣計算的權(quán)重結(jié)果相乘,可算出所有二級指標的全局權(quán)重[4],如表3所示。
表3 二級指標全局權(quán)重計算表Tab.3 Weights of the second level evaluation indices
考評時間點t和考評周期H不同,參評城市l(wèi)的評估得分往往也不同。因此,如果對照圖1中的順序,將9個二級指標的原始得分分別記作N1,…,N9,則它們都應(yīng)是t、H和l的函數(shù)。
1.3.1 政策制度類指標
指標得分N1~N5的測算公式定義為:
Ni(l,t,H)=PF(l,t,H,i),i=1,…,5
(1)
其中,PF(l,t,H,i)表示城市l(wèi)在相應(yīng)時段內(nèi)頒布的屬于第i個民生領(lǐng)域的擁軍優(yōu)屬政策數(shù)量。這些政策制度通常發(fā)布在政府部門網(wǎng)站的“通知公告”和“規(guī)范性文件”欄目中,可分為兩大類:一類是長期政策,在新版本出來前長期有效,且新版本通常是對舊版的部分修訂而非顛覆性改變;另一類是短期政策,一般只在明確規(guī)定的時段內(nèi)有效。通過數(shù)據(jù)觀測發(fā)現(xiàn),短期政策的顯著特點是其標題中包含“年度”或“年”,且前面有數(shù)字或“本”字。據(jù)此,本文開發(fā)網(wǎng)頁爬蟲,從城市l(wèi)的政府機構(gòu)網(wǎng)站的“通知公告”和“規(guī)范性文件”欄目持續(xù)采集相關(guān)政策文件,去重后借助文本分類算法將每個文件劃分到5個預(yù)定義領(lǐng)域中。同時,通過在標題中檢測關(guān)鍵詞組合“數(shù)字/‘本’ + ‘年/年度’”來判別文件是否為短期政策,其中單引號引起的是關(guān)鍵詞。若為短期政策,則進一步提取其網(wǎng)頁發(fā)布時間作為發(fā)布時間,并統(tǒng)計發(fā)布時間在從t開始倒推的H時間內(nèi)屬于第i個民生領(lǐng)域的短期政策數(shù)量。對于長期政策(即未被判定為短期政策的那些),則取最早版本時間作為發(fā)布時間,并統(tǒng)計截至?xí)r間t范圍內(nèi)屬于第i個民生領(lǐng)域的所有政策數(shù)量,理由是:長期政策在理論上到任意時間t都有效,且同一政策的新舊版本已被去重。最后,兩部分求和可得到PF(l,t,H,i),即
PF(l,t,H,i)=PFperm(l,t,i)+PFtemp(l,t,H,i)
(2)
其中,PFperm(l,t,i)是長期政策數(shù)量(i=1,…,5),與參數(shù)H無關(guān);PFtemp(l,t,H,i)是短期政策數(shù)量,與H相關(guān)。實驗中發(fā)現(xiàn),短期政策多見于就業(yè)、住房和教育三個領(lǐng)域。
1.3.2 優(yōu)先優(yōu)惠類指標
由于優(yōu)先優(yōu)惠一經(jīng)設(shè)立,就鮮有取消的情況(除非相應(yīng)的公共設(shè)施關(guān)停),所以測算這3個指標得分時,不需要考慮時間段H,也即N6~N8分別對應(yīng)于指定城市l(wèi)到t時刻截止,其優(yōu)先通道、民間優(yōu)惠、景區(qū)優(yōu)免的設(shè)置或?qū)嵤┣闆r。其中,優(yōu)先通道和景區(qū)優(yōu)免指標評分的思路是,轄區(qū)內(nèi)公共場所或景區(qū)中設(shè)置優(yōu)先通道或票價減免的占比越高,得分應(yīng)越高,形式化定義為:
Ni(l,t,H)=Ni(l,t)=Pi(l,t)/Qi(l,t)
(3)
式中,i=6,8,第一個“=”是為了強調(diào)指標評分與參數(shù)H無關(guān),右側(cè)分式中分母Q6(l,t)表示城市l(wèi)轄區(qū)內(nèi)截至t的公共場所總數(shù)、Q8(l,t)表示景區(qū)總數(shù),而分子P6(l,t)或P8(l,t)則分別表示設(shè)置了優(yōu)先通道的公共場所數(shù)或有票價減免的景區(qū)數(shù)。為計算N6,本文一方面采集微信小程序“軍人優(yōu)先查詢助手”上的優(yōu)先信息,以城市l(wèi)的名稱作為關(guān)鍵詞篩選其中相關(guān)部分,計算P6(l,t);另一方面以“l(fā)+ 機場/高鐵站/地鐵站/車站/醫(yī)院”作為關(guān)鍵詞檢索百度,對檢索結(jié)果去重后計量得到Q6(l,t)。對于景區(qū)優(yōu)惠評分N8,本文從旅游網(wǎng)站“途牛旅游網(wǎng)”(http://www.tuniu.com)上檢索和爬取城市l(wèi)轄區(qū)內(nèi)的景點信息,統(tǒng)計Q8(l,t),并通過匹配關(guān)鍵詞“軍人/軍屬/軍官/士兵”篩選和統(tǒng)計其中有票價減免的景區(qū)數(shù)量P8(l,t)。
民間優(yōu)惠評分N7略有不同:一方面很難找到相對統(tǒng)一的獲取各地酒店飯店總量的途徑;另一方面很多城市,特別是大城市的酒店飯店數(shù)量眾多,且不時有新開和關(guān)閉的,總量波動很大。考慮到飯店酒店數(shù)量與當(dāng)?shù)厝丝跀?shù)量(包括固定與流動人口)有較強相關(guān)性,本文定義如下公式測算民間優(yōu)惠力度:
N7(l,t,H)=N7(l,t)=P7(l,t)/M(l,t)
(4)
同樣地,N7與時段參數(shù)H無關(guān)。式中,分子表示城市l(wèi)截至?xí)r間t范圍內(nèi)設(shè)有軍人軍屬優(yōu)惠的飯店酒店總量,本文通過從微信小程序“軍人優(yōu)先查詢助手”中采集相關(guān)信息并匹配城市l(wèi)后統(tǒng)計獲得;而分母M(l,t)表示同期城市l(wèi)的人口總量,該數(shù)據(jù)通過網(wǎng)絡(luò)來源獲取。
1.3.3 新聞動態(tài)類指標
由于新聞文章及所報道的言行活動具有很強的時效性,所以N9同時依賴于t、H和l。此外,在我國,現(xiàn)代化程度越高、網(wǎng)媒越發(fā)達的城市,通常人口總量也越大。而一些三四線城市,雖然其擁軍優(yōu)屬工作干得不少,但可能因為網(wǎng)媒發(fā)達程度不及,導(dǎo)致網(wǎng)上新聞動態(tài)不多、宣傳力度不夠。為降低網(wǎng)媒發(fā)展不平衡可能給本指標測算帶來的不利影響,本文定義N9的測算方法為城市l(wèi)在從t開始倒推的H時間內(nèi)的新聞動態(tài)總量再除以其相應(yīng)時間的人口總量,即:
N9(l,t,H)=R(l,t,H)/M(l,t)
(5)
其中,R(l,t,H)表示相應(yīng)時段的新聞事件計量,M(l,t)的含義和計算方法與式(4)相同。本文采用如下步驟測算R(l,t,H):①采集城市l(wèi)及其下轄區(qū)縣的政府和退役軍人事務(wù)管理機構(gòu)網(wǎng)站上“政務(wù)動態(tài)”或“工作動態(tài)”欄目下的文章;②利用“部隊/駐軍/官兵/擁軍/軍屬/烈士/雙擁”等關(guān)鍵詞篩選其中與擁軍優(yōu)屬有關(guān)部分;③對所選文本去重;④通過無監(jiān)督聚類從去重后的文本中發(fā)現(xiàn)事件或者說話題(event/topic),并以每個事件聚簇中最早的文章發(fā)布時間作為事發(fā)時間;⑤統(tǒng)計在從t開始倒推的H時間內(nèi)發(fā)生的事件數(shù)量,即R(l,t,H)。
式(1)~(5)定義了各二級指標的原始分測算方法,顯然它們的取值范圍很不一樣。為避免量級不同而影響各自在全局評分中的占比,需要對原始分進行歸一化,折算為標準分。思路是,對每個Ni(l,t,H),取參評城市中的最高分和最低分,并按如下方式折算為百分制下的標準分,即:
(6)
(7)
但是,直接按上述流程進行計算會導(dǎo)致參數(shù)t或H稍有變化,就需要從網(wǎng)上信息采集開始重來一遍,將非常耗時。 而事實上,改變這兩個參數(shù)又非常必要。 因此,本文持續(xù)爬取各類網(wǎng)上數(shù)據(jù),并定期(如每天或每月)計算和保存式(1)~(5)中PF、P、Q、R等統(tǒng)計量,然后利用這些定期統(tǒng)計結(jié)果,實現(xiàn)任意時間點和考評周期內(nèi)評估分數(shù)的快速計算。 記固定統(tǒng)計間隔為T,設(shè)H=KT,則對于任意t和H,根據(jù)式(2)可得:
PF(l,t,H,i)=PFperm(l,t,i)+PFtemp(l,t,H,i)
kT,T,i),i=1,…,5
(8)
式中,PFperm(l,t,i)表示城市l(wèi)截至?xí)r間t范圍內(nèi)頒布的屬于第i個民生領(lǐng)域的長期政策的數(shù)量,PFtemp(l,t-kT,T,i)表示每個統(tǒng)計間隔內(nèi)短期政策的數(shù)量。由于長期政策一直有效,所以其計算方法相對特別:
(9)
其中,i=1,…,5,PFperm(l,t-kT,T,i)是從t開始倒推的第k個統(tǒng)計間隔內(nèi)發(fā)布的屬于第i個民生領(lǐng)域的長期政策數(shù)量;求和上界為正無窮,表示從城市l(wèi)可獲得的長期政策文件中發(fā)布時間最早的開始統(tǒng)計(顯然不早于新中國成立的1949年)。還需注意的是,若一個長期政策有多個版本,則只有最早版本應(yīng)計入相應(yīng)統(tǒng)計間隔的PFperm(l,t-kT,T,i)中,余下版本不再重復(fù)計入。這樣,只要計算并緩存每個固定統(tǒng)計間隔T中的長、短期政策數(shù)量,即可通過查表后求和快速計算任意t和H下的指標得分。
余下4個指標(原始分)的快速計算方法與此類似,不再贅述。但要注意,優(yōu)先優(yōu)惠下的3個二級指標的計量方法應(yīng)參照上面長期政策數(shù)量的計算過程,而新聞動態(tài)的計量方法則應(yīng)參照短期政策數(shù)量的計算過程。
最后簡析一下計算復(fù)雜度。實驗中發(fā)現(xiàn),能夠獲取的最早數(shù)據(jù)的發(fā)布時間為1999年,所以式(9)中的求和上界實際與考評周期內(nèi)包含的統(tǒng)計間隔數(shù)K數(shù)量級相近。因此,設(shè)有m個城市參評,則按上述快速方法對它們進行綜合評估的計算復(fù)雜度僅為O(Km)。K和m的取值通常均在萬以下,對于現(xiàn)代計算機而言,很容易做到實時計算,即用戶提出評估需求后,在秒以內(nèi)返回所有參評城市的評估結(jié)果。
為驗證上述模型方法的可行性與有效性,接下來首先選擇若干城市作為評估對象,接著針對性設(shè)計和開發(fā)原型系統(tǒng),實現(xiàn)所需數(shù)據(jù)的持續(xù)采集、處理與分析,然后利用這些數(shù)據(jù)實施評估,并對結(jié)果進行分析和討論。
本文選取H省所轄14個市州作為評估對象,主要考慮兩方面:一是同一省份的市州之間通常具有較好的可比性,二是課題組及周邊對H省熟悉的人相對較多,有利于判斷模型評估結(jié)果的合理性。接下來將以這些市州的首字母指代它們,當(dāng)首字母相同時,則在后面加上數(shù)字加以區(qū)分。這樣,H省14個市州分別為C1、Z1、X1、H1、S、Y1、C2、Z2、Y2、C3、Y3、H2、L市和X2州。
原型軟件的模塊構(gòu)成及工作原理如圖2所示(其中粗箭頭線表示控制流、單線箭頭表示數(shù)據(jù)流),除“評估計算”外各模塊的技術(shù)途徑見表4。其中,數(shù)據(jù)“預(yù)處理”包括兩個子模塊,“過濾”主要:①對政策文件,通過在標題中檢測“轉(zhuǎn)發(fā)”“‘轉(zhuǎn)’+組織名+‘通知/文件’”等關(guān)鍵詞組合,濾除非本級文件;②對新聞文章,利用“部隊/駐軍/官兵/擁軍/軍屬/烈士/雙擁”等關(guān)鍵詞,篩選并保留與擁軍優(yōu)屬有關(guān)的那些。“去重”旨在去除從多個不同來源采集的相同文章,本文以SimHash作為文本表示,通過在線Single-Pass無監(jiān)督聚類實現(xiàn)去重[24]。“文本分析”模塊:①基于關(guān)鍵詞匹配實現(xiàn)短期政策文件識別,見1.3.1小節(jié);②基于TextCNN模型[25]、通過有監(jiān)督文本分類實現(xiàn)政策制度的領(lǐng)域劃分;③通過構(gòu)建H省的擴展地名詞典(在其中納入每個市州的名稱、簡稱和別名)并利用它識別采自“軍人優(yōu)先查詢助手”小程序和“途牛旅游網(wǎng)”優(yōu)先優(yōu)惠信息的城市歸屬;④以標題和正文中詞條的word2vec預(yù)訓(xùn)練詞向量[26]的加權(quán)平均作為文本表示,采用在線Single-Pass算法實現(xiàn)新聞動態(tài)中的事件發(fā)現(xiàn)[27]。需要強調(diào)的是,圖2中“數(shù)據(jù)采集”“預(yù)處理”“文本分析”等3個模塊,以及“評估計算”中的“定期計量”子模塊,以定時運行方式(如每12小時一次),不斷采集參評市州的最新數(shù)據(jù),經(jīng)預(yù)處理和文本分析后,定期(根據(jù)式(8)中參數(shù)T的設(shè)定,每天或每月一次)統(tǒng)計計算各二級指標的原始分。當(dāng)需要評估時,再驅(qū)動“評估計算”中的“綜合評分”子模塊計算所有參評城市在指定時間點和考評周期上的評估得分。
圖2 原型工作流程示意Fig.2 Workflow of the prototype
表4 原型模塊技術(shù)途徑一覽表Tab.4 Techniques used by the components in the prototype
原型自2020年6月開發(fā)完成后即聯(lián)網(wǎng)部署運行,截至本文完成時,共采集到H省相關(guān)信息97.23萬條,這些信息中發(fā)布時間最早的為1999年11月17日,經(jīng)過濾和去重后得到7 262條,遠少于原始數(shù)據(jù),這種量級差異正好符合大數(shù)據(jù)價值密度低的特點。
2.2.1 不同考評周期的評估結(jié)果
表5給出了H省14個市州以2020年12月作為考評時間點,考評周期分別為2年和4年的考評結(jié)果。下面從兩個不同角度分析評判表5中結(jié)果的合理性:
首先是人的主觀評判。本文從對H省擁軍優(yōu)屬情況相對熟悉的身邊人員(至少體驗過或了解H省部分市州優(yōu)撫待遇的才作為備選)中隨機找出7名受訪者,對表5中的兩個評估結(jié)果“總體是否合理?”和“前6名是否合理?”進行無記名投票,候選答案設(shè)置“合理”“基本合理”“不合理”“不知道”四個選項,并要求四選一。投票結(jié)果為,3人認為評估結(jié)果總體上“合理”、4人認為“基本合理”;5人認為前6名“合理”、2人認為“基本合理”。由此反映,模型評估結(jié)果能夠較好符合人的主觀判斷。
表5 H省各市州截至2020年12月的總評分Tab.5 Evaluation results of the cities in H province up to November, 2020
其次是與相關(guān)評比的對照。2020年10月公布了H省全國雙擁模范城評比結(jié)果。該結(jié)果系2020年評估的過去4年H省各參評城市的雙擁工作情況。共8個城市入選,排序為C1、C2、H2、X1、S、Z1、H1、L,它們可被視為過去4年H省雙擁工作的前8名。與之對應(yīng)的是表5第2、第3列給出的模型評估結(jié)果,其中8個全國雙擁模范城的模型評估排序分別是1、2、11、5、4、3、6、12(見表5第3列)。對比可見,二者之間具有較好的一致性:模型評出的前6名均入選,且前兩名順序完全一致。但二者也有明顯差異,特別是,模型排名11和12的H2、L兩市,卻進入了全國雙擁模范城行列。經(jīng)調(diào)研分析認為,導(dǎo)致這種差異的主要原因可能是:模型所評的是“擁軍優(yōu)屬”,只是“雙擁”的一個方面,以H2為例,該地區(qū)駐軍部隊數(shù)量眾多,不排除其在“擁政愛民”方面有明顯比較優(yōu)勢,而使其雙擁排名躋身前列。
由表5中結(jié)果還可看到,考評周期不同時,相同城市的總評排序可能變得不同。比如表5中標紅的C3市,4年總評排序第9,而近2年總評排序為14,表明相對于本省其他市州,該市近兩年的擁軍優(yōu)屬工作進步速度偏慢。
2.2.2 不同時間點上的評估結(jié)果
固定考評周期H,通過改變考評時間點t,可以跟蹤評估各參評城市擁軍優(yōu)屬工作的發(fā)展變化情況。圖3給出了14個市州2016—2020年的跟蹤評估結(jié)果,考評周期均為1年,考評時間點分別選在每年12月。圖中結(jié)果直觀反映了過去5年各市州推進擁軍優(yōu)屬工作的成效。以C1和S市為例,C1的擁軍優(yōu)屬工作可謂“節(jié)節(jié)高升”,S卻先升后降、有些后勁不足。但要注意,這里給出的是兩個城市的總評分,是相對分而非絕對分(見式(6)和式(7)),故圖3反映的并不一定是S市的絕對分走低,而是表明新時期各地都在大力推進擁軍優(yōu)屬,該市的進步?jīng)]有別的市州快。
圖3 對H省14個市州近5年的跟蹤評估結(jié)果Fig.3 Dynamics of the evaluation results of the cities in H province in the recent 5 years
為進一步探究其中原因,圖4給出了兩個城市2016—2020年間6個時效性較強的二級指標的標準分(即政策制度類的S1~S5和新聞動態(tài)類的S9)變化和對比情況??梢?,C1市幾乎全方位領(lǐng)先;而S市在住房、就業(yè)和新聞動態(tài)等方面的標準分(相對分)呈下降趨勢,導(dǎo)致整體排位下滑。此結(jié)果還反映出,如果S市想要改進工作、提升排名,下步應(yīng)重點在住房、醫(yī)療、就業(yè)等領(lǐng)域的政策制度制定與落實,以及新聞宣傳等方面加大力氣、多花功夫。
由此可見,本文模型產(chǎn)生的評估結(jié)果可為參評城市改進工作、爭先創(chuàng)優(yōu)指明方向,提供決策參考。除圖4給出的結(jié)果外,還可任意設(shè)置模型參數(shù)t和H,實現(xiàn)隨時評、時時評,密切跟蹤參評城市的工作推進發(fā)展情況。
(a) 教育(a) Education
(b) 就業(yè)(b) Employment
(c) 住房(c) Housing
(d) 醫(yī)療(d) Healthcare
(e) 新聞動態(tài)(e) Propaganda
(f) 其他(f) Others圖4 兩個參評城市的6個時效性較強的二級指標得分隨時間變化情況Fig.4 Scores of two cities under consideration with respect to 6 heavily time-dependent second-level indices
長期以來,針對擁軍優(yōu)屬等社會工作的定量評估評價研究還顯薄弱,存在無針對性指標體系,現(xiàn)有相關(guān)評比周期長、成本高等突出問題。為此,本文探索構(gòu)建了利用互聯(lián)網(wǎng)開源大數(shù)據(jù)實時評估各地社會工作推進情況的定量模型,建立了針對性指標體系,提出了評分快速計算方法,并研制原型軟件,以擁軍優(yōu)屬為案例,利用網(wǎng)上真實數(shù)據(jù)進行了模型實證。其中,針對某省各市州的評估排序結(jié)果得到多名受訪者較一致的認可,且與2020年度該省“全國雙擁模范城(縣)”命名結(jié)果也基本吻合,驗證了方法的有效性與合理性。原型已獲軟件著作權(quán)(登記號2021SR0480424),所提模型也已申報發(fā)明專利(公開號202011483170.1)。本文工作屬于利用大數(shù)據(jù)支撐社會管理的范疇,綜合運用管理科學(xué)和信息科學(xué)的理論技術(shù),特別是層次分析法、文本分析處理、機器學(xué)習(xí)等方法技術(shù),進行了社會工作評估方面的有益探索。
本文工作也還有很多需要改進和拓展之處,至少包括如下三方面:第一,受眾反響是工作評價最重要的依據(jù)之一,而當(dāng)前模型在這方面還有欠缺。下步,擬引入各類社交平臺上的網(wǎng)民評論數(shù)據(jù),借助情感分析技術(shù)進行觀點分析,進而評估受眾的態(tài)度反響,并納入評估指標體系中。第二,體量大、噪聲高、價值密度低是大數(shù)據(jù)的基本特點,因此本文借助算法自動進行數(shù)據(jù)過濾、去重和文本分析等,但這些算法都有其精度水平限制(本文實驗中文本去重精度約0.9、相關(guān)性過濾精度約0.92、聚類精度約0.8、分類精度約0.87)。盡管實驗反映,針對H省各市州的最終評估結(jié)果比較合理,貌似未明顯受到數(shù)據(jù)分析處理誤差的影響,但隨著參評范圍擴大、數(shù)據(jù)量顯著增加,不排除一些算法的精度水平會明顯下降,屆時將給評估結(jié)果帶來怎樣的影響值得未來深入探討。第三,目前原型只關(guān)注H省,如果未來擴展至全國所有省、自治區(qū)、直轄市,包括所轄市州和縣區(qū),那么數(shù)據(jù)量會增大數(shù)十倍、甚至數(shù)百倍。屆時,本文標題中的“大數(shù)據(jù)”一詞將變得更為貼切,但數(shù)據(jù)體量陡增帶來的計算存儲壓力也必須考慮和應(yīng)對。鑒于各參評城市的數(shù)據(jù)及其分析計算,至少在原始分計算結(jié)束前相對獨立,而后則需要匯總統(tǒng)計,很符合Map-Reduce模型,故擬引入該模型進行評估計算的并行化,并將原型移植到Spark等支持流式大數(shù)據(jù)的支撐平臺上。