仲 亮
(上海市組織人事信息技術(shù)服務(wù)中心,上海 200000)
隨著目前互聯(lián)網(wǎng)技術(shù)和大數(shù)據(jù)技術(shù)的飛速發(fā)展,數(shù)據(jù)處理能力也在不斷的提升,同時(shí)數(shù)據(jù)內(nèi)容的治理工作也顯得越來越重要。對(duì)于大城市而言,人員量大且流動(dòng)性異常快速,所以為了保障城市的核心專業(yè)人員的全方位管理,需要對(duì)專業(yè)人員數(shù)據(jù)進(jìn)行分析和評(píng)估,促進(jìn)人員資源供需對(duì)接與人員資源的高效配置。同時(shí),由于人員數(shù)量龐大,人員數(shù)據(jù)信息量也很大,數(shù)據(jù)處理也會(huì)變得異常復(fù)雜,而且處理完的數(shù)據(jù)還會(huì)存在許多問題,就需要不斷改進(jìn)訓(xùn)練數(shù)據(jù)處理模型和加強(qiáng)人工數(shù)據(jù)處理工作。為了保障城市專業(yè)人員的合理規(guī)劃,系統(tǒng)通過對(duì)各層次人員數(shù)據(jù)的綜合統(tǒng)籌,實(shí)現(xiàn)對(duì)人員總體情況、行業(yè)分布情況、區(qū)域分布情況的動(dòng)態(tài)掌握,結(jié)合經(jīng)濟(jì)社會(huì)與產(chǎn)業(yè)發(fā)展有關(guān)要求,對(duì)人員分布的合理性、人員市場(chǎng)供需、行業(yè)人員缺口、區(qū)域人員缺口等進(jìn)行動(dòng)態(tài)分析和預(yù)計(jì),更好地促進(jìn)人員信息交換共享,促進(jìn)人員資源高效配置。另外,需要對(duì)專業(yè)人員數(shù)據(jù)進(jìn)行及時(shí)分析,了解相關(guān)專業(yè)人員的需求和具體情況,構(gòu)建一套針對(duì)專業(yè)人員政策文件知識(shí)庫(kù),為人員政策制定發(fā)布提供一些建議方案,保障專業(yè)人員需求得到及時(shí)解決。對(duì)于專業(yè)人員數(shù)據(jù)處理,采用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)模式,對(duì)專業(yè)人員數(shù)據(jù)進(jìn)行訓(xùn)練學(xué)習(xí),建立相關(guān)數(shù)據(jù)分析標(biāo)簽庫(kù),并對(duì)其進(jìn)行縱向的時(shí)間序列的分析,并建立相關(guān)的模型對(duì)其進(jìn)行合理的宏觀分析,幫助更好的進(jìn)行人員管理和預(yù)測(cè)。
基于大數(shù)據(jù)的政務(wù)專業(yè)人員系統(tǒng)的數(shù)據(jù)治理在考慮到系統(tǒng)總體需求功能性和后期系統(tǒng)的拓展性、兼容性等方面,系統(tǒng)總體架構(gòu)主要分為基礎(chǔ)平臺(tái)層、數(shù)據(jù)處理層、服務(wù)層和應(yīng)用層?;A(chǔ)平
臺(tái)層主要負(fù)責(zé)底層硬件資源處理調(diào)度,移動(dòng)網(wǎng)絡(luò)收發(fā)功能,安全信息加解密模塊、運(yùn)維保障模塊、數(shù)據(jù)處理核心模塊等基礎(chǔ)功能模塊。數(shù)據(jù)處理層主要是分為數(shù)據(jù)處理和數(shù)據(jù)分析兩個(gè)核心模塊,數(shù)據(jù)處理主要是負(fù)責(zé)對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ)訪問等處理數(shù)據(jù)功能,數(shù)據(jù)分析主要是對(duì)原數(shù)據(jù)進(jìn)行分析處理,并將處理后的數(shù)據(jù)形成報(bào)表和視圖數(shù)據(jù)。服務(wù)層主要是對(duì)外輸出數(shù)據(jù)治理能力服務(wù)接口和相關(guān)數(shù)據(jù)信息能力接口,供上層直接進(jìn)行調(diào)用。應(yīng)用層主要是服務(wù)于用戶的交互功能層,主要分為專業(yè)人員分類管理,專業(yè)人員政策指導(dǎo),專業(yè)人員數(shù)據(jù)處理,區(qū)域?qū)I(yè)人員分析,專業(yè)人員數(shù)據(jù)異常處理等等基本的操作。另外,為了更好地指導(dǎo)專業(yè)人員政策的制定,系統(tǒng)針對(duì)區(qū)域中的專業(yè)人員會(huì)進(jìn)行宏觀的數(shù)據(jù)分析能力,對(duì)專業(yè)人員行業(yè)分類、專業(yè)人員區(qū)域分布、產(chǎn)業(yè)分布情況和專業(yè)人員團(tuán)隊(duì)分析等方面進(jìn)行數(shù)據(jù)分析處理,幫助人員政策實(shí)現(xiàn)分層、精準(zhǔn)化和個(gè)性化,實(shí)現(xiàn)人員政策的輔助設(shè)計(jì),為專業(yè)人員數(shù)據(jù)分析提供合理化的服務(wù)能力。具體專業(yè)人員宏觀分析示意圖,如圖1所示。
圖1 專業(yè)人員宏觀分析示意圖Fig.1 professional macro analysis
本項(xiàng)目基于大數(shù)據(jù)的政務(wù)專業(yè)人員系統(tǒng),主要對(duì)管轄區(qū)域中的專業(yè)人員進(jìn)行合理分析和規(guī)劃,利用大數(shù)據(jù)技術(shù)對(duì)相關(guān)專業(yè)人員信息進(jìn)行采集、分析、學(xué)習(xí),利用長(zhǎng)短記憶神經(jīng)網(wǎng)絡(luò)(LSTM)訓(xùn)練構(gòu)建出一套專業(yè)人員政策領(lǐng)域相關(guān)的知識(shí)圖譜,最后還需要對(duì)分析得到的數(shù)據(jù)進(jìn)行分析治理。
傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練學(xué)習(xí),主要流程為輸入層輸入起始學(xué)習(xí)數(shù)據(jù),學(xué)習(xí)得到的結(jié)果作為中間隱藏層的輸入,層層往下,最終通過輸出層輸出學(xué)習(xí)的最終結(jié)果。LSTM 網(wǎng)絡(luò)也是基于傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)進(jìn)行演進(jìn)而來的,由于傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)采用遞歸進(jìn)行層層學(xué)習(xí)時(shí),對(duì)于很長(zhǎng)的序列,在學(xué)習(xí)時(shí)可能存在梯度消失這種情況,所以為了可以在很長(zhǎng)的序列處理中擁有更好的效果,通過增加輸入狀態(tài)來優(yōu)化學(xué)習(xí)流程。LSTM 網(wǎng)絡(luò)內(nèi)部主要有三個(gè)重要流程:(1)選擇忘記流程,即對(duì)上層傳入的輸入值,選擇忘記不重要的內(nèi)容,但是對(duì)于重要的內(nèi)容選擇留下。(2)選擇記憶流程,即對(duì)上層傳入的輸入值,對(duì)于重要的內(nèi)容重點(diǎn)進(jìn)行記憶,對(duì)于那些不重要的內(nèi)容則少記一點(diǎn)。(3)輸出流程,即決定最后選擇哪些內(nèi)容作為本層的內(nèi)容向外輸出。LSTM 模型結(jié)構(gòu)圖,如圖2所示。
圖2 LSTM模型結(jié)構(gòu)圖Fig.2 LSTM model structure diagram
利用機(jī)器學(xué)習(xí)技術(shù)進(jìn)行非結(jié)構(gòu)化文本識(shí)別解析,首先由相關(guān)領(lǐng)域內(nèi)的專業(yè)人員對(duì)政策文本進(jìn)行標(biāo)注,形成原始標(biāo)注文本,解讀引擎將標(biāo)注文本解讀成結(jié)構(gòu)化的數(shù)據(jù),構(gòu)建出一套數(shù)據(jù)樣本庫(kù)。機(jī)器學(xué)習(xí)引擎對(duì)樣本庫(kù)進(jìn)行學(xué)習(xí),訓(xùn)練成“識(shí)別模型”,然后,由識(shí)別引擎基于識(shí)別模型對(duì)政策文本進(jìn)行自動(dòng)化識(shí)別。在模型訓(xùn)練和識(shí)別引擎識(shí)別的過程中,必須有一個(gè)“領(lǐng)域知識(shí)庫(kù)”作為支撐,才能對(duì)標(biāo)準(zhǔn)文本進(jìn)行恰當(dāng)?shù)慕忉?。另外為了提高?xùn)練和識(shí)別的精度,一方面領(lǐng)域知識(shí)庫(kù)的知識(shí)越豐富、越精確,樣本量越大,識(shí)別的精度越高。另一方面保證樣本量充足,識(shí)別的精度也會(huì)得到提高,一般每一種標(biāo)注的樣本量要達(dá)到 50個(gè)以上,才能將識(shí)別精度提高到80%以上。識(shí)別模型的構(gòu)造是一個(gè)持續(xù)的過程,首先是在完全人工標(biāo)注的條件下進(jìn)行訓(xùn)練。當(dāng)識(shí)別模型具備一定識(shí)別能力后,就可以啟動(dòng)機(jī)器識(shí)別。為了提高識(shí)別引擎識(shí)別的精度,極大降低識(shí)別的歧義,需要保證政策解讀的信息結(jié)構(gòu)都是來自一系列的目標(biāo)數(shù)據(jù)庫(kù)結(jié)構(gòu),保證數(shù)據(jù)來源,最終才能產(chǎn)出根據(jù)領(lǐng)域語(yǔ)義構(gòu)造的一個(gè)知識(shí)圖譜。非結(jié)構(gòu)化文本識(shí)別解析的技術(shù)框架圖,如圖3所示。
圖3 非結(jié)構(gòu)化文本識(shí)別解析的技術(shù)框架圖Fig.3 technical framework diagram of unstructured text recognition and analysis
由于人員信息數(shù)據(jù)來自不同系統(tǒng)的輸入,會(huì)造成數(shù)據(jù)信息規(guī)范不同,以中文名為例,同一個(gè)人的英文名可能存在全拼、縮寫,姓全拼名縮寫、姓在前名在后和名在前姓在后等多種情況,這樣在數(shù)據(jù)處理時(shí),則會(huì)增加數(shù)據(jù)處理難度,提升識(shí)別難度,所以如何對(duì)采集來的數(shù)據(jù)進(jìn)行準(zhǔn)確的歸屬,保證這條信息是屬于這個(gè)人,另外對(duì)于相似信息則歸入人工處理池,等待人工進(jìn)行處理。數(shù)據(jù)進(jìn)行處理時(shí),會(huì)給出一個(gè)相似閾值,當(dāng)相似性達(dá)到一定閾值的,可以直接歸入同一屬主,相似性介于某一范圍的,歸入“疑似”同一屬主,交給人工做合并處理。同時(shí),對(duì)于已經(jīng)入庫(kù)的人員信息,進(jìn)行相似性評(píng)價(jià),疑似同一屬主的信息,進(jìn)行提示,由人工進(jìn)行合并處理,新的人員信息進(jìn)入系統(tǒng)時(shí),要對(duì)其進(jìn)行綜合分析,然后與已有人員信息進(jìn)行一一比對(duì),形成相似性數(shù)據(jù),對(duì)于疑似的情況,提示系統(tǒng)維護(hù)人員進(jìn)行處理。另外,將各類數(shù)據(jù)質(zhì)量不合格項(xiàng)予以規(guī)則化,通過規(guī)則執(zhí)行引擎進(jìn)行分析判斷后,給出預(yù)警信息。在涉及干部人員的數(shù)據(jù)治理中一般可以分兩個(gè)視角開展治理,一種是從干部人員、或者機(jī)構(gòu)的角度出發(fā),逐個(gè)處理;另一個(gè)是從規(guī)則特征的角度出發(fā)開展治理。數(shù)據(jù)治理示意圖,如圖4所示。
圖4 數(shù)據(jù)治理示意圖Fig.4 schematic diagram of data governance
為了更好的制定專業(yè)人員相關(guān)政策,需要系統(tǒng)的了解專業(yè)人員的相關(guān)信息,對(duì)專業(yè)人員進(jìn)行量化評(píng)價(jià)。目前主流的針對(duì)科研人員和專家采用FWCI指數(shù)方法進(jìn)行綜合評(píng)價(jià),對(duì)于金融、創(chuàng)業(yè)等行業(yè)也可制定類似于該方法的評(píng)價(jià)體系。主要由兩個(gè)層面制定相關(guān)體系內(nèi)容。第一個(gè)層面是先對(duì)行業(yè)或領(lǐng)域進(jìn)行劃分,針對(duì)每一個(gè)領(lǐng)域,研究制定能夠反映人員的知識(shí)技能水平、實(shí)際貢獻(xiàn)、社會(huì)影響力、發(fā)展前景等方面的綜合性指標(biāo)。初期的指標(biāo)不要求非常嚴(yán)格、非常準(zhǔn)確,具備一定的區(qū)分度即可。要隨著大數(shù)據(jù)的發(fā)展、隨著在人員評(píng)價(jià)工作中的實(shí)際運(yùn)用,逐步改進(jìn),因此重點(diǎn)是指標(biāo)體系設(shè)計(jì)要具備“可維護(hù)性”,即可以根據(jù)反饋情況,便于隨時(shí)調(diào)整,并能方便地觀察改進(jìn)效果。第二個(gè)層面是對(duì)行業(yè)或領(lǐng)域的評(píng)價(jià)指標(biāo),進(jìn)行標(biāo)準(zhǔn)化,或者“歸一化”,實(shí)現(xiàn)對(duì)整個(gè)人員隊(duì)伍中的每一個(gè)人,都可以采用一個(gè)標(biāo)準(zhǔn)進(jìn)行衡量和評(píng)價(jià)。這個(gè)問題的合理性其實(shí)和單個(gè)領(lǐng)域內(nèi)采用單一標(biāo)準(zhǔn)實(shí)現(xiàn)人員評(píng)價(jià)是一個(gè)道理。針對(duì)不同人員類別提供不同的評(píng)價(jià)指標(biāo)體系,類別的設(shè)置可以交叉,也可以采用專門專才定制化規(guī)則。人員評(píng)價(jià)體系和評(píng)價(jià)工具圖,如圖5所示。
圖5 人員評(píng)價(jià)體系和評(píng)價(jià)工具圖Fig.5 diagram of personnel evaluation system and evaluation tools
為了精確的對(duì)區(qū)域內(nèi)專業(yè)人員進(jìn)行綜合評(píng)估,需要對(duì)一個(gè)歷史的時(shí)間跨度內(nèi),對(duì)各項(xiàng)指標(biāo)進(jìn)行全面的、動(dòng)態(tài)的分析,以觀察人員隊(duì)伍在各方面的變化情況,預(yù)測(cè)變化趨勢(shì),對(duì)分析結(jié)果采用恰當(dāng)?shù)膱D表形式進(jìn)行體現(xiàn),以便更加直觀地解釋變化所反映的規(guī)律。目的是發(fā)現(xiàn)問題,尋找可調(diào)控的因素,為針對(duì)性提出改進(jìn)措施,提供決策依據(jù)。對(duì)于專業(yè)人員流動(dòng)性而言,可以充分利用位置系統(tǒng)的直觀性,比如人員流動(dòng)情況,既可以反映本市在全國(guó)范圍內(nèi)的流動(dòng)情況,也可以反映本市范圍內(nèi)各地區(qū)、各行業(yè)之間的流動(dòng)情況。針對(duì)專業(yè)人員流動(dòng)性評(píng)估結(jié)果,制定相關(guān)專業(yè)人員政策,保證專業(yè)人員的留存率。人員流動(dòng)情況圖,如圖6所示。
圖6 人員流動(dòng)情況圖Fig.6 diagram of personnel flow
為了保障專業(yè)人員數(shù)據(jù)的精確性,對(duì)于大數(shù)據(jù)分析的數(shù)據(jù)結(jié)果,存在數(shù)據(jù)源異常和疑似池的數(shù)據(jù),都需要人工進(jìn)行審核,另外對(duì)于數(shù)據(jù)不存在的異常情況則需要后續(xù)進(jìn)行人工補(bǔ)充,確保人員信息完整,便于后續(xù)管理。專業(yè)人員數(shù)據(jù)治理示意圖,如圖7所示。
圖7 專業(yè)人員數(shù)據(jù)治理示意圖Fig.7 schematic diagram of professional data governance
經(jīng)過充分的調(diào)查和對(duì)大量資料的研究,本文分析了大數(shù)據(jù)政務(wù)專業(yè)人員系統(tǒng)的研究背景和現(xiàn)狀,介紹了大數(shù)據(jù)政務(wù)專業(yè)人員系統(tǒng)的總體框架、關(guān)鍵技術(shù)、工作原理和設(shè)計(jì)思路,圍繞著政務(wù)專業(yè)人員系統(tǒng)的實(shí)際需求,完成了政務(wù)專業(yè)人員系統(tǒng)的實(shí)現(xiàn)。文章先對(duì)大數(shù)據(jù)政務(wù)專業(yè)人員系統(tǒng)的總體架構(gòu)進(jìn)行研究,詳細(xì)分析總體架構(gòu)中的層級(jí)分布,分析每一層級(jí)的作用。接著討論了大數(shù)據(jù)政務(wù)專業(yè)人員系統(tǒng)核心技術(shù):LSTM 網(wǎng)絡(luò)構(gòu)建知識(shí)圖譜功能,自動(dòng)化解讀非結(jié)構(gòu)化文本功能,數(shù)據(jù)治理工作。最后,通過以上對(duì)大數(shù)據(jù)政務(wù)專業(yè)人員系統(tǒng)的核心架構(gòu)的了解,分析了構(gòu)建大數(shù)據(jù)政務(wù)專業(yè)人員系統(tǒng)的具體實(shí)踐,并且給出了相關(guān)的人員評(píng)價(jià)體系和評(píng)價(jià)工具的具體實(shí)踐思想,人員流動(dòng)情況動(dòng)態(tài)分析,專業(yè)人員數(shù)據(jù)異常治理具體實(shí)踐思路。最后對(duì)建設(shè)過程中出現(xiàn)的問題進(jìn)行了總結(jié)和改進(jìn)。