• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      外事管理辦公室因公出國管理業(yè)務數據分析與應用

      2020-11-06 06:01:29符寧
      科技創(chuàng)新與應用 2020年31期
      關鍵詞:數據分析數據管理

      符寧

      摘 ?要:政府外事管理辦公室的信息系統記錄了大量因公出國訪問申請和歸國總結報告數據。但是針對出國訪問數據的治理和分析研究還非常少,而且這些數據的管理和挖掘還面臨著數據異構、非結構化等挑戰(zhàn)。文章面向因公出國業(yè)務數據,設計了一個大數據治理平臺,能夠對訪問申請和總結報告實現統一的管理,并提出了包含多種組件的智能計算引擎,對數據進行多方位的分析,設計了面向不同用戶的多種應用。該平臺提升了出國訪問數據的治理效果,實現訪問成果的有效共享。

      關鍵詞:文本處理;數據分析;數據管理;治理創(chuàng)新

      中圖分類號:TP391 ? ? ? ? 文獻標志碼:A 文章編號:2095-2945(2020)31-0184-03

      Abstract: The information system of the government's Foreign Affairs Office records a large number of data about applications for visits abroad on business and reports on returning home. However, there are scant researches focused on the governance and analysis of overseas visit data, and the management and mining of these data are also faced with challenges such as heterogeneous and unstructured data. Aiming at the data of going abroad on business, this paper designs a big data governance platform, which can realize the unified management of applications for visits and summary reports, and puts forward an intelligent computing engine with multiple components to analyze the data in many directions. A variety of applications for different users are designed. The platform improves the governance effect of data about visits abroad and realizes the effective sharing of visit results.

      Keywords: text processing; data analysis; data management; governance innovation

      近些年,大數據技術快速發(fā)展,在很多領域都得到了廣泛應用[1]。探索大數據技術在政務領域的應用,能夠有效提升現有信息系統的智能化水平[2-3]。政府的外事管理辦公室記錄了因公出國訪問申請和總結報告數據,其蘊含著豐富的知識[4]。但是,這些數據具有形式多樣、非結構化等特點,難以進行統一管理和挖掘,而且目前相關的研究還非常少。建設面向出訪數據的大數據分析平臺,對于提升出國訪問成果分享效果具有重要意義。

      1 總體架構

      本論文使用某省市的外事管理辦公室出國團組申報數據和出訪報告數據,構建面向出國訪問總結數據的大數據服務平臺,實現大數據技術在外事管理辦公室因公出國管理業(yè)務中的應用。本論文構建如圖1的大數據分析及應用平臺,具體包括數據采集層、大數據管理平臺、智能計算引擎以及上層應用和服務。數據采集層匯聚團組申報數據和歸國總結報告數據,以及互聯網文本數據。大數據管理平臺對數據進行融合、處理、存儲并提供訪問接口。智能計算引擎是面向不同用戶需求,形成智能計算工具和組件。應用和服務層建設面向多種類型用戶的大數據應用。

      2 數據基礎

      數據包括團組出國訪問申報信息和出訪報告數據。團組申報數據是結構化的表格數據,顯式包含每次出訪的時間、地點、目的、人員信息等。出訪報告數據是非結構化的文本數據,包含顯式的出訪時間和單位等信息,以及學習內容和成果等隱式信息。互聯網上爬取文本數據作為輔助信息,促進自然語言處理方法的訓練和使用。

      3 大數據平臺

      基于政府的外事管理辦公室因公出國訪問申報信息和出訪報告數據,大數據管理平臺需要設計相應的存儲和管理機制。包括數據訪問控制、分布式數據全量存儲、數據治理、專題數據庫、索引和接口等幾個模塊組成。

      大數據管理平臺首先要從外事管理辦公室現有系統中獲取結構化的組團申報信息和非結構化的出訪報告文本。數據訪問控制模塊需要與現有的系統相兼容,在不干擾業(yè)務正常運行的情況下,實現周期性地、定時地從現有管理系統中獲取組團申報信息和出訪報告數據。

      大數據具有數據規(guī)模大、數據類型多樣的特點。本論文借助Hadoop的HDFS等分布式存儲平臺,在保證數據安全存儲的基礎上,實現數據的快速訪問。本論文還結合MapReduce等分布式大數據處理技術,實現對大數據的分布式快速處理,降低每臺服務器的負載,提升系統任務處理的吞吐率。

      在將數據存儲到相應的數據庫之前,需要對數據進行預處理。數據治理方法主要包括格式標準化、數據清洗等組件。對于數據的存儲要定義合適的數據格式,如時間、地點信息的存儲等。數據清洗包括刪除不完整的記錄、去除冗余數據、發(fā)現異常值等。針對缺失的數據字段,可以使用數據缺失值填充技術,借助均值、最大最小值、默認值等對數據進行補全。

      對于結構化團組申報數據,可以使用關系型數據庫存儲。對于非結構化數據,即訪問報告,借助一些非關系型數據庫,包括Redis、MongoDB、HBase等[5],根據列或者鍵進行索引,能夠有效提升數據查詢效率。

      針對外事管理辦公室的公派出國訪問數據,大數據管理平臺設計多種數據庫進行存儲,有針對性地選擇數據庫和建立索引,并對上層提供統一訪問接口。

      4 智能計算引擎

      智能計算引擎利用自然語言處理技術,構建多種數據挖掘組件,實現對因公出國訪問大數據的智能化分析和挖掘。智能計算引擎主要由分詞及字典構建、關鍵詞生成和索引、實體識別和關系抽取、報告質量評估模型、文本分類、情感分析、報告檢索和排序、主題模型、編解碼摘要生成模型等幾個模塊組成。

      分詞就是將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過程?,F有的分詞方法主要分為:基于字符串匹配的方法、基于理解的方法、基于統計的分詞方法。常用的字典構建方法主要包括CBOW和Skip-gram,字典的構建是進行分詞、實體識別和抽取的基礎,其中基于字符串匹配的分詞方法,也稱為基于詞典的分詞方法,是應用最廣泛,分詞速度最快的分詞方法。

      對關鍵詞進行索引,可以大幅加快檢索、推薦的速度。模型輸入是分詞過后的所有在數據庫中的報告,每篇報告包含的是詞序列,輸出的是一個建立完成的索引。

      實體識別的任務在于識別出待處理文本中的命名實體,包括實體邊界識別和確定實體類別兩個子任務。關系抽取是自動識別由一對概念和聯系這對概念的關系構成的相關三元組。關系抽取包括傳統關系抽取和開放域關系抽取,傳統關系抽取的任務在于給定實體關系類別,給定語料,抽取目標關系對,其評測預料為質量高的專家標注語料。

      報告質量評估模型對每一篇報告的質量進行評估。接收的數據是底層經過預處理和分詞操作的文本數據以及結構化的申請表信息,輸出的是對該報告的具體評分。

      文本分類使用機器對文本集按照一定的分類體系或標準進行自動分類標記,是樸素貝葉斯分類方法。文本分類的核心方法為首先提取分類數據的特征,然后選擇最優(yōu)的匹配,其流程通常為預處理、文本表示及特征向量、構造分類器、分類。文本分類基于分詞和實體識別與抽取的上層方法。

      情感分析是對一個主觀的文本分析判斷說話者的情感色彩或者褒貶態(tài)度。整個情感分析模型接收的是經過分詞和字典映射后的詞向量序列,輸出的是具有強烈褒貶情感的句子,以及整篇報告的情感傾向。

      在對關鍵詞建立索引之后,每個鍵(key)對應的值(value)都是一個列表或者類似的容器,其中存儲的是一系列出現過這個鍵的報告。對于不同的關鍵詞,每篇報告的權重是不同的,整篇報告與被搜索的關鍵詞的聯系越緊密、被點擊的次數越多,相應的權重也應該越高。

      主題模型是以非監(jiān)督學習的方式對文集的隱含語義結構進行聚類的統計模型。其主要被用于對文本的表征進行降維、按主題對文本進行聚類。

      編碼-解碼模型(encoder-decoder模型)利用編碼的方法將原始數據轉化為特征向量,將特征向量通過解碼器再次轉化為序列的形式輸出,生成對應的摘要。

      5 應用和服務

      借助智能計算引擎,本論文設計了摘要生成、報告質量評估、出訪成果檢索與推薦、出訪目標設計與推薦、出訪成果分析等幾項示范應用。

      摘要生成應用面向平臺的所有用戶,提供其所檢索的、為其推薦的等所有展示給用戶的出訪報告的內容摘要,包括該報告的撰寫人、組團名單、出訪日期、出訪地點以及簡易概括的出訪目標和出訪收獲。該功能的提出旨在避免用戶為找到目標出訪報告而重復的點擊進入詳情頁面,多次瀏覽出訪報告全文的繁瑣,給出每篇報告的摘要,用戶可憑摘要信息快速地了解每篇報告的主要標簽和內容,排查掉與所找目標無關的報告,從而準確地鎖定自身想要查看的報告,在節(jié)約用戶查找時間的同時提高用戶體驗。該應用將依賴于智能計算引擎部分的分詞及詞典構建、實體識別和關系抽取、主題模型、編解碼模型等關鍵技術。

      出訪報告質量評估應用基于既有的報告質量評估模型,對報告的內容覆蓋面、報告撰寫質量等方面進行評估,給出評分,根據評分各管理層用戶可以根據報告質量給予適當的鼓勵,或者向報告質量降低的單位重新索取歸國報告。出訪報告質量評估也是對用戶進行高質量的報告推薦的基礎,系統自動將評分較高的報告推薦給用戶或者展示著近期高質量的報告榜單中,供平臺用戶查看。

      出訪成果檢測和推薦應用適用于所有瀏覽網頁的用戶,該應用的主要功能是允許用戶輸入一個或多個關鍵詞,之后根據用戶輸入的關鍵詞,進行檢索,返回與檢索的關鍵詞相關的數據庫中的報告,并且與關鍵詞的關聯度越高、報告的訪問量越高、質量評估的結果越好,相應的檢索排名越高。這部分需要使用的是分詞之后的報告文本,以及建立完成之后的關鍵詞索引,和排序模型。同時,在用戶搜索較為模糊的關鍵詞,如“教育”時,系統會根據搜索的關鍵詞以及用戶的個人注冊信息如性別、年齡、職業(yè)等,進行更有針對性的推薦。這一部分除了需要用到索引和排序模型外,還需要使用主題模型輸出的結果以及文本分類的結果。相比于現有的出訪檢索模型,該模塊不再單純按照報告的時間進行排序,而是給出不同的影響因子進行排序,支持個性化的推薦。

      出訪目標及方法推薦會根據用戶的注冊信息和現有的申請信息進行針對性的推薦。該應用主要面向正在申請出訪的用戶,旨在向用戶提供同領域或類似領域的近期出訪報告,或根據用戶的信息推薦類似職務的他人近期的出訪報告,由此為用戶的出訪行程提供建議和參考。這部分需要利用文本分類模塊對已有的報告文本進行分類,根據每篇報告的所屬類別以及用戶的個人信息進行篩選,之后根據報告質量評估系統對篩選后的報告進行評估,并向用戶推薦評估質量較高的報告。在顯示推薦列表時,系統會根據報告檢索和排序給出的結果依次顯示結果。

      出訪報告的類別是多樣化的,很多時候僅通過搜索關鍵詞或者利用文本分類的結果無法得到細粒度的統計結果。因此這一部分旨在提供更細粒度、多層次的出訪成果的分析。這一應用主要面向的群體是高層人員,用于月、季、年度的出訪成果統計。相比于現有的統計,該應用將提取文本中隱藏的信息,并利用這些隱藏的信息,做到更準確、細粒度的統計。該應用需要用到的是智能引擎中的所有技術,整合這些技術之后得到一個多層次的成果分析。

      6 結束語

      我國目前正逐步加快政務的信息化進程,也在探索大數據技術在政務領域的應用,提升政務信息系統的智能化水平。本論文基于各單位的出訪數據,構建了大數據管理與分析平臺,實現對出訪數據的管理與挖掘,有效提升了訪問成果的分享效果和出訪經費利用率。

      參考文獻:

      [1]顧榮.大數據處理技術與系統研究[D].南京大學,2016.

      [2]崔昭彥.我國政務信息系統的大數據建設[J].電子技術與軟件工程,2018(08):158.

      [3]龔煒.一套基于人工智能技術的政務服務平臺設計[J].中國科技信息,2020(12):57-58.

      [4]董倩.蘇州公安電子出入境管理問題及對策研究[D].蘇州大學,2018.

      [5]葛微.大數據索引和查詢優(yōu)化技術與系統研究[D].南京大學,2019.

      猜你喜歡
      數據分析數據管理
      企業(yè)級BOM數據管理概要
      定制化汽車制造的數據管理分析
      海洋環(huán)境數據管理優(yōu)化與實踐
      CTCS-2級報文數據管理需求分析和實現
      列控數據管理平臺的開發(fā)
      我校如何利用體育大課間活動解決男生引體向上這個薄弱環(huán)節(jié)
      體育時空(2016年8期)2016-10-25 18:02:39
      Excel電子表格在財務日常工作中的應用
      淺析大數據時代背景下的市場營銷策略
      新常態(tài)下集團公司內部審計工作研究
      中國市場(2016年36期)2016-10-19 04:31:23
      淺析大數據時代對企業(yè)營銷模式的影響
      隆回县| 铜川市| 礼泉县| 逊克县| 黑龙江省| 方城县| 独山县| 红桥区| 额敏县| 漾濞| 斗六市| 开阳县| 高淳县| 贵定县| 卢湾区| 博客| 东乌珠穆沁旗| 宣汉县| 丁青县| 神木县| 景泰县| 盐源县| 龙州县| 项城市| 蚌埠市| 柳河县| 天津市| 关岭| 遵义县| 泊头市| 习水县| 榆社县| 余庆县| 光泽县| 疏附县| 南充市| 宝山区| 布拖县| 克山县| 瓮安县| 贵德县|