仲崇高 董義煒 宋天慧
(1.泰州學(xué)院計算機學(xué)院,江蘇 泰州 225300;2.泰州市大數(shù)據(jù)發(fā)展有限公司,江蘇 泰州 225300;3.泰州學(xué)院,江蘇 泰州 225300)
當(dāng)下,大數(shù)據(jù)的時代背景給政府管理變革帶來了新的契機,政府在社會治理的過程中,積累了大量的數(shù)據(jù),政務(wù)大數(shù)據(jù)的應(yīng)用將充分挖掘規(guī)?;瘮?shù)據(jù)要素的潛力,促使政府治理朝著更加科學(xué)、便捷、高效的方向發(fā)展,政務(wù)大數(shù)據(jù)已經(jīng)成為推動政府治理現(xiàn)代化的新動能。近年來,基于大數(shù)據(jù)的廣泛應(yīng)用以及其蘊藏的巨大潛在價值,許多國家紛紛將推動大數(shù)據(jù)產(chǎn)業(yè)發(fā)展上升為國家戰(zhàn)略。
在我國,黨中央、國務(wù)院高度重視大數(shù)據(jù)在推進經(jīng)濟社會發(fā)展中的地位和作用。2014年,大數(shù)據(jù)首次寫入政府工作報告,大數(shù)據(jù)逐漸成為各級政府關(guān)注的熱點。2015年9月,國務(wù)院發(fā)布《促進大數(shù)據(jù)發(fā)展的行動綱要》,大數(shù)據(jù)正式上升至國家戰(zhàn)略層面。自然資源部辦公廳于2019年1月印發(fā)《智慧城市時空大數(shù)據(jù)平臺建設(shè)技術(shù)大綱(2019版)》,推動各級政府進一步做好智慧城市時空大數(shù)據(jù)平臺建設(shè)。
有學(xué)者對政務(wù)大數(shù)據(jù)的研究情況進行了梳理,發(fā)現(xiàn)政務(wù)大數(shù)據(jù)的研究概貌是以大數(shù)據(jù)時代為背景[1],數(shù)據(jù)主權(quán)為支撐,重點開展電子政務(wù)、國家治理、政府公開數(shù)據(jù)等相關(guān)領(lǐng)域的研究[2-3]。對政務(wù)大數(shù)據(jù)共享和融合的研究,主要集中于政府管理的治理方式[4-5],以及實時共享平臺建設(shè)的研究[6-7],對政務(wù)大數(shù)據(jù)融合模型和框架的研究較少。
本文分析了政務(wù)大數(shù)據(jù)建設(shè)的現(xiàn)狀與問題,在分析政務(wù)大數(shù)據(jù)的特征和設(shè)計模型的基礎(chǔ)上,闡釋了政務(wù)大數(shù)據(jù)融合參照FEA-DRM模型,刻畫了基于知識圖譜的政務(wù)大數(shù)據(jù)融合框架,進而提出推進政務(wù)大數(shù)據(jù)共享與融合的建議。
近年來,政務(wù)大數(shù)據(jù)的應(yīng)用實現(xiàn)了從之前的政務(wù)信息公開(向民眾、相關(guān)方公開)到現(xiàn)在的政府?dāng)?shù)據(jù)開放(覆蓋不同層面、更廣范圍,有條件、有步驟地開放),是一個里程碑式的跨越。截至2022年5月,開放部門68個,7 408萬條數(shù)據(jù),開放數(shù)據(jù)集1 280個。從各地開放的數(shù)據(jù)集來看,主要集中在經(jīng)濟發(fā)展類型、教育科研、交通出行、文體娛樂、信用服務(wù)、衛(wèi)生健康領(lǐng)域。
2014年10月,國內(nèi)政務(wù)大數(shù)據(jù)行業(yè)主要廠商浪潮在Inspur Word 2014浪潮技術(shù)與應(yīng)用峰會上首次提出政府?dāng)?shù)據(jù)開放五級技術(shù)成熟度模型(一級:信息公開;二級:數(shù)據(jù)網(wǎng)站;三級:數(shù)據(jù)門戶;四級:數(shù)據(jù)平臺;五級:數(shù)據(jù)生態(tài))。根據(jù)政府?dāng)?shù)據(jù)開放五級技術(shù)成熟度模型中描述的等級劃分,國內(nèi)已經(jīng)開始政府?dāng)?shù)據(jù)開放的城市大都處于二級或三級,但絕大部分的城市僅僅還停留在信息公開階段(一級)。在達到數(shù)據(jù)生態(tài)的階段時候,全社會的數(shù)據(jù),包括政府?dāng)?shù)據(jù)、公共事業(yè)數(shù)據(jù)、科學(xué)機構(gòu)、大企業(yè)數(shù)據(jù)等全都在這個平臺上,圍繞這些數(shù)據(jù)形成豐富的數(shù)據(jù)生產(chǎn)、數(shù)據(jù)消費、應(yīng)用培育、產(chǎn)業(yè)升級的生態(tài)圈。由此可見,推動政府?dāng)?shù)據(jù)開放任重而道遠(yuǎn)。
政務(wù)大數(shù)據(jù)信息資源需要自由流動,只有加速其流動,才能創(chuàng)造巨大的效益,以促進經(jīng)濟增長。目前,雖然部分地區(qū)政府部門已經(jīng)建成了一些大數(shù)據(jù)平臺,但是這些平臺相互不連通,形成多個“數(shù)據(jù)孤島”,部分平臺還處于“沉睡”狀態(tài)。當(dāng)前,政務(wù)大數(shù)據(jù)建設(shè)存在的問題主要體現(xiàn)在以下四個方面:(1)需求調(diào)研不深入;(2)沒有解決組織機構(gòu)保障問題,缺乏行之有效的整體推動;(3)未建立健全標(biāo)準(zhǔn)規(guī)范體系,數(shù)據(jù)采集、處理和共享困難重重;(4)未對源數(shù)據(jù)清洗、加工與處理,數(shù)據(jù)質(zhì)量堪憂。
政務(wù)大數(shù)據(jù),是政府在治理社會時積累和沉淀的各類數(shù)據(jù)。政府大數(shù)據(jù)工程是大數(shù)據(jù)技術(shù)在政府業(yè)務(wù)領(lǐng)域的實例化。首先,政務(wù)大數(shù)據(jù)的核心是“政務(wù)”,大數(shù)據(jù)是其表現(xiàn)形式和載體。要想實現(xiàn)常規(guī)政務(wù)服務(wù)的精準(zhǔn)化和主動政務(wù)服務(wù)的常態(tài)化,信息獲取的全面性與準(zhǔn)確性是基礎(chǔ)條件,大數(shù)據(jù)是信息的載體,大數(shù)據(jù)相關(guān)技術(shù)是政務(wù)數(shù)據(jù)全面性和準(zhǔn)確性的保障條件。其次,政務(wù)大數(shù)據(jù)的重點是讓政務(wù)數(shù)據(jù)“會說話”。最后,政務(wù)大數(shù)據(jù)的未來是數(shù)據(jù)自治。政務(wù)大數(shù)據(jù)的建立依賴于自上而下的數(shù)據(jù)規(guī)劃和自下而上的數(shù)據(jù)治理。政務(wù)大數(shù)據(jù)的未來一定是能夠?qū)崿F(xiàn)自我治理的,并能夠?qū)崿F(xiàn)對業(yè)務(wù)變化的自適應(yīng)性。
政務(wù)大數(shù)據(jù)的本質(zhì)是政務(wù),其設(shè)計模型與政務(wù)業(yè)務(wù)是緊密聯(lián)系的。政務(wù)大數(shù)據(jù)的內(nèi)容仍是數(shù)據(jù),其設(shè)計模型可分為概念模型(Who)、邏輯模型(What)和物理模型(How),以軟件工程來作對應(yīng)說明,數(shù)據(jù)的概念模型對應(yīng)于軟件系統(tǒng)之需求、邏輯模型對應(yīng)于軟件系統(tǒng)之設(shè)計、物理模型對應(yīng)于軟件系統(tǒng)之實現(xiàn)。政務(wù)大數(shù)據(jù)是大數(shù)據(jù)的一種,其設(shè)計模型需充分考慮大數(shù)據(jù)的相關(guān)特征。
要梳理清楚政務(wù)大數(shù)據(jù)的脈絡(luò),需要先刻畫好其概念模型。政務(wù)大數(shù)據(jù)按照其產(chǎn)生和利用方式,可以分為五類數(shù)據(jù):業(yè)務(wù)作業(yè)數(shù)據(jù)、行政監(jiān)管數(shù)據(jù)、規(guī)范治理數(shù)據(jù)、決策分析數(shù)據(jù)和綜合服務(wù)數(shù)據(jù)??梢?,政務(wù)大數(shù)據(jù)的概念模型一方面要對政務(wù)大數(shù)據(jù)提供和使用全過程、全周期的業(yè)務(wù)實體關(guān)系進行刻畫,另一方面要對政府職能行使過程中所產(chǎn)生和利用的五類數(shù)據(jù)進行基于業(yè)務(wù)主題的數(shù)據(jù)建模。
政務(wù)大數(shù)據(jù)提供和使用全過程、全周期的業(yè)務(wù)實體關(guān)系,可以從其五個主客體(即所有者、運營者、管理者、提供者和使用者)來展開。各級政府的最終目的是通過社會治理服務(wù)于民,行政和監(jiān)管是手段,規(guī)范治理是方法。其中,每類數(shù)據(jù)又都可以按照公民、企業(yè)、外國人和社會組織四種被服務(wù)的對象來分別展開描述。具體到政務(wù)大數(shù)據(jù)而言,很多時候體量并不大,原因在于長期以來人們按照地域、職能、主題、數(shù)據(jù)類型將大數(shù)據(jù)分割了。這種分割源于之前對全樣本數(shù)據(jù)進行存儲、通信和計算的能力局限,以及數(shù)據(jù)的價值密度過低而持有成本過高。如果政務(wù)優(yōu)化比作一個人的綜合價值,存儲層就是其記憶的信息和知識(記憶力和記憶量),計算層是其學(xué)和做的能力(智商和反應(yīng)能力),服務(wù)層是其結(jié)果規(guī)劃、產(chǎn)出能力(大局觀、情商和效率)。
政務(wù)大數(shù)據(jù)的邏輯模型(模式)是基于其概念模型,對其邏輯結(jié)構(gòu)進行數(shù)據(jù)建模,重在說明數(shù)據(jù)之間的業(yè)務(wù)邏輯關(guān)系。政務(wù)大數(shù)據(jù)的物理模型是服務(wù)于概念模型,依據(jù)邏輯模型進行政務(wù)大數(shù)據(jù)的落地實施。
目前,面對城市數(shù)據(jù)整合的“信息孤島”的難題,“數(shù)據(jù)整合”的需求非常迫切,但實施起來困難重重,在進行系統(tǒng)整合時,隨著不同應(yīng)用系統(tǒng)的數(shù)量呈算術(shù)級數(shù)增加,資源接口數(shù)就會呈指數(shù)級增長,“資源整合”的投入呈指數(shù)級增長,面向應(yīng)用數(shù)據(jù)的整合,工作量龐大。對如此龐大的數(shù)據(jù)進行整合,需要設(shè)計合理的邏輯模型重構(gòu)邏輯關(guān)系,本文選擇了美國聯(lián)邦企業(yè)架構(gòu)數(shù)據(jù)參考模型(FEADRM)作為數(shù)據(jù)融合的邏輯模型。FEA(Federal Enterprise Architecture)是美國聯(lián)邦政府為統(tǒng)一電子政務(wù)的實施而由聯(lián)邦政府開發(fā)的聯(lián)邦企業(yè)架構(gòu)模型,F(xiàn)EA由5個參考模型組成,它們共同提供了聯(lián)邦政府的業(yè)務(wù)、績效與技術(shù)的通用定義和架構(gòu),5個參考模型分別為績效參考模型(PRM)、業(yè)務(wù)參考模型(BRM)、服務(wù)構(gòu)件參考模型(SRM)、數(shù)據(jù)參考模型(DRM)和技術(shù)參考模型(TRM)。其中,數(shù)據(jù)參考模型(DRM)也是數(shù)據(jù)整合的邏輯模型,以下闡釋FEA-DRM模型。
數(shù)據(jù)參考模型(DRM)的目標(biāo)是通過標(biāo)準(zhǔn)的數(shù)據(jù)描述、通用數(shù)據(jù)的發(fā)現(xiàn)以及統(tǒng)一的數(shù)據(jù)管理實踐的推廣使得聯(lián)邦政府實現(xiàn)跨機構(gòu)的信息共享和重用,此模型用來解決信息化過程中面臨的“信息孤島”問題,實現(xiàn)數(shù)據(jù)的共享融合。DRM的思路是以整個數(shù)據(jù)元為基礎(chǔ),通過梳理業(yè)務(wù)關(guān)系、數(shù)據(jù)分類,實現(xiàn)數(shù)據(jù)的交換共享。
數(shù)據(jù)參考模型的適用范圍很廣,它可以用在一個機構(gòu)內(nèi)部,也可以用在某一個利益共同體(COI,Community of Interest,即指一組為了實現(xiàn)共同利益和目標(biāo)而相互合作的人或組織,而為了達成這一目標(biāo),他們需要一個共享的詞匯表來實現(xiàn)信息共享)內(nèi)或不同利益共同體之間。為了實現(xiàn)這一目的,數(shù)據(jù)參考模型采用了一種靈活的且基于標(biāo)準(zhǔn)的方式對數(shù)據(jù)的描述、分類和共享進行定義,數(shù)據(jù)參考模型的內(nèi)容被劃分為如下三個標(biāo)準(zhǔn)領(lǐng)域:
(1)數(shù)據(jù)描述(Data Description):提供對于數(shù)據(jù)的統(tǒng)一描述方法,從而支持?jǐn)?shù)據(jù)的發(fā)現(xiàn)和共享。
(2)數(shù)據(jù)上下文(Data Context):采用某種分類法對數(shù)據(jù)進行歸類,從而便于數(shù)據(jù)的發(fā)現(xiàn)。此外,數(shù)據(jù)上下文還使得定義一個利益共同體的權(quán)威數(shù)據(jù)資產(chǎn)(authoritative data assets)成為可能。
(3)數(shù)據(jù)共享(Data Sharing):支持?jǐn)?shù)據(jù)的訪問和交換,其中數(shù)據(jù)訪問是指單次性的特定請求(例如對于數(shù)據(jù)的查詢),而數(shù)據(jù)交換是指在不同團體之間經(jīng)常性發(fā)生的針對固定模式或需求的數(shù)據(jù)的往來交互事務(wù)。
數(shù)據(jù)參考模型作為一個參考模型為各機構(gòu)提供了一套抽象的框架,而對其具體實現(xiàn)就由各機構(gòu)在符合參考模型原則的基礎(chǔ)上自行決定了,從而為各機構(gòu)對于數(shù)據(jù)方面的描述提供了較大的靈活性。此外,由于各個機構(gòu)可以將組成其數(shù)據(jù)架構(gòu)的各種元素與該抽象框架相關(guān)聯(lián),從而使得原本隔絕的不同機構(gòu)在數(shù)據(jù)方面獲得了溝通途徑,促進了不同機構(gòu)之間的相互操作。
數(shù)據(jù)參考模型的抽象模型為各機構(gòu)用來進行信息集成、發(fā)現(xiàn)和共享數(shù)據(jù)架構(gòu)的優(yōu)化提供了一套架構(gòu)模式。為了達到該目標(biāo),該抽象模型對數(shù)據(jù)架構(gòu)概念元素以及他們之間的關(guān)系進行了明確定義,并且針對每個概念元素此抽象模型還分別定義了一系列的通用屬性。此抽象模型按照上述三個標(biāo)準(zhǔn)區(qū)域被劃分為三個部分,分別用于包含與這三個標(biāo)準(zhǔn)區(qū)域相關(guān)的概念元素及其關(guān)系。由于這三個標(biāo)準(zhǔn)相互關(guān)聯(lián),一些概念元素會出現(xiàn)多次,但是只有具有實線邊框的概念元素才是其真正的定義,虛線邊框的概念元素則用來表示從其他標(biāo)準(zhǔn)區(qū)域“借用”而來的意義。
除了抽象模型之外,數(shù)據(jù)參考模型還包含了對于數(shù)據(jù)在安全和隱私方面的考慮。數(shù)據(jù)參考模型強調(diào)了在這三個標(biāo)準(zhǔn)區(qū)域中都需要遵循安全和隱私方面的策略,并允許現(xiàn)存的聯(lián)邦安全和隱私策略被應(yīng)用到這些標(biāo)準(zhǔn)區(qū)域中。
3.2.1 數(shù)據(jù)描述
數(shù)據(jù)描述標(biāo)準(zhǔn)區(qū)域的目標(biāo)是為利益共同體提供關(guān)于數(shù)據(jù)結(jié)構(gòu)(語法)和意義(語義)的共識。為了達成這一共識,利益共同體需要基于數(shù)據(jù)參考模型在這一標(biāo)準(zhǔn)區(qū)域中的內(nèi)容創(chuàng)建各種相關(guān)的數(shù)據(jù)描述制品,關(guān)于數(shù)據(jù)標(biāo)準(zhǔn)領(lǐng)域的內(nèi)容都已被定義在DRM抽象模型的相關(guān)部分中。
3.2.2 數(shù)據(jù)上下文
數(shù)據(jù)上下文用于為數(shù)據(jù)添加與其被使用和創(chuàng)建的目標(biāo)相關(guān)的意義,從而便于具有不同視角的數(shù)據(jù)消費者對于數(shù)據(jù)的發(fā)現(xiàn)和使用。根據(jù)數(shù)據(jù)描述的定義,利益共同體內(nèi)部或者他們之間對于數(shù)據(jù)的描述將會產(chǎn)生共識,但是這并不意味著具有不同視角的數(shù)據(jù)消費者就對所有的數(shù)據(jù)實體或者數(shù)據(jù)實體的所有屬性都關(guān)心,甚至即便是針對某個數(shù)據(jù)實體的實例數(shù)據(jù),不同的數(shù)據(jù)消費者由于其視角的不同也可能只對其中部分實例數(shù)據(jù)感興趣。數(shù)據(jù)可以根據(jù)不同的方式進行分類,而針對分類方式的描述和定義構(gòu)成了“數(shù)據(jù)上下文”。除了關(guān)于數(shù)據(jù)的分類劃分這一核心概念,在數(shù)據(jù)參考模型中數(shù)據(jù)上下文相關(guān)的各種制品能回答如下幾個具體問題:數(shù)據(jù)資產(chǎn)中數(shù)據(jù)的主題是什么?什么組織負(fù)責(zé)維護數(shù)據(jù)資產(chǎn)?數(shù)據(jù)與業(yè)務(wù)參考模型的關(guān)系是什么?用于訪問數(shù)據(jù)資產(chǎn)的服務(wù)都有哪些?
3.2.3 數(shù)據(jù)共享
在定義了數(shù)據(jù)描述和數(shù)據(jù)上下文之后,利益共同體需要把精力放在規(guī)劃和實現(xiàn)信息訪問及相互交換方面上面,而在數(shù)據(jù)參考模型中數(shù)據(jù)共享標(biāo)準(zhǔn)區(qū)域為這一方面能力的實現(xiàn)提供了參考。信息交換通常是指在信息生產(chǎn)者和信息消費者之間所存在的相對固定且時常發(fā)生的信息交互過程,而針對信息的使用除了這種交換的方式外,作為信息源的信息生產(chǎn)者還需要對外提供各種信息訪問接口和服務(wù),從而為各種不確定的外界信息消費者提供信息訪問的能力,而這種通過各種信息訪問接口和服務(wù)而獲取信息的能力就是信息訪問能力。
上文基于數(shù)據(jù)描述、數(shù)據(jù)上下文、數(shù)據(jù)共享的DRM邏輯模型,建立了數(shù)據(jù)融合的架構(gòu)。在政務(wù)大數(shù)據(jù)的共享和融合的框架設(shè)計上,借鑒當(dāng)下人工智能(AI)的知識圖譜算法,可按主題實現(xiàn)更高效的數(shù)據(jù)整合,為數(shù)據(jù)價值的進一步挖掘奠定基礎(chǔ)。
政務(wù)大數(shù)據(jù)的共享與融合可分為現(xiàn)有數(shù)據(jù)的梳理和標(biāo)準(zhǔn)化、主體規(guī)劃和治理結(jié)構(gòu)建立、基礎(chǔ)資源層構(gòu)建三個階段。
第一階段:現(xiàn)有數(shù)據(jù)的梳理、標(biāo)準(zhǔn)化,確定采集交換規(guī)格。本階段要完成的任務(wù):廣泛支持傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)存儲源(如關(guān)系數(shù)據(jù)庫)、NOSQL數(shù)據(jù)源、地理空間數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)存儲源等多種數(shù)據(jù)存儲形式。通過網(wǎng)絡(luò)爬蟲、數(shù)據(jù)服務(wù)接口以及第三方系統(tǒng)對接等多種方式獲取采集數(shù)據(jù),把現(xiàn)有的政務(wù)大數(shù)據(jù)進行梳理、標(biāo)準(zhǔn)化。對于大量的已建系統(tǒng)需要結(jié)合國家、行業(yè)的相關(guān)標(biāo)準(zhǔn)對其進行規(guī)格化轉(zhuǎn)換,以形成統(tǒng)一的采集交換標(biāo)準(zhǔn),這是一個典型的自底向上的匯聚、標(biāo)準(zhǔn)化的過程。
第二階段:主題規(guī)劃、治理結(jié)構(gòu)建立。本階段需要對重點數(shù)據(jù)實體進行質(zhì)量評估,對數(shù)據(jù)質(zhì)量問題進行歸類、質(zhì)量趨勢分析和質(zhì)量監(jiān)控預(yù)警、邏輯錯誤處理、去重和關(guān)聯(lián)性驗證、訪問及使用安全防控等。同時,需要按業(yè)務(wù)主題對行業(yè)數(shù)據(jù)進行頂層規(guī)劃,提供三種能力:基于元數(shù)據(jù)的原始業(yè)務(wù)數(shù)據(jù)集成、基于業(yè)務(wù)/行業(yè)主題的主題數(shù)據(jù)集成和基于元數(shù)據(jù)、主題數(shù)據(jù)的綜合業(yè)務(wù)信息數(shù)據(jù)集成。最終,建立從數(shù)據(jù)的產(chǎn)生、交換、匯聚、加工和安全利用等全生命周期的治理結(jié)構(gòu)和管理流程。
第三階段:基礎(chǔ)資源層構(gòu)建,本階段是主題數(shù)據(jù)規(guī)劃的階段性收尾,協(xié)同數(shù)據(jù)的生產(chǎn)者、消費者、加工流通及運營者,并使之達到動態(tài)平衡和可持續(xù)發(fā)展。政務(wù)主題數(shù)據(jù)管理(SDM,Subject Data Management)的最佳實踐在于:讓政務(wù)業(yè)務(wù)參與進來,即把政務(wù)主題數(shù)據(jù)、元數(shù)據(jù)、數(shù)據(jù)治理體系一體化考慮。從業(yè)務(wù)全局視角服務(wù)于資源整合的SDM(主題數(shù)據(jù)管理)系統(tǒng)將是合規(guī)、已集成和標(biāo)準(zhǔn)化的單一數(shù)據(jù)源,能夠通過多領(lǐng)域主題數(shù)據(jù)進行管理。
知識圖譜的實體面臨數(shù)據(jù)融合的問題,因為知識圖譜的數(shù)據(jù)源可能有多個,在不同數(shù)據(jù)源有對同一實體的不同表達,即使在同一個數(shù)據(jù)源里也可能存在這種情況,需要通過一定方法將其合并。知識圖譜的數(shù)據(jù)融合過程如下:數(shù)據(jù)預(yù)處理→數(shù)據(jù)分組→屬性相似度→實體相似度。
(1)數(shù)據(jù)預(yù)處理:輸入的原始數(shù)據(jù)源往往存在格式不一致的數(shù)據(jù),需要進行人工規(guī)整。
(2)數(shù)據(jù)分組:目標(biāo)是找出所有相同的實體,要事先進行分組,分組的效果既要保證能夠比較均衡地分而治之,又要盡量保證不要漏分。常見的方法包括通過數(shù)據(jù)本身的類目信息進行分組,比如在融合商品數(shù)據(jù)的時候可以根據(jù)商品的類目信息進行分組;或者根據(jù)數(shù)據(jù)的關(guān)鍵信息,比如在融合人物數(shù)據(jù)的時候可以根據(jù)其出生日期進行分組。
(3)屬性相似度:經(jīng)過上一步的分組,每個分組下的實體是有可能是相同實體的集合,接下來需要對實體的屬性進行相似度計算,有了實體各個屬性的相似度才容易進行下一步的實體相似度計算。常見的方法包括:
①純字符串類型:計算編輯距離(Levenshtein Distance);
②集合類型:計算Jaccard相似度,計算集合交集個數(shù)/集合并集個數(shù);
③文檔類型:通過TF-IDF找出每篇文檔的關(guān)鍵詞,再通過余弦相似度計算關(guān)鍵詞集合的相似度。
(4)實體相似度:在實體各個屬性的相似度的基礎(chǔ)上計算實體相似度,常見的方法有兩種,回歸和聚類?;貧w:通過邏輯回歸的方式計算出各個屬性相似度的權(quán)重;聚類:通過聚類操作,計算出相似實體,可以進行層次聚類,相關(guān)性聚類,Canopy+K-means聚類等。
大數(shù)據(jù)分析所能產(chǎn)生的效應(yīng)正在被逐漸重視,但目前大數(shù)據(jù)需求端和數(shù)據(jù)占有端的錯配,使得政府部門大數(shù)據(jù)分析的需求被嚴(yán)重抑制,也制約了政府部門管理水平的提升。建議建立統(tǒng)一的大數(shù)據(jù)信息需求機制,讓大數(shù)據(jù)在實際政務(wù)工作應(yīng)用上真正地發(fā)揮作用。以建立統(tǒng)一的大數(shù)據(jù)信息需求機制為橋梁,將大數(shù)據(jù)建設(shè)方與大數(shù)據(jù)需求方進行有效關(guān)聯(lián)。例如,城市人口預(yù)測是多個部門需要的信息,但數(shù)據(jù)占有端在人口管理部門,因此該部門應(yīng)該及時提供整體服務(wù)(包括數(shù)據(jù)和概率),與公安、工商、稅務(wù)、社保等部門掌握的流動人口數(shù)據(jù)之間進行定期比對,以提高數(shù)據(jù)質(zhì)量,更好地輔助決策。
如何將各部門海量信息數(shù)據(jù)互聯(lián)互通,不僅是技術(shù)問題,更是機制問題。搭建大數(shù)據(jù)共享平臺、促進大數(shù)據(jù)信息共享融合,第一,要打消各部門對數(shù)據(jù)共享的疑慮,準(zhǔn)確提供數(shù)據(jù);第二,要建立數(shù)據(jù)接口規(guī)范,統(tǒng)一平臺數(shù)據(jù)格式;第三,要適應(yīng)當(dāng)前數(shù)據(jù)去中心化、移動化的趨勢,開發(fā)簡易統(tǒng)一的操作平臺。應(yīng)按照《政務(wù)信息資源交換體系》和《政務(wù)信息資源目錄體系》等國家標(biāo)準(zhǔn)要求建設(shè)大數(shù)據(jù)信息共享融合機制,實現(xiàn)政務(wù)信息資源的共享和交換。
政府有關(guān)部門應(yīng)有效地防止內(nèi)部敏感數(shù)據(jù)泄露。傳統(tǒng)的防火墻、反病毒軟件、入侵檢測等信息安全防護措施,已難以獨立應(yīng)對敏感數(shù)據(jù)泄露問題。因此,可以借鑒現(xiàn)代科技手段,配合內(nèi)部數(shù)據(jù)防泄漏管理長效機制來防止數(shù)據(jù)泄露,利用人工智能身份識別認(rèn)證數(shù)據(jù)管控技術(shù)與加密、隔離等技術(shù)相互結(jié)合,共同防止敏感數(shù)據(jù)的泄露與擴散。