張 磊 任敬斌 魏 麗
(國網甘肅信通公司,甘肅 蘭州 730050)
在市場體制快速改革的大背景下,參與跨行業(yè)、跨區(qū)域經營活動的企業(yè)數目有快速增長趨勢,電網行業(yè)精確掌握企業(yè)生產實況的難度相應增加,很可能使授信工作推進階段面對諸多阻礙。為了解除以上問題,合理地應用大數據技術,利用官方及相關數據建設模型于關聯(lián)圖譜。與常規(guī)圖譜相比,關聯(lián)圖譜能真切地勾畫出不同主體間形成的關聯(lián)網絡,特別是為帶電網數據主體勾畫出完整的“自畫像”,在三維空間還原實際狀況。
從本質上分析,知識圖譜為一類結構化、語義化的知識庫,其以符號為載體闡述客觀存在事物的定義、特性及其相關性。實體、相關性及與之相關的屬性為只是圖譜的基本構成單元,基于關系鏈條不同實體間形成一張知識網絡。
在Hadoop 以后較為流行的新大數據處理平臺——Spark平臺,也可以將其看成是一個快捷的測算引擎,當下應用較為廣泛。Spark 吸納了Hadoop 的優(yōu)勢,在設計方面進行完善,和Hadoop 相比,其效率提升了100 倍左右,因此,在有Map Reduce 迭代需求的情景內適用性更強,數據挖掘、機器學習是典型代表。
首先,剖析建設知識圖譜的模式與目標對象,會涉及頂層定義、頂層事件內容,兩者在社交、物權、運營等方面存在一定的相關性。其次,把持有的信息轉型為對應的實體,存儲于圖數據庫內并建設圖節(jié)點;提獲不同本體間的相關性并細化其所屬類別,然后整體存于圖數據庫內,這是關聯(lián)邊建設的重要基礎。這樣一個知識圖譜的大體輪廓隨之形成,但是該圖譜需要在他類數據的協(xié)助下拓展內容[1]。
在該系統(tǒng)內,數據源發(fā)揮了邏輯核心功能,結合數據需求差異性,本系統(tǒng)涵蓋授權、爬蟲及自有數據。
因該系統(tǒng)內有很多類型有別的數據源,持有高價值、權威性強的結構化數據,為了滿足系統(tǒng)后續(xù)階段提供的拓展需求與考評數據異構屬性,該系統(tǒng)擬定整合NoSQL 與SQL 數據庫的形式存儲數據,NoSQL 內未設置有嚴格要求的表結構,簡化了數據集表結構整改流程[2]。
計算層主要針對存儲在計算機系統(tǒng)中的非結構化數據完成抽取信息、挖掘數據等任務。構建系統(tǒng)過程中需要綜合應用數據挖掘、圖計算和機器學習等諸多技術。
這是系統(tǒng)將自身核心價值充分體現出來的層級依托,促進多個用于闡述企業(yè)相關信息的模型產出過程,進而達到整體呈現企業(yè)數據“自畫像”的目的。
內、外部都是獲得數據的重要渠道,前者包括上級企業(yè)傳送的數據、電子檔案影像、視頻及視頻資料等;外部數據多是微博、網站等上發(fā)布的動態(tài)結構或非結構化數據、將來集中式購置的數據等。在ETL 工具的幫襯下,每日或定時收集平臺有關數據源。
以Hadoop 的處置集群為基礎建設數據平臺,存儲、測算被采集數據信息是平臺的核心功能。Hadoop 聚集了多種功能性構件;HDFS 作為分布式文件系統(tǒng),以分布式形成存儲大數據文件;在大批量數據測算過程中,YARN 發(fā)揮管理與調控資源的作用;Hbase 是持有拓展功能的NoSQL 數據庫,結構及非結構化數據均可存儲于其內;針對存留于HBase 內的數據,可采用Hve 查找、解讀數據;Spark 作為快速通用型測算引擎,通用性、適用性均處于較高層次上(如圖1 所示)[3]。
平臺數據處理層整合、加工、測算大批量數據后,產出面向主題的數據集與多樣化分析模型。對多源異構數據信息予以整合處理后,可以建設有闡述企業(yè)有關信息的數據模型,常見的有關系圖譜、物理方位、訴訟懲罰等,進而整體呈現出活躍在資本市場環(huán)境內的企業(yè)數據“自畫像”。
圖1 資產關聯(lián)模型圖示
很多企業(yè)間建設的關聯(lián)關系具有極為顯著的隱匿性特征,從表象上難以觀察到,合理應用大數據分析系統(tǒng)能促進企業(yè)關系網復原過程。利用數據挖掘技術分析企業(yè)對內部、外部真實的擔保狀況、與訴訟相關的信息,結合不同企業(yè)之間發(fā)生的大型、不均等交易活動以及大事紀等諸多信息,歷經互為印證過程判別企業(yè)間存在的關聯(lián)性。當確定大數據分析系統(tǒng)全面掌握了不同電力公司間塑造的關聯(lián)性行為后,就能夠關聯(lián)知識圖譜內建設出不同主體之間的聯(lián)系網絡,同時將數值分別賦予各類關聯(lián)聯(lián)系,例如,賦予互為擔保關系賦一個較大數值;小額度賬戶資金往來關聯(lián)關系,通常賦予低值;而針對間接關聯(lián)關系,通常分流程測算出關聯(lián)關系值,最后測算出2 個不同主體間的相關性程度,并智能化做出標識,逾越預設閾值時將會智能傳送出預警信號,披露企業(yè)之間存在的關聯(lián)關系。
在辦理授信審批業(yè)務過程中,對現場實地考評、結構化數據集審批人員的主觀判斷表現出高度依賴性,以無多維度、多樣性數據為支撐,很難準確地辨識出客戶群體的償債能力。在知識圖譜關聯(lián)的協(xié)助下,能夠減輕企業(yè)之間信息不對稱的問題,協(xié)助企業(yè)能在短時間內快速了解客戶的真實運營狀況、經濟效益、資金需求量。可以在資產關系模型的支撐下建設實時監(jiān)測機制,通過挖掘信貸企業(yè)電表、水表、工資表等諸多信息,辨識出反常動向,依照現金流與上下游交易數據拓展對反常動向成因分析的深度性,特殊情況可通過自覺退離、調控抵押物等形式降低風險等級。
例如,在處置人員案頭分析過程中,需要通過多種渠道采集和債務人相關的基本信息,常規(guī)方法是于數個系統(tǒng)內逐一搜查??梢詮钠髽I(yè)內部系統(tǒng)探查信息,而訴訟與實施信息可以從法院系統(tǒng)內捕獲,行中數據庫是查找信息的主要渠道。以上信息來源渠道繁多,并且需要符合某些條件后方可捕獲一些信息源,耗用大量的人力與時間資源。而大數據系統(tǒng)能深度挖掘數個數據庫,并建設其間的關聯(lián)性,這樣相關人員就能在一個界面上快捷、精確的查詢到以上所有數據源,明顯降低了工作人員的作業(yè)量。
知識圖譜將多個類別的信息銜接為一而產出的關系網絡,其提供站在實體“關系”視角去解讀問題的能力,在闡述客觀環(huán)境中不同實體之間相關性的基礎上,還能為用戶群體提供更多有實用價值的檢索結果。該文在大數據技術的支配下,以數據建設關聯(lián)圖譜為支撐建設了資產關聯(lián)模型,該模型對信息運維管理、完善網絡過程均有一定促進作用,值得推廣。