葉立武+王東+李井波+顧佳盛
【摘要】 數(shù)據(jù)質(zhì)量是一個抽象概念。針對保險業(yè)務(wù),如何評價數(shù)據(jù)質(zhì)量,提升數(shù)據(jù)質(zhì)量一直是困擾數(shù)據(jù)管理人員的一大難題。通過借鑒信息生命周期管理理論與數(shù)據(jù)治理成熟度模型,從數(shù)據(jù)生命周期的角度,對影響數(shù)據(jù)每個周期的環(huán)節(jié)進(jìn)行主要因素分析,結(jié)合保險業(yè)務(wù)的特點(diǎn)形成了相對全面的數(shù)據(jù)質(zhì)量指標(biāo)體系。同時,根據(jù)應(yīng)用實(shí)踐的需要,通過利用數(shù)理統(tǒng)計(jì)的技術(shù)完成了數(shù)據(jù)質(zhì)量指數(shù)模型的建立,指導(dǎo)數(shù)據(jù)質(zhì)量工作的改進(jìn)。
【關(guān)鍵詞】 保險 數(shù)據(jù)質(zhì)量 指標(biāo) 指數(shù)
圍繞公司“科技國壽”戰(zhàn)略,建立健全適應(yīng)大系統(tǒng)、大集中、大數(shù)據(jù)的數(shù)據(jù)管理機(jī)制。項(xiàng)目組以新一代業(yè)務(wù)系統(tǒng)建設(shè)為契機(jī),不斷優(yōu)化數(shù)據(jù)管理結(jié)構(gòu),提升數(shù)據(jù)質(zhì)量。對于數(shù)據(jù)質(zhì)量的提升,需要明確數(shù)據(jù)質(zhì)量真實(shí)情況,評價過程需要一套相對完整、客觀、符合保險業(yè)務(wù)的評價標(biāo)準(zhǔn)或評價體系,指導(dǎo)數(shù)據(jù)質(zhì)量治理工作在保險公司的開展。
一、數(shù)據(jù)質(zhì)量指標(biāo)體系構(gòu)建
1.1指標(biāo)體系設(shè)計(jì)
在信息生命周期中,影響數(shù)據(jù)質(zhì)量的因素較多,數(shù)據(jù)質(zhì)量指標(biāo)體系框架設(shè)計(jì)的目的在于從一定的角度觀察、了解可能影響數(shù)據(jù)質(zhì)量的因素,通過對其范圍及程度的研究,形成可量化、可落地的評價指標(biāo)。利用統(tǒng)計(jì)學(xué)相關(guān)理論和技術(shù),形成數(shù)值量化。以信息生命周期、影響數(shù)據(jù)質(zhì)量的基本要素、影響數(shù)據(jù)質(zhì)量的廣義要素形成的數(shù)據(jù)質(zhì)量指標(biāo)體系框架如圖1所示。
1.1.1影響數(shù)據(jù)質(zhì)量的基本要素維度
數(shù)據(jù):對數(shù)據(jù)質(zhì)量的研究首先需要明確對象,具體數(shù)據(jù)的分類將影響對數(shù)據(jù)質(zhì)量的分析,如主數(shù)據(jù)、交易數(shù)據(jù)、參考數(shù)據(jù)及元數(shù)據(jù)。
流程:涉及影響數(shù)據(jù)或信息的功能、活動、行動、任務(wù)或程序(業(yè)務(wù)流程、數(shù)據(jù)管理流程、公司外部流程等)。
人員和組織:影響或使用數(shù)據(jù)或者與信息生命周期的任意階段過程密切相關(guān)的組織、團(tuán)隊(duì)、角色、職責(zé)或個人,包括管理及使用數(shù)據(jù)的人等。
技術(shù):與信息生命周期的任意階段流程密切相關(guān),或人員和組織使用的用來存儲或操作數(shù)據(jù)的軟件、數(shù)據(jù)庫、文檔、程序等。
1.1.2影響數(shù)據(jù)質(zhì)量的廣義要素維度
廣義影響要素指影響信息質(zhì)量的其他要素。在整個信息生命周期中都應(yīng)該考慮這些要素,它們處理的恰當(dāng)與否將間接影響數(shù)據(jù)質(zhì)量的情況。
需求:需完成的內(nèi)容以及支持完成這些內(nèi)容所需的數(shù)據(jù)及信息。
時空:事件在哪里發(fā)生,數(shù)據(jù)何時使用,以及需要用多久。
權(quán)責(zé):職權(quán)、治理、所有權(quán)、動機(jī)和收益。
優(yōu)化:根本原因、持續(xù)提高、檢測、度量、目標(biāo)。
結(jié)構(gòu):定義、背景、關(guān)系、標(biāo)準(zhǔn)、規(guī)則、體系結(jié)構(gòu)等。
溝通:認(rèn)知、影響范圍、教育、培訓(xùn)和文檔資料。
1.2數(shù)據(jù)質(zhì)量指標(biāo)分解
結(jié)合保險業(yè)務(wù)及數(shù)據(jù)質(zhì)量管理實(shí)踐需要,進(jìn)一步將數(shù)據(jù)質(zhì)量指標(biāo)設(shè)計(jì)為三級,其中第一級指標(biāo)4項(xiàng),包括數(shù)據(jù)類、流程類、人員類、技術(shù)類;第二級指標(biāo)22項(xiàng),包括數(shù)據(jù)規(guī)劃、數(shù)據(jù)獲取、數(shù)據(jù)存儲等;第三級指標(biāo)161項(xiàng),例如對數(shù)據(jù)類規(guī)劃情況的評價,具體包括了主數(shù)據(jù)類別數(shù)量、主數(shù)據(jù)標(biāo)準(zhǔn)的數(shù)量、建立元數(shù)據(jù)的數(shù)量、元數(shù)據(jù)規(guī)劃標(biāo)準(zhǔn)率、交易/參考數(shù)據(jù)類別數(shù)量、交易/參考數(shù)據(jù)標(biāo)準(zhǔn)的數(shù)量等。通過指標(biāo)分解,將描述數(shù)據(jù)質(zhì)量的抽象維度盡可能落地為具有實(shí)際意義的數(shù)據(jù),并進(jìn)行加工分析。
二、數(shù)據(jù)質(zhì)量指數(shù)構(gòu)建
根據(jù)已建立的數(shù)據(jù)質(zhì)量指標(biāo),通過標(biāo)準(zhǔn)化策略將指標(biāo)同趨化處理,進(jìn)一步利用層次分析法、熵權(quán)法等統(tǒng)計(jì)方法,形成各級指標(biāo)權(quán)重,構(gòu)造數(shù)據(jù)質(zhì)量指數(shù)計(jì)算模型。在各類指標(biāo)數(shù)據(jù)采集的基礎(chǔ)上,結(jié)合數(shù)據(jù)質(zhì)量指數(shù)計(jì)算模型完成指數(shù)的測算,最終形成數(shù)據(jù)質(zhì)量指數(shù)。
2.1用層次分析法求解第一級和第二級指標(biāo)權(quán)重
一是明確評價對象。項(xiàng)目組選擇以公司某一業(yè)務(wù)處理系統(tǒng)的數(shù)據(jù)質(zhì)量為指標(biāo)權(quán)重計(jì)算對象, P=某業(yè)務(wù)系統(tǒng)數(shù)據(jù)質(zhì)量。
二是構(gòu)造評價因子集。根據(jù)影響數(shù)據(jù)質(zhì)量的基本要素建立遞階層次結(jié)構(gòu)體系。
三是構(gòu)造判斷矩陣。采用T.L.Saaty教授提出的標(biāo)度法,構(gòu)造三個判斷矩陣。
四是判斷矩陣的一致性檢驗(yàn)。用EXCEL計(jì)算判斷矩陣S1的最大特征根得λmax=4.214836159。為進(jìn)行判斷矩陣的一致性檢驗(yàn),需計(jì)算一致性指標(biāo):CI==0.071612053,平均隨即一致性指標(biāo)RI=0.89。隨機(jī)一致性比率:CR==0.080462981<0.10。因此,認(rèn)為層次分析排序的結(jié)果有滿意的一致性,即權(quán)重系數(shù)的分配是合理的。同理,分別對S2和S3進(jìn)行一致性檢驗(yàn),CR皆小于0.1,因此認(rèn)為權(quán)重系數(shù)的分配是非常合理的。
五是計(jì)算一級指標(biāo)權(quán)重。利用幾何平均法,計(jì)算S1各行各個元素的乘積,得到一個4行1列的矩陣B:B=[27,0.0247,0.0062,243,計(jì)算矩陣每個元素的4次方根得到矩陣C:C=[2.27951,0.39640,0.28030,3.94822,對矩陣C進(jìn)行歸一化處理得到矩陣D:D=[0.33015,0.05741,0.04060,0.57184,該矩陣D即為所求權(quán)重向量。
六是計(jì)算二級指標(biāo)權(quán)重。利用幾何平均法,得出三級矩陣的權(quán)重系數(shù)。數(shù)據(jù)類指標(biāo)的權(quán)重:[0.06294,0.26543, 0.67163],技術(shù)類指標(biāo)的權(quán)重:[0.1,0.9]。
2.2 用熵權(quán)法求解第三級指標(biāo)權(quán)重
一是原始數(shù)據(jù)標(biāo)準(zhǔn)化?,F(xiàn)有36個待評價項(xiàng)目,準(zhǔn)確性和完整性衡量中有7個評價指標(biāo),根據(jù)原始數(shù)據(jù),通過正向指標(biāo)標(biāo)準(zhǔn)化方法:,逆向指標(biāo)標(biāo)準(zhǔn)化方法:按照上述方法將原始數(shù)據(jù)標(biāo)準(zhǔn)化。將標(biāo)準(zhǔn)化后的矩陣進(jìn)行歸一化處理,計(jì)算第j個指標(biāo)下第i個項(xiàng)目的指標(biāo)值的比重,計(jì)算出。
二是求各指標(biāo)的信息熵。根據(jù)信息熵的計(jì)算公式,可以計(jì)算出7項(xiàng)指標(biāo)各自的信息熵,見表一。
三是計(jì)算各指標(biāo)的權(quán)重。根據(jù)指標(biāo)權(quán)重的計(jì)算公式,可以得到各個指標(biāo)的權(quán)重。
綜上所述,數(shù)據(jù)質(zhì)量指數(shù)模型中各級指標(biāo)權(quán)重設(shè)計(jì)見表二所示。
2.3 數(shù)據(jù)質(zhì)量指數(shù)計(jì)算與評估
結(jié)合數(shù)據(jù)質(zhì)量指標(biāo),并根據(jù)數(shù)據(jù)質(zhì)量指數(shù)模型試算,進(jìn)一步獲得各省級分公司業(yè)務(wù)的數(shù)據(jù)質(zhì)量指數(shù),例如:
(1)P1公司數(shù)據(jù)質(zhì)量指數(shù)= 7960
(2)P2公司數(shù)據(jù)質(zhì)量指數(shù)= 3948
利用5-MEANS法對各省數(shù)據(jù)質(zhì)量指數(shù)聚類,共得到A、 B、C、D、E五類,其中A類分公司的數(shù)據(jù)質(zhì)量指數(shù)分?jǐn)?shù)最高,E類分公司的數(shù)據(jù)質(zhì)量指數(shù)分?jǐn)?shù)最低,各類指數(shù)均值分別為7273、6269、5353、4477、4011。根據(jù)中位數(shù)選取法則,將C類公司的數(shù)據(jù)質(zhì)量指數(shù)均值5353作為描述在該統(tǒng)計(jì)周期內(nèi)系統(tǒng)數(shù)據(jù)質(zhì)量指數(shù),指數(shù)的變化將反映該系統(tǒng)整體數(shù)據(jù)質(zhì)量的變化情況。
參 考 文 獻(xiàn)
[1] 李美娟,陳國宏,陳衍泰.綜合評價中指標(biāo)標(biāo)準(zhǔn)化方法研究.中國管理科學(xué),2004,12:45-47
[2] Danette McGilvray.數(shù)據(jù)質(zhì)量工程實(shí)踐——獲取高質(zhì)量數(shù)據(jù)和可信信息的十大步驟[M].北京:電子工業(yè)出版社,2010
[3]Batini,Carlo,and Scannapieco,Monica(2006).Data Quality:Concepts,Methodologies,and Techniques. Springer.