梁 潔,張 巖,閆 嘉(中國(guó)聯(lián)通智慧足跡數(shù)據(jù)科技有限公司,北京 )
目前,社會(huì)經(jīng)濟(jì)形態(tài)經(jīng)歷了從傳統(tǒng)經(jīng)濟(jì)到互聯(lián)網(wǎng)經(jīng)濟(jì),再到數(shù)字經(jīng)濟(jì)的演變。2018年,我國(guó)數(shù)字經(jīng)濟(jì)規(guī)模達(dá)到31.3萬(wàn)億,占GDP比重為34.8%,數(shù)字經(jīng)濟(jì)在推動(dòng)經(jīng)濟(jì)高質(zhì)量發(fā)展中的戰(zhàn)略地位和引擎作用不斷凸顯。同時(shí),以網(wǎng)絡(luò)化、信息化與智能化的深度融合為核心的第四次工業(yè)革命不斷深化,全球逐漸進(jìn)入以“萬(wàn)物互聯(lián)”為顯著特征的數(shù)字化時(shí)代。數(shù)據(jù)日益成為推動(dòng)數(shù)字化時(shí)代發(fā)展的重要驅(qū)動(dòng)力,如何最大化數(shù)據(jù)價(jià)值是當(dāng)前數(shù)據(jù)服務(wù)商面臨的新課題、新機(jī)遇、新挑戰(zhàn)。
來(lái)自中國(guó)聯(lián)通等移動(dòng)通信運(yùn)營(yíng)商的手機(jī)信令數(shù)據(jù)是一種大規(guī)模采樣、脫敏的移動(dòng)位置數(shù)據(jù),是手機(jī)用戶使用移動(dòng)通信網(wǎng)時(shí)留下的時(shí)空軌跡。手機(jī)信令數(shù)據(jù)的主要特點(diǎn)有:
a)手機(jī)的普及率高,根據(jù)工業(yè)和信息化部發(fā)布的電信業(yè)多項(xiàng)數(shù)據(jù)顯示,截至2018年底,全國(guó)移動(dòng)電話用戶總數(shù)達(dá)到15.7億戶,人均擁有1.12張手機(jī)卡。
b)手機(jī)數(shù)據(jù)具有實(shí)時(shí)性,能連續(xù)記錄居民活動(dòng)的時(shí)空變化,無(wú)論是主動(dòng)還是被動(dòng)行為,在運(yùn)營(yíng)商網(wǎng)絡(luò)內(nèi)都會(huì)留下記錄。
c)手機(jī)數(shù)據(jù)采集成本低,易于連續(xù)多日采集,方便挖掘居民多日行為的一般特征和活動(dòng)規(guī)律。
d)被調(diào)查者不能干預(yù)手機(jī)信令數(shù)據(jù)實(shí)時(shí)采集,數(shù)據(jù)更為客觀和有效。
目前政府機(jī)關(guān)、高校、科研機(jī)構(gòu)和大數(shù)據(jù)企業(yè)已經(jīng)利用手機(jī)信令數(shù)據(jù)開(kāi)展了大量研究并衍生出各種類別的數(shù)據(jù)產(chǎn)品,例如利用手機(jī)信令數(shù)據(jù)能夠有效把握城鄉(xiāng)居民的行為軌跡、城市空間利用現(xiàn)狀、交通運(yùn)行現(xiàn)狀、公共設(shè)施服務(wù)水平等,從而用于城鎮(zhèn)體系等級(jí)結(jié)構(gòu)、城市空間結(jié)構(gòu)、城市中心體系、職住平衡、商圈活力、城市交通等方面的研究。
手機(jī)信令數(shù)據(jù)產(chǎn)品多種多樣,其數(shù)據(jù)質(zhì)量和準(zhǔn)確性是產(chǎn)生價(jià)值的核心要素。但是數(shù)據(jù)采集存在不穩(wěn)定性,底層數(shù)據(jù)清洗、處理過(guò)程參數(shù)多,數(shù)據(jù)建模階段定制化需求多,如何保證算法的可靠性,提高數(shù)據(jù)產(chǎn)品的質(zhì)量和準(zhǔn)確性是亟待解決的問(wèn)題。本文以基于手機(jī)信令的人口洞察類數(shù)據(jù)產(chǎn)品為切入口,研究數(shù)據(jù)質(zhì)量校驗(yàn)方法和質(zhì)檢流程,用既定的規(guī)則代替相關(guān)人員主觀上的判斷,提高數(shù)據(jù)產(chǎn)品的交付質(zhì)量。
面向人口洞察的手機(jī)信令數(shù)據(jù)產(chǎn)品交付過(guò)程可主要分為數(shù)據(jù)采集、數(shù)據(jù)處理、建模分析共3個(gè)階段,如圖1所示。
圖1 數(shù)據(jù)質(zhì)量校驗(yàn)整體框架
a)數(shù)據(jù)采集:主要完成中國(guó)聯(lián)通信令數(shù)據(jù)的接入、脫敏和清洗,以及不同來(lái)源數(shù)據(jù)(信令數(shù)據(jù)、基站工參等)之間的關(guān)聯(lián)處理。
b)數(shù)據(jù)處理:基于數(shù)據(jù)倉(cāng)庫(kù),通過(guò)大數(shù)據(jù)模型的核心加工模塊,將歷史信令數(shù)據(jù)聚合計(jì)算為網(wǎng)格化標(biāo)簽數(shù)據(jù),并基于GIS數(shù)據(jù)的路徑擬合、基于預(yù)測(cè)算法的趨勢(shì)分析等多種數(shù)據(jù)挖掘分析處理,生成人口洞察用的基礎(chǔ)輸出數(shù)據(jù)。
c)建模分析與成果交付:根據(jù)客戶定制化需求,對(duì)數(shù)據(jù)處理產(chǎn)生的數(shù)據(jù)結(jié)果進(jìn)行建模分析,提供數(shù)據(jù)集、API、洞察報(bào)告/行業(yè)報(bào)告、系統(tǒng)平臺(tái)類等多角度、多場(chǎng)景的交付成果。
數(shù)據(jù)質(zhì)量校驗(yàn)必須貫穿數(shù)據(jù)產(chǎn)品的全過(guò)程,才能有效保障數(shù)據(jù)質(zhì)量并提高產(chǎn)品交付一次成功率,實(shí)現(xiàn)提質(zhì)增效的經(jīng)營(yíng)目標(biāo)。
輸入數(shù)據(jù)檢查主要包括手機(jī)信令、基站工參、屬性數(shù)據(jù)、參考數(shù)據(jù)4部分。
a)手機(jī)信令檢查:以省為單位,對(duì)每日的2G/3G/4G信令數(shù)據(jù)進(jìn)行檢查,主要為分省數(shù)據(jù)的容量大小值。若某省信令數(shù)據(jù)量低于閾值,則標(biāo)為異常并預(yù)警,人工排查原因,在問(wèn)題修復(fù)或數(shù)據(jù)恢復(fù)后進(jìn)行事件記錄。
b)基站工參檢查:對(duì)每月灌入的2G/3G/4G基站工參數(shù)據(jù)進(jìn)行檢查,主要是分省統(tǒng)計(jì)2G/3G/4G各類基站工參總量,同時(shí)檢查工參完整性,剔除基站經(jīng)緯度為空或?yàn)?的工參數(shù)據(jù)。
c)用戶屬性檢查:對(duì)每月灌入的用戶屬性表進(jìn)行統(tǒng)計(jì)檢查,主要為:各省用戶總量、正常狀態(tài)用戶量檢查,其中正常狀態(tài)用戶指當(dāng)月有手機(jī)信令的用戶;年齡未知用戶及占比、性別未知用戶及占比檢查。
d)參考數(shù)據(jù)檢查:參考數(shù)據(jù)主要為全國(guó)各區(qū)縣的人口統(tǒng)計(jì)數(shù)據(jù),為年度更新表,以各統(tǒng)計(jì)局/政府發(fā)布的統(tǒng)計(jì)年鑒數(shù)據(jù)為準(zhǔn)。檢查內(nèi)容:按地(市)匯總區(qū)縣常住人口,與統(tǒng)計(jì)公報(bào)公布數(shù)字進(jìn)行對(duì)比,檢查是否吻合;男女總數(shù)是否等于常住人口數(shù)。
通過(guò)大數(shù)據(jù)模型的核心加工模塊處理,將手機(jī)信令數(shù)據(jù)加工為5大類核心數(shù)據(jù)表,分別為月點(diǎn)位表、月駐留表、月出行表、日駐留表和日出行表。對(duì)這5大類輸出數(shù)據(jù)進(jìn)行省、市、區(qū)縣級(jí)等更精細(xì)空間粒度的數(shù)據(jù)質(zhì)量檢查,所采用的方法主要是統(tǒng)計(jì)學(xué)中的離散系數(shù)和離群值檢驗(yàn)方法,檢查項(xiàng)如表1所示。檢查方法、檢查邏輯及評(píng)判標(biāo)準(zhǔn)如表2所示。
表1 輸出數(shù)據(jù)質(zhì)量檢查指標(biāo)
表2 輸出數(shù)據(jù)質(zhì)量檢查邏輯
建模分析階段的質(zhì)量檢查流程主要分為項(xiàng)目啟動(dòng)、項(xiàng)目成果提交、質(zhì)檢和內(nèi)部/外部評(píng)審4部分,如圖2所示。
a)項(xiàng)目啟動(dòng):項(xiàng)目啟動(dòng)時(shí)需通知質(zhì)檢負(fù)責(zé)人,告知項(xiàng)目名稱、城市描述、交付形式、項(xiàng)目描述、交付負(fù)責(zé)人、計(jì)劃交付日期、計(jì)劃提交質(zhì)檢時(shí)間。此時(shí)質(zhì)檢狀態(tài)為“待提交”。
b)提交的項(xiàng)目成果主要為:
(a)合同+補(bǔ)充協(xié)議:指最終簽訂的項(xiàng)目合同,以及執(zhí)行過(guò)程中因需求變更或者新增需求而增加的補(bǔ)充協(xié)議。該內(nèi)容一般作為質(zhì)檢依據(jù)。
(b)成果包:包含執(zhí)行代碼、數(shù)據(jù)圖層、數(shù)據(jù)集、圖、報(bào)告。
(c)成果說(shuō)明表:包含交付客戶的成果列表、成果數(shù)據(jù)字典以及統(tǒng)計(jì)口徑。
圖2 建模分析與成果交付質(zhì)量檢查流程
(d)自檢報(bào)告:交付負(fù)責(zé)人自檢報(bào)告。此時(shí)質(zhì)檢狀態(tài)為“待質(zhì)檢”。
c)質(zhì)檢:質(zhì)檢負(fù)責(zé)人根據(jù)提交內(nèi)容,按質(zhì)檢指標(biāo)進(jìn)行質(zhì)檢;若質(zhì)檢無(wú)問(wèn)題,則“質(zhì)檢通過(guò)”,并郵件通知交付負(fù)責(zé)人,通過(guò)質(zhì)檢可進(jìn)行成果交付;若質(zhì)檢過(guò)程發(fā)現(xiàn)問(wèn)題,則將質(zhì)檢結(jié)果以郵件形式反饋給交付負(fù)責(zé)人,此時(shí)質(zhì)檢狀態(tài)為“修改中”;交付負(fù)責(zé)人進(jìn)行修改,直至質(zhì)檢通過(guò)。
d)評(píng)審:對(duì)于大額項(xiàng)目或有重大戰(zhàn)略意義的項(xiàng)目,由質(zhì)檢負(fù)責(zé)人組織內(nèi)部評(píng)審。交付負(fù)責(zé)人作為主講人,講解項(xiàng)目需求、制作方案,展示項(xiàng)目成果和質(zhì)檢結(jié)果,內(nèi)部專家對(duì)以上內(nèi)容進(jìn)行評(píng)審,評(píng)審過(guò)程記錄到《評(píng)審記錄表》進(jìn)行留存和問(wèn)題追蹤。如果內(nèi)部評(píng)審后對(duì)結(jié)果意見(jiàn)不一致或把握性低于50%的,由項(xiàng)目經(jīng)理邀請(qǐng)相關(guān)的行業(yè)專家,召開(kāi)外部評(píng)審會(huì)。
面向人口洞察的手機(jī)信令數(shù)據(jù)產(chǎn)品的質(zhì)檢,分為人口分布類、出行類、屬性類、熱力分布4大類,具體細(xì)化成17項(xiàng)關(guān)鍵指標(biāo),如表3所示,該部分指標(biāo)均為必查項(xiàng),且問(wèn)題等級(jí)均為最高級(jí)。
以2019年9月商洛市人口分布與出行大數(shù)據(jù)服務(wù)為例,詳細(xì)介紹質(zhì)量檢驗(yàn)流程。該項(xiàng)目的統(tǒng)計(jì)指標(biāo)為:人口分布特征研究,含居住人口分布,性別、年齡特征分析;人口出行特征研究,含全用戶出行空間分布、出行距離、出行時(shí)間。下文主要從輸出數(shù)據(jù)檢查和成果檢查2方面進(jìn)行具體說(shuō)明。
表3 質(zhì)檢指標(biāo)
本項(xiàng)目分析過(guò)程均采用月度增強(qiáng)模塊處理后的月表進(jìn)行統(tǒng)計(jì)分析,因此對(duì)2019年9月商洛市輸出的月點(diǎn)位表(見(jiàn)圖3)、月駐留表(見(jiàn)圖4)、月出行表(見(jiàn)圖5)進(jìn)行檢查,可以看出:
a)日總用戶量、日駐留總量、日出行總量,均在均值上下小范圍浮動(dòng),無(wú)明顯缺省異常情況,格拉布斯檢驗(yàn)系數(shù)范圍分別為(-0.88,1.01)、(-0.88,1.55)、(-0.15,0.29),最大值均小于2.134,正常。
b)中秋節(jié)前后、國(guó)慶節(jié)前日,出現(xiàn)了比較大的用戶量的增長(zhǎng)現(xiàn)象,符合節(jié)日特征。
3.2.1人口分布特征結(jié)果檢查
據(jù)《2018年商洛市國(guó)民經(jīng)濟(jì)和社會(huì)發(fā)展統(tǒng)計(jì)公報(bào)》顯示,“2018年末,全市總戶數(shù)85.70萬(wàn)戶,戶籍人口251.03萬(wàn)人。總?cè)丝谥?,男?33.17萬(wàn)人。據(jù)1%人口抽樣調(diào)查結(jié)果顯示,2018年末全市常住人口238.02萬(wàn)人,比上年減少0.11萬(wàn)人?!备鶕?jù)中國(guó)聯(lián)通用戶外推計(jì)算的2019年9月商洛市居住人口198.56萬(wàn)人,差值16.58%。查看商洛市2019年1月至11月中國(guó)聯(lián)通總用戶量的分布特征(見(jiàn)圖6),可以看出商洛市從2019年1月21日春運(yùn)開(kāi)始到2月底,人口出現(xiàn)大幅增長(zhǎng),且從公報(bào)看出戶籍人口大于常住人口,表明該城市主要為人口輸出型城市,因此出現(xiàn)平常月居住人口略低于統(tǒng)計(jì)口徑的常住人口,屬于正?,F(xiàn)象。
從各區(qū)縣的居住人口分布密度來(lái)看,中心城區(qū)商州區(qū)的人口分布最密集,與其經(jīng)濟(jì)發(fā)展為全市第一相符。從人口屬性來(lái)看(見(jiàn)圖7),商州市男女比例為0.52∶0.48,與統(tǒng)計(jì)公報(bào)發(fā)布的0.53∶0.47基本吻合;年齡結(jié)構(gòu)上,25~34歲人口為主,其次為35~54歲,符合正態(tài)分布。
圖3 點(diǎn)位表輸出結(jié)果檢查
圖4 駐留表輸出結(jié)果檢查
圖5 出行表輸出結(jié)果檢查
圖6 商洛市2019年1月至11月中國(guó)聯(lián)通總用戶量分布特征
3.2.2人口出行特征結(jié)果檢查
從工作日、周末全方式出行數(shù)據(jù)統(tǒng)計(jì)結(jié)果來(lái)看:
a)各區(qū)縣均以區(qū)縣內(nèi)出行為主,除丹鳳縣外,其他區(qū)縣區(qū)內(nèi)出行:跨區(qū)出行均大于7∶3(見(jiàn)圖7和圖8),符合當(dāng)?shù)亟?jīng)濟(jì)發(fā)展現(xiàn)狀。
b)跨區(qū)出行,以中心城區(qū)商州區(qū)為中心,其與周邊區(qū)縣活動(dòng)最頻繁,符合中心城區(qū)的出行特點(diǎn)(見(jiàn)圖8和圖9)。
c)工作日出行有明顯的早晚高峰,工作日主要為晚高峰,符合分小時(shí)出行特征(見(jiàn)圖10)。
d)工作日和周末出行距離在15 km以下的用戶分別為58.14%、58.24%,均高于50%,正常(見(jiàn)圖11)。
圖7 商洛市居住人口年齡分布
圖8 工作日出行分布
圖9 周末出行分布
圖10 分小時(shí)出行分布
圖11 出行距離分布
手機(jī)信令大數(shù)據(jù)是開(kāi)展人口洞察的主要數(shù)據(jù)源,基于手機(jī)信令的數(shù)據(jù)產(chǎn)品種類繁多,時(shí)空尺度多樣,其數(shù)據(jù)質(zhì)量和交付效果是政府及企業(yè)客戶的關(guān)注重點(diǎn)。制定可信的質(zhì)量校驗(yàn)規(guī)則,替代分析人員的主觀判斷,將有利于交付質(zhì)量的提升。智慧足跡聚焦“人口+”,以位置為核心,長(zhǎng)期進(jìn)行人的職住、出行、行為、消費(fèi)、健康等人口洞察類數(shù)據(jù)產(chǎn)品的研發(fā),在產(chǎn)品交付和質(zhì)量控制方面具備大量的經(jīng)驗(yàn),通過(guò)總結(jié)數(shù)據(jù)分析過(guò)程中的各種問(wèn)題,將面向人口洞察的手機(jī)信令數(shù)據(jù)產(chǎn)品的質(zhì)檢劃分為4大類共17項(xiàng)指標(biāo),形成了可行的質(zhì)量校驗(yàn)方案和質(zhì)檢流程,提高了數(shù)據(jù)產(chǎn)品的數(shù)據(jù)質(zhì)量和交付品質(zhì)。