陸敬筠 呂海艷
(南京工業(yè)大學(xué)經(jīng)濟(jì)與管理學(xué)院,南京 211816)
大數(shù)據(jù)時(shí)代的到來使各類數(shù)據(jù)應(yīng)用的領(lǐng)域越發(fā)廣泛,如經(jīng)濟(jì)、政治、社會、醫(yī)療、教育等,引發(fā)了社會公眾對數(shù)據(jù)開放的強(qiáng)烈需求。政府部門作為社會數(shù)據(jù)資源的主要掌握者,將不涉及國家安全、商業(yè)機(jī)密和個人隱私的政府?dāng)?shù)據(jù)開放出來,可以滿足社會各領(lǐng)域?qū)φ當(dāng)?shù)據(jù)的使用需求,這不僅能提高政務(wù)透明度與公眾滿意度,還能通過數(shù)據(jù)利用者的挖掘、再利用充分發(fā)揮數(shù)據(jù)價(jià)值從而服務(wù)于社會公眾,為社會進(jìn)步注入新的活力。
我國政府?dāng)?shù)據(jù)開放的研究起步較晚,政府?dāng)?shù)據(jù)開放平臺還存在不少亟待完善的問題,如數(shù)據(jù)質(zhì)量不高、數(shù)據(jù)覆蓋的領(lǐng)域不完善,對用戶需求的滿足還存在不足。國內(nèi)學(xué)者也從多個角度對政府?dāng)?shù)據(jù)開放平臺的建設(shè)進(jìn)行了探討,但已有研究大多從指標(biāo)確定[1-3]、模型構(gòu)建[4-5]、實(shí)證分析[6-7]等角度出發(fā),探討我國政府?dāng)?shù)據(jù)開放平臺的發(fā)展現(xiàn)狀并根據(jù)分析結(jié)果提出相應(yīng)的優(yōu)化策略,以提高我國政府?dāng)?shù)據(jù)開放水平。從用戶視角出發(fā)的研究大多從用戶質(zhì)量感知[8-9]、用戶體驗(yàn)[10-11]與用戶服務(wù)評價(jià)[12]的視角進(jìn)行相關(guān)探討,基本沒有從用戶訪問行為入手分析政府?dāng)?shù)據(jù)開放平臺的用戶需求。
用戶是政府?dāng)?shù)據(jù)開放平臺的實(shí)際體驗(yàn)者和數(shù)據(jù)使用者,用戶在訪問政府?dāng)?shù)據(jù)開放平臺的過程中會發(fā)生檢索、查詢、申請等行為,通過對用戶行為進(jìn)行分析,能夠發(fā)現(xiàn)用戶更加關(guān)注的數(shù)據(jù)領(lǐng)域、用戶對其他數(shù)據(jù)的需求等,從而讓政府?dāng)?shù)據(jù)開放平臺的數(shù)據(jù)開放更有針對性。由于上海市公共數(shù)據(jù)開放平臺發(fā)展較早且較為成熟,用戶訪問行為數(shù)據(jù)量大且較容易獲取,所以對該平臺的用戶訪問數(shù)據(jù)進(jìn)行挖掘和分析具有一定的可行性與代表性。
本文基于上海市公共數(shù)據(jù)開放平臺的用戶訪問數(shù)據(jù)構(gòu)建用戶畫像。用戶畫像一般被定義為一組描述用戶屬性的結(jié)構(gòu)化數(shù)據(jù)集[13],即信息標(biāo)簽化,從不同維度的用戶屬性中獲取有價(jià)值的用戶信息,提取用戶標(biāo)簽,進(jìn)行用戶特征表示[14-15]。用戶畫像在挖掘用戶真實(shí)需求[16]、預(yù)測用戶興趣[17]方面具有極大優(yōu)勢,可以為決策者提供決策建議。通過構(gòu)建上海市公共數(shù)據(jù)開放平臺用戶畫像,可以直觀反映用戶對政府?dāng)?shù)據(jù)開放平臺的真實(shí)需求,并以此對政府?dāng)?shù)據(jù)開放平臺的優(yōu)化提出建議。
本研究使用網(wǎng)絡(luò)爬蟲獲取用戶訪問上海市公共數(shù)據(jù)開放平臺[18]的行為數(shù)據(jù)。上海市公共數(shù)據(jù)開放平臺主要分為九大板塊,分別是首頁、數(shù)據(jù)資源、數(shù)據(jù)圖譜、地圖服務(wù)、典型應(yīng)用、開放生態(tài)、互動社區(qū)、安全沙箱以及行業(yè)應(yīng)用。數(shù)據(jù)資源板塊下分為不同的數(shù)據(jù)領(lǐng)域,包括經(jīng)濟(jì)建設(shè)、民生服務(wù)、城市建設(shè)、資源環(huán)境、其他等13類,用戶在該板塊下可以進(jìn)行數(shù)據(jù)檢索、瀏覽和下載,同時(shí)還可以對數(shù)據(jù)集進(jìn)行評分;典型應(yīng)用板塊下有用戶注冊的典型應(yīng)用(如“長三角供應(yīng)鏈平臺”等)以及每個典型應(yīng)用的預(yù)覽量;用戶檢索的高頻關(guān)鍵詞一般會以熱圖形式呈現(xiàn)在網(wǎng)站右上角,用戶對數(shù)據(jù)的使用申請公示一般公布在網(wǎng)頁的右側(cè)邊欄。爬蟲獲取的數(shù)據(jù)主要分為三類:第一類為檢索行為數(shù)據(jù),即用戶對不同檢索關(guān)鍵詞的檢索詞頻;第二類為操作行為數(shù)據(jù),主要包括用戶在數(shù)據(jù)資源板塊下對屬于不同數(shù)據(jù)領(lǐng)域數(shù)據(jù)集的瀏覽量及下載量、對數(shù)據(jù)集的綜合評分和典型應(yīng)用板塊下用戶注冊典型應(yīng)用情況以及典型應(yīng)用預(yù)覽量;第三類為選擇行為數(shù)據(jù),即網(wǎng)站右側(cè)邊欄公布的用戶使用申請公示等。
本研究分4個步驟構(gòu)建用戶行為畫像。①數(shù)據(jù)處理階段主要包括數(shù)據(jù)獲取、數(shù)據(jù)預(yù)處理以及數(shù)據(jù)集構(gòu)建3個子步驟,其目的是將原始數(shù)據(jù)中有價(jià)值的數(shù)據(jù)分離出來并將數(shù)據(jù)轉(zhuǎn)換成合適的數(shù)據(jù)結(jié)構(gòu),方便后續(xù)的挖掘分析。②數(shù)據(jù)-標(biāo)簽映射階段主要包括數(shù)據(jù)挖掘及信息標(biāo)簽化兩個步驟,首先利用文本分析、描述性統(tǒng)計(jì)等方法對經(jīng)過處理的數(shù)據(jù)集進(jìn)行深入挖掘,再將挖掘結(jié)果進(jìn)一步標(biāo)簽化。③標(biāo)簽體系構(gòu)建階段形成3個維度,即檢索行為偏好、操作行為偏好、選擇行為偏好。④用戶畫像構(gòu)建階段包括利用構(gòu)建的標(biāo)簽體系進(jìn)行用戶畫像建模和結(jié)果分析。
經(jīng)過數(shù)據(jù)處理和數(shù)據(jù)-標(biāo)簽映射后的標(biāo)簽化處理,可以獲得用戶訪問上海市公共數(shù)據(jù)開放平臺的標(biāo)簽,包括用戶的檢索行為偏好、操作行為偏好和選擇行為偏好。
用戶檢索行為偏好的直觀體現(xiàn)是用戶在數(shù)據(jù)資源板塊下檢索關(guān)鍵詞的詞頻,上海市公共數(shù)據(jù)開放平臺網(wǎng)站數(shù)據(jù)資源頁面右上角有根據(jù)用戶檢索詞頻繪制的用戶熱搜關(guān)鍵詞云圖(見圖1)。
圖1 上海市公共數(shù)據(jù)開放平臺用戶熱搜關(guān)鍵詞云圖
用戶檢索頻率較高的分別是服務(wù)、高新技術(shù)、醫(yī)療機(jī)構(gòu)等,其中服務(wù)的檢索詞頻為3 167次、高新技術(shù)的檢索詞頻為2 263次、醫(yī)療機(jī)構(gòu)的檢索詞頻為2 153次,這反映了用戶對上海市公共數(shù)據(jù)開放平臺的數(shù)據(jù)需求集中在民生服務(wù)、經(jīng)濟(jì)建設(shè)、衛(wèi)生健康等領(lǐng)域。
2.2.1 數(shù)據(jù)集瀏覽量及下載量分析
對上海市公共數(shù)據(jù)開放平臺各種類數(shù)據(jù)集的瀏覽、下載情況進(jìn)行統(tǒng)計(jì)分析(見圖2),可以發(fā)現(xiàn)用戶對政府?dāng)?shù)據(jù)開放平臺資源的領(lǐng)域偏好。
圖2 上海市公共數(shù)據(jù)開放平臺數(shù)據(jù)瀏覽及下載情況
用戶對不同數(shù)據(jù)領(lǐng)域的數(shù)據(jù)集瀏覽情況存在顯著差異,經(jīng)濟(jì)建設(shè)領(lǐng)域數(shù)據(jù)的瀏覽量遠(yuǎn)高于其他數(shù)據(jù)領(lǐng)域,高達(dá)1 336 136次。瀏覽量相對較高的是城市建設(shè)、道路交通、資源環(huán)境等數(shù)據(jù)領(lǐng)域。下載量和瀏覽量總體呈正相關(guān)的關(guān)系,瀏覽量越多,則下載量越多。
對各數(shù)據(jù)領(lǐng)域下數(shù)據(jù)集的相關(guān)字段,如“標(biāo)題”“關(guān)鍵字”等進(jìn)行深入分析,可以發(fā)現(xiàn),經(jīng)濟(jì)建設(shè)領(lǐng)域中,企業(yè)、經(jīng)營情況、納稅、進(jìn)出口額、公共預(yù)算等是用戶重點(diǎn)瀏覽與下載的內(nèi)容;城市建設(shè)領(lǐng)域中,建筑面積、公積金、綠化、建筑垃圾等更受用戶關(guān)注;道路交通領(lǐng)域中,用戶更多瀏覽和下載與城市道路信息、航班信息、天氣預(yù)警信息、駕培學(xué)員信息相關(guān)的數(shù)據(jù)集;資源環(huán)境領(lǐng)域中,瀏覽量與下載量排名靠前的數(shù)據(jù)集主要是供水、用電、能源消耗、排污、噪聲檢測等。
2.2.2 典型應(yīng)用注冊情況分析
對用戶注冊典型應(yīng)用的行為進(jìn)行分析,可以得知用戶使用數(shù)據(jù)做了什么,用戶更傾向于使用哪個領(lǐng)域的數(shù)據(jù)進(jìn)行應(yīng)用開發(fā)以挖掘其潛在價(jià)值。
用戶在上海市公共數(shù)據(jù)開放平臺注冊的典型應(yīng)用共有50個,比如“長三角綠色供應(yīng)鏈平臺”“智行浦東”等,根據(jù)上海市公共數(shù)據(jù)開放平臺典型應(yīng)用注冊情況(見圖3)可知,其中大多屬于服務(wù)型應(yīng)用,即通過應(yīng)用開發(fā)服務(wù)群眾,方便群眾在各個方面的生活。利用經(jīng)濟(jì)建設(shè)、民生服務(wù)、衛(wèi)生健康、道路交通領(lǐng)域的數(shù)據(jù)注冊的典型應(yīng)用數(shù)量占總注冊應(yīng)用數(shù)量的80%,而經(jīng)濟(jì)建設(shè)領(lǐng)域的應(yīng)用數(shù)量占比高達(dá)44%,說明經(jīng)濟(jì)建設(shè)領(lǐng)域的數(shù)據(jù)既是用戶需求的重點(diǎn),也是用戶挖掘的重點(diǎn)。
圖3 上海市公共數(shù)據(jù)開放平臺典型應(yīng)用注冊情況
2.2.3 典型應(yīng)用預(yù)覽量分析
典型應(yīng)用的使用效果可以通過用戶對典型應(yīng)用的預(yù)覽量進(jìn)行體現(xiàn)。
根據(jù)上海市公共數(shù)據(jù)開放平臺典型應(yīng)用預(yù)覽量(見圖4)可知,經(jīng)濟(jì)建設(shè)領(lǐng)域的典型應(yīng)用預(yù)覽量最多,其次是民生服務(wù)、衛(wèi)生健康。顯然,這與典型應(yīng)用的注冊數(shù)量呈正相關(guān)關(guān)系。由于注冊典型應(yīng)用的用戶通常為企業(yè)用戶,預(yù)覽典型應(yīng)用的用戶通常為普通用戶,由此可知,企業(yè)用戶的需求與普通用戶的需求在某些方面是一致的。
圖4 上海市公共數(shù)據(jù)開放平臺典型應(yīng)用預(yù)覽量
2.2.4 數(shù)據(jù)集評分分析
獲取用戶對上海市公共數(shù)據(jù)開放平臺數(shù)據(jù)集的綜合評分情況,對不同數(shù)據(jù)領(lǐng)域的數(shù)據(jù)集根據(jù)綜合評分進(jìn)行排序,匯總得到表1。高達(dá)3 750個數(shù)據(jù)集的用戶評分為0分,數(shù)據(jù)集為0分的原因可能有:①用戶對數(shù)據(jù)集的質(zhì)量不滿意,數(shù)據(jù)不能滿足用戶的基本需要;②用戶沒有對數(shù)據(jù)集進(jìn)行評分,參與度不高,這也是政府?dāng)?shù)據(jù)開放平臺需要提升的重點(diǎn),即提高用戶使用的參與度。另外,綜合評分為5分的數(shù)據(jù)集數(shù)量為714個,其中經(jīng)濟(jì)建設(shè)領(lǐng)域數(shù)據(jù)集203個,資源環(huán)境領(lǐng)域數(shù)據(jù)集179個,公共安全領(lǐng)域數(shù)據(jù)集72個,3個領(lǐng)域的數(shù)據(jù)集數(shù)量占綜合評分為5分的數(shù)據(jù)集數(shù)量的60%以上。綜合評分為2分、1分的數(shù)據(jù)集數(shù)量分別為26個、39個。即在不考慮用戶評分為0分的異常情況下,參與評分的用戶大多對數(shù)據(jù)質(zhì)量比較滿意,只有少部分用戶不滿意獲取的數(shù)據(jù),而且用戶更滿意的數(shù)據(jù)集主要集中在經(jīng)濟(jì)建設(shè)、資源環(huán)境以及公共安全領(lǐng)域。
表1 上海市公共數(shù)據(jù)開放平臺發(fā)布數(shù)據(jù)集的用戶綜合評分 個
用戶選擇行為體現(xiàn)在用戶可對未公布在政府?dāng)?shù)據(jù)開放平臺上的數(shù)據(jù)以及有條件開放類數(shù)據(jù)的申請。對于未公布在政府?dāng)?shù)據(jù)開放平臺上的數(shù)據(jù),用戶可以通過發(fā)郵件的方式進(jìn)行申請;對于有條件開放類數(shù)據(jù),用戶在完成身份認(rèn)證后可以申請。政府?dāng)?shù)據(jù)開放平臺會定期公示用戶的使用申請。采用K-Means算法對獲取到的使用申請公示進(jìn)行文本聚類。K-Means算法是一種探索性的實(shí)證研究方法,該算法必須事先指定聚類數(shù)。經(jīng)過嘗試,當(dāng)K=4,即類別數(shù)為4時(shí),聚類效果最好。通過對聚類簇的主題詞的收集,繪制出詞云圖(見圖5),可以看到軌道交通、客流情況、生活垃圾、停車場、綠化市容等出現(xiàn)次數(shù)較多,這些數(shù)據(jù)與用戶的切身生活息息相關(guān)。
圖5 上海市公共數(shù)據(jù)開放平臺申請公示主題詞詞云圖
將提取的用戶訪問行為特征進(jìn)行可視化,形成上海市公共數(shù)據(jù)開放平臺用戶畫像(見圖6)。
圖6 上海市公共數(shù)據(jù)開放平臺用戶畫像
根據(jù)上海市公共數(shù)據(jù)開放平臺用戶訪問行為畫像的結(jié)果,總結(jié)出上海市公共數(shù)據(jù)開放平臺用戶需求主要集中在以下3方面。
(1)經(jīng)濟(jì)建設(shè)、衛(wèi)生健康、資源環(huán)境等數(shù)據(jù)領(lǐng)域的數(shù)據(jù)集需求量更高,且很多典型應(yīng)用是基于經(jīng)濟(jì)建設(shè)領(lǐng)域的數(shù)據(jù)集進(jìn)行開發(fā)的,所以經(jīng)濟(jì)建設(shè)領(lǐng)域的數(shù)據(jù)集要求有更高的數(shù)據(jù)質(zhì)量。
(2)政府?dāng)?shù)據(jù)開放平臺上的數(shù)據(jù)評分出現(xiàn)較多0分的異常情況,這說明用戶對很多數(shù)據(jù)的質(zhì)量不滿意或者沒有參與到數(shù)據(jù)評分中,所以用戶需要政府采取措施提高數(shù)據(jù)質(zhì)量并定期更新數(shù)據(jù)評分,以更加全面真實(shí)地向用戶顯示開放數(shù)據(jù)的質(zhì)量。
(3)用戶對諸如停車場、交通狀況、垃圾處理情況等與切身生活密切相關(guān)的數(shù)據(jù)更加關(guān)注,也更希望政府及時(shí)開放相關(guān)數(shù)據(jù)。
用戶畫像技術(shù)在政府?dāng)?shù)據(jù)開放平臺訪問領(lǐng)域的應(yīng)用能夠?yàn)槠脚_實(shí)現(xiàn)更精準(zhǔn)的數(shù)據(jù)服務(wù)。根據(jù)用戶訪問行為構(gòu)建用戶畫像,可使政府?dāng)?shù)據(jù)開放平臺掌握用戶訪問的行為數(shù)據(jù),對深入研究用戶行為,了解用戶需求,優(yōu)化網(wǎng)站服務(wù),實(shí)現(xiàn)數(shù)據(jù)更有針對性的開放,提高數(shù)據(jù)開放的質(zhì)量,具有一定的實(shí)踐意義。針對上海市公共數(shù)據(jù)開放平臺用戶訪問數(shù)據(jù)構(gòu)建的用戶畫像,本文提出以下政府?dāng)?shù)據(jù)開放平臺優(yōu)化策略。
(1)加強(qiáng)經(jīng)濟(jì)建設(shè)領(lǐng)域的數(shù)據(jù)開放力度。由于經(jīng)濟(jì)建設(shè)與每個人息息相關(guān)且關(guān)系到每個人的利益,所以不管是企業(yè)用戶還是普通用戶,對經(jīng)濟(jì)建設(shè)領(lǐng)域的數(shù)據(jù)需求都是最大的。加大經(jīng)濟(jì)建設(shè)領(lǐng)域的數(shù)據(jù)開放力度可以更好地滿足用戶的數(shù)據(jù)需求。加大經(jīng)濟(jì)建設(shè)領(lǐng)域的數(shù)據(jù)開放力度包括:增加經(jīng)濟(jì)建設(shè)領(lǐng)域數(shù)據(jù)集開放量;提高經(jīng)濟(jì)建設(shè)領(lǐng)域數(shù)據(jù)集質(zhì)量;提升經(jīng)濟(jì)建設(shè)領(lǐng)域數(shù)據(jù)集更新頻度等。
(2)定期評估政府?dāng)?shù)據(jù)開放效果。滿足用戶對政府開放數(shù)據(jù)的需求和提高政府?dāng)?shù)據(jù)開放的水平需要定期評估。由于政府開放的數(shù)據(jù)集存在大部分評分為0分的數(shù)據(jù)集,這部分?jǐn)?shù)據(jù)集除了數(shù)據(jù)質(zhì)量不高的原因外,還有很大可能是因?yàn)橛脩魶]有參與評分,用戶的反饋沒有及時(shí)反映到政府?dāng)?shù)據(jù)開放平臺,這在一定程度上造成政府對用戶的數(shù)據(jù)需求了解不全面、不真實(shí)。為了解決這個問題,政府可以定期向主要的平臺用戶展開調(diào)研,讓用戶參與到數(shù)據(jù)的評分以及對平臺的評價(jià)中,以保證數(shù)據(jù)開放平臺的持續(xù)有效運(yùn)行。
(3)提高數(shù)據(jù)開放的覆蓋性。用戶產(chǎn)生數(shù)據(jù)申請的行為是由于政府?dāng)?shù)據(jù)開放平臺沒有公布相關(guān)的數(shù)據(jù)集,即目前政府?dāng)?shù)據(jù)開放的數(shù)據(jù)覆蓋性具有局限性,用戶的數(shù)據(jù)需求未能得到全面滿足。針對用戶申請行為,平臺應(yīng)加快審批速度,盡快公開符合開放要求的相關(guān)數(shù)據(jù),并根據(jù)用戶的申請,開放其他相關(guān)的數(shù)據(jù),以更好地滿足用戶需求。
本研究使用用戶畫像方法對上海市公共數(shù)據(jù)開放平臺的用戶訪問行為進(jìn)行分析,反映了上海市公共數(shù)據(jù)開放平臺的用戶需求,不僅有利于政府?dāng)?shù)據(jù)開放平臺更好地滿足用戶需求,也為其他地方政府?dāng)?shù)據(jù)開放平臺的用戶畫像研究提供了參考。