文/金耀輝 符冰 王罡 王永坤
上海交通大學(xué)基于數(shù)據(jù)掀起創(chuàng)新浪潮
文/金耀輝符冰王罡王永坤
學(xué)生的參與度、想象力和數(shù)據(jù)分析能力超乎想象,甚至通過數(shù)據(jù)挖掘發(fā)現(xiàn)了校園管理的盲區(qū)。
隨著高等教育信息化水平的不斷提升,產(chǎn)生并積累了大量的數(shù)據(jù),過去這些數(shù)據(jù)封閉、沉睡、孤島現(xiàn)象嚴(yán)重,2015年國務(wù)院《促進(jìn)大數(shù)據(jù)發(fā)展行動綱要》中明確提出,要大力推動政府信息系統(tǒng)和公共數(shù)據(jù)互聯(lián)開放共享,加快政府信息平臺整合,消除信息孤島,推進(jìn)數(shù)據(jù)資源向社會開放。數(shù)據(jù)開放將會有力推動產(chǎn)業(yè)的創(chuàng)新發(fā)展,培育新興業(yè)態(tài),促進(jìn)分享經(jīng)濟(jì)的發(fā)展。
互聯(lián)網(wǎng)的普及促進(jìn)了開源文化,也推動了開放數(shù)據(jù)運(yùn)動。嚴(yán)格意義上講,維基百科定義的開放數(shù)據(jù)(Open data) 指的是一種經(jīng)過挑選與許可的數(shù)據(jù),這些數(shù)據(jù)不受著作權(quán)、專利權(quán)以及其他管理機(jī)制所限制,可以開放給社會公眾,任何人都可以自由出版使用,不論是要拿來出版或是做其他的運(yùn)用都不加以限制。但在目前絕大多數(shù)信息系統(tǒng)封閉的現(xiàn)實(shí)下,依據(jù)不同的應(yīng)用場景,制定不同類型的數(shù)據(jù)開放和共享可用規(guī)則更有操作意義。
簡單來說,數(shù)據(jù)若想被認(rèn)作是“開放”的,其必須滿足:1.可訪問,通常意味著在網(wǎng)上公開發(fā)布;2.以機(jī)器可讀的格式提供;3.具有允許任何人訪問、使用和分享的許可證——可以是商業(yè)的,也可以是非商業(yè)的。
世界銀行發(fā)布題為《2016世界發(fā)展報告:數(shù)字紅利》的報告,盡管互聯(lián)網(wǎng)、移動電話和其他數(shù)字技術(shù)在發(fā)展中國家快速推廣,預(yù)期中的數(shù)字紅利,如更高的經(jīng)濟(jì)增長、更多就業(yè)機(jī)會以及更好的公共服務(wù)卻沒有如期而至。互聯(lián)網(wǎng)通過三種重要機(jī)制推動發(fā)展,促進(jìn)包容、提高效率、推動創(chuàng)新。世行解釋了三種機(jī)制如何作用到企業(yè)、個人和政府。
按照世行這個思路,筆者嘗試用包容、效率、創(chuàng)新三種機(jī)制作用到大學(xué)校園中三個主體:教授、學(xué)生和管理,關(guān)于教授和學(xué)生的部分限于篇幅,不贅述。管理部門在事前事中事后,可以利用互聯(lián)網(wǎng)技術(shù)鼓勵師生更廣泛地參與,更快速地了解主體需求、適時調(diào)整決策、評估決策效果。最終,高校的創(chuàng)新成果需要得到社會的認(rèn)同,為社會培養(yǎng)更多的高水平有責(zé)任感的人才,教授的學(xué)術(shù)追求能得到更多的社會支持。所有這些的核心要求是管理部門的數(shù)據(jù)能力提升,大數(shù)據(jù)時代需要重新定位高校信息化部門。
數(shù)據(jù)是智慧校園的基礎(chǔ),數(shù)據(jù)平臺作用是數(shù)據(jù)的管理和共享,包括數(shù)據(jù)采集、治理、存儲、計(jì)算、應(yīng)用等等。高等學(xué)校的數(shù)據(jù)產(chǎn)生除了教務(wù)、科研、財(cái)務(wù)、人事和資產(chǎn)等核心業(yè)務(wù)系統(tǒng),隨著高校信息化建設(shè)的不斷完善,數(shù)據(jù)逐步延伸到校園文化、學(xué)工、校友等內(nèi)涵建設(shè),這類數(shù)據(jù)以結(jié)構(gòu)化數(shù)據(jù)為主,但由于各種原因,數(shù)據(jù)質(zhì)量普遍不高,需要加強(qiáng)數(shù)據(jù)治理。網(wǎng)絡(luò)信息安全在高等教育領(lǐng)域越來越受到重視,各高校加強(qiáng)了網(wǎng)絡(luò)流量和系統(tǒng)日志的收集,這類數(shù)據(jù)量巨大,異構(gòu)復(fù)雜,同時還需要有實(shí)時處理能力。物聯(lián)網(wǎng)、視頻監(jiān)控網(wǎng)的應(yīng)用在各高校也得到了應(yīng)用,社交網(wǎng)絡(luò)和輿情新聞受到高校宣傳部門的關(guān)注,這些都是非結(jié)構(gòu)化多媒體數(shù)據(jù),對這類數(shù)據(jù)的分析應(yīng)用各高校都在探索中。不同于一般企業(yè)的數(shù)據(jù),高校的統(tǒng)一身份認(rèn)證和一卡通系統(tǒng)普遍應(yīng)用,因此上述幾類數(shù)據(jù)都可以通過身份數(shù)據(jù)關(guān)聯(lián)起來。
在建設(shè)數(shù)據(jù)平臺過程中,雖然有很多方案可以選擇,架構(gòu)也日趨成熟,但目前還沒有一個一站式方案解決采集、治理、存儲、計(jì)算和應(yīng)用等所有問題。尤其在上海交通大學(xué)這樣的以科研創(chuàng)新為主的高校,不僅要滿足日常信息系統(tǒng)業(yè)務(wù)的需要,更要滿足科學(xué)研究和教學(xué)創(chuàng)新的需要。因此,我們的目標(biāo)是完全獨(dú)立地使用開源社區(qū)的解決方案來搭建一個一站式的共享數(shù)據(jù)、計(jì)算和代碼的數(shù)據(jù)平臺。我們的平臺完全使用開源軟件,自己選取設(shè)計(jì)組件,包括了Hadoop、Cassandra、Kafka、Gitlab、OpenRefine、Kibana、Grafana、Jupyter等20多個開源軟件,自己搭建和運(yùn)維。開源軟件代碼公開并且由開源社區(qū)維護(hù),非常適合高校這種IT經(jīng)費(fèi)相對較少但是智力資源較多的環(huán)境。我們的平臺用于校內(nèi)部分公開服務(wù),也定期提供給數(shù)據(jù)大賽這種大規(guī)模、高強(qiáng)度、集中式、密集計(jì)算的場景使用。
在開放數(shù)據(jù)門戶建設(shè)方面,我們采用了CKAN開源軟件搭建了data.sjtu.edu. cn。CKAN是可以方便搭建集數(shù)據(jù)發(fā)布、數(shù)據(jù)共享、數(shù)據(jù)搜索和數(shù)據(jù)使用為一體的管理平臺,并且提供了強(qiáng)大而完善的RPC APIs供用戶調(diào)用。它的基本組成是數(shù)據(jù)集和組織,數(shù)據(jù)集是數(shù)據(jù)存儲的基本單元,其中可以包含多個資源文件,提供豐富的元數(shù)據(jù),同時可以方便快速地搜索和下載使用。組織是用來創(chuàng)建、管理、發(fā)布數(shù)據(jù)集集合的,用戶可以在組織中扮演不同的角色,并被賦予不同級別的權(quán)限來創(chuàng)建、編輯和發(fā)布數(shù)據(jù)。CKAN已被美國、英國、澳大利亞部署用于國家層面的政府開放數(shù)據(jù)平臺建設(shè)。上海交通大學(xué)在國內(nèi)較早使用CKAN,Bing用CKAN關(guān)鍵詞搜索,data.sjtu.edu.cn網(wǎng)站排名第三,第一是CKAN官方網(wǎng)站,第二是CKAN的維基百科。
上海交通大學(xué)于2015年在國內(nèi)高校率先舉辦了智慧校園開放數(shù)據(jù)大賽,我們開放了2014年8月~ 2015年3月WiFi網(wǎng)絡(luò)、一卡通、氣象三個數(shù)據(jù)集。網(wǎng)絡(luò)數(shù)據(jù)集由上海交大 WiFi 網(wǎng)絡(luò)用戶的上網(wǎng)流量統(tǒng)計(jì)產(chǎn)生,該 WiFi 網(wǎng)絡(luò)覆蓋交大主要校區(qū),WiFi 熱點(diǎn)涵蓋了教室、宿舍、公共活動建筑以及部分室外開闊場地,包含了20000個匿名用戶,1200萬條數(shù)據(jù)記錄,包括上網(wǎng)地點(diǎn)、上網(wǎng)時間、應(yīng)用類型等。用戶特征包括了性別、年齡、年級、本科或研究生等。一卡通數(shù)據(jù)集由上海交通大學(xué)一卡通的消費(fèi)記錄產(chǎn)生,消費(fèi)包括了食堂餐飲、洗浴、超市購物等,包含了30000匿名用戶、300+校園商戶、420萬交易流水。氣象數(shù)據(jù)包括了上海氣象局交大觀測點(diǎn)每10分鐘采集的數(shù)據(jù),溫度濕度風(fēng)速降水等14個氣象要素。
大賽吸引了校內(nèi)外500多人參與,經(jīng)過宣講會、數(shù)據(jù)訓(xùn)練營、初賽決賽,最終60個隊(duì)伍提交作品,冠軍由中科院聯(lián)隊(duì)獲得。學(xué)生的參與度、想象力和數(shù)據(jù)分析能力超乎想象,甚至通過數(shù)據(jù)挖掘發(fā)現(xiàn)了管理的盲區(qū)。
大賽請到了復(fù)旦大學(xué)公管學(xué)院、校內(nèi)電信學(xué)院、管理學(xué)院、數(shù)學(xué)系、工業(yè)設(shè)計(jì)系等多個院系的專家教授以及學(xué)校后勤集團(tuán)、贊助企業(yè)、投資人,匯集各方力量,從可行性的角度共同商討智慧校園開放數(shù)據(jù)環(huán)境下的創(chuàng)新創(chuàng)業(yè)機(jī)會,促進(jìn)作品以校內(nèi)應(yīng)用或創(chuàng)業(yè)項(xiàng)目的形式落地。
大賽直接孵化了科賽學(xué)生創(chuàng)業(yè)團(tuán)隊(duì),目前已經(jīng)成為國內(nèi)知名的大數(shù)據(jù)競賽平臺,獲得了數(shù)百萬的天使投資。大賽的所有成果也在kesci(www.kesci.com)網(wǎng)上開源。開放數(shù)據(jù)的理念在上海交通大學(xué)也催生了多個學(xué)生創(chuàng)業(yè)團(tuán)隊(duì),比如邁科技致力于高校科技成果轉(zhuǎn)化,獲得了數(shù)百萬天使投資。執(zhí)楠信息是上海交通大學(xué)與上海氣象局共同孵化的創(chuàng)客團(tuán)隊(duì),利用氣象開放數(shù)據(jù)研發(fā)了可穿戴設(shè)備“氣象徽章”,得到了國家氣象局的高度肯定。
數(shù)據(jù)開放可能會涉及國家安全、商業(yè)機(jī)密和個人隱私,因此數(shù)據(jù)開放共享的同時一定要做好風(fēng)險防范,加強(qiáng)法規(guī)監(jiān)管。對于數(shù)據(jù)的誤讀也是數(shù)據(jù)開放共享中的主要風(fēng)險,由于院校合并、部門調(diào)整、集成商變更等原因造成目前高校基礎(chǔ)數(shù)據(jù)的質(zhì)量普遍不高,數(shù)據(jù)沖突、數(shù)據(jù)缺失、數(shù)據(jù)錯誤、數(shù)據(jù)雜亂導(dǎo)致分析結(jié)果不可信,因此需要加強(qiáng)數(shù)據(jù)治理。
我們的思路是做好學(xué)校的數(shù)據(jù)編目、數(shù)據(jù)資產(chǎn)和數(shù)據(jù)血緣的梳理,聯(lián)合業(yè)務(wù)部門共同做好數(shù)據(jù)治理以及開放共享風(fēng)險評估。這里我們強(qiáng)調(diào)風(fēng)險評估一定是基于應(yīng)用而不是基于數(shù)據(jù)集的,不同的應(yīng)用可能并不需要原始數(shù)據(jù),僅僅需要脫敏數(shù)據(jù)或者統(tǒng)計(jì)數(shù)據(jù)。然而,由于確定數(shù)據(jù)應(yīng)用風(fēng)險無經(jīng)驗(yàn)可循,需要業(yè)務(wù)部門付出很多額外精力,對于風(fēng)險評估可能存在潛在的消極影響。
他山之石,可以攻玉。我們借鑒了美國華盛頓大學(xué)的案例。華盛頓大學(xué)信息技術(shù)中心設(shè)立了信息集成與分析部門,該部門負(fù)責(zé)數(shù)據(jù)集成、元數(shù)據(jù)管理、信息設(shè)計(jì)與架構(gòu)、數(shù)據(jù)倉庫、商務(wù)智能、數(shù)據(jù)管理和分析工具等技術(shù)解決方案,為學(xué)術(shù)和管理提供決策支持,并提供培訓(xùn)服務(wù)。這個技術(shù)部門接受數(shù)據(jù)管理委員會的指導(dǎo)和監(jiān)督,數(shù)據(jù)管理委員會由教授和職能部門官員共同組成。各類系統(tǒng)應(yīng)用和教職員工可以向數(shù)據(jù)管理委員會申請?jiān)L問數(shù)據(jù)。
(為上海交通大學(xué)網(wǎng)絡(luò)信息中心)