李榮遠(yuǎn) 龍法寧 陸釗
摘要:隨著第四次工業(yè)革命的到來,各產(chǎn)業(yè)設(shè)備逐漸走向智能化。計(jì)算機(jī)類專業(yè)人才培養(yǎng)引入數(shù)據(jù)科學(xué)思維至關(guān)重要,針對(duì)計(jì)算機(jī)類工科生思考模式由數(shù)據(jù)到知識(shí),最終用知識(shí)解決問題的傳統(tǒng)思維。提出以數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)、人工智能等專業(yè)為背景,探索學(xué)生從數(shù)據(jù)直接解決問題的數(shù)據(jù)科學(xué)思維培養(yǎng)模式。擁有數(shù)據(jù)科學(xué)思維三要素能力(理論、實(shí)踐、精神)是每個(gè)學(xué)生必備條件。文章研究如何將數(shù)據(jù)科學(xué)思維融入課堂教學(xué)中,探索在學(xué)習(xí)新技術(shù)前,以數(shù)據(jù)為導(dǎo)向,激發(fā)學(xué)生從數(shù)據(jù)收集到萃取價(jià)值過程中數(shù)據(jù)科學(xué)思維模式。
關(guān)鍵詞:數(shù)據(jù)科學(xué);傳統(tǒng)思維;大數(shù)據(jù)思維;數(shù)據(jù)科學(xué)三要素;數(shù)據(jù)價(jià)值
中圖分類號(hào):TP18? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2021)01-0144-03
Abstract: With the advent of the fourth industrial revolution, various industrial equipment is gradually becoming intelligent. It is very important to cultivate computer professionals to introduce data science thinking. The traditional thinking of computer engineering students from data to knowledge, and ultimately to solve problems with knowledge. Put forward the background of data science, big data technology, artificial intelligence and other majors to explore the data science thinking training model of students solving problems directly from data. The ability of the three elements of data science thinking (theory, practice, and spirit) is a prerequisite for every student. This article studies how to integrate data science thinking into classroom teaching, and explores how to use data as the guidance before learning new technologies, and stimulate students' data science thinking mode from data collection to value extraction.
Keywords: data science; traditional thinking; big data thinking; three elements of data science;data value
1 引言
2013年,Mattmann CA[1]和 Dhar V[2]在《自然》和《美國計(jì)算機(jī)學(xué)會(huì)通訊》上分別發(fā)表題為《計(jì)算——數(shù)據(jù)科學(xué)的愿景》和《數(shù)據(jù)科學(xué)與預(yù)測(cè)》論文,從計(jì)算機(jī)科學(xué)與技術(shù)視角討論數(shù)據(jù)科學(xué)的內(nèi)涵,使數(shù)據(jù)科學(xué)納入計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)的研究范疇。之后隨著數(shù)據(jù)摩爾定律爆發(fā),將數(shù)據(jù)科學(xué)推向頂端[3]。
“數(shù)據(jù)科學(xué)”與“大數(shù)據(jù)”是兩個(gè)既有區(qū)別又有聯(lián)系的術(shù)語,可以將數(shù)據(jù)科學(xué)理解為大數(shù)據(jù)時(shí)代一門新科學(xué)[4]。數(shù)據(jù)科學(xué)是一門以“數(shù)據(jù)”為研究對(duì)象, 并以數(shù)據(jù)統(tǒng)計(jì)、機(jī)器學(xué)習(xí)、數(shù)據(jù)可視化等為理論基礎(chǔ), 主要研究數(shù)據(jù)加工、數(shù)據(jù)管理、數(shù)據(jù)計(jì)算、數(shù)據(jù)產(chǎn)品開發(fā)等活動(dòng)的交叉性學(xué)科[5]。數(shù)據(jù)思維是學(xué)會(huì)如何獲取數(shù)據(jù)、分析數(shù)據(jù)、萃取數(shù)據(jù)價(jià)值和應(yīng)用數(shù)據(jù)的思維[6]。目前,大數(shù)據(jù)已受到各學(xué)科領(lǐng)域的高度關(guān)注,成為包括計(jì)算機(jī)科學(xué)和統(tǒng)計(jì)學(xué)在內(nèi)的多個(gè)學(xué)科領(lǐng)域的新研究方向。同時(shí),大數(shù)據(jù)研究中仍存在一些誤區(qū)或曲解,如片面追求數(shù)據(jù)規(guī)模、過于強(qiáng)調(diào)計(jì)算架構(gòu)和算法、過度依賴分析工具、忽視數(shù)據(jù)重用、混淆數(shù)據(jù)科學(xué)與大數(shù)據(jù)的概念以及全盤否定大數(shù)據(jù)等[7]。計(jì)算機(jī)工科生主要是培養(yǎng)實(shí)際應(yīng)用能力的工程技術(shù)人員,注重實(shí)踐培養(yǎng)。但現(xiàn)狀中,學(xué)生遇到數(shù)據(jù)不知從何著手,用什么工具。計(jì)算機(jī)或大數(shù)據(jù)方向?qū)W生學(xué)習(xí)過各種工具。如編程語言:C、Java、Python;大數(shù)據(jù)主流架構(gòu):Hadoop、Spark;機(jī)器學(xué)習(xí)模型:決策樹、隨機(jī)森林;深度學(xué)習(xí)模型:BP神經(jīng)網(wǎng)絡(luò)、CNN、RNN等。缺少使用數(shù)據(jù)科學(xué)分析處理能力,不會(huì)融會(huì)貫通,或其在學(xué)習(xí)過程中注重單一概念、模型、算法,無系統(tǒng)性及邏輯性,整個(gè)培養(yǎng)過程以運(yùn)用各種工具為主,缺少以數(shù)據(jù)為基礎(chǔ)到解決問題的邏輯能力。培養(yǎng)模式并不是掌握所有知識(shí)體系,再去解決問題,而是根據(jù)部分知識(shí)直接去解決問題。因此,計(jì)算機(jī)類或大數(shù)據(jù)方向教學(xué)環(huán)境中融入數(shù)據(jù)科學(xué)思維至關(guān)重要,并養(yǎng)成數(shù)據(jù)思維習(xí)慣是人才培養(yǎng)模式的關(guān)鍵[8-9]。
2 數(shù)據(jù)科學(xué)思維模式
2.1傳統(tǒng)思維到大數(shù)據(jù)思維模式
面對(duì)數(shù)據(jù),學(xué)生思維模式一般有兩種,傳統(tǒng)思維和大數(shù)據(jù)思維。傳統(tǒng)思維是我能為數(shù)據(jù)做什么,而數(shù)據(jù)科學(xué)思維是數(shù)據(jù)能為我做什么。數(shù)據(jù)科學(xué)主要是從數(shù)據(jù)中發(fā)現(xiàn)潛藏的有價(jià)值的信息,并直接解決問題。如圖1中對(duì)中文翻譯“你好嗎”傳統(tǒng)思維與大數(shù)據(jù)思維思考模式的異同。
(1)傳統(tǒng)思維:
Step1:將“你好嗎”這句話通過分詞,如根據(jù)自己系統(tǒng)已有的知識(shí),將句子分3個(gè)詞,找出這3個(gè)詞對(duì)應(yīng)的各中文。
Step2:將英文字母進(jìn)行組織。
(2)大數(shù)據(jù)思維:“你好嗎”這個(gè)句子在現(xiàn)實(shí)中多次用“How are you”來表示,基于數(shù)據(jù)直接預(yù)測(cè)出答案。
2.2數(shù)據(jù)科學(xué)DIKUW模型
數(shù)據(jù)科學(xué)主要研究目標(biāo)從數(shù)據(jù)D(Data)到信息I(Information)、知識(shí)K(Knowledge)、理解U(Understanding),最終到智慧W(Wisdom)的轉(zhuǎn)化,如圖2所示數(shù)據(jù)科學(xué)DIKUW實(shí)例轉(zhuǎn)換模型。從數(shù)據(jù)到智慧呈現(xiàn)金字塔形式逐級(jí)攀升,體現(xiàn)思維從過去到未來的一種思考模式。以計(jì)算機(jī)就業(yè)實(shí)例為導(dǎo)向,逐一分析未來需學(xué)習(xí)哪些知識(shí),從而適應(yīng)社會(huì)的發(fā)展。DIKUW模型思考過程如下:
(1)數(shù)據(jù):發(fā)現(xiàn)一些零散的數(shù)據(jù)。
(2)信息:通過多條數(shù)據(jù)之間的關(guān)聯(lián)得到對(duì)應(yīng)的信息。
(3)知識(shí):從多條信息中發(fā)現(xiàn)模型、規(guī)律,獲得新知識(shí)。
(4)理解:利用新增信息、知識(shí)理解和洞見新的機(jī)會(huì)。
(5)智慧:做出數(shù)據(jù)驅(qū)動(dòng)型決策,有選擇性地投資,降低風(fēng)險(xiǎn),預(yù)測(cè)未來。
2.3數(shù)據(jù)科學(xué)三要素原則
數(shù)據(jù)科學(xué)不同于其他學(xué)科,應(yīng)具有重要的三要素原則:理論、實(shí)踐和精神[10]。其中理論與實(shí)踐一般在各學(xué)科中都有涉及。但要保持終身學(xué)習(xí)的能力,精神至關(guān)重要。如3C精神,Creative Working(創(chuàng)造性地工作)、Critical Thinking(批判性地思考)、Curious Asking(好奇性地提問)。需要將這些精神融入理論和實(shí)踐中去。這3種精神是支撐學(xué)生終身學(xué)習(xí)的精神支柱。
3 數(shù)據(jù)科學(xué)思維課程體系建設(shè)
數(shù)據(jù)科學(xué)思維根據(jù)數(shù)據(jù)科學(xué)三要素原則,現(xiàn)代信息技術(shù)的發(fā)展,如百度大腦6.0、自動(dòng)駕駛汽車、腦機(jī)接口Neuralink、智慧倉儲(chǔ)、華為5G等高新技術(shù)加速萬物互聯(lián),設(shè)備逐漸走向智能化發(fā)展。數(shù)據(jù)科學(xué)思維在各項(xiàng)新技術(shù)中起關(guān)鍵作用,培養(yǎng)學(xué)生養(yǎng)成數(shù)據(jù)科學(xué)思維的能力至關(guān)重要。教學(xué)培養(yǎng)過程中應(yīng)從以下幾個(gè)方面設(shè)計(jì)。
3.1理論學(xué)習(xí)
開設(shè)數(shù)據(jù)科學(xué)導(dǎo)論理論+實(shí)踐課程,或者在計(jì)算機(jī)導(dǎo)論課程中插入數(shù)據(jù)科學(xué)理論知識(shí),由校企合作或資深專家親授,將現(xiàn)實(shí)應(yīng)用中的云計(jì)算、大數(shù)據(jù)、物聯(lián)網(wǎng)、人工智能、信息安全、5G技術(shù)整體串接。以案例為導(dǎo)向激發(fā)學(xué)生興趣,開闊視野,結(jié)合專業(yè)知識(shí)啟發(fā)性地思考。
3.2實(shí)踐鞏固
通過校企數(shù)據(jù)挖掘可視化平臺(tái)、虛擬仿真平臺(tái)或者開源數(shù)據(jù)挖掘可視化平臺(tái)來實(shí)踐鞏固數(shù)據(jù)科學(xué)理論知識(shí)。國家推行產(chǎn)教融合、校企合作培養(yǎng)模式,大量企業(yè)走進(jìn)高校,利用企業(yè)數(shù)據(jù)挖掘可視化平臺(tái):如曙光、星環(huán)大數(shù)據(jù)挖掘可視化平臺(tái);開源可視化平臺(tái)如Orange、R-Programming、WEKA、RapidMiner等,通過虛擬化技術(shù)生動(dòng)地將模型展示在學(xué)生面前,從而激發(fā)學(xué)生動(dòng)手實(shí)踐樂趣。
(1)入門階段:零基礎(chǔ)學(xué)生通過平臺(tái)上組件推拽、流程指向即可實(shí)現(xiàn)數(shù)據(jù)挖掘可視化,方便學(xué)生快速掌握機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等大量模型。
(2)進(jìn)階階段:開設(shè)數(shù)據(jù)科學(xué)核心編程選修課程,如Python、R,兩種語言已在統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)占用一席之地。已開發(fā)大量包,兩者之間可以通過接口相互調(diào)用,學(xué)習(xí)兩者語言是精通數(shù)據(jù)科學(xué)必經(jīng)之路。企業(yè)或?qū)W校用現(xiàn)實(shí)案例,以企業(yè)項(xiàng)目(人臉識(shí)別、電影推薦、情感分析、詞云圖)、競賽題目(Kaggle、泰迪杯數(shù)據(jù)挖掘挑戰(zhàn)賽、數(shù)學(xué)建模)為導(dǎo)向,以數(shù)據(jù)為中心,問題為導(dǎo)向。通過實(shí)踐學(xué)習(xí),讓學(xué)生掌握數(shù)據(jù)科學(xué)工具能做什么,以及如何做,啟發(fā)學(xué)生數(shù)據(jù)科學(xué)分析問題的能力。
3.3終身學(xué)習(xí)的精神能力
具有數(shù)據(jù)科學(xué)理論和實(shí)踐能力,并不行,還需具有良好的精神素質(zhì)。根據(jù)平臺(tái)虛擬結(jié)果的展示,培養(yǎng)學(xué)生深度思考的能力,如機(jī)器學(xué)習(xí)訓(xùn)練模型結(jié)果差,分析是否過擬合、模型選擇是否合理、特征處理是否正確、參數(shù)設(shè)置是否合理等多維度思考模式,培養(yǎng)學(xué)生在解決最終問題的同時(shí),反思為什么,只有讓學(xué)生保持好奇心同時(shí)具有批判性精神是學(xué)生終身學(xué)習(xí)的動(dòng)力。
4 結(jié)語
未來社會(huì)逐漸走向智能化,各校高度重視培養(yǎng)先進(jìn)人才,特別是數(shù)據(jù)科學(xué)與大數(shù)據(jù)、人工智能等專業(yè)人才,目前一些高校已經(jīng)制定一些培養(yǎng)方案,但人才缺失面臨一些問題,數(shù)據(jù)科學(xué)思維培養(yǎng)方式是今后教學(xué)改革的重要目標(biāo)。
參考文獻(xiàn):
[1] Mattmann C A. Computing: A vision for data science[J]. Nature, 2013, 493(7433): 473-475.
[2] Dhar V. Data science and prediction[J]. Communications of the ACM, 2013, 56(12): 64-73.
[3] Gartner J. Gartners 2014 hype cycle for emerging technologies maps the journey to digital business[OL]. http://www.gartner.com/newsroom/id/2819918.
[4] Provost F, Fawcett T. Data science and its relationship to big data and data-driven decision making[J]. Big Data, 2013,1(1):51-59.
[5] 朝樂門.數(shù)據(jù)科學(xué)理論與實(shí)踐[M].北京:清華大學(xué)出版社, 2017.
[6] 姜海紅.淺談大學(xué)計(jì)算機(jī)基礎(chǔ)通識(shí)課程如何培養(yǎng)學(xué)生計(jì)算思維與數(shù)據(jù)思維能力[J].計(jì)算機(jī)產(chǎn)品與流通,2020(1):258.
[7] 崔琳,吳孝銀,張志偉.面向?qū)W生計(jì)算思維培養(yǎng)的數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè)課程體系建設(shè)模式探究[J].無線互聯(lián)科技,2020,17(4):121-122.
[8] 陳鯨.未來互聯(lián)網(wǎng)+大數(shù)據(jù)時(shí)代數(shù)據(jù)科學(xué)發(fā)展與應(yīng)用[J].網(wǎng)信軍民融合,2019(06):17-20.
[9] 朝樂門,邢春曉,張勇.數(shù)據(jù)科學(xué)研究的現(xiàn)狀與趨勢(shì)[J].計(jì)算機(jī)科學(xué),2018,45(1):1-13.
[10] 朝樂門.數(shù)據(jù)科學(xué)[M].北京:清華大學(xué)出版社, 2016.
【通聯(lián)編輯:王力】