宋曉 崔勇 張茜 王義 張?jiān)鲚x
摘 ?要 大數(shù)據(jù)時(shí)代背景需要自動(dòng)化專業(yè)本科生具備初步的數(shù)據(jù)分析能力?;诖?,研究給出一種基于統(tǒng)計(jì)回歸的數(shù)據(jù)分析案例,詳細(xì)分析Excel、MATLAB的回歸方法,同時(shí)在數(shù)據(jù)回歸時(shí)以逐層深入的方式給出回歸方法。學(xué)生上機(jī)實(shí)踐證明,這種教學(xué)方法能夠使學(xué)生初步掌握數(shù)據(jù)分析基本思路和方法,為他們以后從事相關(guān)研究工作打下良好基礎(chǔ)。
關(guān)鍵詞 統(tǒng)計(jì)回歸;數(shù)據(jù)分析;MATLAB;系統(tǒng)建模與仿真
中圖分類號(hào):G642.0 ? ?文獻(xiàn)標(biāo)識(shí)碼:B
文章編號(hào):1671-489X(2019)16-0032-03
Teaching Method for Statistical Regression in Data Analysis//SONG Xiao, CUI Yong, ZHANG Xi, WANG Yi, ZHANG Zenghui
Abstract The big data era requires the undergraduate students of automation major to possess the ability of data analysis. To help the
students to possess this ability, this paper studies a data analysis case
of statistical regression. In this case, the regression methods in Excel
and MATLAB are introduced. Moreover, regression methods based on further analysis are presented. The course effects validate the feasibility of studied methods. The students are promising to acquire the data analysis abilities.
Key words statistical regression; data analysis; MATLAB; system modeling and simulation
1 前言
“系統(tǒng)建模與仿真”是面向北京航空航天大學(xué)自動(dòng)化學(xué)院建模仿真理論與技術(shù)專業(yè)本科生開設(shè)的專業(yè)必修課程之一。系統(tǒng)建模與仿真技術(shù)是人類認(rèn)識(shí)和改進(jìn)客觀世界的重要手段,在航空、航天、船舶、汽車等多個(gè)應(yīng)用領(lǐng)域有著重要的理論意義和實(shí)用價(jià)值。本課程的教學(xué)目的是使學(xué)生系統(tǒng)了解系統(tǒng)建模與仿真的方法、技術(shù)與應(yīng)用領(lǐng)域,培養(yǎng)學(xué)生掌握系統(tǒng)仿真的建模方法與仿真工具,掌握仿真系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)方法。通過課程的學(xué)習(xí),培養(yǎng)學(xué)生從方法論、認(rèn)識(shí)論和實(shí)踐論角度,理解與分析客觀世界對象,具備建立對象模型系統(tǒng)、設(shè)計(jì)與構(gòu)建仿真工程系統(tǒng)的能力,為今后從事相關(guān)工程技術(shù)研究和應(yīng)用系統(tǒng)研發(fā)工作打下必要的基礎(chǔ)。作為一門重要的培養(yǎng)解決復(fù)雜工程問題基本技能的課程,“系統(tǒng)建模與仿真”課程的講授是學(xué)生學(xué)習(xí)相關(guān)專業(yè)課程、碩博階段開展科學(xué)研究的重要技能之一。
知識(shí)驅(qū)動(dòng)建模(如牛頓力學(xué)定律)和數(shù)據(jù)驅(qū)動(dòng)建模是兩種主要的建模方式,前者包括物理、數(shù)學(xué)等領(lǐng)域的經(jīng)典解析模型,可以用常微分、偏微分、矩陣?yán)碚摰仁侄谓?,后者近幾年隨著人工智能技術(shù)的發(fā)展而逐漸被大家所重視。數(shù)據(jù)驅(qū)動(dòng)中真實(shí)而豐富的數(shù)據(jù)是關(guān)鍵,通常的神經(jīng)網(wǎng)絡(luò)、人工智能都需要大數(shù)據(jù),是指無法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。大數(shù)據(jù)具有數(shù)量大、產(chǎn)生快等特點(diǎn),通常需要專業(yè)的計(jì)算機(jī)、數(shù)學(xué)等理論、工具進(jìn)行處理和挖掘。
針對數(shù)據(jù)驅(qū)動(dòng)建模的重要性和學(xué)生學(xué)習(xí)數(shù)據(jù)模型的積極性,針對“系統(tǒng)建模與仿真”課程中缺乏面向數(shù)據(jù)分析綜合訓(xùn)練案例的問題,設(shè)計(jì)一個(gè)面向人群疏散仿真中門通過率的數(shù)據(jù)回歸實(shí)驗(yàn)。之所以選擇人群仿真作為數(shù)據(jù)分析的主要對象,一方面是因?yàn)槿巳悍抡鎸儆谏鐣?huì)仿真,學(xué)生很熟悉它的模型特點(diǎn),但又對社會(huì)力、神經(jīng)網(wǎng)絡(luò)建模等學(xué)術(shù)研究比較陌生;另一方面,通過幾次志愿者人群實(shí)驗(yàn),積累了大量人群軌跡數(shù)據(jù)可以作為數(shù)據(jù)分析的對象。因此,選擇人群仿真實(shí)驗(yàn),向?qū)W生講授如何利用Excel和MATLAB等工具實(shí)現(xiàn)初步的數(shù)據(jù)回歸分析,以期為他們研究生階段的深入研究打下良好基礎(chǔ)。
2 案例背景:門通過率的統(tǒng)計(jì)回歸模型
通常根據(jù)人們對模型的認(rèn)識(shí)深淺,可將模型分為白盒、黑盒和灰盒模型。而人的行為,目前看更多是黑盒模型,比如股市中的博弈、逃生疏散中的人群行為,都很難用簡單的數(shù)學(xué)公式去建模。
然而對這一類黑盒系統(tǒng),往往可以通過一些手段去獲取相應(yīng)的一些數(shù)據(jù),甚至是大數(shù)據(jù);然后通過對數(shù)據(jù)的統(tǒng)計(jì)分析,可以找出與數(shù)據(jù)擬合最好的模型,從而實(shí)現(xiàn)對黑盒模型的數(shù)據(jù)回歸建模。實(shí)際上,回歸模型是用統(tǒng)計(jì)分析方法建立的最常用的一類模型。
在過去的20年中,行人行為建模主要有兩種方法:社會(huì)力模型和元胞自動(dòng)機(jī)模型。前者是連續(xù)的,后者是離散的,通常情況下社會(huì)力模型仿真過程中需要進(jìn)行更多的計(jì)算。由于計(jì)算機(jī)計(jì)算水平的增加,社會(huì)力模型由于其連續(xù)性的特點(diǎn)逐漸成為主流。社會(huì)力模型的最大特點(diǎn)是其普適性,它可以輕松應(yīng)用于任何場景,但它的微觀行為和宏觀的統(tǒng)計(jì)數(shù)據(jù)與真實(shí)情況還是有一定差距的。
目前,越來越多的研究開始專注于使用神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)驅(qū)動(dòng)模型來進(jìn)行人群運(yùn)動(dòng)的仿真。有學(xué)者提出基于人工智能的人群運(yùn)動(dòng)仿真方法,該方法需要通過馬路上的監(jiān)控收集大量的微觀行人運(yùn)動(dòng)數(shù)據(jù),并通過一個(gè)神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)。他們的結(jié)果顯示,該神經(jīng)網(wǎng)絡(luò)可以模擬行人通過人行橫道時(shí)的微觀行為。與此同時(shí),其他研究利用循環(huán)神經(jīng)網(wǎng)絡(luò)完成在指定區(qū)域內(nèi)行人軌跡的預(yù)測工作。他們的研究表明,神經(jīng)網(wǎng)絡(luò)模型比社會(huì)力模型更能準(zhǔn)確地模擬行人行為。
與專門講述統(tǒng)計(jì)方法的其他課程不同,課程不涉及回歸分析的數(shù)學(xué)原理和方法,而主要是通過一個(gè)典型案例——人群疏散中門通過率(Exit Capacity,簡稱EC)的實(shí)例,講授如何使用統(tǒng)計(jì)回歸工具解決實(shí)際問題。
圖1為利用開發(fā)的人群疏散仿真軟件(Pedestrian Eva-
cuation Simulation Studio,PESS;網(wǎng)址:http://www.multiblogs.org)計(jì)算EC的仿真程序截圖,得到數(shù)字仿真模式下如表1所示的結(jié)果。其中,EC的單位是人數(shù)/秒,門寬(w)單位是米,行人期望速度(v0)單位是米/秒。
3 統(tǒng)計(jì)回歸方法教學(xué)設(shè)計(jì)
第一步,教會(huì)學(xué)生把數(shù)據(jù)用Excel進(jìn)行可視化,主要使用Excel的“插入→散點(diǎn)圖”工具菜單。因?yàn)閱渭冇萌庋劭磾?shù)據(jù)一般很難看出數(shù)據(jù)的變化趨勢,但可視化到曲線圖則可以比較方便地觀察其變化趨勢,實(shí)現(xiàn)曲線的初步預(yù)判。
有了這些數(shù)據(jù)處理的基本技能,可以進(jìn)一步教授學(xué)生神經(jīng)網(wǎng)絡(luò)建模的方法。比如建立面向多場景的人工神經(jīng)網(wǎng)絡(luò)(ANN)人群運(yùn)動(dòng)模型。這里神經(jīng)網(wǎng)絡(luò)模型還是由數(shù)據(jù)驅(qū)動(dòng)的,將多場景人群行為封裝成四層神經(jīng)網(wǎng)絡(luò),輸出行人的速度及位置。所使用的訓(xùn)練數(shù)據(jù)及驗(yàn)證數(shù)據(jù)均來源于真人實(shí)驗(yàn)。將仿真結(jié)果與真實(shí)數(shù)據(jù)進(jìn)行對比,無論是從微觀現(xiàn)象,還是宏觀數(shù)據(jù),所設(shè)計(jì)的神經(jīng)網(wǎng)絡(luò)模型如果均優(yōu)于社會(huì)力模型,那么就能體現(xiàn)出數(shù)據(jù)建模的優(yōu)勢。同時(shí),ANN人群模型輸入?yún)?shù)可以加入路徑規(guī)劃信息,并將輸入?yún)?shù)進(jìn)行矢量旋轉(zhuǎn),從而能夠應(yīng)用于各種場景,彌補(bǔ)目前神經(jīng)網(wǎng)絡(luò)人群運(yùn)動(dòng)模型的不足。
4 結(jié)語
從以上實(shí)例可以看出,建立數(shù)據(jù)分析模型是根據(jù)已知的大量實(shí)際數(shù)據(jù),首先從常識(shí)和經(jīng)驗(yàn)分析其基本特點(diǎn),分析其最可能存在的回歸變量,輔以作圖(比如散點(diǎn)圖),決定取哪幾個(gè)回歸變量及它們的形式(比如線性的,二次的,冪指數(shù)的,邏輯斯提克曲線的,等等),然后可以用數(shù)據(jù)回歸工具進(jìn)行分析(比如最小二乘法、Lingo、MATLAB工具箱等)。如果用軟件求解,那么需要在數(shù)據(jù)擬合后進(jìn)行統(tǒng)計(jì)分析,包括R、F、偏、方差等,對回歸的數(shù)據(jù)模型進(jìn)行整體評(píng)價(jià),以檢驗(yàn)對應(yīng)的回歸變量對因變量的影響是否顯著(若包括零點(diǎn),則不顯著)。如果對結(jié)果不滿意,還可以繼續(xù)改進(jìn),比如換一種曲線、添加一次項(xiàng)、二次項(xiàng)和交互項(xiàng)等。
通過對多名大四學(xué)生在實(shí)際實(shí)驗(yàn)作業(yè)中的觀察和分析,在實(shí)際上機(jī)過程中,可根據(jù)學(xué)生掌握數(shù)據(jù)回歸技巧的程度實(shí)施差異化要求。
1)對有一定基礎(chǔ)的學(xué)生,只把以上功能需求提出,點(diǎn)出Excel和MATLAB相關(guān)工具的名稱,剩下的回歸可以都要求學(xué)生自己實(shí)現(xiàn);在學(xué)生遇到編程困難時(shí),教師可給予一定提示。
2)對基礎(chǔ)比較差的學(xué)生,最好給出比較具體的分析步驟,工具軟件也必須提示到相應(yīng)的菜單;同時(shí),每當(dāng)其遇到困難時(shí),采取討論的方式,進(jìn)一步講解,直至學(xué)生理解并實(shí)現(xiàn)數(shù)據(jù)回歸功能。
實(shí)踐證明,本文設(shè)計(jì)的數(shù)據(jù)回歸與分析案例可以有效應(yīng)用于建模仿真專業(yè)本科生的大作業(yè)或?qū)嶒?yàn)案例,是幫助學(xué)生理解課程中數(shù)據(jù)分析概念、掌握相應(yīng)數(shù)據(jù)分析技巧的行之有效的教學(xué)手段。北京航空航天大學(xué)自動(dòng)化學(xué)院教學(xué)組經(jīng)過幾輪的應(yīng)用實(shí)踐,從課堂交互、學(xué)生反饋、課程考核以及后續(xù)的畢業(yè)設(shè)計(jì)實(shí)踐上均反映出該方法的有效性。后續(xù)還將進(jìn)一步改善以上案例,使之能夠更有效地運(yùn)用于學(xué)校正在建設(shè)的精品課程中,為進(jìn)一步增強(qiáng)學(xué)生的動(dòng)手實(shí)踐能力和科研創(chuàng)新能力提供工具和平臺(tái)支撐。
參考文獻(xiàn)
[1]姜啟源,謝金星,等.數(shù)學(xué)建模[M].北京:高等教育出版社,2010.
[2]Ferscha A, Zia K. Lifebelt: Crowd evacuation based
on vibro-tactile guidance[J].IEEE Pervasive Compu-ting,2010,9(4):33-42.
[3]ZHONG J, LUO L, CAI W, et al. Ea-Based Evacuation Planning Using Agent-based Crowd Simulation[M]//Pro-
ceedings of the 2014 Winter Simulation Conference.
2014:395-405.
[4]Helbing D, Farkas I, Vicsek T. Simulating dynami-
cal features of escape panic[J].Nature,2000,407(9):
487-490.
[5]WANG Y, WANG J, SONG X, et al. An Efficient Adap-tive Fuzzy Switching Weighted Mean Filter for Salt-and-Pepper Noise Removal[J].IEEE Signal Processing Letters,2016,23(11):1582-1586.
[6]WU Y, SONG X, GONG G. Real-time load balancing scheduling algorithm for periodic simulation models
[J].Simulation Modelling Practice and Theory,2015,
52(1):123-134.
[7]SONG X, LIANG MA, YAOFEI MA, et al. Selfishness- and Selflessness-based Models of Pedestrian Room Evacuation[J].Physica A: statistical mechanics and its applications,2016,447(4):455-466.