席 振 熊立偉 劉芬良
(湖南城市學(xué)院市政與測繪工程學(xué)院,湖南 益陽 413000)
與起源于貝爾實驗室的S 語言相似,R 是一種統(tǒng)計計算和繪圖的語言和環(huán)境。 R 有很多獨有的特征:完全免費,制圖功能十分強(qiáng)大,囊括了其他軟件所不可用的、與時俱進(jìn)的統(tǒng)計計算程序[1]。 在很多高等院校多種專業(yè)都開設(shè)了R 語言相關(guān)的課程。
地理信息科學(xué)專業(yè)旨在培養(yǎng)學(xué)生適應(yīng)信息時代發(fā)展和“互聯(lián)網(wǎng)+”社會需求,掌握寬厚的地理信息科學(xué)與地圖學(xué)的基本理論、基本知識和基本技術(shù)。 具備數(shù)據(jù)采集、編輯、處理和分析以及地理信息系統(tǒng)應(yīng)用開發(fā)能力,能在城市規(guī)劃、國土資源以及測繪和地理信息行業(yè)的企事業(yè)單位和政府相關(guān)部門從事數(shù)據(jù)采集、處理、分析以及應(yīng)用開發(fā)等工作。
R 語言在以下3 個方面與地理信息科學(xué)專業(yè)緊密關(guān)聯(lián):基于地理位置的可視化;空間統(tǒng)計分析;大數(shù)據(jù)與機(jī)器學(xué)習(xí)。 機(jī)器學(xué)習(xí)是研究計算機(jī)模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識和技能,重新組織已有的知識結(jié)構(gòu)不斷改善自身性能。 設(shè)計多學(xué)科知識,如統(tǒng)計學(xué)、概率論、算法復(fù)雜度理論等,是當(dāng)前和今后一段時間持續(xù)的一個研究熱點。 R 語言中的機(jī)器學(xué)習(xí)函數(shù)包從古典的判別分析、 貝葉斯方法到神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)等,覆蓋全面,更新以周為單位。 在地理信息科學(xué)中,對空間數(shù)據(jù)的分析、模擬和再現(xiàn)是地理信息科學(xué)重要的一環(huán)。 當(dāng)前,GIS 自我學(xué)習(xí)的能力還不足,自我檢驗與驗證是各類地學(xué)數(shù)據(jù)分析的重要研究內(nèi)容之一。 基于機(jī)器學(xué)習(xí)的空間數(shù)據(jù)分析技術(shù)與應(yīng)用包含數(shù)據(jù)的建模與分析、空間優(yōu)化、智能主體模擬等,可以充分地與R 語言中機(jī)器學(xué)習(xí)算法函數(shù)包相結(jié)合,以提高效率,提高精度[2-3]。
目前地理信息科學(xué)專業(yè)的《R 語言》課程主要基于數(shù)據(jù)挖掘的方向進(jìn)行課程設(shè)計,實踐內(nèi)容以R 的基礎(chǔ)入門、基礎(chǔ)數(shù)據(jù)處理、數(shù)據(jù)分析建模為主,數(shù)據(jù)模型實踐課程包括回歸分析、聚類分析以及基礎(chǔ)數(shù)據(jù)可視化。 實踐教學(xué)中主要存3 個問題:(1)基礎(chǔ)統(tǒng)計分析方法實踐內(nèi)容設(shè)置較多。 (2)數(shù)據(jù)分析模型所用數(shù)據(jù)及函數(shù)包存在滯后性,R 中函數(shù)擴(kuò)展包的更新是以周為單位,每次更新會有新的函數(shù)包加入,也會有部分函數(shù)包剔除出R 的官方擴(kuò)展庫中。R 的版本更新較為頻繁,函數(shù)包在R 更新過程中,如果函數(shù)包作者維護(hù)不及時會出現(xiàn)函數(shù)包在新版本R 中無法加載使用的情況,需要安裝并轉(zhuǎn)換不同版本的R 軟件,需要及時更新R 的擴(kuò)展函數(shù)包。 如實踐課程可視化的課程設(shè)置中,交互式地圖的函數(shù)包leafletR 是由Christian Graul等人開發(fā)和維護(hù)的leaflets 的R 語言接口, 其提供基本的在線地圖 (如 Google Map、OpenStreetMap) 可視化,支持瓦片地圖、矢量數(shù)據(jù)、GeoJSON 等數(shù)據(jù)的地圖交互式操作,是與地理信息科學(xué)專業(yè)結(jié)合很重要的一個函數(shù)包,但隨著R 版本的更新,leafletR 與leaflets 加載發(fā)生沖突,可視化中函數(shù)已無法使用,亟須作者對這兩個函數(shù)包進(jìn)行合并、修改并發(fā)布出來[4]。 (3)缺少地理信息科學(xué)專業(yè)的實驗數(shù)據(jù)和內(nèi)容。 如對空間數(shù)據(jù)在R 中的數(shù)據(jù)結(jié)構(gòu)與空間可視化、與WebGIS 結(jié)合的交互式空間數(shù)據(jù)表達(dá)、空間數(shù)據(jù)探索性分析等內(nèi)容均沒有教好的數(shù)據(jù)支撐實踐課程設(shè)置。
GIS 專業(yè)設(shè)置的《R 語言》課程中理論內(nèi)容包括基礎(chǔ)可視化與空間數(shù)據(jù)表達(dá)、 空間數(shù)據(jù)處理與分析、簡單的大數(shù)據(jù)挖掘模型。 圍繞這4 塊內(nèi)容,16 個課時的實踐課程設(shè)置為:數(shù)據(jù)結(jié)構(gòu)與基礎(chǔ)編程語法(2 課時);基礎(chǔ)數(shù)據(jù)讀寫與數(shù)據(jù)處理(2 課時);統(tǒng)計數(shù)據(jù)可視化(2 課時)。與GIS 專業(yè)緊密結(jié)合的實踐課程設(shè)計:空間數(shù)據(jù)結(jié)構(gòu)與數(shù)據(jù)分析(2 課時);空間數(shù)據(jù)可視化與交互式可視化(2 課時);線性回歸與空間數(shù)據(jù)探索性分析(2 課時);選址與預(yù)測綜合分析(4 課時)。
其中,空間數(shù)據(jù)結(jié)構(gòu)與分析,以常用的矢量數(shù)據(jù)空間分析為主,如緩沖區(qū)分析、疊置分析等。 以函數(shù)包sp 和 rgeos 為主,sp 定義空間數(shù)據(jù)在 R 中的基本結(jié)構(gòu),rgeos 提供大量空間分析的函數(shù), 基本涵蓋Arcgis軟件中空間分析的絕大部分功能。
空間數(shù)據(jù)交互式可視化中結(jié)合在線地圖,利用R在地圖可視化方面大量優(yōu)秀的函數(shù)包進(jìn)行可視化。 如GISTools 包提供多個常用的地圖制圖和空間數(shù)據(jù)處理工具, 具有完善的綜合制圖功能。 recharts 包是基于Echarts 接口的交互式可視化二次開發(fā)地圖可視化包。leaflet 包提供基本的在線地圖 (如 Google Map、OpenStreetMap)可視化功能,支持地圖的交互式操作,支持不同來源地學(xué)信息的疊加可視化。
空間數(shù)據(jù)探索性分析實踐包括空間自相關(guān)和地理加權(quán)回歸模型,是課程的特色內(nèi)容。 R 作為專業(yè)的統(tǒng)計軟件,在數(shù)據(jù)分析中,可以快速一鍵式的完成定性分析到定量分析。 空間地學(xué)數(shù)據(jù)除了具有一般數(shù)據(jù)的數(shù)學(xué)特征外, 還具有空間地理特征的屬性,R 語言有許多可以一鍵式快速分析空間數(shù)據(jù)的空間統(tǒng)計分析函數(shù)工具包。 另外,R 語言由于語言的特性,對處理數(shù)據(jù)的規(guī)模大小不敏感,這是顯著優(yōu)于其他的空間統(tǒng)計軟件。如spdep 是空間決定性工具包,包括空間權(quán)重矩陣計算、空間自相關(guān)分析、空間濾波模型等空間統(tǒng)計分析數(shù)據(jù),功能十分強(qiáng)大。 GWmodel 包是空間關(guān)系異質(zhì)性地理加權(quán)技術(shù)函數(shù)包,囊括了地理加權(quán)相關(guān)的回歸、主成分分析、匯總統(tǒng)計、判別分析等地理加權(quán)建模技術(shù),是當(dāng)前地理學(xué)中研究熱點和研究難點之一[4]。
四個課時的選址選擇與預(yù)測綜合分析根據(jù)不同學(xué)期提出不同的實驗內(nèi)容。 相同的是都盡量引導(dǎo)學(xué)生接觸較新的相關(guān)算法, 緊隨人工智能技術(shù)的發(fā)展現(xiàn)狀。 相關(guān)算法可能當(dāng)前在地理學(xué)中的應(yīng)用不多,成功的案例相對難以尋找,指導(dǎo)教師可以通過閱讀查找多本教材及參考文獻(xiàn),總結(jié)一些最新的應(yīng)用案例,與經(jīng)典算法相互比較, 將這些內(nèi)容融入R 語言實踐教學(xué)中。 如在林業(yè)數(shù)據(jù)信息的深度挖掘分析中,深度學(xué)習(xí)算法自主學(xué)習(xí)多元高維復(fù)雜數(shù)據(jù)執(zhí)行分類、預(yù)測和模式識別等任務(wù)中如何發(fā)揮作用[5]。 如在當(dāng)前使用頻率較高的Sentinel-2 號數(shù)據(jù)中, 對影像數(shù)據(jù)進(jìn)行土地利用分類識別,可以使用面向?qū)ο蠼Y(jié)合隨機(jī)森林模型的方法提高識別準(zhǔn)確率與效率。 因此,指導(dǎo)教師需要時刻關(guān)注新算法在地理信息科學(xué)中的使用動態(tài),總結(jié)最新的內(nèi)容并將其融入R 語言實踐中,提升學(xué)生今后在工作中自主學(xué)習(xí)的能力。
基于R 語言在統(tǒng)計學(xué)、可視化及強(qiáng)大的擴(kuò)展性方面的性能,在地理信息科學(xué)專業(yè)開設(shè)R 語言的課程十分必要。 我校從2019 年在地理信息科學(xué)專業(yè)開設(shè)R語言課程,一直在探索中對這門課程的講授內(nèi)容與實踐內(nèi)容進(jìn)行改革,教學(xué)內(nèi)容以引導(dǎo)性為主,啟發(fā)學(xué)生利用R 語言解決地理空間大數(shù)據(jù)方面的問題,引導(dǎo)學(xué)生從不同方向跟隨自己的興趣對R 語言進(jìn)行探索。為鍛煉本科學(xué)生使用R 語言動手解決地理信息科學(xué)中所遇到的實際問題的能力, 提高本科教育教學(xué)質(zhì)量,本文針對GIS 專業(yè)《R 語言》教學(xué)內(nèi)容,著力增加與空間數(shù)據(jù)處理有關(guān)的實踐課程內(nèi)容,并設(shè)置一定的新型算法實踐內(nèi)容, 添加空間數(shù)據(jù)與機(jī)器學(xué)習(xí)相結(jié)合實踐,有效解決地理信息科學(xué)專業(yè)背景下《R 語言》課程脫離專業(yè)實際存在的問題。