彭 揚(yáng),李慶玉,任澤民,劉小翠,鄒黎敏
(1.重慶科技學(xué)院數(shù)理與大數(shù)據(jù)學(xué)院,重慶 401331;2.重慶工商大學(xué)數(shù)學(xué)與統(tǒng)計學(xué)院)
近年來,大數(shù)據(jù)及人工智能相關(guān)技術(shù)成為國際競爭的新焦點(diǎn),引領(lǐng)未來的戰(zhàn)略性技術(shù),世界主要發(fā)達(dá)國家把大數(shù)據(jù)、人工智能的發(fā)展作為提升國家競爭力、維護(hù)國家安全的重大戰(zhàn)略。在2016 年3 月公布的《教育部關(guān)于公布2016年度普通高等學(xué)校本科專業(yè)備案和審批結(jié)果的通知》中,北京大學(xué)、對外經(jīng)濟(jì)貿(mào)易大學(xué)和中南大學(xué)三所高校首批獲批開設(shè)“數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)”專業(yè),接著,2017年,又有32所高校獲批“數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)”專業(yè)。2018年4月,教育部發(fā)布《高等學(xué)校人工智能創(chuàng)新行動計劃》后,大量高校成立了人工智能學(xué)院,主要目標(biāo)是培養(yǎng)中國人工智能產(chǎn)業(yè)的應(yīng)用型人才,對應(yīng)的專業(yè)名稱是“人工智能”或者“智能科學(xué)與技術(shù)”。
上述專業(yè)主要的研究對象是數(shù)據(jù)(data)。數(shù)據(jù)是事實(shí)觀察或記錄的結(jié)果,是用于表示客觀事物的未經(jīng)加工的原始素材,是對客觀事物的一種表現(xiàn)形式,其表現(xiàn)形式多種多樣,比如圖像、視頻、聲音、文字、數(shù)值等[1-3]。從人類社會誕生以來,數(shù)據(jù)就和人類一起出現(xiàn),如遠(yuǎn)古時代人類社會的結(jié)繩記事、采摘食物、狩獵數(shù)量的計算,再到歷史上各朝各代的人口、土地、錢糧、馬匹、軍隊(duì)等各類事項(xiàng)都涉及到大量的數(shù)據(jù)。21 世紀(jì)以來,隨著射頻識別、傳感網(wǎng)、M2M 系統(tǒng)框架、云計算等技術(shù)的發(fā)展,物聯(lián)網(wǎng)誕生了,它被認(rèn)為可能是繼互聯(lián)網(wǎng)之后人類最偉大的技術(shù)革命,隨著物聯(lián)網(wǎng)的誕生,人類社會能收集到的數(shù)據(jù)越來越多、越來越大,預(yù)計2020-2025 年物聯(lián)網(wǎng)設(shè)備產(chǎn)生的數(shù)據(jù)量將以30%的復(fù)合年增長率增長。
物聯(lián)網(wǎng)數(shù)據(jù)產(chǎn)生的速度之快、種類之多,推動了“數(shù)據(jù)即價值”觀念向“有價值數(shù)據(jù)”這一理念轉(zhuǎn)變。在海量的數(shù)據(jù)面前,如何快速尋找到有價值的數(shù)據(jù)信息,是目前眾多企業(yè)決策者所關(guān)注的問題。眾所周知,數(shù)據(jù)挖掘是實(shí)現(xiàn)這一目標(biāo)的有效方法。數(shù)據(jù)挖掘是指通過計算機(jī)算法,從大量的數(shù)據(jù)中搜索出隱藏于其中的人們感興趣的信息。數(shù)據(jù)挖掘過程主要包括建立數(shù)據(jù)挖掘庫、定義問題、準(zhǔn)備數(shù)據(jù)、分析數(shù)據(jù)、建立模型和求解模型、評價模型和實(shí)施等[1-3]。
大數(shù)據(jù)、人工智能類專業(yè)的學(xué)生,經(jīng)常會遇到數(shù)據(jù)挖掘任務(wù),數(shù)據(jù)挖掘的核心在于建立模型和求解模型,常用的建立模型和求解模型的方法是利用機(jī)器學(xué)習(xí)方法來分析需要解決的問題,常見的機(jī)器學(xué)習(xí)方法有:決策樹、樸素貝葉斯、人工神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、廣義線性回歸等,在學(xué)習(xí)這些算法的過程中,常會遇到無約束或帶約束的最優(yōu)化問題。
最優(yōu)化算法主要包括線性規(guī)劃單純形方法、對偶理論、靈敏度分析、運(yùn)輸問題、內(nèi)點(diǎn)算法、非線性規(guī)劃KKT 條件、無約束最優(yōu)化方法、帶約束最優(yōu)化方法、整數(shù)規(guī)劃和動態(tài)規(guī)劃等內(nèi)容。定理證明和理論推導(dǎo)以數(shù)學(xué)分析和線性代數(shù)為基礎(chǔ),實(shí)用性比較強(qiáng)。其中對偶理論、內(nèi)點(diǎn)算法、非線性規(guī)劃KKT條件、無約束最優(yōu)化方法和帶約束最優(yōu)化等方法與大數(shù)據(jù)、人工智能技術(shù)息息相關(guān),但通過系統(tǒng)梳理某地區(qū)本科院校數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)、人工智能等相關(guān)專業(yè)人才培養(yǎng)方案時發(fā)現(xiàn),只有少數(shù)院校有開設(shè)最優(yōu)化方法課程,剩余大多數(shù)院校并未開設(shè)此課程,說明課程建設(shè)者并未真正認(rèn)識到最優(yōu)化算法在大數(shù)據(jù)、人工智能技術(shù)中的重要性。
本節(jié)中將以兩個實(shí)際案例來說明在數(shù)據(jù)挖掘?qū)嵤┑倪^程中,掌握最優(yōu)化算法對數(shù)據(jù)挖掘任務(wù)的重要性。
首先給出第一個案例:某礦場,攝像頭拍下了所有經(jīng)過這個路口的車輛,礦場關(guān)心的問題是,能否在這些車輛中找到裝載沙石的貨車,如圖1所示。
圖1 礦場車輛圖
一個有效的解決方案是:創(chuàng)建簡單的卷積神經(jīng)網(wǎng)絡(luò)和利用遷移學(xué)習(xí)實(shí)現(xiàn)分類,卷積神經(jīng)網(wǎng)絡(luò)是一類包含卷積計算且具有深度結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò),是深度學(xué)習(xí)的代表算法之一,LeNet-5 是最早出現(xiàn)的卷積神經(jīng)網(wǎng)絡(luò)之一,與其他前饋性神經(jīng)網(wǎng)絡(luò)類似,卷積神經(jīng)網(wǎng)絡(luò)需要使用梯度下降、隨機(jī)梯度下降等求解無約束最優(yōu)化問題的算法來進(jìn)行學(xué)習(xí)。例如,在很多深度學(xué)習(xí)框架中,需要設(shè)置網(wǎng)絡(luò)的各種參數(shù),一段Matlab代碼如下:
其中,sgdm 表示使用帶動量的隨機(jī)梯度下降算法求解模型,隨機(jī)梯度下降法適用于大規(guī)模訓(xùn)練樣本情況,但隨機(jī)梯度下降算法可能沿著下降路徑在最小值附近振蕩,在參數(shù)更新中添加動量項(xiàng)是減少這種振蕩的一種方法。此處還可以選擇RMSProp(Root mean square propagation)[4]或Adam[5]來求解模型,選用不同的優(yōu)化算法對結(jié)果有著怎么樣的影響,這就需要對最優(yōu)化算法進(jìn)行系統(tǒng)的學(xué)習(xí),大致了解各種優(yōu)化算法之間的區(qū)別和聯(lián)系。
接下來看第二個案例,重慶市糧食產(chǎn)量預(yù)測及其影響因素分析問題。重慶市1978年~2019年糧食產(chǎn)量如圖2 所示,數(shù)據(jù)來源于2020 年重慶市統(tǒng)計年鑒、中國農(nóng)村統(tǒng)計年鑒。
圖2 重慶市1999-2019年糧食產(chǎn)量圖
從圖2 可以看出,重慶市歷年糧食產(chǎn)量在800~1200 萬噸之間,波動幅度較大,其中最為嚴(yán)重的是從2005年的1168萬噸跌倒2006年的808萬噸,主要原因是2006年5月中旬至9月上旬重慶市遭受了歷史罕見的百年一遇的特大高溫干旱災(zāi)害,導(dǎo)致全市農(nóng)作物受旱面積108.63 萬公頃,其中輕旱40.23 萬公頃,重早48.49 萬公頃,雖然2007 年重慶市也遭遇了持續(xù)大雨,造成了重慶市糧食產(chǎn)量損失[6-9],但全年的糧食產(chǎn)量比2006 年有大幅度提升,這說明自然災(zāi)害并不是影響糧食產(chǎn)量的唯一因素。我們需要去尋找影響糧食產(chǎn)量的因素,我們經(jīng)過分析發(fā)現(xiàn),糧食播種面積、有效灌溉面積、農(nóng)業(yè)機(jī)械總動力、農(nóng)村用電量、農(nóng)用化肥施用量、農(nóng)膜使用量、農(nóng)藥使用量和糧食成災(zāi)面積等因素對重慶市糧食產(chǎn)量有較大影響。通過收集、整理歷史數(shù)據(jù),得到糧食產(chǎn)量及其影響因素之間的函數(shù)關(guān)系,然后利用這個函數(shù)關(guān)系和各個影響因素的取值,來預(yù)測糧食產(chǎn)量,這有助于政府準(zhǔn)確把握糧食綜合生產(chǎn)能力的影響因素及影響程度,同時也是制定提升糧食綜合生產(chǎn)能力措施的一個重要基礎(chǔ)。
一個簡單的想法是,建立糧食產(chǎn)量和各個影響因素之間的線性回歸模型,但實(shí)驗(yàn)效果并不理想,原因可能在于模型假設(shè)錯誤,因?yàn)榫€性回歸模型要求數(shù)據(jù)之間同方差、無自相關(guān)、隨機(jī)擾動與解釋變量之間不相關(guān)、隨機(jī)擾動項(xiàng)服從正態(tài)分布、不存在多重共線性等,還有可能是糧食產(chǎn)量和各個影響因素之間并不呈線性關(guān)系。鑒于此,需要修改模型,如采用支持向量回歸模型、決策樹回歸模型、徑向基神經(jīng)網(wǎng)絡(luò)模型等。下面給出支持向量回歸模型:給定訓(xùn)練樣本D={( x1,y1),…,( xn,yn)},以期學(xué)習(xí)得到一個回歸模型,使得f(x)=wx+b 與y 盡可能接近,w 和b 是待確定的模型參數(shù)。假設(shè)能容忍f(x)與y之間最多有ε的偏差,即僅當(dāng)f(x)與y之間的差別絕對值大于ε時才計算損失,于是,支持向量機(jī)回歸問題可形式化為:
其中,C為正則化常數(shù),Lε是ε -不敏感損失函數(shù)。
支持向量機(jī)回歸模型的關(guān)鍵在于求解參數(shù)w 和b,這是一個帶約束的最優(yōu)化問題,了解求解帶約束的最優(yōu)化問題的算法對掌握支持向量機(jī)有相當(dāng)大的幫助。當(dāng)然,也可以利用廣義線性回歸、決策樹回歸或是神經(jīng)網(wǎng)絡(luò)等非線性方法來進(jìn)行糧食產(chǎn)量的預(yù)測,這些方法中也會涉及到經(jīng)驗(yàn)風(fēng)險最小化或是結(jié)構(gòu)風(fēng)險最小化等優(yōu)化問題的求解,因此為了更好的運(yùn)用方法,解決研究中的問題,離不開對最優(yōu)化算法系統(tǒng)的學(xué)習(xí)。
通過上面的案例分析可知,在學(xué)習(xí)機(jī)器學(xué)習(xí)算法或是利用機(jī)器學(xué)習(xí)算法解決實(shí)際問題的時候,常常要用到最優(yōu)化算法,如梯度下降法、牛頓法和擬牛頓法、共軛梯度法、啟發(fā)式優(yōu)化方法、解決帶約束優(yōu)化問題的拉格朗日乘數(shù)法、解決支持向量機(jī)訓(xùn)練過程中所產(chǎn)生的優(yōu)化問題的序列最小優(yōu)化算法等,若能較好的理解這些算法的優(yōu)缺點(diǎn),對于實(shí)際的數(shù)據(jù)挖掘任務(wù)會有較大的幫助,所以,在大數(shù)據(jù)、人工智能類專業(yè)開設(shè)最優(yōu)化算法課程是非常有必要的。