大數(shù)據(jù)、人工智能類專業(yè)開設(shè)最優(yōu)化方法課程必要性探析＊

2022-11-10 06:40:16李慶玉任澤民劉小翠鄒黎敏

計算機(jī)時代 2022年11期

彭揚(yáng)，李慶玉，任澤民，劉小翠，鄒黎敏

(1.重慶科技學(xué)院數(shù)理與大數(shù)據(jù)學(xué)院，重慶 401331；2.重慶工商大學(xué)數(shù)學(xué)與統(tǒng)計學(xué)院)

0 引言

近年來，大數(shù)據(jù)及人工智能相關(guān)技術(shù)成為國際競爭的新焦點(diǎn)，引領(lǐng)未來的戰(zhàn)略性技術(shù)，世界主要發(fā)達(dá)國家把大數(shù)據(jù)、人工智能的發(fā)展作為提升國家競爭力、維護(hù)國家安全的重大戰(zhàn)略。在2016 年3 月公布的《教育部關(guān)于公布2016年度普通高等學(xué)校本科專業(yè)備案和審批結(jié)果的通知》中，北京大學(xué)、對外經(jīng)濟(jì)貿(mào)易大學(xué)和中南大學(xué)三所高校首批獲批開設(shè)“數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)”專業(yè)，接著，2017年，又有32所高校獲批“數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)”專業(yè)。2018年4月，教育部發(fā)布《高等學(xué)校人工智能創(chuàng)新行動計劃》后，大量高校成立了人工智能學(xué)院，主要目標(biāo)是培養(yǎng)中國人工智能產(chǎn)業(yè)的應(yīng)用型人才，對應(yīng)的專業(yè)名稱是“人工智能”或者“智能科學(xué)與技術(shù)”。

上述專業(yè)主要的研究對象是數(shù)據(jù)(data)。數(shù)據(jù)是事實(shí)觀察或記錄的結(jié)果，是用于表示客觀事物的未經(jīng)加工的原始素材，是對客觀事物的一種表現(xiàn)形式，其表現(xiàn)形式多種多樣，比如圖像、視頻、聲音、文字、數(shù)值等[1-3]。從人類社會誕生以來，數(shù)據(jù)就和人類一起出現(xiàn)，如遠(yuǎn)古時代人類社會的結(jié)繩記事、采摘食物、狩獵數(shù)量的計算，再到歷史上各朝各代的人口、土地、錢糧、馬匹、軍隊(duì)等各類事項(xiàng)都涉及到大量的數(shù)據(jù)。21 世紀(jì)以來，隨著射頻識別、傳感網(wǎng)、M2M 系統(tǒng)框架、云計算等技術(shù)的發(fā)展，物聯(lián)網(wǎng)誕生了，它被認(rèn)為可能是繼互聯(lián)網(wǎng)之后人類最偉大的技術(shù)革命，隨著物聯(lián)網(wǎng)的誕生，人類社會能收集到的數(shù)據(jù)越來越多、越來越大，預(yù)計2020-2025 年物聯(lián)網(wǎng)設(shè)備產(chǎn)生的數(shù)據(jù)量將以30%的復(fù)合年增長率增長。

物聯(lián)網(wǎng)數(shù)據(jù)產(chǎn)生的速度之快、種類之多，推動了“數(shù)據(jù)即價值”觀念向“有價值數(shù)據(jù)”這一理念轉(zhuǎn)變。在海量的數(shù)據(jù)面前，如何快速尋找到有價值的數(shù)據(jù)信息，是目前眾多企業(yè)決策者所關(guān)注的問題。眾所周知，數(shù)據(jù)挖掘是實(shí)現(xiàn)這一目標(biāo)的有效方法。數(shù)據(jù)挖掘是指通過計算機(jī)算法，從大量的數(shù)據(jù)中搜索出隱藏于其中的人們感興趣的信息。數(shù)據(jù)挖掘過程主要包括建立數(shù)據(jù)挖掘庫、定義問題、準(zhǔn)備數(shù)據(jù)、分析數(shù)據(jù)、建立模型和求解模型、評價模型和實(shí)施等[1-3]。

大數(shù)據(jù)、人工智能類專業(yè)的學(xué)生，經(jīng)常會遇到數(shù)據(jù)挖掘任務(wù)，數(shù)據(jù)挖掘的核心在于建立模型和求解模型，常用的建立模型和求解模型的方法是利用機(jī)器學(xué)習(xí)方法來分析需要解決的問題，常見的機(jī)器學(xué)習(xí)方法有：決策樹、樸素貝葉斯、人工神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、廣義線性回歸等，在學(xué)習(xí)這些算法的過程中，常會遇到無約束或帶約束的最優(yōu)化問題。

1 大數(shù)據(jù)、人工智能類專業(yè)最優(yōu)化方法課程開設(shè)現(xiàn)狀

最優(yōu)化算法主要包括線性規(guī)劃單純形方法、對偶理論、靈敏度分析、運(yùn)輸問題、內(nèi)點(diǎn)算法、非線性規(guī)劃KKT 條件、無約束最優(yōu)化方法、帶約束最優(yōu)化方法、整數(shù)規(guī)劃和動態(tài)規(guī)劃等內(nèi)容。定理證明和理論推導(dǎo)以數(shù)學(xué)分析和線性代數(shù)為基礎(chǔ)，實(shí)用性比較強(qiáng)。其中對偶理論、內(nèi)點(diǎn)算法、非線性規(guī)劃KKT條件、無約束最優(yōu)化方法和帶約束最優(yōu)化等方法與大數(shù)據(jù)、人工智能技術(shù)息息相關(guān)，但通過系統(tǒng)梳理某地區(qū)本科院校數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)、人工智能等相關(guān)專業(yè)人才培養(yǎng)方案時發(fā)現(xiàn)，只有少數(shù)院校有開設(shè)最優(yōu)化方法課程，剩余大多數(shù)院校并未開設(shè)此課程，說明課程建設(shè)者并未真正認(rèn)識到最優(yōu)化算法在大數(shù)據(jù)、人工智能技術(shù)中的重要性。

2 大數(shù)據(jù)、人工智能類專業(yè)開設(shè)最優(yōu)化方法課程的重要性

本節(jié)中將以兩個實(shí)際案例來說明在數(shù)據(jù)挖掘?qū)嵤┑倪^程中，掌握最優(yōu)化算法對數(shù)據(jù)挖掘任務(wù)的重要性。

2.1 無約束最優(yōu)化問題案例分析

首先給出第一個案例：某礦場，攝像頭拍下了所有經(jīng)過這個路口的車輛，礦場關(guān)心的問題是，能否在這些車輛中找到裝載沙石的貨車，如圖1所示。

圖1 礦場車輛圖

一個有效的解決方案是：創(chuàng)建簡單的卷積神經(jīng)網(wǎng)絡(luò)和利用遷移學(xué)習(xí)實(shí)現(xiàn)分類，卷積神經(jīng)網(wǎng)絡(luò)是一類包含卷積計算且具有深度結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò)，是深度學(xué)習(xí)的代表算法之一，LeNet-5 是最早出現(xiàn)的卷積神經(jīng)網(wǎng)絡(luò)之一，與其他前饋性神經(jīng)網(wǎng)絡(luò)類似，卷積神經(jīng)網(wǎng)絡(luò)需要使用梯度下降、隨機(jī)梯度下降等求解無約束最優(yōu)化問題的算法來進(jìn)行學(xué)習(xí)。例如，在很多深度學(xué)習(xí)框架中，需要設(shè)置網(wǎng)絡(luò)的各種參數(shù)，一段Matlab代碼如下：

其中，sgdm 表示使用帶動量的隨機(jī)梯度下降算法求解模型，隨機(jī)梯度下降法適用于大規(guī)模訓(xùn)練樣本情況，但隨機(jī)梯度下降算法可能沿著下降路徑在最小值附近振蕩，在參數(shù)更新中添加動量項(xiàng)是減少這種振蕩的一種方法。此處還可以選擇RMSProp(Root mean square propagation)[4]或Adam[5]來求解模型，選用不同的優(yōu)化算法對結(jié)果有著怎么樣的影響，這就需要對最優(yōu)化算法進(jìn)行系統(tǒng)的學(xué)習(xí)，大致了解各種優(yōu)化算法之間的區(qū)別和聯(lián)系。

2.2 帶約束最優(yōu)化問題案例分析

接下來看第二個案例，重慶市糧食產(chǎn)量預(yù)測及其影響因素分析問題。重慶市1978年～2019年糧食產(chǎn)量如圖2 所示，數(shù)據(jù)來源于2020 年重慶市統(tǒng)計年鑒、中國農(nóng)村統(tǒng)計年鑒。

圖2 重慶市1999-2019年糧食產(chǎn)量圖

從圖2 可以看出，重慶市歷年糧食產(chǎn)量在800～1200 萬噸之間，波動幅度較大，其中最為嚴(yán)重的是從2005年的1168萬噸跌倒2006年的808萬噸，主要原因是2006年5月中旬至9月上旬重慶市遭受了歷史罕見的百年一遇的特大高溫干旱災(zāi)害，導(dǎo)致全市農(nóng)作物受旱面積108.63 萬公頃，其中輕旱40.23 萬公頃，重早48.49 萬公頃，雖然2007 年重慶市也遭遇了持續(xù)大雨，造成了重慶市糧食產(chǎn)量損失[6-9]，但全年的糧食產(chǎn)量比2006 年有大幅度提升，這說明自然災(zāi)害并不是影響糧食產(chǎn)量的唯一因素。我們需要去尋找影響糧食產(chǎn)量的因素，我們經(jīng)過分析發(fā)現(xiàn)，糧食播種面積、有效灌溉面積、農(nóng)業(yè)機(jī)械總動力、農(nóng)村用電量、農(nóng)用化肥施用量、農(nóng)膜使用量、農(nóng)藥使用量和糧食成災(zāi)面積等因素對重慶市糧食產(chǎn)量有較大影響。通過收集、整理歷史數(shù)據(jù)，得到糧食產(chǎn)量及其影響因素之間的函數(shù)關(guān)系，然后利用這個函數(shù)關(guān)系和各個影響因素的取值，來預(yù)測糧食產(chǎn)量，這有助于政府準(zhǔn)確把握糧食綜合生產(chǎn)能力的影響因素及影響程度，同時也是制定提升糧食綜合生產(chǎn)能力措施的一個重要基礎(chǔ)。

一個簡單的想法是，建立糧食產(chǎn)量和各個影響因素之間的線性回歸模型，但實(shí)驗(yàn)效果并不理想，原因可能在于模型假設(shè)錯誤，因?yàn)榫€性回歸模型要求數(shù)據(jù)之間同方差、無自相關(guān)、隨機(jī)擾動與解釋變量之間不相關(guān)、隨機(jī)擾動項(xiàng)服從正態(tài)分布、不存在多重共線性等，還有可能是糧食產(chǎn)量和各個影響因素之間并不呈線性關(guān)系。鑒于此，需要修改模型，如采用支持向量回歸模型、決策樹回歸模型、徑向基神經(jīng)網(wǎng)絡(luò)模型等。下面給出支持向量回歸模型：給定訓(xùn)練樣本D={( x1,y1),…,( xn,yn)},以期學(xué)習(xí)得到一個回歸模型,使得f(x)=wx+b 與y 盡可能接近,w 和b 是待確定的模型參數(shù)。假設(shè)能容忍f(x)與y之間最多有ε的偏差，即僅當(dāng)f(x)與y之間的差別絕對值大于ε時才計算損失，于是，支持向量機(jī)回歸問題可形式化為：

其中，C為正則化常數(shù)，Lε是ε -不敏感損失函數(shù)。

支持向量機(jī)回歸模型的關(guān)鍵在于求解參數(shù)w 和b，這是一個帶約束的最優(yōu)化問題，了解求解帶約束的最優(yōu)化問題的算法對掌握支持向量機(jī)有相當(dāng)大的幫助。當(dāng)然，也可以利用廣義線性回歸、決策樹回歸或是神經(jīng)網(wǎng)絡(luò)等非線性方法來進(jìn)行糧食產(chǎn)量的預(yù)測，這些方法中也會涉及到經(jīng)驗(yàn)風(fēng)險最小化或是結(jié)構(gòu)風(fēng)險最小化等優(yōu)化問題的求解，因此為了更好的運(yùn)用方法，解決研究中的問題，離不開對最優(yōu)化算法系統(tǒng)的學(xué)習(xí)。

3 結(jié)束語

通過上面的案例分析可知，在學(xué)習(xí)機(jī)器學(xué)習(xí)算法或是利用機(jī)器學(xué)習(xí)算法解決實(shí)際問題的時候，常常要用到最優(yōu)化算法，如梯度下降法、牛頓法和擬牛頓法、共軛梯度法、啟發(fā)式優(yōu)化方法、解決帶約束優(yōu)化問題的拉格朗日乘數(shù)法、解決支持向量機(jī)訓(xùn)練過程中所產(chǎn)生的優(yōu)化問題的序列最小優(yōu)化算法等，若能較好的理解這些算法的優(yōu)缺點(diǎn)，對于實(shí)際的數(shù)據(jù)挖掘任務(wù)會有較大的幫助，所以，在大數(shù)據(jù)、人工智能類專業(yè)開設(shè)最優(yōu)化算法課程是非常有必要的。

大數(shù)據(jù)、人工智能類專業(yè)開設(shè)最優(yōu)化方法課程必要性探析＊