李俊
關鍵詞:人工智能 大數據 職業(yè)教育
人工智能與大數據在各行各業(yè)的主要應用有:語音識別、圖像識別、無人駕駛、智能助手、專家系統(tǒng)、網絡爬蟲、數據挖掘、關聯(lián)分析等。這些高科技應用的背后,是各種復雜的數學原理與算法實現(xiàn)。人工智能與大數據專業(yè)是否只需要學術型人才,職業(yè)院校的學生是否具有市場競爭力,行業(yè)各界對此有著不同的看法。
其實,職業(yè)院校的師生可以不必深入探究算法的原理,而是應該把主要精力放在如何應用它們上。
對此,本文將從以下幾點進行闡述。
一、人工智能與大數據的發(fā)展現(xiàn)狀
可以說,隨著近幾年的廣泛應用,人工智能與大數據技術的門檻已經不再高不可攀。支持人工智能與大數據算法的軟件相當多,它們各有所長,如Matlab、IBM SPSS、SAS等;如果想通過編程實現(xiàn)人工智能與大數據功能,互聯(lián)網上也有相當多現(xiàn)成的開源代碼,不需從零開始。
例如,谷歌就把曾經在圍棋領域里戰(zhàn)無不勝的“阿爾法狗”核心算法——深度學習框架TensorFlow,開源并發(fā)布出來。在眾多代碼托管平臺,如國內的開源中國、CSDN和國外的GitHub,都有豐富的共享資源提供給大家“拿來”使用,進行二次開發(fā)。
實現(xiàn)人工智能與大數據算法的工具和開源代碼已經非常齊全,可以獲得的途徑也很多,關鍵是職業(yè)院校培養(yǎng)出來的學生,能否像操作一臺電腦、一臺機器那樣,把這些“工具配件”利用起來,組裝起來,運行起來。
二、人工智能與大數據常用算法和編程語言
人工智能與大數據采用的算法主要有:監(jiān)督學習的神經網絡、貝葉斯、決策樹、線性回歸;無監(jiān)督學習的神經網絡、關聯(lián)分析、聚類分析等。各種算法背后深奧的數學理論知識,不是職業(yè)院校師生關注的重點,我們只需要大概知道它們工作的原理擅長應用的場所即可。
人工智能與大數據編程的語言主要有:C++、JAVA和Python等,其中這幾年最火最熱的就是Python語言。筆者認為,面向對象的編程語言都是相通的,而Python語言具有語法更簡單、代碼更人性化、功能庫更強大、資源分享更豐富等優(yōu)點,可以成為職業(yè)院校人工智能與大數據專業(yè)學生重點掌握的編程語言。
三、職業(yè)院校學生如何“接地氣”地應用人工智能與大數據并進行二次開發(fā)
(一)熟練掌握一種軟件工具和編程語言
前面提到過,有很多專業(yè)軟件支持人工智能與大數據的算法,職業(yè)院校師生應該掌握一、兩種這方面的工具,這對編程開發(fā)具有很大的幫助。
在常用的人工智能與大數據編程語言中,Python語言是最簡單、最容易入門的一種語言,非常適合職業(yè)院校相關專業(yè)的學生學習。Python開發(fā)平臺主要有VSCode和PyCharm,筆者用得比較多的是PyCharm,它和WEB應用結合良好,可供下載的功能庫很多,內置的智能輔助工具可以顯著提高編程效率和代碼質量。
(二)跨專業(yè)挖掘應用需求
人工智能與大數據技術人才,要走出自己的圈子,多與其他專業(yè)的人士交流,了解他們的需求,分析問題,探索合作方向,在促進對方技術進步的同時,鍛煉自己的專業(yè)技能,學以致用,避免紙上談兵。
(三)充分利用校企合作平臺資源
職業(yè)院校的校企合作平臺,是企業(yè)聯(lián)系學校的關鍵橋梁,人才、技術和市場的需求,都可以通過這個橋梁傳達到學校,這也是職業(yè)教育的特色所在。
同時,職業(yè)院校為了響應國家職業(yè)教育相關政策的要求,通過校企合作部門,每年都會安排老師和學生深入到企業(yè)生產一線進行實習培訓,和工廠工人同吃同住,這是難得的學習和交流機會。
(四)善于利用網絡共享平臺
互聯(lián)網時代,網絡資源應有盡有,人工智能與大數據方面的技術文檔、功能代碼,甚至是大數據采集任務,都可以在網絡上找到下載資源。這里的網絡資源不單局限于一些大型的門戶網站,還包括以下:微信公眾號、微博等自媒體;代碼托管網站,如國內的開源中國、CSDN和國外的GitHub等;行業(yè)動態(tài)交流平臺,如人工智能網和AI中國網等;行業(yè)技術交易服務平臺,如豬八戒網等。
四、人工智能與大數據應用案例
(一)利用Excel對調查問卷進行數據挖掘
一體化教學重視師生的互動,現(xiàn)階段職業(yè)院校通常使用問卷調查方式獲得學生對教學效果的反饋意見。這種問卷調查獲得的信息量較大,很難從中看出一些規(guī)律。通過數據挖掘的方式,可從大量雜亂的反饋意見中提煉有效信息,區(qū)分出重要和不重要因素,從而做到有的放矢地跟進,更有效地改善一體化教學效果。
筆者曾經設計了一個關于學生課程滿意度的調查表,有13個影響因素和1個滿意度評分。筆者選取了一個專業(yè)班的同學,對該班所有課程進行匿名問卷調查,將調查結果記錄到Excel中。
筆者采用線性回歸算法進行數據挖掘,Excel中提供了相應的功能函數,首先將影響因素進行數據化操作,接著使用數據分析中的回歸,選擇好X值和Y值后執(zhí)行,即可獲得詳細的分析結果。其中,系數為正的表示重要因素,系數為負的表示不重要因素。
最終,通過數據挖掘得知,一體化教學老師可以從巡回指導到位、適當增加課外知識、語言表達更幽默、教學過程中多結合案例和應用等方面提高學生對一體化課程的滿意度。
(二)利用Excel和Python語言打造新生大數據
各職業(yè)院校在開學季,都會適時推出有趣的新生大數據,例如:男女學生人數比例,年齡和星座分布情況,同名同姓或者生日相同的學生、籍貫統(tǒng)計等。
筆者帶領了幾位計算機專業(yè)的學生,從招生部門收集了當年新生數據,以簡單實用為指導思想,先是利用Excel進行新生數據的整理,篩選出必要的字段,接著導入Python的pandas庫,調用value_counts等函數,對新生數據進行分析和匯總,然后輸出結果到Excel表格,利用Excel強大的圖表和地圖功能,打造了新生大數據報告,提供給相關部門參考并發(fā)布。
整個過程中,學生對大數據技術有了深刻的認識并且學會了綜合利用各種工具解決問題。
(三)利用關聯(lián)分析獲取消費者愛好需求
關聯(lián)分析在銷售領域的經典案例就是“沃爾瑪的啤酒和尿布”,當這兩個看起來沒有任何關聯(lián)的東西放在一起銷售時,兩者的銷售量都大大增加,這是因為丈夫買尿布時有“順手”買啤酒的消費習慣。關聯(lián)分析擅長在大量數據里面發(fā)掘出不同事物之間隱含的聯(lián)系。
關聯(lián)分析采用Apriori算法,而在Python開發(fā)環(huán)境中,mlxtend庫提供了強大又好用的關聯(lián)分析工具。
(四)決策樹在葡萄酒釀造中的應用
本地有大規(guī)模投產的葡萄酒莊園,筆者所在職業(yè)院校的食品化工專業(yè)師生,曾經在校企合作部門的帶領下,前去參觀學習。該專業(yè)老師在交流過程中,對葡萄酒釀造工藝非常感興趣,甚至將這套流程的簡化版引入到教學實踐中。他帶著學生,買了一批紫秋葡萄,利用實驗室環(huán)境,釀造起了葡萄酒。在這個項目教學過程中,學生理解了葡萄酒釀造的完整過程和原理,學會了酵母菌的分離純化和檢測方法。
筆者對葡萄酒釀造工藝不甚了解,但知道決策樹在食品加工工序上有比較廣泛的應用。而該老師給出了實驗過程中,學生記錄的各組數據,包括加入分離純化的酵母菌對發(fā)酵時間的影響,酵母菌在不同培養(yǎng)基中的觀察數據、加糖發(fā)酵等關鍵步驟分析、葡萄酒最終檢測指標等。筆者利用Python中的sklearn庫,導入了決策樹tree模型,將葡萄酒釀造中涉及的關鍵因素作為屬性,這些屬性將是這棵樹分支的節(jié)點,然后將檢測指標作為結果集。所有的記錄數據最終分成了訓練集和測試集,通過建立模型、探索屬性重要性、修改參數和剪枝,最終得到了簡化版的葡萄酒釀造專家模型。
(五)利用深度學習開發(fā)人臉識別程序
谷歌開源了深度學習框架TensorFlow,在這基礎上電腦專家們開發(fā)了很多深度學習的庫,而采用純Python語言編寫,基于TensorFlow框架的庫就是keras。網絡上已經有相當多利用keras庫開發(fā)的深度學習案例,其中最常見的就是在圖像識別領域中的應用。筆者曾經參觀了一家香菇生產企業(yè),它使用的香菇分揀流水線就是基于圖像的深度學習開發(fā)的。
在教學中,筆者重現(xiàn)了一個開源的人臉識別代碼,其中除了調用keras庫外,還調用了opencv庫及sklearn庫。這個項目是一個綜合的應用,需要學生有扎實的理論知識和熟練應用Python開發(fā)語言的能力。
五、小結
職業(yè)院校是培養(yǎng)應用型人才的搖籃。我們充分利用教學資源,結合專業(yè)所長,在校企合作平臺上,“接地氣”地利用人工智能與大數據進行二次開發(fā),解決企業(yè)在生產經營一線遇到的問題,重新定位新時期技能人才的基本素養(yǎng),展現(xiàn)職業(yè)教育特色。
參考文獻:
[1]Wes Mckinney.利用Python進行數據分析[M].北京:機械工業(yè)出版社,2018.
[2]鄭澤宇,梁博文,顧思宇.實戰(zhàn)Google深度學習框架[M].北京:電子工業(yè)出版社,2018.
[3]上田和明.用Excel學數據挖掘[M].北京:科學出版社,2012.
(作者單位:廣東省南方技師學院)