• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      《機(jī)器學(xué)習(xí)》課程教學(xué)案例
      ——手寫(xiě)數(shù)字識(shí)別系統(tǒng)開(kāi)發(fā)

      2018-05-18 05:52:02米吉提阿不里米提吾米提尤努斯艾斯卡爾艾木都拉
      現(xiàn)代計(jì)算機(jī) 2018年11期
      關(guān)鍵詞:錯(cuò)誤率機(jī)器學(xué)習(xí)手寫(xiě)

      米吉提·阿不里米提,吾米提·尤努斯,艾斯卡爾·艾木都拉

      (新疆大學(xué)信息科學(xué)與工程學(xué)院,烏魯木齊 830046)

      0 引言

      人工智能、機(jī)器人、大數(shù)據(jù)等已經(jīng)離不開(kāi)我們的生活。教育部發(fā)文,機(jī)器人與編程被列入2018高中必修課。機(jī)器人素質(zhì)教育進(jìn)入校園,其核心概念是機(jī)器學(xué)習(xí)。機(jī)器學(xué)習(xí)在諸多領(lǐng)域成功的應(yīng)用與發(fā)展,己成為信息處理領(lǐng)域的基礎(chǔ)和熱點(diǎn)[1-2]。機(jī)器學(xué)習(xí)的相關(guān)的課程從研究生教育逐漸進(jìn)入高中教育階段。作為一門(mén)實(shí)踐性極強(qiáng)的課程,其內(nèi)容自然聯(lián)系到諸多抽象概念和基礎(chǔ)課程。雖然,機(jī)器學(xué)習(xí)相關(guān)的教學(xué)課程及網(wǎng)上課堂很多[3],內(nèi)容也豐富多樣,但缺乏簡(jiǎn)單易懂的案例教學(xué)。將復(fù)雜的內(nèi)容有效教授給學(xué)生、以及讓學(xué)生掌握其精粹、理解其內(nèi)涵是件艱巨的任務(wù)。通過(guò)案例場(chǎng)景引出相關(guān)概念、技術(shù),以此為主線增強(qiáng)學(xué)生的學(xué)習(xí)信心可能是機(jī)器學(xué)習(xí)課程最有效的教學(xué)方法。一個(gè)具體案例能有效掌握主題、消除疑惑、理解抽象概念等方面取到舉一反三的目標(biāo)[4]。

      從多年的教學(xué)工作當(dāng)中發(fā)現(xiàn),大部分教材及參考書(shū),注重抽象概念及普遍理論的講解。對(duì)于具體簡(jiǎn)單的例子的講解案例嚴(yán)重缺乏。導(dǎo)致學(xué)習(xí)過(guò)程只是現(xiàn)成工具的套用,最終對(duì)抽象概念一知半解,越學(xué)越覺(jué)得吃力、脫離實(shí)踐、死記硬背。學(xué)習(xí)效率差,直接導(dǎo)致厭學(xué)。甚至有的學(xué)生直接提出“既然有很好的現(xiàn)成工具就不需要學(xué)習(xí),直接應(yīng)用即可”。

      機(jī)器學(xué)習(xí)方法之多,如 HMM、GMM、K-means、SVM、DNN等,內(nèi)容之抽象,很容易導(dǎo)致理論脫離實(shí)踐。本文采用比較直觀的例子“手寫(xiě)數(shù)字的識(shí)別”作為例子講解一個(gè)以線性分類器為核心的機(jī)器學(xué)習(xí)方法。多維線性函數(shù)是SVM、DNN等效果比較好的機(jī)器學(xué)方法的基礎(chǔ),直觀并易于理解、容易實(shí)現(xiàn)。對(duì)于初學(xué)者是個(gè)理想的實(shí)踐過(guò)程。

      1 模型的建立

      機(jī)器學(xué)習(xí)的目標(biāo)可以是各種信息,包括視覺(jué)信號(hào)及聽(tīng)覺(jué)信號(hào)等。比較典型的是語(yǔ)音及文字信息。其中文字圖像比較直觀,用于機(jī)器學(xué)習(xí)教學(xué)效果更好。但是手寫(xiě)數(shù)字包含隨機(jī)變化成分,因?yàn)槲覀冎烂總€(gè)人書(shū)寫(xiě)方式、習(xí)慣、大小、角度等不會(huì)完全一樣,相同的數(shù)字一個(gè)人寫(xiě)兩次也不會(huì)完全一樣。但是每個(gè)文字或數(shù)字都有固定的模版。我們可以用模版的匹配度量來(lái)區(qū)分不同數(shù)字或進(jìn)行分類。因此,即需要很好的機(jī)器學(xué)習(xí)模型,有需要大量樣本的訓(xùn)練過(guò)程。

      可以用較復(fù)雜的概率統(tǒng)計(jì)概念來(lái)設(shè)計(jì)一個(gè)模型[3],也可以用簡(jiǎn)單的線性函數(shù)來(lái)實(shí)現(xiàn)分類過(guò)程。機(jī)器學(xué)習(xí)模型需要在訓(xùn)練樣本中訓(xùn)練。類似于,一個(gè)小孩開(kāi)始學(xué)習(xí)認(rèn)知數(shù)字。先讓孩子學(xué)習(xí)各個(gè)數(shù)字,然后讓其辨認(rèn)一些數(shù)字。剛開(kāi)始,孩子雖然能正確辨認(rèn)出比較規(guī)整的手寫(xiě)數(shù)字,也會(huì)誤判一些寫(xiě)的較潦草的數(shù)字。慢慢通過(guò)學(xué)習(xí)(學(xué)習(xí)各種手寫(xiě)樣本)就能不斷提高準(zhǔn)確率。

      機(jī)器學(xué)習(xí)過(guò)程需要模型和樣本兩部分,首先設(shè)計(jì)一個(gè)數(shù)學(xué)模型,其次在大量樣本上學(xué)習(xí)后調(diào)整模型的參數(shù),并用該模型去判斷新的手寫(xiě)數(shù)字。公式(1)一個(gè)線性模型,是另外兩個(gè)重要機(jī)器學(xué)習(xí)模型的基礎(chǔ),深度神經(jīng)網(wǎng)絡(luò)(DNN)和支持向量機(jī)(SVM)。

      設(shè)x0=1

      公式(2)計(jì)算結(jié)果是對(duì)某個(gè)樣本數(shù)字的特征向量X的預(yù)測(cè)值。機(jī)器學(xué)習(xí)的目的是提高該預(yù)測(cè)的正確率。這里要訓(xùn)練的模型參數(shù)是W=[ ]w0,w1,…,wN。

      圖1 單個(gè)線性分類器模型

      輸入一系列樣本數(shù)據(jù)X(1),X(2),X(3),…我們的訓(xùn)練目標(biāo)是找到合適的參數(shù)W使得若(2)大于零則正確,小于零則錯(cuò)誤。這是一個(gè)簡(jiǎn)單的2類分類技術(shù),即只能用于一個(gè)數(shù)字的辨認(rèn)。

      訓(xùn)練過(guò)程是一個(gè)循序漸進(jìn)過(guò)程。先W給指定一個(gè)初始值,然后根據(jù)對(duì)樣本的識(shí)別結(jié)果進(jìn)行調(diào)整。若有10個(gè)訓(xùn)練樣本X(1),X(2),X(3),…,X(10)對(duì)應(yīng)于0到9十個(gè)數(shù)字。模型的訓(xùn)練目標(biāo)是[…y(k)…] =[-1,…,-1,1,-1..],對(duì)應(yīng)數(shù)字“3”時(shí)y(k)=1,其他都等于-1。假設(shè),我們通過(guò)公式(2)計(jì)算出來(lái)的結(jié)果是“全部大于零”,則錯(cuò)誤率是90%,若“全部小于零”,則錯(cuò)誤率是10%。因?yàn)槲覀兊哪繕?biāo)是正確識(shí)別數(shù)字“3”。只有測(cè)試“3”時(shí)f(X)結(jié)果大于零,其他樣本時(shí)小于零才是正確的結(jié)果。即,正確識(shí)別結(jié)果應(yīng)該是sign(f(X))=[-1,-1,-1,1,-1,…,-1]。

      循序漸進(jìn)的方法是先設(shè)置多次循環(huán),每次循環(huán)給所有參數(shù)[w0,w1,…,wN]進(jìn)行調(diào)整,最終獲得最佳參數(shù)W。每次對(duì)參數(shù)的微調(diào)方式是公式(3)

      其中,(y(k)-sign(f()X)決定調(diào)整的方向。若預(yù)測(cè)值和實(shí)際值相同則沒(méi)必要調(diào)整,否則向y(k)的方向進(jìn)行調(diào)整。X(k)是調(diào)整的幅度,是線性函數(shù)的偏微分。

      雖然該例子很簡(jiǎn)單,但是任何復(fù)雜的機(jī)器學(xué)習(xí)模型都是通過(guò)對(duì)公式(1)~(3)的改變或優(yōu)化獲得的,機(jī)器學(xué)習(xí)的核心思路沒(méi)變。若將公式(2)換成公式(4),模型就變成了標(biāo)準(zhǔn)的感知器(perceptron)模型。圖1顯示的是一個(gè)數(shù)據(jù)(如:數(shù)據(jù)“3”)的預(yù)測(cè)模型,10個(gè)這樣的模型并聯(lián)成起來(lái)就成了識(shí)別10個(gè)數(shù)據(jù)的單層原始神經(jīng)網(wǎng)絡(luò)模型。

      2 試驗(yàn)數(shù)據(jù)準(zhǔn)備

      圖像在計(jì)算機(jī)中的簡(jiǎn)單(單色)表示方法是矩陣形式,如圖2。這些信號(hào)輸入機(jī)器學(xué)習(xí)模型時(shí),需要轉(zhuǎn)換成一系列特征向量。特征向量可能是一維的,也可能是二維的。相應(yīng)的特征數(shù)據(jù)有有統(tǒng)計(jì)特征、鉅、方向特征等等,也可能是圖像矩陣本身。

      在監(jiān)督機(jī)制建設(shè)中要重點(diǎn)強(qiáng)化企業(yè)的成本監(jiān)督和相關(guān)管理工作,要以成本作為監(jiān)督的目標(biāo),理順企業(yè)生產(chǎn)、管理的經(jīng)濟(jì)關(guān)系,從成本控制的角度構(gòu)建起有針對(duì)性、可執(zhí)行的監(jiān)督平臺(tái)和監(jiān)督制度,真正將監(jiān)督工作的重點(diǎn)放在對(duì)企業(yè)各項(xiàng)成本的控制工作上,提升企業(yè)成本管理、運(yùn)營(yíng)管理的效率,打造企業(yè)在生產(chǎn)、管理和經(jīng)營(yíng)上的經(jīng)濟(jì)、組織與成本優(yōu)勢(shì)。

      圖2 手寫(xiě)數(shù)字矩陣實(shí)例

      數(shù)據(jù)準(zhǔn)備過(guò)程需要圖像的采集、二值化、規(guī)范化、細(xì)化等過(guò)程。最終獲得大小規(guī)整的數(shù)字矩陣。圖2顯示一個(gè)數(shù)字矩陣,白色用0表示,黑色用1表示,就能獲得2維矩陣。

      大家可以自己找?guī)讉€(gè)人進(jìn)行手寫(xiě)數(shù)字的采樣和預(yù)處理過(guò)程。也可以直接用免費(fèi)數(shù)據(jù)MNIST[5],MNIST提供了6萬(wàn)個(gè)訓(xùn)練樣本,和1萬(wàn)個(gè)測(cè)試樣本,每個(gè)樣本是一個(gè)28×28矩陣。收集樣本時(shí)要注意,訓(xùn)練樣本和測(cè)試樣本是不同人提供的。

      由于我們用的線性模型是一維向量模型,所以需要對(duì)二維向量進(jìn)行降維、或直接將矩陣逐行拼接成一維向量。所有樣本X(1),X(2),X(3),…,X(N)和對(duì)應(yīng)的正確數(shù)字標(biāo)注[y(1),y(2),y(3),…,y(N)]交給模型。X(i)是個(gè)一定長(zhǎng)度(28×28)的向量,y(i)是對(duì)應(yīng)的標(biāo)注信息,-1或 1,例如模型的目的是識(shí)別數(shù)字“3”則對(duì)應(yīng)“3”的標(biāo)注是1,其他都是-1。訓(xùn)練結(jié)束后,在獨(dú)立的測(cè)試樣本上進(jìn)行測(cè)試并獲得試驗(yàn)結(jié)果。

      3 實(shí)現(xiàn)過(guò)程

      模型實(shí)現(xiàn)方法比較簡(jiǎn)單,大家可以用任何編程語(yǔ)言,如:Python,C,MATLAB等,實(shí)現(xiàn)。如下我們提供的偽代碼。其中X是所有訓(xùn)練數(shù)據(jù),每行是一個(gè)樣本,總行數(shù)M是總樣本數(shù),列數(shù)是一維特征向量,長(zhǎng)度為N,注意x0=1,即將矩陣X的第一列全設(shè)置成1,對(duì)應(yīng)的參數(shù)w0成為偏移量。實(shí)際信號(hào)的特征值長(zhǎng)度是N-1。Function Linear_model(X,Y) {

      [M,N]=size(X) #獲得樣本數(shù)M,和向量長(zhǎng)度N

      W=ones(N) #參數(shù)初始化成全1的向量

      err=0 #錯(cuò)誤率,初始化

      while(err>0.1) #err是錯(cuò)誤率。或者可以循環(huán)100次

      {

      for i=1:M #循環(huán)計(jì)算每個(gè)樣本的預(yù)測(cè)值,并對(duì)參數(shù)更新

      {

      Fx=sign(W*X[i,:]) # 注意矢量相乘,X[i,:]需要轉(zhuǎn)值

      W=W+X[i,:]·(Y[i]-Fx)# 更新參數(shù)

      err=err+(Y[i]-Fx)/2 #錯(cuò)誤累加

      }

      err=err/M #錯(cuò)誤率

      }

      return W }

      我們?nèi)×?0個(gè)人的200個(gè)樣本數(shù)據(jù)進(jìn)行訓(xùn)練,并在少量測(cè)試數(shù)據(jù)上進(jìn)行測(cè)試,錯(cuò)誤率為22%。這只是一個(gè)數(shù)字的識(shí)別過(guò)程,要實(shí)現(xiàn)10個(gè)手寫(xiě)數(shù)字的識(shí)別模型,簡(jiǎn)單的并聯(lián)即可。

      4 結(jié)語(yǔ)

      《機(jī)器學(xué)習(xí)》作為一門(mén)實(shí)踐性極強(qiáng)的課程,其內(nèi)容自然和諸多抽象概念和基礎(chǔ)課程有關(guān)。將這些內(nèi)容有效教授給學(xué)生,以及讓學(xué)生掌握其精粹、理解其內(nèi)涵是件艱巨的任務(wù)。本文以教學(xué)為目的介紹了一個(gè)簡(jiǎn)單且典型的機(jī)器學(xué)習(xí)模型機(jī)器設(shè)計(jì)和訓(xùn)練過(guò)程。雖然關(guān)于機(jī)器學(xué)習(xí)的書(shū)籍及參考資料很多,對(duì)于初學(xué)者的簡(jiǎn)單案例教學(xué)形式的材料嚴(yán)重缺乏。因此,盡量用通俗易懂的方式講解了機(jī)器學(xué)習(xí)完整過(guò)程,避免了概念的抽象化,注重具體細(xì)節(jié)和實(shí)現(xiàn)過(guò)程。難免有不足之處,希望大家批評(píng)指正。

      參考文獻(xiàn):

      [1]余明華,馮翔,祝智庭.人工智能視域下機(jī)器學(xué)習(xí)的教育應(yīng)用與創(chuàng)新探索.遠(yuǎn)程教育雜志,2017-05-20.

      [2]鄧志鴻,謝昆青.機(jī)器學(xué)習(xí)課程的教學(xué)實(shí)踐——以北京大學(xué)“智能科學(xué)與技術(shù)”本科專業(yè)為例.計(jì)算機(jī)教育,2016-10-10.

      [3]Christopher Bishop.“Pattern Recognition and Machine Learning”.Springer press,2007.

      [4]李勇.本科機(jī)器學(xué)習(xí)課程教改實(shí)踐與探索.計(jì)算機(jī)教育,2015-07-10.

      [5]http://yann.lecun.com/exdb/mnist/.

      猜你喜歡
      錯(cuò)誤率機(jī)器學(xué)習(xí)手寫(xiě)
      手寫(xiě)比敲鍵盤(pán)更有助于學(xué)習(xí)和記憶
      限制性隨機(jī)試驗(yàn)中選擇偏倚導(dǎo)致的一類錯(cuò)誤率膨脹*
      我手寫(xiě)我心
      抓住身邊事吾手寫(xiě)吾心
      基于集成學(xué)習(xí)的MINIST手寫(xiě)數(shù)字識(shí)別
      電子制作(2018年18期)2018-11-14 01:48:08
      正視錯(cuò)誤,尋求策略
      教師·中(2017年3期)2017-04-20 21:49:49
      基于機(jī)器學(xué)習(xí)的圖像特征提取技術(shù)在圖像版權(quán)保護(hù)中的應(yīng)用
      基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測(cè)分析
      前綴字母為特征在維吾爾語(yǔ)文本情感分類中的研究
      基于支持向量機(jī)的金融數(shù)據(jù)分析研究
      丰城市| 黄山市| 咸宁市| 丹东市| 墨竹工卡县| 襄垣县| 泸西县| 云阳县| 即墨市| 诸暨市| 松阳县| 张北县| 南部县| 安徽省| 阿鲁科尔沁旗| 改则县| 新余市| 嘉义县| 牙克石市| 铜川市| 东宁县| 华蓥市| 襄垣县| 石嘴山市| 章丘市| 南岸区| 百色市| 隆林| 白山市| 望城县| 同德县| 卢龙县| 铁岭县| 凤阳县| 神农架林区| 梓潼县| 禄丰县| 镇雄县| 庆城县| 保定市| 教育|