寧志豪 周璐雨 陳豪文
摘?要:在20世紀(jì)五六十年代,“人工智能”這個術(shù)語就早已被正式提出。經(jīng)歷了幾十個年代的發(fā)展,在AlphaGo擊敗李世乭時,人工智能(Artificial Intelligence)又受到了學(xué)者們的廣泛關(guān)注和研究,同時機器學(xué)習(xí)(Machine Learning)和深度學(xué)習(xí)(deep learning)也相應(yīng)的被提及到,甚至作為了人工智能其中的一個發(fā)展方向去拓展。本文對機器學(xué)習(xí)和深度學(xué)習(xí)的概念進(jìn)行了解釋與區(qū)分,從實際應(yīng)用出發(fā)闡述了機器學(xué)習(xí)和深度學(xué)習(xí)的方向與應(yīng)用,以及機器學(xué)習(xí)算法的分類。鑒于沒有系統(tǒng)的學(xué)習(xí)過,可能在許多地方會有出入,還望更多的人能夠有自己的思考。
關(guān)鍵詞:機器學(xué)習(xí);深度學(xué)習(xí);算法
1 定義與區(qū)分
隨著愈來愈多的學(xué)者對機器學(xué)習(xí)領(lǐng)域的深入探索,機器學(xué)習(xí)這個詞的不同解釋也出現(xiàn)了很多。其中,Arthur Samuel對機器學(xué)習(xí)的定義是指在沒有明確的設(shè)定情況下,使計算機具有學(xué)習(xí)能力的研究領(lǐng)域。計算機程序從經(jīng)驗E中學(xué)習(xí),為了解決某一任務(wù)T進(jìn)行某一性能度量P,通過P測定在T上的表現(xiàn)因經(jīng)驗E而提高,這是Tom Mitchell對機器學(xué)習(xí)的定義。[1]其實簡單來說,它是對數(shù)據(jù)分布進(jìn)行建模,然后從大量看似無規(guī)律的數(shù)據(jù)中抽象出共性的模式。而深度學(xué)習(xí)是機器學(xué)習(xí)的一個子類,可以把它看作一種特殊的機器學(xué)習(xí)。深度學(xué)習(xí)的概念源于人工神經(jīng)網(wǎng)絡(luò)的研究。深度學(xué)習(xí)是機器學(xué)習(xí)中一種基于對數(shù)據(jù)進(jìn)行表征學(xué)習(xí)的方法,是一種能夠模擬出人腦的神經(jīng)結(jié)構(gòu)的機器學(xué)習(xí)方法。
先舉個例子來區(qū)分機器學(xué)習(xí)和深度學(xué)習(xí),比如在識別貓和狗時,機器學(xué)習(xí)需要人工的將區(qū)別貓、狗的一些特征進(jìn)行提取,而深度學(xué)習(xí)則自動找出分類問題的特征。因此,對于大量數(shù)據(jù),使用深度學(xué)習(xí)較好,數(shù)據(jù)量少時,傳統(tǒng)機器學(xué)習(xí)更適用。機器學(xué)習(xí)在解決問題時需把問題的步驟分解,而深度學(xué)習(xí)直接得到結(jié)果,可以實現(xiàn)實時的效果。當(dāng)然,深度學(xué)習(xí)在具備高效能的優(yōu)點時,它對硬件的要求也很高,尤其對GPU的要求。
2 機器學(xué)習(xí)算法分類
機器學(xué)習(xí)算法分為監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、強化學(xué)習(xí)以及推薦系統(tǒng)四大類。監(jiān)督學(xué)習(xí)(Supervised Learning)是給出帶有正確答案的數(shù)據(jù)集,通過算法得出更多的正確答案;無監(jiān)督學(xué)習(xí)(Unsupervised Learning)是不提前告知算法,只給出一堆數(shù)據(jù)集。監(jiān)督學(xué)習(xí)主要用于解決回歸問題(預(yù)測連續(xù)的數(shù)據(jù)值)和分類問題(預(yù)測離散值輸出)。如預(yù)測房價是回歸問題,根據(jù)某些已有的數(shù)據(jù)可以得出直線、二次函數(shù)或二階多項式。預(yù)測腫瘤的良性、惡性,只有兩種結(jié)果,是離散值的輸出,所以是分類問題。無監(jiān)督學(xué)習(xí)中的聚類算法是將數(shù)據(jù)分簇,比如谷歌的新聞推送。
除了以上介紹的兩種分類,還有半監(jiān)督學(xué)習(xí),也就是強化學(xué)習(xí)。所謂的半監(jiān)督學(xué)習(xí)其實就是在其算法中可能會有一些Y值,剛開始你的訓(xùn)練模型可能訓(xùn)練的結(jié)果并不好,但是如果訓(xùn)練樣本增多,模型的結(jié)果也會更好。
3 機器學(xué)習(xí)應(yīng)用領(lǐng)域
機器學(xué)習(xí)是當(dāng)前的熱門話題,它應(yīng)用于各個領(lǐng)域,同時也具有著巨大的潛力。在工業(yè)和基礎(chǔ)科學(xué)等很多領(lǐng)域都涉及了它的相關(guān)內(nèi)容。
3.1 數(shù)據(jù)挖掘
數(shù)據(jù)挖掘是在大型數(shù)據(jù)庫中自動發(fā)現(xiàn)有用信息的過程,并將這些處理過的數(shù)據(jù)加以分析。數(shù)據(jù)挖掘是一門用數(shù)據(jù)發(fā)現(xiàn)問題,再去解決問題的學(xué)科。大部分?jǐn)?shù)據(jù)挖掘中的算法是機器學(xué)習(xí)的算法在數(shù)據(jù)庫中的優(yōu)化。數(shù)據(jù)挖掘中用到了大量的機器學(xué)習(xí)提供的數(shù)據(jù)分析技術(shù)和數(shù)據(jù)庫界提供的數(shù)據(jù)管理技術(shù)。[2]在醫(yī)療方面,通過數(shù)據(jù)挖掘處理患者的醫(yī)療記錄,得到重要的數(shù)據(jù);在生物學(xué)研究中,通過對DNA序列數(shù)據(jù)的挖掘,找到相應(yīng)的基因;能對信用卡風(fēng)控進(jìn)行評估,實行用戶流失的干預(yù)等。
3.2 自然語言處理(NLP)
自然語言處理,即是通過將用戶自然語言輸入計算機,再內(nèi)部進(jìn)行算法的加工和計算等步驟,來模擬人類對自然語言的理解,最后將接近人類所實現(xiàn)的結(jié)果呈現(xiàn)給用戶,其目的是用計算機來代替人工處理大規(guī)模的自然語言信息。自然語言處理技術(shù)在語音識別中有非常重要的作用,現(xiàn)在,不論是電腦還是手機都配有語音識別的功能,將機器學(xué)習(xí)中深層神經(jīng)網(wǎng)絡(luò)(DNNs)技術(shù)引入語音識別,極大地降低了錯誤率、提高了可靠性。
3.3 圖像識別處理
將機器學(xué)習(xí)運用于圖像處理,通過分類并提取重要特征而排除多余的信息從圖像中識別出相關(guān)的模式,例如百度識圖、手寫字符識別、車牌識別等等應(yīng)用。通過這種用深度卷積神經(jīng)網(wǎng)絡(luò)CNN用來識別圖像中物體的方法可以實現(xiàn)將圖像中的對象轉(zhuǎn)換成對圖像場景進(jìn)行描述的語句。[3]
4 總述
機器學(xué)習(xí)應(yīng)用的領(lǐng)域很多,像大型互聯(lián)網(wǎng)公司的推薦類功能、人臉識別相關(guān)功能、以及無人駕駛等都是利用機器學(xué)習(xí)技術(shù)實現(xiàn)的,我們的生活也在隨著這些相關(guān)技術(shù)而改變。機器學(xué)習(xí)和深度學(xué)習(xí)的發(fā)展也帶動著人工智能的進(jìn)步,深度學(xué)習(xí)模擬了人腦構(gòu)造,采用了現(xiàn)在應(yīng)用廣泛的神經(jīng)網(wǎng)絡(luò)技術(shù)。深度學(xué)習(xí)真正實現(xiàn)了人工智能的突破,在機器中融入了神經(jīng)網(wǎng)絡(luò)的思想,讓機器人時代更有可能到來。在其他各個行業(yè),也將更需要機器學(xué)習(xí)和深度學(xué)習(xí)的相關(guān)技術(shù)。
參考文獻(xiàn):
[1]機器學(xué)習(xí)[M].機械工業(yè)出版社,2003.
[2]蘇磊.數(shù)據(jù)挖掘在院校信息資源管理中的應(yīng)用[J].電腦知識與技術(shù),2016,(5):224-225.
[3]黃毅晟.基于移動端圖像識別的題庫采集模型實踐研究[J].中國信息技術(shù)教育,2016,(12):75-78.