周捷 朱建文
摘? 要: 機(jī)器學(xué)習(xí)是一門綜合性較強(qiáng)的學(xué)科,對(duì)該學(xué)科的研究多集中在分類問(wèn)題和算法方面?;诖它c(diǎn),文章從機(jī)器學(xué)習(xí)的內(nèi)涵及發(fā)展歷程介紹入手,分析了機(jī)器學(xué)習(xí)中的分類問(wèn)題及學(xué)習(xí)步驟,在此基礎(chǔ)上對(duì)機(jī)器學(xué)習(xí)的算法分類進(jìn)行論述。
關(guān)鍵詞: 機(jī)器學(xué)習(xí);分類;算法
中圖分類號(hào): TP181? ? 文獻(xiàn)標(biāo)識(shí)碼: A? ? DOI:10.3969/j.issn.1003-6970.2019.07.040
【Abstract】: Machine learning is a comprehensive subject, and research of the subject mostly focuses on classification and algorithms. Based on the point, the paper introduces connotation and development of machine learning, analyses classification issues and learning steps in machine learning, and discusses algorithms classification on above basis.
【Key words】: Machine learning; Classification; Algorithm
0? 引言
近年來(lái),隨著科技的不斷進(jìn)步,使得人工智能技術(shù)得到快速發(fā)展,作為人工智能核心的機(jī)器學(xué)習(xí)也獲得業(yè)內(nèi)專家學(xué)者的廣泛關(guān)注,研究范圍進(jìn)一步擴(kuò)大,研究的重點(diǎn)以分類問(wèn)題及相關(guān)的算法為主[1]。機(jī)器學(xué)習(xí)的分類精度、學(xué)習(xí)速度以及解答的正確性和質(zhì)量等方面,是評(píng)價(jià)其學(xué)習(xí)能力的關(guān)鍵指標(biāo)[2]。鑒于此,下面重點(diǎn)對(duì)機(jī)器學(xué)習(xí)分類問(wèn)題及算法展開探討。
1? 機(jī)器學(xué)習(xí)的內(nèi)涵及發(fā)展歷程
1.1? 內(nèi)涵
機(jī)器學(xué)習(xí)是人工智能的核心,是實(shí)現(xiàn)計(jì)算機(jī)智能化的重要途徑。近年來(lái),隨著計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)的快速發(fā)展,使得機(jī)器學(xué)習(xí)的內(nèi)涵變得越來(lái)越豐富,尤其是在人工智能的數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)中,涉及了海量數(shù)據(jù),其中的數(shù)據(jù)形式呈現(xiàn)為多樣化的特點(diǎn),如文本類、圖形圖像以及語(yǔ)音視頻等等,既有結(jié)構(gòu)化數(shù)據(jù),也有半結(jié)構(gòu)化數(shù)據(jù),多種學(xué)習(xí)方法并存,如分類、聚類、貝葉斯、決策樹以及遺傳算法等等。機(jī)器學(xué)習(xí)最為主要的任務(wù)就是獲得對(duì)輸入數(shù)據(jù)分類的能力,主要包括對(duì)不同概念的區(qū)分以及對(duì)文字信息的識(shí)別等等,同時(shí),還需要獲得解決實(shí)際問(wèn)題和行為控制的能力[3]。
1.2? 發(fā)展歷程
機(jī)器學(xué)習(xí)是人工智能領(lǐng)域研究的重點(diǎn),其發(fā)展經(jīng)歷了四個(gè)階段,上個(gè)世紀(jì)50年代中期到60年代中期,是機(jī)器學(xué)習(xí)的第一階段,在該階段,業(yè)內(nèi)的專家學(xué)者對(duì)機(jī)器學(xué)習(xí)的研究熱情異常高漲,為機(jī)器學(xué)習(xí)的后續(xù)發(fā)展奠定了基礎(chǔ);上個(gè)世紀(jì)60年代中期到70年代中期,是機(jī)器學(xué)習(xí)的第二個(gè)階段,在該階段機(jī)器學(xué)習(xí)的研究趨于平緩;從上個(gè)世紀(jì)70年代中期到80年代中期,機(jī)器學(xué)習(xí)進(jìn)入了第三階段,這個(gè)階段是機(jī)器學(xué)習(xí)的復(fù)興時(shí)期;從1986年至今是機(jī)器學(xué)習(xí)發(fā)展的最新階段,進(jìn)入該階段后機(jī)器學(xué)習(xí)正式成為邊緣學(xué)科,很多高校都開設(shè)了機(jī)器學(xué)習(xí)課程,與人工智能基礎(chǔ)問(wèn)題的統(tǒng)一性觀點(diǎn)也在該階段逐步形成,如學(xué)習(xí)與問(wèn)題求解的有機(jī)結(jié)合等。同時(shí)機(jī)器學(xué)習(xí)方法的應(yīng)用領(lǐng)域逐步拓寬,有些成為可以流通的商品[4]。
2? 機(jī)器學(xué)習(xí)中的分類問(wèn)題及學(xué)習(xí)步驟分析
2.1? 分類問(wèn)題
對(duì)于機(jī)器學(xué)習(xí)而言,分類問(wèn)題是基礎(chǔ),很多應(yīng)用均是從分類問(wèn)題演變而來(lái)。機(jī)器學(xué)習(xí)能夠借助計(jì)算機(jī)在海量的數(shù)據(jù)當(dāng)中,對(duì)數(shù)據(jù)的規(guī)律和模式進(jìn)行學(xué)習(xí),并在學(xué)習(xí)的過(guò)程中,對(duì)數(shù)據(jù)內(nèi)部潛在的、有利用價(jià)值的信息進(jìn)行深入挖掘。機(jī)器學(xué)習(xí)的數(shù)據(jù)處理主要有兩種,一種是監(jiān)督學(xué)習(xí),另一種是無(wú)監(jiān)督學(xué)習(xí)。
2.1.1? 監(jiān)督學(xué)習(xí)問(wèn)題
所謂的監(jiān)督學(xué)習(xí)具體是指借助帶有標(biāo)簽的數(shù)據(jù)地學(xué)習(xí)過(guò)程進(jìn)行輔助,從而達(dá)到學(xué)習(xí)目標(biāo),通過(guò)實(shí)踐證明這種機(jī)器學(xué)習(xí)方式的效果較好。然而,由于學(xué)習(xí)中需要使用標(biāo)簽數(shù)據(jù),致使學(xué)習(xí)成本較高。在該學(xué)習(xí)方式下,初始數(shù)據(jù)是不可或缺的要素,必須在學(xué)習(xí)前進(jìn)行收集[5]。監(jiān)督學(xué)習(xí)最為突出的優(yōu)勢(shì)是可以使機(jī)器本身所具備的泛化能力得以充分發(fā)揮,由此便可使分類及回歸等問(wèn)題得到有效解決。在該學(xué)習(xí)方式中,較為常用的算法有以下幾種:多層感知、神經(jīng)網(wǎng)絡(luò)以及邏輯回歸等等,整個(gè)訓(xùn)練過(guò)程是以標(biāo)注特征為核心展開的。通過(guò)監(jiān)督學(xué)習(xí)能夠使機(jī)器獲得合理劃分不同事物的能力,并且還能對(duì)規(guī)則以及規(guī)律數(shù)據(jù)等進(jìn)行預(yù)測(cè)。該學(xué)習(xí)方式中的包含兩類問(wèn)題,一類是分類問(wèn)題,其特征是輸出變量處于離散狀態(tài);另一類是回歸問(wèn)題,其特征為是輸出變量處于連續(xù)狀態(tài)。
2.1.2? 無(wú)監(jiān)督學(xué)習(xí)問(wèn)題
無(wú)監(jiān)督學(xué)習(xí)是一種更加先進(jìn)的學(xué)習(xí)方式,它是利用計(jì)算機(jī)本身所具備的自動(dòng)化功能來(lái)完成學(xué)習(xí)過(guò)程,依托各種數(shù)據(jù),對(duì)知識(shí)的吸收過(guò)程進(jìn)行完善,由于該學(xué)習(xí)方式的成本具有可控性的特點(diǎn)[6]。因此,學(xué)習(xí)中無(wú)需投入較大的資金,經(jīng)濟(jì)性較高。但從實(shí)踐情況上,這種機(jī)器學(xué)習(xí)方式的效率并不是很高。在該學(xué)習(xí)方式下,當(dāng)樣本數(shù)據(jù)尚未進(jìn)行標(biāo)記時(shí),機(jī)器通常不會(huì)進(jìn)入訓(xùn)練狀態(tài),其最為突出的優(yōu)勢(shì)在于機(jī)器能夠與人一樣,學(xué)習(xí)所需的知識(shí),對(duì)于不需要的知識(shí)則會(huì)自動(dòng)忽略,通過(guò)有選擇性的學(xué)習(xí),可以使知識(shí)的獲取更具針對(duì)性。無(wú)監(jiān)督學(xué)習(xí)方式中較為常用的算法有以下幾種:深度置信網(wǎng)絡(luò)、自動(dòng)編碼器等等,該學(xué)習(xí)方式在聚類問(wèn)題的解決中應(yīng)用較為廣泛。在無(wú)監(jiān)督學(xué)習(xí)問(wèn)題中,數(shù)據(jù)本身并沒(méi)有標(biāo)簽,學(xué)習(xí)過(guò)程主要是對(duì)數(shù)據(jù)中隱藏的結(jié)構(gòu)進(jìn)行分析,據(jù)此來(lái)發(fā)現(xiàn)是否有能夠被區(qū)分的群組。
2.2? 基本學(xué)習(xí)步驟