• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      泰坦尼克號(hào)乘客遇難預(yù)測(cè)分析

      2019-04-05 14:19:54撒宇航
      青年與社會(huì) 2019年7期
      關(guān)鍵詞:神經(jīng)網(wǎng)絡(luò)

      撒宇航

      摘 要:在機(jī)器學(xué)習(xí)中,有兩大類常見的問題,一類為回歸問題,另外一類為分類問題。對(duì)于回歸問題的解決,常見的方法有線性回歸,隨機(jī)森林等。而針對(duì)分類問題,有kNN,logsitic,SVM,神經(jīng)網(wǎng)絡(luò)等算法。不同的算法在不同的問題中具有不同的效果。因此,本研究通過具體的實(shí)例“泰坦尼克號(hào)乘客遇難預(yù)測(cè)”,通過運(yùn)用機(jī)器學(xué)習(xí)中的不同分類模型來分析乘客的存活是運(yùn)氣原因,還是存在一定的規(guī)律性。通過該對(duì)問題的研究,比較了不同機(jī)器學(xué)習(xí)分類模型的差異性以及優(yōu)缺點(diǎn)。

      關(guān)鍵詞:遇難乘客預(yù)測(cè);kNN;SVM;邏輯回歸;神經(jīng)網(wǎng)絡(luò)

      泰坦尼克號(hào)的沉沒是歷史上具有廣泛影響的沉船事件之一,1912年4月15日,在首次航行期間,泰坦尼克號(hào)撞上冰山后沉沒,2224名乘客和機(jī)組人員中有1502人遇難。這場(chǎng)轟動(dòng)的悲劇震撼了國(guó)際社會(huì)。雖然幸存下來的人存在一些運(yùn)氣方面的因素,但有一些人比其他人更有可能生存,比如婦女,兒童和上層階級(jí)。我們的目標(biāo)便是根據(jù)每位乘客的性別,年齡,艙位等相關(guān)特征,來預(yù)測(cè)該乘客是否會(huì)在該次乘船事故中存活下來。訓(xùn)練集以及測(cè)試集,我們總共有900名左右的乘客數(shù)據(jù),每位乘客包括10個(gè)特征,包括Pclass,Name,Sex,Age,SibSp,Parch,Ticket,F(xiàn)are,Cabin,Embarke。我們將拿出600名乘客數(shù)據(jù)作為我們的訓(xùn)練集,剩余的300名乘客的數(shù)據(jù),用來作為我們的測(cè)試集,用于檢驗(yàn)訓(xùn)練出的模型的性能。

      一、分類模型構(gòu)建

      (一) kNN模型

      (1) kNN模型原理。kNN(k Nearest Neighbor)算法,又叫作k領(lǐng)近算法,是機(jī)器學(xué)習(xí)中一種常見的分類算法之一。其中的k表示待測(cè)樣本最近的k個(gè)鄰居。在1968年,Cover和Hart提出了kNN算法,這是一個(gè)在理論上比較成熟的方法[1]。

      kNN算法的訓(xùn)練過程是將所有的訓(xùn)練集映射在特征空間中,測(cè)試過程將待測(cè)試樣本,計(jì)算每個(gè)樣本與訓(xùn)練集樣本的歐氏距離,然后對(duì)所有距離進(jìn)行排序,從中挑選出最近的k個(gè)樣本,在k個(gè)樣本中,采用基本投票原則,票數(shù)最多的類別作為待測(cè)樣本的類別。

      在我們的泰坦尼克號(hào)問題中,訓(xùn)練集一共含有600名乘客的特征數(shù)據(jù),將它們映射到特征空間當(dāng)中。測(cè)試階段,我們將測(cè)試集的300個(gè)乘客數(shù)據(jù),分別計(jì)算與600名乘客的歐幾里得距離,從中挑選出最近的k個(gè)距離后,采用投票原則,將票數(shù)最多的類別作為待測(cè)樣本的類別。

      (2) 結(jié)果分析。我們調(diào)用了sklearn中集成的kNN模型,在訓(xùn)練集上進(jìn)行了訓(xùn)練,并且嘗試了不同的k取值,在該問題上的正確率。我們分別測(cè)試了當(dāng)k 取5,10,15,20時(shí)模型的結(jié)果。測(cè)試的結(jié)果顯示,在上述4種k的取值下,在測(cè)試集上的正確率分別為79.3%,81.7%,83.1%,82.4%。由此可見,在泰坦尼克號(hào)這個(gè)問題上,當(dāng)k取值在15左右時(shí),模型的結(jié)果較好。

      關(guān)于kNN模型中k值的不同選擇:當(dāng)k值較小時(shí),預(yù)測(cè)結(jié)果對(duì)近鄰的實(shí)例點(diǎn)非常敏感,容易發(fā)生過擬合;如果k值過大模型會(huì)傾向大類,容易欠擬合;通常k是不大于20的整數(shù)。kNN算法的優(yōu)點(diǎn)是精度高,對(duì)異常值不敏感。但是缺點(diǎn)是對(duì)k的取值相對(duì)比較敏感,不同的k取值對(duì)模型產(chǎn)生的結(jié)果可能差異性非常的明顯。

      另一方面,由于我們的訓(xùn)練集的大小僅僅為600個(gè)樣本,而對(duì)于其他的一些機(jī)器學(xué)習(xí)應(yīng)用,我們的數(shù)據(jù)集可能十分巨大,特征維數(shù)也會(huì)十分巨大,會(huì)造成kNN算法的運(yùn)行速度緩慢,因?yàn)槊款A(yù)測(cè)一個(gè)樣本,就要計(jì)算該樣本與訓(xùn)練集中的所有的樣本距離,還要對(duì)所有距離進(jìn)行排序,這會(huì)大大提高算法運(yùn)行的時(shí)間,降低kNN算法的效率,所以一般kNN算法只適用于數(shù)據(jù)集比較小的情況。

      (二)邏輯回歸模型

      (1) 邏輯回歸模型原理。邏輯回歸是現(xiàn)今的工業(yè)界中一種常見的分類模型,對(duì)于大多數(shù)的問題都?jí)蛉〉孟喈?dāng)不錯(cuò)的結(jié)果。邏輯回歸的基本原理是使用邏輯回歸函數(shù)來作為我們的預(yù)測(cè)函數(shù),去預(yù)測(cè)在給定特征下,樣本屬于每個(gè)類別的概率。在訓(xùn)練階段,通過梯度下降算法,不斷的降低交叉熵代價(jià)函數(shù),提高在訓(xùn)練集上的準(zhǔn)確率。同時(shí),我們加入了L1正則化,可以避免模型陷入過擬合。

      (2)結(jié)果分析。通過在訓(xùn)練的過程中加入的L1正則化項(xiàng),我們的模型基本沒有發(fā)生過擬合,在訓(xùn)練集上的準(zhǔn)確率達(dá)到了79.8%,在測(cè)試集上達(dá)到了81.7%的正確率,取得了良好的性能。邏輯回歸的優(yōu)點(diǎn)是在于簡(jiǎn)單,訓(xùn)練速度相對(duì)于KNN模型快很多。但是其一般更適合用于線性可分的問題當(dāng)中,而對(duì)于一些線性不可分的問題中,采用更復(fù)雜的非線性模型可能會(huì)取得更好的效果。

      (三)SVM模型

      (1) SVM模型原理。支持向量機(jī)(support vector machine,SVM),是機(jī)器學(xué)習(xí)分類算法中一種綜合性能十分優(yōu)秀的模型。其不僅能處理線性可分的問題,引入的核函數(shù),還能夠處理線性不可分的問題。大大提高了模型的泛化能力。近年來,由于其性能優(yōu)異,被廣泛的運(yùn)用在各種分類問題中。SVM可以理解為是邏輯回歸的改進(jìn),對(duì)于邏輯回歸模型來講,由于存在無數(shù)個(gè)可能的解,解不唯一。即存在無數(shù)個(gè)超平面將數(shù)據(jù)分割開來,因此算法得到的解可能不一定是最優(yōu)的。而SVM算法能從這無數(shù)個(gè)超平面中,選取一個(gè)最大間隔的超平面,使模型的泛化能力更強(qiáng)。SVM主要適用于兩種情況。第一類是線性可分?jǐn)?shù)據(jù),第二類是線性不可分?jǐn)?shù)據(jù)。對(duì)于線性可分?jǐn)?shù)據(jù),采用了核技巧,將數(shù)據(jù)從低維空間映射到高維空間,再通過松弛變量等技術(shù)使數(shù)據(jù)變的線性可分。

      (2) SVM模型的核函數(shù)。對(duì)于線性可分的數(shù)據(jù),普通的SVM可以取得很好的效果。但在現(xiàn)實(shí)世界里,存在著很多非線性可分的數(shù)據(jù)。這個(gè)時(shí)候,普通的SVM就不太適用。但是可以通過一定的核技巧,將數(shù)據(jù)從低維空間映射到高維度空間。此時(shí),線性不可分?jǐn)?shù)據(jù)就可能變成線性可分?jǐn)?shù)據(jù),核函數(shù)用來計(jì)算兩個(gè)低維空間的向量在高維空間的內(nèi)積,只要滿足Mercer 條件的函數(shù),都可以作為核函數(shù)。常見的核函數(shù)有線性核函數(shù),高斯核函數(shù),多項(xiàng)式核函數(shù)等。

      (3) 結(jié)果分析。當(dāng)訓(xùn)練集數(shù)目比較小時(shí),SVM算法一般能夠取得很好的效果。但是當(dāng)訓(xùn)練集數(shù)目比較多時(shí),SVM比較容易陷入過擬合,所以需要采用一定的正則化措施來緩解過擬合。因此我們使用了sklearn中帶有核函數(shù)的SVM,在包含有600個(gè)樣本的訓(xùn)練集上經(jīng)過一段時(shí)間的訓(xùn)練后,最終得到的支持向量個(gè)數(shù)為298個(gè)。可以看到大概有50%的訓(xùn)練樣本為支持向量。我們采用了不同的核函數(shù)來檢驗(yàn)?zāi)P偷男Ч瑢?shí)驗(yàn)結(jié)果表明,不同的核函數(shù)在該問題上的差異性不顯著。最終我們采用了帶有高斯核函數(shù)的SVM,在訓(xùn)練集上的正確率為81.8%,在測(cè)試集中進(jìn)行測(cè)試時(shí),得到了83.5%的正確率。從訓(xùn)練集和測(cè)試集上的正確率來看,模型基本上沒有發(fā)生過擬合。SVM也是在包含上述一系列的分類模型中,所達(dá)到的正確率比較高的模型,因此可見,SVM模型是效果非常好的一個(gè)分類模型。

      (四)神經(jīng)網(wǎng)絡(luò)模型

      (1)神經(jīng)網(wǎng)絡(luò)模型原理。神經(jīng)網(wǎng)絡(luò)是基于生物學(xué)中神經(jīng)網(wǎng)絡(luò)的基本原理,對(duì)人類大腦工作過程的一個(gè)簡(jiǎn)單的模擬。它能夠通過一定的學(xué)習(xí)算法,學(xué)到一個(gè)非常復(fù)雜的非線性模型。當(dāng)數(shù)據(jù)量比較大時(shí),具有十分強(qiáng)大的泛化能力。神經(jīng)網(wǎng)絡(luò)通過將多個(gè)神經(jīng)元通過一定的聯(lián)結(jié)方式連接在一起,構(gòu)成一個(gè)運(yùn)算模型。每個(gè)神經(jīng)元節(jié)點(diǎn)的輸入是上一層神經(jīng)元輸入的線性組合,然后加上激活函數(shù)后,作為該個(gè)神經(jīng)元的輸出。常用的激活函數(shù)有sigmoid,tanh,Relu等。每?jī)蓚€(gè)神經(jīng)元之間,具有一個(gè)權(quán)重值w。神經(jīng)網(wǎng)絡(luò)就是通過激活函數(shù),權(quán)重,聯(lián)結(jié)方式來模擬人類大腦的學(xué)習(xí)記憶功能。神經(jīng)網(wǎng)絡(luò)在工作時(shí),首先通過前向傳播計(jì)算代價(jià)函數(shù)值,然后通過反向傳播算法計(jì)算代價(jià)函數(shù)的梯度值,最后通過一定的優(yōu)化算法,更新神經(jīng)網(wǎng)絡(luò)的每一層的權(quán)重矩陣W。

      在我們的泰坦尼克號(hào)乘客遇難問題中,每個(gè)乘客在經(jīng)過預(yù)處理后,有14個(gè)特征,所以我們的神經(jīng)網(wǎng)絡(luò)的輸入層一共含有14個(gè)神經(jīng)元,第二層網(wǎng)絡(luò)具有32個(gè)神經(jīng)元,第三層網(wǎng)絡(luò)具有64個(gè)神經(jīng)元,輸出層含有一個(gè)神經(jīng)元。在這個(gè)問題上,我們建立了一個(gè)具有多層感知機(jī)的神經(jīng)網(wǎng)絡(luò)來進(jìn)行預(yù)測(cè),并且添加了相應(yīng)的正則化項(xiàng)來防止模型的過擬合。

      (2) 結(jié)果分析。我們通過構(gòu)建了一個(gè)三層的感知機(jī)神經(jīng)網(wǎng)絡(luò),對(duì)600個(gè)訓(xùn)練集數(shù)據(jù)進(jìn)行訓(xùn)練,最終在訓(xùn)練集上取得了85.8%的正確率,在測(cè)試集上取得了83.5%的正確率,基本和SVM得到的結(jié)果不相上下。實(shí)質(zhì)上,神經(jīng)網(wǎng)絡(luò)更適合處理特征數(shù)目很多,訓(xùn)練集數(shù)目很大的情況,而在泰坦尼克號(hào)這個(gè)問題上,由于我們只有幾百個(gè)訓(xùn)練樣本,每個(gè)樣本只有十幾個(gè)特征。因此,雖然結(jié)果表現(xiàn)不錯(cuò),但是沒有真正體現(xiàn)出神經(jīng)網(wǎng)絡(luò)強(qiáng)大的泛化能力,沒有體現(xiàn)出多層神經(jīng)網(wǎng)絡(luò)的主要優(yōu)勢(shì)。

      三、結(jié)語(yǔ)

      本項(xiàng)目通過具體的實(shí)例“泰坦尼克號(hào)乘客遇難預(yù)測(cè)分析”,對(duì)該問題分別采用了kNN模型,邏輯回歸模型,SVM模型以及神經(jīng)網(wǎng)絡(luò)模型。在該問題的同一測(cè)試集上,最優(yōu)模型分別取得了79%,81.7%,83.5%,83.5的正確率。比較了機(jī)器學(xué)習(xí)中不同的分類模型在該問題上的優(yōu)缺點(diǎn)。通過對(duì)該問題的研究,掌握了不同分類模型的差異性。

      參考文獻(xiàn)

      [1] 楊麗華,戴齊,郭艷軍.KNN文本分類算法研究[J].微計(jì)算機(jī)信息,2006,22(21):269-270.

      [2] 范玉妹,郭春靜.支持向量機(jī)算法的研究及其實(shí)現(xiàn)[J].河北工程大學(xué)學(xué)報(bào)(自然科學(xué)版),2010,27(04):106-112.

      猜你喜歡
      神經(jīng)網(wǎng)絡(luò)
      神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
      電子制作(2019年19期)2019-11-23 08:42:00
      基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
      復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
      基于支持向量機(jī)回歸和RBF神經(jīng)網(wǎng)絡(luò)的PID整定
      基于神經(jīng)網(wǎng)絡(luò)分?jǐn)?shù)階控制的逆變電源
      基于GA-BP神經(jīng)網(wǎng)絡(luò)的光伏陣列MPPT研究
      五河县| 兖州市| 庄河市| 保康县| 大冶市| 浦江县| 乌审旗| 聊城市| 清徐县| 朝阳区| 东阳市| 弥勒县| 邵阳市| 东乡族自治县| 海阳市| 余庆县| 翁牛特旗| 古浪县| 湘乡市| 故城县| 黄陵县| 卢氏县| 延庆县| 阜宁县| 浦城县| 汨罗市| 乐至县| 齐齐哈尔市| 镇原县| 高邑县| 清流县| 连江县| 鹤峰县| 宜丰县| 绍兴市| 白水县| 涞源县| 潞西市| 宜宾市| 南充市| 枣阳市|