費定舟
摘 要:針對目前國內(nèi)心理學界關(guān)于心理學教學中要不要開設(shè)深度學習課程的爭論,分析深度學習課程開設(shè)的必要性,從腦電EEG信號處理到語音系統(tǒng)分析等教學和研究領(lǐng)域的發(fā)展現(xiàn)狀入手,論證深度學習已介入心理學很深,而且心理學研究和深度學習有著共同的目標:理解人類大腦的認知規(guī)律。針對心理學界開設(shè)深度學習課程所遇到的困難和教學實踐,提出邊做邊學的教學策略。
關(guān)鍵詞:人工智能;深度學習;神經(jīng)網(wǎng)絡(luò);語音識別;腦電EEG
0 引 言
在心理學中,開設(shè)人工智能等課程已經(jīng)成為心理學界的共識。在美國心理學界,開設(shè)人工智能課程,像知識表達與推理、啟發(fā)式搜索、概率推理模型的院校比比皆是。在國內(nèi),即使不冠上智能科學的名稱,心理學有很多課程也與人工智能有關(guān),如認知心理學中智能理論(IQ測量)、知識表征理論、人機交互的認知模型等。國內(nèi)心理學課程涉及的上述內(nèi)容大多只是這些理論在心理學中的應用,點到為止,但在實踐中,心理學有了解這些有一定難度的知識的需求。因此,在心理學中開設(shè)與智能科學相關(guān)課程要開到什么程度是一個亟須澄清的問題。另外,在很多心理學界之外的人看來,國內(nèi)開設(shè)深度學習課程的高校并不多,一般多在計算機或信息類專業(yè)的本科高年級開設(shè),心理學系開設(shè)這門課程讓人疑惑。但是從人工智能發(fā)展的歷史和源頭來看,從心理學研究的對象和方法的演變來看,正是心理學提供了人工智能研究的概念源頭和原型,人工智能的深度學習來自于心理學家的研究工作。另外,心理學也同人工智能一樣使用統(tǒng)計模型和算法,只不過是以心理學特有的表述方式使用,而且,人工智能的算法和模型已經(jīng)滲透到心理學研究和教學中。
1 開設(shè)深度學習課程的必要性
1)深度學習來源于心理學。
像人工智能一樣,深度學習的源頭來自心理學。深度學習是人類大腦工作機制的一種模型,來源于神經(jīng)網(wǎng)絡(luò),而神經(jīng)網(wǎng)絡(luò)的靈感來自于心理學中的大腦的神經(jīng)元模型,人工智能和深度學習兩者有著共同的源頭。Yoshua Bengio 解釋了為什么復雜神經(jīng)網(wǎng)絡(luò)是人們長久以來一直追求的真正人工智能的關(guān)鍵[1],要讓計算機像人類一樣聰明,就應該依照人腦的工作方式給計算機編程。
2)腦科學深化的必然選擇。
從目前的發(fā)展趨勢來看,深度學習的介入對腦科學的深化是必不可少的。腦電信號(EEG)是在人的頭部的一定部位放置8~16個電極,經(jīng)腦電儀將人的腦皮層的生物電活動(在外在刺激下)放大并連續(xù)表示的圖形。人的大腦在正常情況下,腦電圖有一定的規(guī)律可循,當腦部尤其是皮層有病變時,規(guī)律會發(fā)生不同程度的變化,即波形異于平常,而對其波形進行分析,可輔助臨床對腦部疾病、人類認知活動進行診斷。但是這些信號很容易受大腦皮層的干擾以及其他噪聲的作用,所以極易變形。以有關(guān)計算機科學家在恢復信號方面用基于卷積神經(jīng)網(wǎng)絡(luò)的深度學習檢測P300的信號(見圖1)為例,這些P300信號的可靠性備受心理學界的關(guān)心,但是很多心理學研究人員的主觀判斷導致這些實驗結(jié)果的客觀性受到質(zhì)疑。檢測單次刺激P300信號(即不經(jīng)過疊加平均)、在疊加了背景腦電和噪聲的信號中正確識別出P300波形等問題依然有待研究,但是卷積神經(jīng)網(wǎng)絡(luò)對分析P300信號有不錯的效果[2],在語音識別和圖像處理方面也有其他模型無可替代的精度優(yōu)勢。
2 開設(shè)深度學習課程的可行性
1)語音識別系統(tǒng)的成功實踐。
在語音識別系統(tǒng)方面,深度學習取得了極大的成功。理論上,神經(jīng)網(wǎng)絡(luò)可以擬合任何函數(shù),在一定程度上甚至可以模擬人腦的思維過程,但是這一切都建立在神經(jīng)網(wǎng)絡(luò)必須足夠深足夠大的基礎(chǔ)上。但是,當網(wǎng)絡(luò)層數(shù)太多了之后,訓練就難以收斂或者只能收斂到一個次優(yōu)的局部最優(yōu)解,性能反而還不如一兩層的淺模型。作為心理學家的Hinton在Science發(fā)表的“Reducing the dimensionality of data with neural networks”[3]一文中提出了利用RBM預訓練的方法,即用特定結(jié)構(gòu)將網(wǎng)絡(luò)先初始化到一個差不多“好”的程度,再回到傳統(tǒng)的訓練方法(反向傳播BP),這樣得到的深度網(wǎng)絡(luò)似乎就能達到一個不錯的結(jié)果,從一定程度上解決了之前網(wǎng)絡(luò)“深不了”的問題。
在這個框架下,深度學習重新得到了人們的重視,讓神經(jīng)網(wǎng)絡(luò)有了前所未有的“更深”的可能。心理學要想跟上時代,研究人腦的功能,必須重視深度學習,借助語音分析系統(tǒng)和EEG、ERP這類心理學實驗儀器設(shè)備實現(xiàn)心理學的終極目標。
2)圖像識別的成功應用。
深度學習應用于圖像識別的任務取得了成功[4]。眾所周知,深度學習的目標是模仿人類神經(jīng)網(wǎng)絡(luò)感知外部世界的方法。如果把人想象成計算機,那么語音和圖像就是最主要的input形式(文本或者自然語言處理也是input)[5],既然人能夠很好地識別圖像和語音,那么這個試圖模仿人類大腦的深度學習算法也自然能像人一樣聽清語音、看清圖片。以心理學家借助Deepmind進行的心理學實驗為例,采用經(jīng)典形狀偏好的實驗方式,首先,給深度神經(jīng)網(wǎng)絡(luò)提供3種物體圖像,即探測物體、形狀匹配物體(與探測目標形狀相同,顏色不同)和顏色匹配物體(與探測物體形狀不同,顏色相同);然后,定義偏好,即將探測圖像的標簽分配為形狀匹配圖像的標簽而不是顏色匹配圖像標簽所出現(xiàn)的比率;接著,使用深度神經(jīng)網(wǎng)絡(luò),即匹配網(wǎng)絡(luò)和 Inception 基準模型完成這次實驗。通過研究樣本分類辨別分類的結(jié)果(標簽分類)與兒童的物體識別偏好是否一致,或者說深度學習是否有發(fā)現(xiàn)機制的能力。實驗結(jié)果表明,神經(jīng)網(wǎng)絡(luò)像人類一樣更傾向于物體形體而不是顏色或紋理來形成物體概念,所以它們有著“形狀偏好”。認知心理學和兒童發(fā)展心理學通過大量實驗發(fā)現(xiàn)兒童對物體的識別(概念形成)有一些偏好,例如偏好識別整個物體而不是部分、通過形狀識別物體而不是通過顏色和紋理。實驗結(jié)果的對比表明,深度學習已經(jīng)可以在圖像識別方面有效運用,為深度課程的開展提供了有利條件。endprint
3 困難及解決措施
3.1 困 難
在心理學系開設(shè)人工智能課程的實踐表明,同學們對這門課的興趣是很濃厚的,但是也存在畏難情緒,主要原因是對于課程里包含的很多基礎(chǔ)知識,如線性代數(shù)、概率論與數(shù)理統(tǒng)計等了解不多,盡管心理學用到很多統(tǒng)計學的知識,但是通常只要求會操作統(tǒng)計程序軟件即可,算法方面的知識也是缺乏的。
3.2 解決措施
1)運用邊做邊學的教學策略。
邊做邊學的教學策略是基于學生的實際情況提出的,具體的做法是:讓學生先學會操作流程,培養(yǎng)感性知識,緩解畏難情緒。這一點與學習統(tǒng)計學課程的方法相似,在對統(tǒng)計學知之不多的情景下,先學會軟件的操作流程,培養(yǎng)感性認識,再結(jié)合具體例子,了解統(tǒng)計學的知識。在實踐的同時利用相關(guān)課程,如認知心理學課程來講解人機交互技術(shù),把語音處理的深度學習原理也包括進來[6]。
2)利用MOOC等網(wǎng)絡(luò)平臺的課程自學。
MOOC等網(wǎng)絡(luò)平臺為學生自學某些課程提供了極大的便利,學生可以根據(jù)自己的實際情況有針對性地學習相關(guān)課程。如果學過線性代數(shù)、微積分、概率論和編程,可以考慮從斯坦福大學的相關(guān)課程開始。這門課內(nèi)容廣泛,每次課的幻燈片都可以下載,雖然官方網(wǎng)站刪除了配套的視頻,但是很容易就能在網(wǎng)上搜索到。如果沒有學過那些數(shù)學課,網(wǎng)上也有很多免費的學習材料可以用來學習必要的數(shù)學知識,Gilbert Stange的線性代數(shù)課程很適合入門。對于其他科目,edX上有MIT的微積分和概率論課程。如果想學習更多關(guān)于機器學習的東西,Andrew Ng在Coursera上的機器學習課程是大多數(shù)人的入門選擇。除此之外,Yaser Abu-Mostafa的機器學習課程更關(guān)注理論,也很適合初學者。
4 結(jié) 語
心理學開設(shè)與智能科學相關(guān)的課程成為心理學界的共識,但是講授什么樣深度的課程是對教學方法的考驗。心理學與人工智能共同的研究目標決定了在心理學系開設(shè)深度學習課程的必要,實踐教學的探索有成功也有不足之處,在教學上雖然有難度但也是可行的。智能課程在心理學教學中的發(fā)展還需要在實踐中不斷改進和完善。
參考文獻:
[1] Bengio Y. Learning Deep Architectures for AI[J]. Foundations and Trends in Machine Learning, 2009, 2 (1): 1–127.
[2] Cecotti H ,Graser A.Convolutional Neural Networks for P300 Detection with Application to Brain-Computer Interfaces[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2011, l33(3): 433-448.
[3] Hinton G, Srivastava N, Krizhevsky A, et al. Improving neural networks by preventing co-adaptation of feature detectors[J]. Computer Science, 2012, 3(4): 212-223.
[4] Collobert R, Weston J, Bottou L. Natural Language Processing (Almost) from Scratch[J].Journal of Machine Learning Research, 2011: 2493-2537.
[5] He K, Zhang X, Ren S.Deep Residual Learning for Image Recognition[J]. Clinical Orthopaedics and Related Research, 2014: 770-778.
[6] 張毅. 語音處理及人機交互技術(shù)[C]. 北京: 科學出版社, 2016.
(實習編輯:景貴英)endprint