鄔昌興 羅國亮
[摘 要] 傳統(tǒng)“自然語言處理”課程的教學(xué)內(nèi)容以基于統(tǒng)計(jì)學(xué)習(xí)的方法為主,與當(dāng)前主流的基于深度學(xué)習(xí)的方法這一發(fā)展現(xiàn)狀不匹配。為了培養(yǎng)符合市場需求的人才,應(yīng)探討深度學(xué)習(xí)背景下“自然語言處理”課程的理論和實(shí)驗(yàn)教學(xué)內(nèi)容設(shè)計(jì);為了提高課堂教學(xué)效果,引入對比教學(xué)法,通過與基于統(tǒng)計(jì)學(xué)習(xí)的方法進(jìn)行對比,讓學(xué)生深刻理解基于深度學(xué)習(xí)方法的優(yōu)缺點(diǎn)。實(shí)踐表明,對比教學(xué)法適合深度學(xué)習(xí)背景下“自然語言處理”課程的教學(xué),教學(xué)效果顯著提高。
[關(guān)鍵詞] 人口智能;深度學(xué)習(xí);教學(xué)內(nèi)容;對比教學(xué)法
[基金項(xiàng)目] 2020年度江西省教育科學(xué)規(guī)劃課題“新工科背景下基于VR技術(shù)的現(xiàn)代教育技術(shù)應(yīng)用探索與研究”(20YB056)
[作者簡介] 鄔昌興(1981—),男,江西豐城人,理學(xué)博士,華東交通大學(xué)軟件學(xué)院講師,主要從事自然語言處理、深度學(xué)習(xí)研究;
羅國亮(1985—),男,江西南昌人,工學(xué)博士,華東交通大學(xué)軟件學(xué)院副教授(通信作者),主要從事計(jì)算機(jī)圖形學(xué)、人工智能研究。
[中圖分類號] G642.0 ? ?[文獻(xiàn)標(biāo)識碼] A ? ?[文章編號] 1674-9324(2021)29-0137-04[收稿日期] 2021-03-01
根據(jù)2017年國務(wù)院發(fā)布的《新一代人工智能發(fā)展規(guī)劃》[1]和2018年教育部關(guān)于印發(fā)《高等學(xué)校人工智能創(chuàng)新行動計(jì)劃》的通知[2],加強(qiáng)人工智能領(lǐng)域人才培養(yǎng)已成為國家及高校的迫切需求。
“自然語言處理”是人工智能領(lǐng)域與計(jì)算機(jī)科學(xué)領(lǐng)域中的一個(gè)重要方向,研究能實(shí)現(xiàn)人與計(jì)算機(jī)之間用自然語言進(jìn)行有效通信的各種理論和方法,包括自然語言理解和自然語言生成兩大問題。自然語言理解處于認(rèn)知智能最核心的地位,其進(jìn)步必將會推動人工智能整體的發(fā)展。因此,“自然語言處理”課程逐步被國內(nèi)高校引入作為計(jì)算機(jī)相關(guān)專業(yè)本科生或研究生的必修或選修課程。
一、課程背景
“自然語言處理”的發(fā)展經(jīng)歷了從基于規(guī)則的方法到基于統(tǒng)計(jì)學(xué)習(xí)的方法,再到目前主流的基于深度學(xué)習(xí)的方法三個(gè)階段。以機(jī)器翻譯為例,很多年前大家通常采用基于規(guī)則的方法,基本思想是依靠語言專家來定義規(guī)則并教機(jī)器如何去翻譯。事實(shí)證明基于規(guī)則的方法效果并不好,因?yàn)檎Z言是錯(cuò)綜復(fù)雜的,而人不可能窮盡所有的規(guī)則。隨后,大家轉(zhuǎn)向基于統(tǒng)計(jì)學(xué)習(xí)的機(jī)器翻譯方法,即給機(jī)器一堆雙語對齊語料讓機(jī)器自己去學(xué)習(xí)翻譯規(guī)則。統(tǒng)計(jì)機(jī)器翻譯方法不需要人工定義規(guī)則,但其學(xué)到的還是一些符號層面的規(guī)則。近年來,人工智能進(jìn)入了一個(gè)新的發(fā)展高潮,深度學(xué)習(xí)方法在計(jì)算機(jī)視覺和自然語言處理等領(lǐng)域取得了突破性的進(jìn)展[3]。隨著深度學(xué)習(xí)方法的引入,機(jī)器翻譯的水平有了一個(gè)大幅提高,使得機(jī)器不再在符號層面做翻譯,而是將整個(gè)推理過程映射到一個(gè)語義空間中,并在語義空間中進(jìn)行翻譯?;谏疃葘W(xué)習(xí)的自然語言處理應(yīng)用已經(jīng)深入到大家的日常生活中,例如,今日頭條中的智能新聞推薦。因此,把基于深度學(xué)習(xí)的方法作為當(dāng)前自然語言課程的核心內(nèi)容是非常有必要的,有利于培養(yǎng)滿足時(shí)代要求的人工智能人才。
當(dāng)前,自然語言課程的教學(xué)研究工作主要探討基于統(tǒng)計(jì)學(xué)習(xí)的相關(guān)理論和方法的教學(xué),而深度學(xué)習(xí)背景下的教學(xué)探討幾乎沒有。例如,李霞[4]討論了面向本科階段開設(shè)的“自然語言處理”課程的教學(xué)內(nèi)容組織和實(shí)踐教學(xué)等問題,其教學(xué)內(nèi)容主要包括基于規(guī)則的方法和基于統(tǒng)計(jì)學(xué)習(xí)的方法。傅迎華等[5]以上海理工大學(xué)智能科學(xué)與技術(shù)專業(yè)“自然語言處理”課程教學(xué)實(shí)踐為例,闡述了課程教學(xué)的基本目標(biāo)和理論以及實(shí)驗(yàn)教學(xué)內(nèi)容安排的基本思路。其教學(xué)內(nèi)容主要包括Python程序設(shè)計(jì)和NLTK語言處理工具包、基于統(tǒng)計(jì)學(xué)習(xí)的自然語言處理的基本原理和方法兩部分。李霞[6]闡述了如何以跨學(xué)科教學(xué)理念設(shè)計(jì)和組織“自然語言處理”課程的教學(xué)內(nèi)容、教學(xué)方法和課程設(shè)計(jì)等,其教學(xué)內(nèi)容主要包括基于統(tǒng)計(jì)學(xué)習(xí)的詞法分析、句法分析和語義分析模型。最近,羅世奇等[7]探索了在新形勢下進(jìn)行自然語言處理項(xiàng)目式教學(xué)的問題,其內(nèi)容依然沒有涉及深度學(xué)習(xí)相關(guān)技術(shù)。因此,開展深度學(xué)習(xí)背景下自然語言課程教學(xué)的探索工作是一項(xiàng)迫切的任務(wù),有利于教學(xué)效果的提高。下面分別從教學(xué)內(nèi)容的設(shè)計(jì)和對比教學(xué)法的應(yīng)用兩個(gè)方面展開詳細(xì)討論。
二、教學(xué)內(nèi)容的設(shè)計(jì)
“自然語言處理”課程的教學(xué)目標(biāo)可以分為以下兩個(gè)層次。第一層次,大部分學(xué)生通過本課程學(xué)習(xí),掌握“自然語言處理”的基本概念和原理,掌握主流的自然語言處理技術(shù),了解領(lǐng)域的發(fā)展現(xiàn)狀和前沿?zé)狳c(diǎn),具備解決實(shí)際問題的能力。第二層次,部分學(xué)生較好地掌握主流的自然語言處理技術(shù),通過后續(xù)的自主學(xué)習(xí),具備應(yīng)用創(chuàng)新的能力。為了實(shí)現(xiàn)上述教學(xué)目標(biāo),把基于深度學(xué)習(xí)的自然語言處理技術(shù)引入到課程教學(xué)中作為核心內(nèi)容,有利于學(xué)生掌握主流的自然語言處理技術(shù),了解該領(lǐng)域的前沿進(jìn)展。表1展示了按模塊劃分的理論教學(xué)內(nèi)容及學(xué)時(shí)安排,理論教學(xué)共32學(xué)時(shí)。
我們將整個(gè)課程的內(nèi)容劃分為六個(gè)模塊:語言學(xué)模塊、編程基礎(chǔ)模塊、深度學(xué)習(xí)模塊、語義表示模塊、基礎(chǔ)算法模塊和實(shí)際應(yīng)用模塊。語言學(xué)模塊、編程基礎(chǔ)模塊和深度學(xué)習(xí)模塊是課程的基礎(chǔ)知識部分。其中,語言學(xué)的基本知識包括詞匯學(xué)、句法學(xué)、語義學(xué)和語用學(xué)等;Python語言是目前最受歡迎的人工智能編程語言;NLTK是一個(gè)常用的文本預(yù)處理工具包;PyTorch框架是目前最流行的深度學(xué)習(xí)框架之一。語義表示模塊、基礎(chǔ)算法模塊和實(shí)際應(yīng)用模塊是課程的核心內(nèi)容部分。語義表示模塊主要讓學(xué)生掌握詞和句子在語義空間中的向量表示方法,是基于深度學(xué)習(xí)的自然語言處理方法的根基;基礎(chǔ)算法模塊主要讓學(xué)生掌握當(dāng)前主流的基于深度學(xué)習(xí)的詞法、句法和語義分析技術(shù)等,是課程的主要內(nèi)容;實(shí)際應(yīng)用模塊介紹文本分類和機(jī)器翻譯兩個(gè)具有代表性的應(yīng)用。
“自然語言處理”課程具有很強(qiáng)的聯(lián)系實(shí)際應(yīng)用的特點(diǎn),為了加強(qiáng)學(xué)生對基礎(chǔ)知識和主流算法的理解,開設(shè)了16個(gè)學(xué)時(shí)的實(shí)驗(yàn)課,如表2所示。大多數(shù)學(xué)生完成實(shí)驗(yàn)教學(xué)環(huán)節(jié)后,對相關(guān)算法有一個(gè)全新的認(rèn)識,極大地提高了學(xué)習(xí)的積極性。