湯宇軒,齊 恒,申彥明,王宇新,張紹武
(大連理工大學計算機科學與技術(shù)學院,遼寧大連 116024)
“培養(yǎng)什么人、怎樣培養(yǎng)人以及為誰培養(yǎng)人是教育的根本問題,立德樹人成效是檢驗高校一切工作的根本標準”,人才培養(yǎng)中思想建設是第一位。2016 年,習近平總書記在工作會議中指出:高校立身之本在于立德樹人。只有培養(yǎng)出一流人才的高校,才能夠成為世界一流大學。教育部印發(fā)的《高等學校課程思政建設指導綱要》提到人才培養(yǎng)中思想建設的重要性,以及課程思政在思想建設中所起的重要作用,明確指出:“建設高水平人才培養(yǎng)體系,必須要在專業(yè)的課程內(nèi)容當中融入思想政治教育體系,必須要全面、全方位地提高人才培養(yǎng)能力,專業(yè)知識和思想政治知識兼顧,從而培養(yǎng)出愛黨愛國、能為社會、為人民服務的人才。”在設計課程思政內(nèi)容的過程中,要讓思政內(nèi)容自然而然地融入課程各方面,從而激發(fā)學生的學習興趣,引導學生深入思考。
思政建設對于計算機專業(yè)相關(guān)課程而言必不可少。信息時代,計算機及信息化相關(guān)技術(shù)已成為公認的“雙刃劍”,一方面能服務于大眾,另一方面也能對社會產(chǎn)生不良影響。如果在培養(yǎng)計算機專業(yè)人才時,缺少思政教育和正確價值觀引導,極有可能給社會和個人帶來危害。因此,在傳授相關(guān)技能和知識的同時,引入相應的思政內(nèi)容極其必要。
在設計課程思政內(nèi)容時,任課教師往往需要根據(jù)課程性質(zhì)針對性進行設計。計算機課程屬于工學專業(yè)課程,在進行課程思政內(nèi)容設計時,需要將馬克思主義方法和科學精神培養(yǎng)結(jié)合起來,提高學生正確認識問題、分析問題和解決問題的能力,同時還要強化學生的工程倫理教育,激發(fā)學生科技報國的家國情懷和使命擔當。在設計課程思政內(nèi)容的過程中,經(jīng)常需用到章節(jié)相關(guān)資料,包括相關(guān)的新聞、人物,或者相關(guān)課程的課程思政設計實例等。比如:一位計算機系統(tǒng)結(jié)構(gòu)教師可能會想獲得一些有關(guān)神威·太湖之光的新聞,從而激發(fā)學生的自豪感,或者是一些華為被美國制裁的新聞,讓學生們認識到芯片技術(shù)對計算機乃至對中國科技發(fā)展的重要性。搜集資料這一過程十分耗時耗力,目前可供教師查閱素材的知識庫還很少,大多情況下需要從互聯(lián)網(wǎng)中自行查找、篩選和整合相關(guān)素材和參考資料,如果能有一個素材庫支撐課程思政內(nèi)容設計,將為教師開展課程思政建設提供很大幫助。
素材庫可以基于不同種類的數(shù)據(jù)庫構(gòu)建。知識圖譜作為一種有著良好多源異構(gòu)數(shù)據(jù)整合能力的數(shù)據(jù)庫,是素材庫構(gòu)建的較好選擇。知識圖譜是基于有向圖的數(shù)據(jù)結(jié)構(gòu),由節(jié)點和邊構(gòu)成的語義網(wǎng)絡,也是以圖的形式表現(xiàn)客觀世界中的實體(概念)及其之間關(guān)系的知識庫,其概念于2012 年被Google 提出,之后為人工智能領(lǐng)域注入了新的活力。由于異質(zhì)圖可以很好地對客觀世界中種類繁多的事物和關(guān)系建模,因此知識圖譜備受相關(guān)研究者的青睞,并且已經(jīng)被用于支持諸如智能問答、搜索引擎等一系列知識驅(qū)動型的任務。目前,比較有代表性的知識圖譜包括Google 知識圖譜、YAGO、NELL、搜狗搜立方、百度知心,以及復旦大學開發(fā)的zhishi.me等。知識圖譜在特定領(lǐng)域也有其應用,比如以天眼查為代表的企業(yè)知識圖譜可以建模企業(yè)和企業(yè)、企業(yè)和人物之間的關(guān)系,醫(yī)藥知識圖譜可以建模藥品和病癥之間的關(guān)聯(lián),諸如此類。鑒于此,本文提出一種基于知識圖譜的課程思政素材庫構(gòu)建方案,并在此方案基礎(chǔ)上構(gòu)建一個計算機課程思政素材庫。
近年來,國家對高等院校的思想政治建設越來越重視,并指出要將思政內(nèi)容有機地融入課堂。同時,教育者逐漸認識到課程思政的重要性,相關(guān)研究與探索也層出不窮,從不同的維度對課程思政展開了思考與實踐。高德毅等從宏觀層面對課程思政內(nèi)容進行解讀,闡明了高校課程思政建設理念和思路,以及思政內(nèi)容在不同類型課程中的定位和作用。張大良闡述了課程思政在當今時代的重要作用和深遠意義,同時對課程思政建設提出了自己的見解。除宏觀層面外,教育者還針對各學科和課程,給出課程思政建設方案。文秋芳針對大學外語相關(guān)課程教學中的不同維度,給出一些關(guān)鍵策略和教學方法。代丹丹等針對Python 程序設計課程中的思政建設以及師范生的特點,采用不同的技術(shù)手段,將愛國主義教育、法制教育等思政內(nèi)容融入課堂。
由于異構(gòu)圖對知識的強大表示能力,知識圖譜已經(jīng)成為素材庫構(gòu)建的熱門方案之一,很多領(lǐng)域都在嘗試使用知識圖譜構(gòu)建領(lǐng)域素材庫和知識庫。朱鵬等提出課程知識圖譜的構(gòu)建方案,將課程中出現(xiàn)的概念、內(nèi)容融入圖譜之中,并且實現(xiàn)了基于該素材庫的搜索應用。任東亮等提出抗疫相關(guān)的輿情知識圖譜構(gòu)建方案,并基于此方案進行抗疫意見領(lǐng)袖熱點話題檢測與分析。韓普等提出醫(yī)療知識圖譜構(gòu)建框架,并基于多種數(shù)據(jù)源構(gòu)建出醫(yī)療知識圖譜。
通過上述分析可以看出,課程思政建設正在全面開展,但目前還缺乏可用的大型素材庫。知識圖譜技術(shù)在構(gòu)建知識庫、素材庫及搜索引擎方面有著極大優(yōu)勢,但尚無該技術(shù)與課程思政相結(jié)合的研究。本文創(chuàng)新性地提出基于知識圖譜的課程思政素材庫構(gòu)建方案,并嘗試依照此方案構(gòu)建出相應的素材庫,以進一步推動課程思政建設進程。
本文所提出的素材庫構(gòu)建方案包含應用層、計算層和存儲層3 個模塊,其中計算層中的爬蟲模塊需要與外部數(shù)據(jù)源進行對接??傮w結(jié)構(gòu)如圖1所示。
課程思政素材庫的數(shù)據(jù)源包括新聞網(wǎng)站、課程網(wǎng)站等,不同數(shù)據(jù)源的數(shù)據(jù)通常有著不同的形式和獲取方法,素材庫可以將各模塊整合,從而支撐其上層應用。
Fig.1 Structure of material database圖1 素材庫結(jié)構(gòu)
計算層是素材庫架構(gòu)的核心部分,包含數(shù)據(jù)收集、處理及信息抽取功能。同時,還可以充當應用層和存儲層數(shù)據(jù)交換的通道,負責應用層到存儲層再到應用層這一過程中的數(shù)據(jù)形式轉(zhuǎn)換和過程控制。
存儲層負責存儲數(shù)據(jù),并為上層應用提供數(shù)據(jù)支撐。本文素材庫是基于知識圖譜結(jié)構(gòu)而構(gòu)建,因此選用圖數(shù)據(jù)庫以實現(xiàn)數(shù)據(jù)持久化。對于不適合放到圖數(shù)據(jù)庫的大型文本而言,可使用外部文件或外鏈的形式存儲數(shù)據(jù)。
應用層負責素材庫具體應用(比如搜索引擎)的實現(xiàn),是最能直觀展現(xiàn)素材庫功能的部分。就課程思政素材庫而言,最常見的功能可能就是搜索引擎,教師可以通過搜索自己任教的課程以搜索與課程相關(guān)的素材和參考資料。除搜索引擎,圖譜可視化也可以作為應用層功能之一。
本體設計指數(shù)據(jù)庫中數(shù)據(jù)類型和數(shù)據(jù)關(guān)系的設計,在知識圖譜中表現(xiàn)為實體和關(guān)系類型的設計。由于課程思政知識圖譜的本體規(guī)模較小,因此可以依靠人工設計完成。本文構(gòu)建素材庫本體結(jié)構(gòu)如圖2所示。
Fig.2 Ontology of material database圖2 素材庫本體設計
本文素材庫主要包含7 種實體:課程、大章節(jié)、小章節(jié)、新聞、人物與企業(yè)、思政論文以及思政課程設計的例子。
課程是課程思政素材庫中的核心實體,無論是課程思政內(nèi)容設計,還是學生上課時的思政教育,都是圍繞課程進行。課程通常有課程—大章節(jié)—小章節(jié)三級結(jié)構(gòu),因此從課程相應介紹中可以提取出課程的大章節(jié)和小章節(jié)。在設計課程思政內(nèi)容時,課程是主題和核心,但思政內(nèi)容與當堂課的大小章節(jié)相關(guān),因此大小章節(jié)在素材庫本體設計中非常必要。
新聞、人物和企業(yè)實體是知識庫的主體,在知識庫的實體中占絕大部分比例。這些實體可以為思政教育提供素材,比如天河一號、神威·太湖之光相關(guān)新聞,姚期智的經(jīng)歷和獲得圖靈獎的故事,美國制裁華為和字節(jié)跳動的事件,都可以作為課程思政的具體內(nèi)容。
課程思政論文和課程思政設計是知識庫的補充,可以作為教師設計課程思政內(nèi)容的指引和參考。二者的區(qū)別在于課程思政設計多為方法論,而思政論文更有助于加深教師對課程思政的理解。
素材庫還設計了實體間的關(guān)系。目前,素材庫中大致可以分為5 種關(guān)系:課程與課程之間的先修課關(guān)系、課程與思政論文/思政指引之間的關(guān)系、課程/大章節(jié)/小章節(jié)與新聞的關(guān)系、課程/大章節(jié)/小章節(jié)與人物和企業(yè)之間的關(guān)系,以及課程與大章節(jié)、大章節(jié)與小章節(jié)之間的關(guān)系。
信息獲取是對本體設計中各實體或關(guān)系類型的實例化,首先獲取各類實體,然后獲取實體間的各種關(guān)系。在本文素材庫中,其過程如圖3所示。
Fig.3 Construction process of curriculum ideology and policies knowledge graph圖3 課程思政知識圖譜構(gòu)建流程
3.2.1 實體獲取方法
(1)課程實體獲取。從中國大學MOOC 網(wǎng)站按學科分類獲取200 多門計算機專業(yè)相關(guān)的課程及其相關(guān)信息。MOOC 上的課程由不同的學校開設,因此存在著重復現(xiàn)象,需要去重,方法分為兩種:手動篩選或文本聚類。手動篩選是人為地挑選出最合適的課程;文本聚類是使用課程的標題、簡介等信息進行課程信息聚類,先使用分詞工具進行分詞(比如python 的jieba 分詞庫),然后將詞語變成詞向量(比如使用one-hot 編碼或一些模型的預訓練向量),最后使用聚類算法(比如K-means算法)對課程進行聚類,最后從每個簇中選取一門合適的課程即可(比如選取課程名最短的課程,或者選取簇中所有課程名字符串的交集,等等)。前者效果更好,但是只適用于小規(guī)模的數(shù)據(jù),由于中國大學MOOC 網(wǎng)站上的計算機相關(guān)課程總量不多,因此在實際構(gòu)建素材庫時采用的是這種方法;依照課程文本聚類去重的方法效果稍次,但是可以擴展到大規(guī)模數(shù)據(jù)。去重后素材庫獲取了60 門不同的課程,獲取課程后,素材庫從每一門課程的課程目錄中抽取出了課程的大章節(jié)和小章節(jié)信息。雖然部分大章節(jié)和小章節(jié)的標題沒有實際意義(比如章節(jié)可能僅僅是“01”、“02”、“第n 講”之類的表示順序的標識),但是它可以表示出課程的結(jié)構(gòu),也有相應的價值,因此本文選擇了保留。大章節(jié)和小章節(jié)的獲取方法如下:由于每一門課程的大章節(jié)形式固定(比如“第n 講”、“第n 周”等),因此當首次匹配到大章節(jié)時,就可以通過正則匹配的方法確定這門課程大章節(jié)的形式,然后沿著課程目錄依次往下遍歷,遍歷到不同形式的文本便是小標題,反之則是大標題,從而確定大小標題以及它們之間的關(guān)系。
(2)素材獲取。從新華網(wǎng)、人民網(wǎng)、中國政府網(wǎng)等10余個網(wǎng)站上,通過HTML 解析等爬蟲技術(shù)獲取新聞數(shù)據(jù)。本文使用兩種方法獲取新聞素材:第一種方法是通過關(guān)鍵詞定向檢索新聞,比如以“人工智能”為關(guān)鍵詞在新聞網(wǎng)站上搜索,其結(jié)果必然大都與“人工智能”課程有關(guān),進而可以收納到素材庫中,但是這種方法的缺點在于關(guān)鍵詞需要通過人工定義,工作量大;第二種方法是通過處理后的課程章節(jié)名稱進行搜索,比如說將小章節(jié)、大章節(jié)和課程名拼接,作為一次搜索的3 個關(guān)鍵詞進行搜索,其結(jié)果相對于第一種方法而言比較雜亂,只有小部分符合思政素材庫的要求。這主要由以下原因造成:在計算機相關(guān)課程中,專業(yè)知識居多,與現(xiàn)實事件相關(guān)的新聞很少,進而導致思政內(nèi)容較少,比如C++課程中的“類”“模板”等幾乎沒有相關(guān)內(nèi)容,但是這種方法可以保證素材覆蓋到絕大部分章節(jié)。獲取新聞時,可以先在第一次爬取的過程中將搜索結(jié)果中所有新聞的標題、鏈接等信息記錄下來,再在第二次爬取中獲取新聞具體內(nèi)容。
(3)課程思政論文和設計實例獲取。從知網(wǎng)、新華思政網(wǎng)上獲取計算機課程的思政設計論文和實例,同樣可以基于HTML 解析和用戶操作模擬的爬蟲技術(shù)實現(xiàn)。從知網(wǎng)上獲取論文也可以用關(guān)鍵詞搜索的方法,由于論文大多都有其相應的關(guān)鍵詞,而且計算機相關(guān)思政論文的關(guān)鍵詞大多包含“計算機”“互聯(lián)網(wǎng)”等字樣,因此只用關(guān)鍵詞搜索便可以獲取到絕大部分論文內(nèi)容,由于論文數(shù)量相比新聞而言更少,因此使用章節(jié)名稱拼接的方法很難搜索到論文。從新華思政網(wǎng)站上獲取思政內(nèi)容設計則比較簡單,只需按照網(wǎng)站課程分類,選取計算機類課程以獲取即可。
(4)課程相關(guān)人物和企業(yè)數(shù)據(jù)獲取。從百度百科上獲取與課程相關(guān)的人物和企業(yè)信息,這些信息可以作為背景知識引入課堂。獲取方法有以下兩種:一是關(guān)鍵詞定向獲取,比如通過“圖靈獎”關(guān)鍵詞,獲取所有獲得過圖靈獎的科學家相關(guān)信息,其優(yōu)點在于獲取的人物信息對課程思政素材庫有價值,但也有其缺點:人工定義關(guān)鍵詞費時費力,且網(wǎng)絡上缺少相關(guān)關(guān)鍵詞的信息或者相關(guān)人物數(shù)據(jù)庫,比如百度百科沒有收納“IEEE 計算機先驅(qū)獎”的名錄;二是通過課程名稱和章節(jié)獲取,與獲取新聞類似,可以通過課程、大章節(jié)和小章節(jié)的名稱在百度百科進行搜索。但與獲取新聞不同的是,搜索章節(jié)名獲取的通常是專業(yè)名詞、書籍等詞條,此時需要在相應詞條的作者、發(fā)明人等信息中獲取其姓名,然后在百度百科中二次搜索。這種做法的優(yōu)點是獲取的人物和企業(yè)信息較多,而且能覆蓋的小章節(jié)更多,缺點是噪聲多,比如有些重復的人名會產(chǎn)生義項,在百度百科上搜索章節(jié)名可能并不會獲取到素材庫想要的信息。
3.2.2 關(guān)系抽取方法
(1)獲取實體后需進行關(guān)系的抽取。課程—大章節(jié)、大章節(jié)—小章節(jié)兩種關(guān)系在抽取實體時就可以直接構(gòu)成聯(lián)系,在遍歷課程目錄時,將遍歷到的小章節(jié)與當前的大章節(jié)構(gòu)成聯(lián)系即可。一些課程信息中包含了先修課程之間的文本信息,需要用命名實體識別(NER)技術(shù)抽取,然后與當前已有的課程對應并構(gòu)成聯(lián)系。識別課程方法有以下兩種:①使用人工定義關(guān)鍵詞的方法在文本中抽取。這種方法準確率高,但是想要得到較高的召回率費時費力,只在小樣本數(shù)據(jù)集上可行;②使用深度學習的方法。由于素材庫的課程數(shù)據(jù)相對太少,因此可以選擇帶有預訓練模型的NER 模型以引入外部知識。在實際構(gòu)建中,本文選取BERT+CRF 的NER 模型,采用關(guān)鍵詞定義的方法,先標定一部分數(shù)據(jù),然后送入模型中進行訓練和識別。經(jīng)統(tǒng)計,這種模型對課程名稱的識別可達到75%~80%的精確率和召回率,在小樣本的情況下可以接受。識別出文本中的課程名后,可以按照判斷識別出來的字符串與課程名稱之間相似度的方法進行實體鏈接,進而產(chǎn)生課程與課程之間的聯(lián)系。
(2)獲取課程、大章節(jié)和小章節(jié)與新聞實體之間的關(guān)系。上文提到兩種獲取新聞的方法:關(guān)鍵詞獲取和章節(jié)名稱獲取。其中,關(guān)鍵詞獲取的新聞可以通過字符串匹配和課程名稱、大章節(jié)和小章節(jié)的名稱匹配進行關(guān)聯(lián),而根據(jù)章節(jié)名稱獲取的新聞則可以直接與關(guān)鍵詞中的實體進行關(guān)聯(lián)。
(3)課程與人物、企業(yè)之間的關(guān)聯(lián)。上文提到兩種獲取人物的方法:關(guān)鍵詞獲取和章節(jié)名稱獲取。其中,關(guān)鍵詞獲取的新聞可以通過字符串匹配與課程名稱、大章節(jié)和小章節(jié)的名稱匹配進行關(guān)聯(lián),而根據(jù)章節(jié)名稱獲取的人物可以直接進行關(guān)聯(lián)。
(4)課程思政論文和實例。論文可以通過其關(guān)鍵詞中的課程建立聯(lián)系,實例則直接與其課程建立聯(lián)系即可。最終素材庫獲得的數(shù)據(jù)規(guī)模如表1所示。
為了檢驗素材庫中思政素材的完整性,確保教師可以從知識庫中獲取相應的素材,本文針對大學計算機基礎(chǔ)課程,依照文獻[18]給出的課程思政設計方案測試庫中素材的覆蓋性。
Table 1 Scale of material database表1 素材庫規(guī)模
文獻[18]圍繞章節(jié)給出的方案大體如下:圍繞“數(shù)據(jù)在計算機中的表示”一節(jié),引導學生進行哲學思維教育;圍繞“計算機硬件系統(tǒng)”引出美國制約華為事件,進而引出芯片技術(shù)的重要性,以激發(fā)學生的愛國意識;針對“計算機軟件系統(tǒng)”,引用習近平總書記有關(guān)于網(wǎng)絡強國的講話進行思政教育;圍繞“操作系統(tǒng)”,倪光南院士的話說明其重要性;針對“辦公軟件”一節(jié),講述一些自主研發(fā)的辦公軟件以增強民族自豪感;圍繞“數(shù)據(jù)管理與信息處理”,講述國產(chǎn)軟件WPS 在該領(lǐng)域的發(fā)展;圍繞“計算機網(wǎng)絡”,講述網(wǎng)絡安全對國家安全的重要性;圍繞“多媒體技術(shù)基礎(chǔ)”,讓學生認識到融合媒體發(fā)展的重要性。
針對以上課程思政設計方案,本文素材庫可以提供以下素材作支撐?!皵?shù)據(jù)在計算機中的表示”沒有提及素材;“計算機硬件系統(tǒng)”一節(jié),素材庫可以提供“‘高通急了’,美國封殺華為‘害人害己’”、“華為芯片斷供‘卡脖子’倒逼攻堅”、“芯片斷供 華為尋路‘滿天星光’”之類的華為、芯片、美方制裁相關(guān)新聞;“計算機軟件系統(tǒng)”一節(jié),素材庫可以提供“向著網(wǎng)絡強國新時代昂首邁進”、“奮力譜寫網(wǎng)絡強國建設新篇章”、“青平:推進網(wǎng)絡強國建設,習總書記這樣說”等新聞和訪談;“操作系統(tǒng)”一節(jié),素材庫中暫時沒有倪光南院士對操作系統(tǒng)重要性的評價,但有關(guān)于操作系統(tǒng)的其他新聞;“辦公軟件”一節(jié),素材庫可以提供很多國產(chǎn)辦公軟件相關(guān)新聞,比如“頭條系內(nèi)部辦公軟件在國內(nèi)及海外分別上線,爭奪辦公場景”、“迎接1024 程序員節(jié)辦公軟件上線‘程序員友好’功能”等;“數(shù)據(jù)管理與信息處理”提及的WPS Office 在素材庫中暫時沒有相關(guān)新聞,但素材庫中有關(guān)于數(shù)據(jù)管理和信息處理的其他新聞;針對“計算機網(wǎng)絡”中提及的網(wǎng)絡安全,素材庫可以提供“加強網(wǎng)絡意識形態(tài)建設維護網(wǎng)絡政治生態(tài)安全”、“掌握新發(fā)展階段切實維護國家網(wǎng)絡安全的密鑰”等材料;針對“多媒體技術(shù)基礎(chǔ)”一節(jié),素材庫可以提供“新基建浪潮奔涌,人工智能·多媒體信息識別技術(shù)大賽逐鹿廈門”、“遵義匯川區(qū)上海路街道多媒體消防教育新體驗”之類的新聞。
綜上,對于大部分思政內(nèi)容,素材庫都可以提供相應的素材;對于少部分無法提供指定素材的思政設計,素材庫也可以提供相關(guān)素材。這說明本文所構(gòu)建的素材庫有其合理性與覆蓋性。
綜上所述,本文提出了一種基于知識圖譜的課程思政素材庫的構(gòu)建方案,并基于該方案構(gòu)建了面向大學計算機基礎(chǔ)課程的課程思政素材庫,從而驗證了方案的可行性與有效性。在本文所提出的方案中,已針對不同類型的數(shù)據(jù)分別設計了數(shù)據(jù)獲取、實體識別和關(guān)系抽取的方法,但尚未進一步完善搜索、問答等內(nèi)容。由于基于知識圖譜構(gòu)建搜索引擎及問答系統(tǒng)屬于領(lǐng)域常規(guī)操作,今后可遷移一套成熟方案繼續(xù)完善素材庫。此外,互聯(lián)網(wǎng)中的思政素材除文本數(shù)據(jù),還有大量的圖片、視頻等數(shù)據(jù)。如何將這些信息進一步融入圖譜,設計并完成多模態(tài)知識圖譜,構(gòu)建全方位的課程思政素材知識庫,則是后續(xù)研究的重點。