劉波
摘? ?要:為了提升專業(yè)知識檢索服務(wù)質(zhì)量、滿足高等院校教學服務(wù)需求,文章提出基于人工智能、自然語言處理等技術(shù)構(gòu)建知識融合模型的方案;利用多源異構(gòu)大數(shù)據(jù)資源,面向高等院校專業(yè)課程,采用知識圖譜與語義擴展搜索等技術(shù)與方法,設(shè)計基于知識圖譜關(guān)聯(lián)導航的教學服務(wù)平臺,為教師與學生獲取精準知識點以及相關(guān)內(nèi)容提供方便。最后介紹模型實現(xiàn)面臨的一些挑戰(zhàn),為專業(yè)課程教學軟件的開發(fā)與升級提供參考。
關(guān)鍵詞:知識融合;教學服務(wù);大數(shù)據(jù);網(wǎng)絡(luò)資源
中圖分類號:G642.0 文獻標志碼:A 文章編號:1673-8454(2021)05-0032-04
一、引言
隨著互聯(lián)網(wǎng)的應用與發(fā)展, 出現(xiàn)了眾多開放式知識數(shù)據(jù)庫和網(wǎng)上教學系統(tǒng),例如維基百科、百度百科、谷歌學術(shù)、慕課(MOOC)以及專業(yè)技術(shù)社區(qū)等等,為高等院校教學提供了豐富的資源。然而,各個知識系統(tǒng)資源沒有互聯(lián)共享,使用戶往往在一個搜索系統(tǒng)中找不到準確﹑完整﹑滿意的結(jié)果,而且通常需要經(jīng)過多個網(wǎng)站深度鏈接搜索才能獲取所需內(nèi)容。因此,為方便用戶充分利用已有的知識庫,提高知識搜索的準確率,有必要整合現(xiàn)有開放的網(wǎng)絡(luò)知識資源,構(gòu)建有效完整的智能搜索知識平臺。
高等院校不僅僅培養(yǎng)學生掌握知識的能力,更重要的是培養(yǎng)學生自主研究學習與創(chuàng)新能力。知識獲取途徑不僅僅是教材,也包括互聯(lián)網(wǎng)中豐富的信息與知識。要想讓學生更好地自主學習,好的課程資源建設(shè)必不可少。[1]目前已經(jīng)搭建了許多知識平臺,并且開始將大數(shù)據(jù)、人工智能等先進技術(shù)應用到了教學平臺的研發(fā)中。[2][3]
本文面向高等院校專業(yè)課程的教學,設(shè)計了一個知識融合與應用模型,對互聯(lián)網(wǎng)知識信息自動抓取、整合,滿足用戶對知識檢索與問答等需求。同時,采用自然語言處理、人工智能等技術(shù),基于開放的知識庫系統(tǒng),實現(xiàn)資源抽取﹑融合與深度挖掘等,為開發(fā)集知識抽取、融合、搜索于一體的教學系統(tǒng)提供參考與支持。
二、網(wǎng)絡(luò)教育資源發(fā)展與存在的問題
近10 年來,眾多國家都在推進“互聯(lián)網(wǎng)+教育”的發(fā)展。中國《國家中長期教育改革和發(fā)展規(guī)劃綱要(2010—2020 年)》明確提出,到2020 年,中國要基本建成較完備的國家級和省級教育基礎(chǔ)信息庫;為落實綱要精神,教育部于2012 年3 月就印發(fā)了《教育信息化十年發(fā)展規(guī)劃(2011—2020年)》,建立“有機銜接的國家級和省級教育管理基礎(chǔ)數(shù)據(jù)庫和信息系統(tǒng)”。2010 年,美國政府啟動了大數(shù)據(jù)計劃,聯(lián)邦教育部隨即發(fā)布了通過教育數(shù)據(jù)挖掘和學習分析促進教與學的報告,并于2013 年啟動實施鏈接教育(Connect ED)計劃,將大數(shù)據(jù)明確為推動教育變革的關(guān)鍵性力量。[4]經(jīng)過多年的研發(fā),不僅出現(xiàn)了諸如百度學術(shù)﹑谷歌學術(shù)﹑維基百科等開放的知識搜索系統(tǒng),還出現(xiàn)了面向各層次教育對象的專業(yè)課程教學系統(tǒng),促進了教學方式的改革,使教師授課和學生學習的方式都發(fā)生了一定的變化。
智能化教學在高等院校已初步展開。[5]教學資源的構(gòu)建是智能化教學系統(tǒng)的基礎(chǔ),當前不僅建立了開放的通用知識庫,還構(gòu)建了面向?qū)I(yè)領(lǐng)域和課程的知識圖譜,利用知識圖譜將相關(guān)概念實體連接起來,可以實現(xiàn)可視化導學并回答學生問題。[6]將人工智能技術(shù)應用于高等院校教師授課、學生個性化學習、效果評價等環(huán)節(jié)中,不僅能改進教學方式,而且還能提高學習效果。[7]
雖然國內(nèi)外在知識平臺研發(fā)方面都取得了一定的成果,達到了較高水平,然而在資源整合與知識搜索方面還存在如下問題:①各個系統(tǒng)資源沒有互聯(lián)共享,知識搜索的準確度不高﹑不全面;缺乏為用戶提供統(tǒng)一搜索多個知識庫資源的接口。②各種知識庫表達方式不同,基于語義的文本內(nèi)容抽取﹑相似度匹配等技術(shù)尚未獲得較好的效果。③專業(yè)知識庫較匱乏,常用知識庫以及搜索系統(tǒng)尚不能面向課程教學提供高質(zhì)量的服務(wù)。④大多數(shù)知識搜索系統(tǒng)僅能提供相關(guān)鏈接服務(wù),不能直接提供與課程相關(guān)內(nèi)容的瀏覽或下載。
總之,網(wǎng)絡(luò)教育資源的建立在各國都發(fā)展迅速,但成果推廣應用的效果不顯著。眾多教學網(wǎng)以及知識庫已經(jīng)建立起來且免費開放,然而這些資源還未在教學中充分發(fā)揮作用,主要原因之一是沒有將各種資源有針對性地整合,不能為教師與學生提供獲取所需知識的有效途徑。本文擬圍繞存在的問題探索知識融合模型以及相關(guān)實現(xiàn)技術(shù)。
三、知識融合系統(tǒng)框架與實現(xiàn)技術(shù)
圖1給出了知識融合系統(tǒng)框架,包括四個層次,各層之間相互傳遞信息。知識源層為開放性數(shù)據(jù)資源、教材、教案等;知識抽取層從知識源抽取知識點(即專業(yè)術(shù)語、概念、定理等)以及相關(guān)知識內(nèi)容,按照課程或領(lǐng)域進行分類,并動態(tài)更新與維護知識內(nèi)容;知識融合與存儲層對知識抽取層獲取的知識內(nèi)容進行存儲,建立文檔索引表,分析知識點之間的關(guān)系,并構(gòu)建知識圖譜;教學應用層即用戶層,面向教師與學生,提交知識檢索詞或問題,從知識融合層的文檔庫與知識圖譜獲取結(jié)果,并推薦學習內(nèi)容等。
在知識系統(tǒng)構(gòu)建過程中,教師承擔知識源的選擇、管理、分類、知識庫創(chuàng)建與維護等基礎(chǔ)工作,針對一門課程,教師團隊的工作流程如圖2所示。
1.知識來源
隨著越來越多開放資源的出現(xiàn),當代大學生學習方式正在悄然改變,許多學生在課后遇到課程問題時,不是直接翻閱教材或PPT,而是上網(wǎng)尋求答案,這樣不僅便利而且學習效率更高。一些課程的內(nèi)容需要不斷更新并引入最新的前沿知識,甚至需要其他交叉學科的知識。然而教材已不能滿足創(chuàng)新研究的需求,教材更新遠滯后于新技術(shù)的發(fā)展。例如,綜觀計算機的發(fā)展史,計算速度越來越快,貯存容量越來越大,操作系統(tǒng)功能越來越豐富,然而計算機組成原理、操作系統(tǒng)等相關(guān)課程的教材內(nèi)容不會隨著新的技術(shù)出現(xiàn)馬上修訂。
互聯(lián)網(wǎng)絡(luò)是當今最快的新技術(shù)獲取途徑,教師和學生都可以從中獲得最新的專業(yè)知識,及時補充教材內(nèi)容。因此,不論的是針對學生還是教師,傳統(tǒng)的紙質(zhì)教材已經(jīng)不能滿足他們學習或授課的需要,教師需要對教學計劃與內(nèi)容不斷更新或調(diào)整,學生需要從開放的教學資源中吸取教材之外的知識。在圖1中,知識源層是動態(tài)更新的,既可以增加新的知識源,又可以刪減已有的知識源。
2.知識抽取
互聯(lián)網(wǎng)中豐富的數(shù)據(jù)給人們的工作、學習提供了極大的幫助,但是數(shù)據(jù)量大并不一定意味著數(shù)據(jù)價值的增加,相反往往意味著數(shù)據(jù)噪聲、沖突、不完整數(shù)據(jù)的增多,不能保證信息的真實可靠性。此外,數(shù)據(jù)集成還會產(chǎn)生諸如重復、沖突、不一致等問題,而且知識源多源異構(gòu)、動態(tài)增長、先有數(shù)據(jù)后有模式,使知識抽取管理與技術(shù)上均存在較大困難。
智能化技術(shù)與人工控制相結(jié)合是解決知識抽取問題的有效方案。教師在教學過程中仍是課程內(nèi)容篩選的主要角色,相當于充當了知識源的過濾器,指定知識抽取來源,給出準確有用的信息供學生學習。但是,面向眾多信息源以及電子文獻,僅靠教師手工處理工作量大、效率低,可以應用如下技術(shù)提高工作效率。
(1)爬蟲技術(shù)。網(wǎng)絡(luò)爬蟲是一個自動提取網(wǎng)頁的程序,從一個或若干初始網(wǎng)頁的URL開始,獲得初始網(wǎng)頁上的URL,在抓取網(wǎng)頁的過程中,不斷從當前頁面上抽取新的URL放入隊列,直到滿足系統(tǒng)的一定停止條件。專業(yè)知識的爬取可采用聚焦網(wǎng)絡(luò)爬蟲(Focused Crawler),是指選擇性地爬行那些與預先定義好的主題相關(guān)頁面的網(wǎng)絡(luò)爬蟲,可以滿足獲取特定專業(yè)信息的需求。[8]專業(yè)課教師提交初始網(wǎng)址、專業(yè)課程名以及相關(guān)的主題詞,接著可以采用基于文本相似度計算、鏈接結(jié)構(gòu)評價、語義擴展、機器學習等策略,識別相關(guān)的網(wǎng)頁內(nèi)容,最后由專業(yè)教師篩選。
(2)預處理技術(shù)。由于信息來源廣泛,不同來源的數(shù)據(jù)關(guān)系復雜,存在結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化等形式多樣的數(shù)據(jù),需要對抽取的數(shù)據(jù)進行錯誤、重復、沖突、不一致檢測,并定義質(zhì)量規(guī)則進行處理,規(guī)范數(shù)據(jù)表示與存儲模式。
(3)分類技術(shù)。針對每一門課程,借助語義詞典、領(lǐng)域本體庫等,計算所爬行的頁面、電子文獻,以及電子教案等與主題詞之間的相關(guān)度,將相關(guān)度高的歸為相應主題詞的類別。[9]
(4)增量維護技術(shù)。一方面知識源由教師團隊定期增加或刪減;另一方面,采用增量式網(wǎng)絡(luò)爬取方法,對已下載網(wǎng)頁內(nèi)容采取增量式更新。
3.知識融合與存儲
將從各種資源抽取的知識內(nèi)容存儲在文檔庫中,同時,根據(jù)知識抽取層獲取的分類結(jié)果,針對每一門課程,構(gòu)建所抽取的知識索引表。索引表中一條記錄包含一個主題以及一個指向?qū)儆谥黝}類別的文檔列表指針,文檔列表可以按照主題詞的相關(guān)度排序,這樣能夠加快文檔檢索的速度。
另外,構(gòu)建課程知識圖譜能夠?qū)⒅R點關(guān)聯(lián)起來,實現(xiàn)學習路徑的導航。在教學中,教師往往在講解一個知識點(涉及主題、概念、原理等,下面統(tǒng)稱為實體)時需要介紹相關(guān)背景知識,因為許多知識點之間不是獨立的,相互之間存在因果、依賴、關(guān)聯(lián)、先后順序等關(guān)系。知識圖譜是一種圖的數(shù)據(jù)結(jié)構(gòu),本質(zhì)上知識圖譜在描述現(xiàn)實世界中各種實體及其相互間的關(guān)系時,形成一個巨大的語義網(wǎng)絡(luò)圖,實體用節(jié)點表示,屬性或關(guān)系則是用邊來表示。知識圖譜對應的知識庫可以表示為三元組的集合,常用neo4j圖形數(shù)據(jù)庫存儲。三元組的基本形式主要為“實體-關(guān)系-實體”和“實體-屬性-屬性值”,實體、關(guān)系以及屬性,可從文本(電子教案、網(wǎng)絡(luò)資源等)中抽取,同時由教師補充與修正。圖3展示了數(shù)據(jù)結(jié)構(gòu)課程的知識圖譜中一小部分實體及其相互之間的關(guān)系。
4.教學應用
教學應用層面向廣大師生,提供知識檢索、學生學習與記錄、教學內(nèi)容推薦、知識問答以及評估分析等功能,使師生能夠方便地對融合后的知識庫(文檔庫、知識圖譜、網(wǎng)課等)內(nèi)容進行查詢、提問,快速準確地返回結(jié)果與答案。為了實現(xiàn)這些功能,可以采用如下技術(shù)支持。
(1)查詢擴展技術(shù)。由于在自然語言中一詞多義、多詞同義的現(xiàn)象普遍存在,準確地評估檢索詞與候選文檔之間匹配程度是影響返回結(jié)果準確性的關(guān)鍵點。采用查詢擴展技術(shù),即對查詢或問題語句進行語義分析,借助開放的語義資源(如同義詞詞典)擴充查詢詞,由此在索引表中可以匹配更多的主題詞,從資源庫中搜索結(jié)果,抽取答案候選集,并根據(jù)結(jié)果候選集文檔與主題評分進行排序,反饋給師生選擇。
(2)深度學習技術(shù)。對于問答功能的實現(xiàn),目前較多研究工作采用深度學習方法,通過卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)提取問題文本向量多粒度的抽象特征,獲取更高層的語義信息;[10]基于Attention機制的深度學習模型對候選結(jié)果集進行相關(guān)度排序,以供提問者參考。
(3)學習內(nèi)容推薦技術(shù)。對于學生的每一次搜索與提問,系統(tǒng)會記錄下來,教師可以從學生學習記錄中了解學生學習興趣以及學習進度,為個性化教學、推薦學習內(nèi)容提供依據(jù)。此外,知識圖譜也是智能化推薦學習的重要依據(jù),根據(jù)檢索詞與從問題中抽取的關(guān)鍵詞,在知識圖譜中可以通過關(guān)系獲得與它們相關(guān)聯(lián)的實體,推薦給學生擴展學習。
(4)評估分析。對學生每一次的提問與問答結(jié)果的瀏覽選擇順序進行記錄,一方面,積累數(shù)據(jù),挖掘搜索詞之間的關(guān)聯(lián)性,增強深度學習模型的訓練能力;另一方面,分析學生對知識的掌握情況,統(tǒng)計頻度高的問題,使教師了解學生學習過程中的難點。
四、知識融合模型實現(xiàn)面臨的挑戰(zhàn)
目前,我們已經(jīng)面向計算科學技術(shù)專業(yè)的基礎(chǔ)課程開展了知識抽取與處理工作,并同時構(gòu)建知識圖譜。下一步的工作是基于所提出的知識融合模型開發(fā)集知識整合、搜索、推薦與問答于一體的教學平臺,這是一個較大的系統(tǒng)工程,面臨如下挑戰(zhàn):
(1)知識選擇與處理的工作量。雖然可以利用爬蟲、自然語言處理等技術(shù)從網(wǎng)絡(luò)、文檔中自動抽取大量與專業(yè)課程相關(guān)的文檔、主題、概念、原理等,但專業(yè)教師的手工處理工作量還是很大。首先,需要制定知識源,負責創(chuàng)建知識庫元信息,包括知識來源、類型、結(jié)構(gòu)等描述說明;其次,需要篩選知識點與主題,確定知識圖譜中實體之間的關(guān)聯(lián)關(guān)系,定義實體的屬性;最后,還需要定期增量更新知識源與知識庫等。
(2)知識檢索或問答的準確率。知識檢索結(jié)果的準確性是衡量教學平臺質(zhì)量的主要依據(jù),一方面依賴于知識庫本身篩選的質(zhì)量;另一方面依賴查詢語句與文檔之間的匹配算法,不同于傳統(tǒng)的檢索詞匹配方法,需要解決語義相似度以及知識關(guān)聯(lián)性問題,獲得全面且準確的問答結(jié)果面臨較大的困難。
(3)教學內(nèi)容推薦的精準性。借助智能化技術(shù),根據(jù)學生最近瀏覽檢索的內(nèi)容以及所提出的問題,可以挖掘與分析學生對哪些主題感興趣、哪些知識點掌握了、存在哪些疑難問題等,從而針對學生的具體情況,給學生推薦相關(guān)學習內(nèi)容。然而,為了獲得學生的具體學習情況,需要學生及時反饋,不斷積累學習過程訓練集。因此,用戶數(shù)量以及使用數(shù)據(jù)的積累是精準推薦的重要因素,需要在知識融合系統(tǒng)應用一段時間后才能初見成效。
五、結(jié)語
本文研究了面向高等教育的知識融合模型,根據(jù)知識源具有多源性、實時性和復雜性等特點,利用自然語言處理、人工智能等技術(shù)挖掘互聯(lián)網(wǎng)中豐富且可靠的資源,將它們與傳統(tǒng)的教材、PPT、電子文檔等相融合;設(shè)計了適合大學生專業(yè)課程學習的平臺,該平臺包括知識源層、知識抽取層、知識融合與存儲層、教學實施層,并對各層功能進行闡述,探索了相關(guān)實現(xiàn)技術(shù)??傊?,實現(xiàn)面向高等教育的知識融合系統(tǒng)需要將智能化技術(shù)與專業(yè)教師的手工處理工作相結(jié)合,才能使大數(shù)據(jù)真正為教學服務(wù),推進網(wǎng)上教育的持續(xù)發(fā)展。
參考文獻:
[1]賀子彧.高校教學資源整合平臺建設(shè)的探索與研究[J].中國教育信息化,2020(13):53-56.
[2]Chassignol M,Khoroshavin A,Klimova A,et al.Artificial intelligence trends in education: a narrative overview[J].Procedia Computer Science,2018(136):16-24.
[3]趙慧臣,馬佳雯,張娜鈺.人工智能支持下的教學設(shè)計框架與實施[J].中國教育信息化,2020(13):7-13.
[4]王正青,徐輝.大數(shù)據(jù)時代美國的教育大數(shù)據(jù)戰(zhàn)略與實施[J].教育研究,2018(2):120-126.
[5]李家樂.淺談人工智能與電子信息技術(shù)在教育中的應用[J].教育現(xiàn)代化,2019(38): 243-244.
[6]Deng Y,Lu D,Huang D,et al.Knowledge graph based learning guidance for cybersecurity hands-on labs[C].Proceedings of 2019 ACM Global Computing Education Conference.USA:ACM,2019:194-200.
[7]Xia P.Application scenario of artificial intelligence technology in higher education[C].Proceedings of 2019 International Conference on Applications and Techniques in Cyber Intelligence. Switzerland:Springer Nature,2019:221-226.
[8]李東暉,廖曉蘭,范輔橋,黃九鳴等.一種主題知識自增長的聚焦網(wǎng)絡(luò)爬蟲[J].計算機應用與軟件,2014(5):29-33,88.
[9]張芳芳,曹興超.基于字面和語義相關(guān)性匹配的智能篇章排序[J].山東大學學報(理學版), 2018,53(3):46-53.
[10]Peng Y X,Liu B.Attention-based neural network for short-text question answering[C].Proceedings of 2018 International Conference on Deep Learning Technologies.USA:ACM,2018:21-26.
(編輯:王天鵬)