陳薈 鄧暉 吳道婷
摘 ? 要:近幾年,學(xué)科知識圖譜成為知識可視化領(lǐng)域的研究熱點(diǎn)。文章提出基于自然語言處理建立教學(xué)設(shè)計(jì)學(xué)科知識圖譜,為該學(xué)科課程教學(xué)實(shí)踐提供理論材料,同時也豐富學(xué)科知識圖譜在教育領(lǐng)域的應(yīng)用實(shí)踐。首先采用基于字典的機(jī)器學(xué)習(xí)算法進(jìn)行知識實(shí)體抽取,采用混合式實(shí)體關(guān)系抽取模型抽取非分類關(guān)系和學(xué)科行為動詞關(guān)系,豐富關(guān)系類型;然后對抽取的知識信息進(jìn)行實(shí)體對齊和實(shí)體消歧;最后在“Neo4j”可視化平臺上實(shí)現(xiàn)了教學(xué)設(shè)計(jì)學(xué)科知識圖譜的可視化。
關(guān)鍵詞:知識圖譜;教學(xué)設(shè)計(jì);自然語言處理
中圖分類號:TP391 文獻(xiàn)標(biāo)志碼:A 文章編號:1673-8454(2020)07-0015-05
一、引言
學(xué)科知識圖譜是一系列用來展示學(xué)科知識組織結(jié)構(gòu)和內(nèi)在邏輯的圖形,屬于垂直領(lǐng)域知識圖譜的一個領(lǐng)域。至今國內(nèi)外對學(xué)科知識圖譜研究主要有音樂MusicBrainz[1]、地理GeoNames[2]、計(jì)算機(jī)科學(xué)等領(lǐng)域。教學(xué)設(shè)計(jì)作為教育技術(shù)專業(yè)的核心課程、免費(fèi)師范生的教育必修課程,逐漸成為教育教學(xué)領(lǐng)域不可或缺的學(xué)科,有必要構(gòu)建教學(xué)設(shè)計(jì)學(xué)科知識圖譜,提高教學(xué)設(shè)計(jì)學(xué)科的教與學(xué)質(zhì)量。教學(xué)設(shè)計(jì)學(xué)科知識圖譜可以幫助廣大教育領(lǐng)域?qū)W習(xí)者梳理教學(xué)設(shè)計(jì)學(xué)科知識關(guān)系,更高效地學(xué)習(xí)教學(xué)設(shè)計(jì)學(xué)科,同時也為知識管理與可視化提供了一種可能,為教學(xué)設(shè)計(jì)學(xué)習(xí)推薦系統(tǒng)、自動問答系統(tǒng)等研究的知識庫基礎(chǔ)系統(tǒng)。
學(xué)科知識圖譜的建構(gòu)主要有自底向上的學(xué)科知識圖譜建構(gòu)和自頂向下基于本體的學(xué)科知識圖譜建構(gòu)[3],大多研究采用自底向上的建構(gòu)方法。目前學(xué)科知識圖譜的構(gòu)建研究還存在一些問題:基于依存句法模式匹配實(shí)體關(guān)系抽取精度還有待提高等[4];目前大多數(shù)研究的學(xué)科知識圖譜實(shí)體關(guān)系為“匿名關(guān)系”或簡單的分類關(guān)系,關(guān)系抽取實(shí)體關(guān)系種類不夠豐富,導(dǎo)致學(xué)科知識關(guān)系查全率較低[5];因此有必要對學(xué)科知識圖譜搭建中的“非匿名”關(guān)系抽取進(jìn)行深入研究,進(jìn)而提高學(xué)科知識圖譜的精確度。
本文將基于自然語言處理技術(shù),采用自底向上的學(xué)科知識圖譜構(gòu)建方法進(jìn)行教學(xué)設(shè)計(jì)學(xué)科知識圖譜的構(gòu)建實(shí)驗(yàn)研究。重點(diǎn)搭建教學(xué)設(shè)計(jì)學(xué)科詞典,提高教學(xué)設(shè)計(jì)文本分析處理的準(zhǔn)確度,并提出混合式實(shí)體關(guān)系模型抽取非分類關(guān)系和學(xué)科行為動詞關(guān)系兩類學(xué)科知識關(guān)系,解決“非匿名”關(guān)系抽取難的問題,進(jìn)而提高學(xué)科知識圖譜精準(zhǔn)度。教學(xué)設(shè)計(jì)學(xué)科知識圖譜構(gòu)建的具體步驟包括:基于bootstrapping算法進(jìn)行詞頻統(tǒng)計(jì),進(jìn)而搭建教學(xué)設(shè)計(jì)學(xué)科詞典;利用相關(guān)算法分析抽取出教學(xué)設(shè)計(jì)學(xué)科知識實(shí)體,并提出混合式實(shí)體關(guān)系模型抽取非分類關(guān)系和學(xué)科行為動詞關(guān)系,對教學(xué)設(shè)計(jì)學(xué)科領(lǐng)域知識實(shí)體及知識實(shí)體關(guān)系進(jìn)行修正和擴(kuò)充;對數(shù)據(jù)進(jìn)行融合,最終可視化完成教學(xué)設(shè)計(jì)知識圖譜搭建。(見圖1)
二、數(shù)據(jù)來源和研究方法
1.數(shù)據(jù)來源
為了建立高質(zhì)量的學(xué)科知識圖譜,知識數(shù)據(jù)需滿足以下要求:①數(shù)據(jù)與該學(xué)科相關(guān)度高;②知識來源可靠,來自著名期刊或權(quán)威出版社;③在該學(xué)科領(lǐng)域公認(rèn)度較高?;谶@三個原則,最終選擇中國國家圖書館、CADAL數(shù)字圖書館網(wǎng)站相關(guān)度高的書籍文獻(xiàn)作為數(shù)據(jù)來源,使用Python爬取教學(xué)設(shè)計(jì)的書籍文獻(xiàn)和各個學(xué)科教案;由于數(shù)據(jù)來源不同,需對這些原始數(shù)據(jù)進(jìn)行去重,并對所有文本進(jìn)行余弦相似度計(jì)算,去除相似度較低學(xué)科無關(guān)書籍文獻(xiàn),文本預(yù)處理除去不相關(guān)字符,最終得到45個待處理的原始文本數(shù)據(jù)和36份各學(xué)科教案。此外,選擇在線教育資源信息中心(ERIC)數(shù)據(jù)庫中的教育領(lǐng)域<教育過程:課堂觀點(diǎn)>和<學(xué)習(xí)和感知>詞數(shù)據(jù)庫關(guān)鍵詞(共計(jì)228詞)作為初始教學(xué)設(shè)計(jì)學(xué)科詞典。
2.研究方法與工具
本文主要采用詞頻統(tǒng)計(jì)法和自然語言處理法進(jìn)行教學(xué)設(shè)計(jì)知識圖譜搭建的實(shí)驗(yàn)研究。利用相關(guān)算法分析抽取出教學(xué)設(shè)計(jì)學(xué)科知識實(shí)體,并提出混合式實(shí)體關(guān)系模型抽取非分類關(guān)系和學(xué)科行為動詞關(guān)系,對教學(xué)設(shè)計(jì)學(xué)科領(lǐng)域知識實(shí)體及知識實(shí)體關(guān)系進(jìn)行修正和擴(kuò)充。研究工具方面,分別采用anaconda Spyder的jieba庫和Word2Vec庫進(jìn)行相關(guān)數(shù)據(jù)處理和抽取,最終使用neo4j可視化平臺進(jìn)行教學(xué)設(shè)計(jì)學(xué)科知識圖譜可視化。
三、教學(xué)設(shè)計(jì)學(xué)科知識詞典的構(gòu)建
基于Bootstrapping算法思想,選擇jieba分詞最大匹配規(guī)則作為訓(xùn)練分類器,對獲取的教學(xué)設(shè)計(jì)知識數(shù)據(jù)進(jìn)行訓(xùn)練,訓(xùn)練結(jié)果進(jìn)行詞頻統(tǒng)計(jì),高頻詞匯進(jìn)行詞向量相似度計(jì)算,選擇置信度高的詞匯加入初始教學(xué)設(shè)計(jì)學(xué)科詞典,迭代此過程直到無新詞生成或數(shù)據(jù)處理完畢,形成教學(xué)設(shè)計(jì)學(xué)科知識詞典。
考慮到當(dāng)某個詞比較少見,但它在語料庫中出現(xiàn)次數(shù)較多,那么它很有可能反映了該語料的特征,即不同詞匯在同樣高頻的情況下其重要性是不同,故采用TF_IDF文檔頻率進(jìn)行高頻關(guān)鍵詞的計(jì)算,其公式為:
TF_IDF=■·log(■)(1)
其中TS為某詞在某個語料中出現(xiàn)的次數(shù),MTS為語料中出現(xiàn)次數(shù)最多的詞的出現(xiàn)次數(shù),DS為語料庫的文檔總數(shù),IDS為包含某個詞匯的文檔樹。
用36份學(xué)科教學(xué)設(shè)計(jì)案例進(jìn)行分詞檢驗(yàn)教學(xué)設(shè)計(jì)學(xué)科詞典的正確性,將教學(xué)設(shè)計(jì)學(xué)科詞典中沒有的高頻詞典加入補(bǔ)充進(jìn)學(xué)科詞典。最終獲得668個教學(xué)設(shè)計(jì)學(xué)科詞匯,將其保存為“TXT”文件,加入jieba的用戶詞典路徑中完成教學(xué)設(shè)計(jì)學(xué)科詞典的搭建。
四、教學(xué)設(shè)計(jì)學(xué)科知識實(shí)體抽取
知識實(shí)體抽取是指采用自然語言處理技術(shù)從學(xué)科知識數(shù)據(jù)源中抽取識別與知識主題相關(guān)的知識詞匯,基于學(xué)科字典的處理和機(jī)器學(xué)習(xí)相結(jié)合的抽取方法一定程度上可以提高實(shí)體識別的精度[6]。為了得到全局的最優(yōu)實(shí)體集解,選擇條件隨機(jī)場(CRF)機(jī)器學(xué)習(xí)模型[7],結(jié)合教學(xué)設(shè)計(jì)學(xué)科詞典對文本數(shù)據(jù)進(jìn)行教學(xué)設(shè)計(jì)學(xué)科詞匯特征學(xué)習(xí)。
對教學(xué)設(shè)計(jì)學(xué)科詞典進(jìn)行特征格式轉(zhuǎn)化,提取詞匯特征,形成的詞典特征集合加入訓(xùn)練語料進(jìn)行訓(xùn)練得到識別模型,利用得到的識別模型迭代標(biāo)記測試語料完成教學(xué)設(shè)計(jì)學(xué)科實(shí)體識別,最終得到教學(xué)設(shè)計(jì)學(xué)科知識實(shí)體145個。(見表1)
五、教學(xué)設(shè)計(jì)學(xué)科實(shí)體關(guān)系抽取
學(xué)科實(shí)體關(guān)系抽取是指利用信息抽取技術(shù)從學(xué)科文本數(shù)據(jù)中抽取實(shí)體之間的關(guān)系,是學(xué)科知識圖譜搭建的一個重要環(huán)節(jié)。大眾語義關(guān)系類型主要分為分類關(guān)系和非分類關(guān)系,目前大多數(shù)研究都集中在對外文本非分類關(guān)系的抽取[8]。本研究主要抽取學(xué)科知識的非分類關(guān)系,同時考慮到學(xué)科的特定領(lǐng)域性,抽取學(xué)科行為關(guān)系完善學(xué)科實(shí)體關(guān)系類型。
常見的非分類關(guān)系的抽取方法為模式匹配法、動詞中心度量法、關(guān)聯(lián)發(fā)現(xiàn)法。模式匹配法源于Hearst匹配方法,它使用正則表達(dá)式表示相應(yīng)概念關(guān)系[9],是較為常見的非分類關(guān)系抽取方法。隨著機(jī)器學(xué)習(xí)的不斷發(fā)展,根據(jù)是否對語料進(jìn)行人工標(biāo)注將其分為有監(jiān)督、半監(jiān)督和無監(jiān)督的領(lǐng)域概念間關(guān)系抽取方法[10]。各非分類關(guān)系抽取方法的優(yōu)缺點(diǎn)如表2所示。
基于以上語義關(guān)系抽取方法的比對,為了得到準(zhǔn)確的非匿名學(xué)科領(lǐng)域語義關(guān)系,本文提出混合式實(shí)體關(guān)系模型,如圖2所示,其主要包括:基于模式匹配的關(guān)系語料庫非分類關(guān)系語抽取、基于動詞度量的學(xué)科行為動詞關(guān)系抽取。
1.基于模式匹配的教學(xué)設(shè)計(jì)學(xué)科非分類關(guān)系語料庫搭建
結(jié)合對語義關(guān)系以及學(xué)科知識的常見語義關(guān)系模式集的研究,確定了常見的7種模式關(guān)系,如整部關(guān)系、特征關(guān)系等;窮舉出已知的具有該關(guān)系的句式結(jié)構(gòu)。依據(jù)Hearst的理論,模式應(yīng)當(dāng)滿足發(fā)生頻率高、模式準(zhǔn)確、模式易于識別等要求[11]。關(guān)系語料庫如表3所示。
使用教學(xué)設(shè)計(jì)學(xué)科詞典對文本進(jìn)行分詞,將語義關(guān)系模式集轉(zhuǎn)化為正則表達(dá)集對文本的關(guān)系匹配;使用學(xué)科詞典組成分詞詞典的jieba分詞得到帶有標(biāo)記的語料集合;最后使用語義關(guān)系正則模式集匹配帶有標(biāo)記的語料集合得到模式匹配的非分類關(guān)系概念對集。
由于教學(xué)設(shè)計(jì)學(xué)科知識體系繁雜龐大,且知識間結(jié)構(gòu)化的程度參差不齊,難以快速處理大量學(xué)科知識文本數(shù)據(jù)并分辨出較為準(zhǔn)確的學(xué)科專業(yè)知識。受到郭芳[12]等人的啟發(fā),采用小文本數(shù)據(jù)分析處理得到教學(xué)設(shè)計(jì)學(xué)科知識子圖知識實(shí)體關(guān)系,通過關(guān)系融合策略形成最終的教學(xué)設(shè)計(jì)學(xué)科知識圖譜。
2.基于詞度量的學(xué)科行為動詞關(guān)系庫搭建
學(xué)科行為關(guān)系詞是指在特定學(xué)科領(lǐng)域中代表重要含義或?qū)W科專業(yè)行為表征的關(guān)系動詞或名詞。為了更好的描述教學(xué)設(shè)計(jì)各個實(shí)體之間的具體關(guān)系,使建立的教學(xué)設(shè)計(jì)學(xué)科知識圖譜具備教學(xué)設(shè)計(jì)學(xué)科性,本研究通過抽取典型的教學(xué)設(shè)計(jì)學(xué)科行為動詞來構(gòu)建教學(xué)設(shè)計(jì)學(xué)科知識圖譜的學(xué)科行為關(guān)系。
采用AE度量動詞關(guān)系抽取算法抽取學(xué)科行為動詞。該算法通過統(tǒng)計(jì)兩個實(shí)體出現(xiàn)在同一句內(nèi)時伴隨出現(xiàn)的動詞N的頻率來度量動詞關(guān)系,計(jì)算公式如下:
AE(■)=■(2)
通過對教學(xué)設(shè)計(jì)學(xué)科文本進(jìn)行動詞分析,詞長度為1的“看”、“聽”、“分”等不能表達(dá)出準(zhǔn)確的學(xué)科領(lǐng)域知識關(guān)系,故只保留AE動詞度量法識別結(jié)果中的長度大于等于2的行為動詞。去除大眾語義通用詞,使用Word2Vec工具對包含這些動詞的語料進(jìn)行詞向量訓(xùn)練和聚類擴(kuò)充,最后對聚類集合進(jìn)行篩選,得到學(xué)科詞關(guān)系實(shí)體集。其算法描述如圖3所示。
通過多輪調(diào)整閾值的取值,當(dāng)獲得的行為動詞組與教學(xué)設(shè)計(jì)學(xué)科的相似度均值最大時,則此行為動詞組為最終的教學(xué)設(shè)計(jì)行為動詞關(guān)系組。最終獲得了“分析”、“設(shè)計(jì)”、“開發(fā)”、“實(shí)施”、“評價(jià)”這五種教學(xué)設(shè)計(jì)行為動詞關(guān)系。
六、教學(xué)設(shè)計(jì)學(xué)科知識數(shù)據(jù)融合
知識融合是針對不同源數(shù)據(jù)中獲取的實(shí)體及實(shí)體關(guān)系進(jìn)行融合過濾的過程,知識融合包括實(shí)體消歧和實(shí)體對齊[13]。
基于DeKang Lin[14]的共性語義相似度算法,提出VMI算法[15]進(jìn)行知識的融合。VMI算法使用向量空間模型表示實(shí)體的描述信息,TF-IDF為每個分量設(shè)置權(quán)重,并為分量向量建立倒排索引,最后選擇余弦相似性函數(shù)計(jì)算它們的相似度,其公式為:
Sim(is,it)=■(3)
經(jīng)過數(shù)據(jù)預(yù)處理后,得到有效的知識關(guān)系集合;借助鄰接矩陣運(yùn)算構(gòu)建知識關(guān)系融合策略,將知識關(guān)系轉(zhuǎn)化為鄰接矩陣形式(EK),其元素定義如下:
EK[i][j]=R,(ei,j∈Gk)∩(vj∈V0)∩(vj∈V0)0,ei,j?埸Gk,
R=整部 ? 同義 ? 開發(fā) ? 設(shè)計(jì) ? r1 ? ? ? r2 ? ? ? r9 ? ? ? r10(4)
式中,如果Gk中包含邊ei,j,則在其鄰接矩陣式Ek[i][j]中的值為對于關(guān)系在關(guān)系矩陣中的值,反之則值為0。如圖4所示。
七、 教學(xué)設(shè)計(jì)學(xué)科知識圖譜存儲與可視化
本研究使用neo4j圖形數(shù)據(jù)庫存儲、Cypher編譯進(jìn)行學(xué)科知識圖譜可視化。將融合后的知識實(shí)體和實(shí)體關(guān)系寫入到nodes.csv和relationship.csv文件中,其中nodes文件包含實(shí)體ID和實(shí)體名稱兩個鍵,relationship文件中包含實(shí)體ID和實(shí)體關(guān)系兩個鍵,其中實(shí)體ID需與nodes文件的對應(yīng)實(shí)體ID一致。將文件導(dǎo)入至neo4j數(shù)據(jù)庫中,最終得到教學(xué)設(shè)計(jì)的學(xué)科知識圖譜,如圖5所示。
八、結(jié)束語
本文提出了基于自然語言處理的教學(xué)設(shè)計(jì)學(xué)科知識圖譜的構(gòu)建方法,并以教學(xué)設(shè)計(jì)學(xué)科文獻(xiàn)作為數(shù)據(jù)對其進(jìn)行知識圖譜的構(gòu)建及可視化。在教學(xué)設(shè)計(jì)學(xué)科知識圖譜構(gòu)建的過程中,本文提出了混合式實(shí)體關(guān)系模型,抽取非分類關(guān)系和學(xué)科行為動詞關(guān)系兩類學(xué)科知識關(guān)系,解決了學(xué)科知識圖譜構(gòu)建中抽取“非匿名”關(guān)系的難題,進(jìn)而提高了教學(xué)設(shè)計(jì)學(xué)科知識圖譜的精準(zhǔn)度。與此同時,教學(xué)設(shè)計(jì)學(xué)科知識圖譜在一定程度上可以幫助教師在教學(xué)中更系統(tǒng)、更科學(xué)的組織教學(xué)內(nèi)容的編排;同時教學(xué)設(shè)計(jì)學(xué)科知識圖譜也為學(xué)生的知識結(jié)構(gòu)化整理提供參考,幫助學(xué)生將離散碎片化的知識進(jìn)行歸納總結(jié),從而提高教學(xué)質(zhì)量和學(xué)生的學(xué)習(xí)效率。最后教學(xué)設(shè)計(jì)學(xué)科知識圖譜還可作為教學(xué)設(shè)計(jì)學(xué)習(xí)推薦系統(tǒng)、自動問答系統(tǒng)等研究的知識數(shù)據(jù)庫基礎(chǔ),進(jìn)而進(jìn)行更為廣泛的運(yùn)用研究。
參考文獻(xiàn):
[1]Swartz A. Musicbrainz. A semantic web service[J]. IEEE Intelligent Systems, 2002,17(1):76-77.
[2]Goodwin J, Dolbear C, Hart G. Geographical Linked Data: The Administrative Geography of Great Britain on the Semantic Web[J]. Transactions in GIS, 2008,12(Supplement s1):19-30.
[3]Iannacone M, Bohn S, Nakamura G, et al. Developing an Ontology for Cyber Security Knowledge Graphs[J].2015:1-4.
[4]王良萸.基于web數(shù)據(jù)的碳交易領(lǐng)域知識圖譜構(gòu)建研究[D].安徽:安徽工業(yè)大學(xué),2018.
[5]邢立棟.面向特定領(lǐng)域的知識圖譜構(gòu)建技術(shù)研究與應(yīng)用[D].北京:北京化工大學(xué),2018.
[6]Prasad G, Fousiya K K, Kumar M A, et al. Named Entity Recognition for Malayalam language: A CRF based approach[C].International Conference on Smart Technologies & Management for Computing. IEEE, 2015.
[7]Serra I, Girardi R, Novais P. The Problem of Learning Non-taxonomic Relationships of Ontologies from Text[J]. International Journal of Semantic Computing, 2013,6(4).
[8]梁吉震.基于領(lǐng)域概念知識的非分類關(guān)系學(xué)習(xí)研究[D].吉林:吉林大學(xué),2012.
[9]劉雅夢.基于詞向量的基礎(chǔ)教育資源領(lǐng)域概念及關(guān)系抽取研究[D].湖北:武漢理工大學(xué),2015.
[10]王舒琪,馮曉,張樹武等.面向領(lǐng)域概念的語義關(guān)系抽取方法[J].中國傳媒大學(xué)學(xué)報(bào),2017(3):34-40.
[11]Hearst, Marti A .Automatic acquisition of hyponyms from large text corpora [J].1992(2):539.
[12]郭芳.基于眾包的教育知識圖譜構(gòu)建與研究[D].鄭州:鄭州大學(xué),2017.
[13]郝偉學(xué).中醫(yī)健康知識圖譜的構(gòu)建研究[D].北京:北京交通大學(xué),2017.
[14]Lin D. An Information-Theoretic Definition of Similarity[C].International Conference on Machine Learning, 1998.
[15]Li J, Wang Z, Zhang X, et al. Large scale instance matching via multiple indexes and candidate selection[J]. Knowledge-Based Systems,2013,50(Complete):112-120.
(編輯:王曉明)