李宏杰,黃 薇,王 奔
(1. 廣西民族大學(xué)人工智能學(xué)院,南寧 530006;2. 廣西民族大學(xué)電子信息學(xué)院,南寧 530006)
知識(shí)圖譜從被提出至今,已經(jīng)被各行各業(yè)廣泛關(guān)注和使用[1]。知識(shí)圖譜模仿人類推理和解決問題的方式,通過圖表示節(jié)點(diǎn)、邊表示節(jié)點(diǎn)間的關(guān)系來表示知識(shí),從知識(shí)圖譜所存儲(chǔ)的知識(shí)中獲得解決更復(fù)雜問題的能力[2-3]。作為一種結(jié)構(gòu)化的知識(shí)形式[4],知識(shí)圖譜是一種語義圖,用于表示知識(shí),在各界都得到了廣泛應(yīng)用。知識(shí)圖譜所表示的語義結(jié)構(gòu)化信息特性為許多任務(wù)提供了潛在的解決方案,包括問答、推薦和信息檢索,并且許多研究人員認(rèn)為有更大的發(fā)展前景。自“大數(shù)據(jù)”一詞出現(xiàn)以來,知識(shí)圖已經(jīng)在各個(gè)場景和領(lǐng)域得到運(yùn)用[5]。知識(shí)圖譜的應(yīng)用和構(gòu)建是兩個(gè)重要的研究方向。構(gòu)造技術(shù)的研究側(cè)重于圖中知識(shí)的提取、表示、融合和推理[6],例如從非結(jié)構(gòu)化文本中提取實(shí)體和關(guān)系后,將它們正確地連接到知識(shí)圖譜,并從這些知識(shí)圖譜中推理新的事實(shí)。而應(yīng)用研究則側(cè)重于將知識(shí)圖譜應(yīng)用于實(shí)際系統(tǒng)和特定領(lǐng)域。知識(shí)圖譜作為語義網(wǎng)的數(shù)據(jù)支撐,近年來成為了研究與應(yīng)用的熱點(diǎn)問題。知識(shí)圖譜將實(shí)體表示為節(jié)點(diǎn),實(shí)體與實(shí)體間的關(guān)系表示為節(jié)點(diǎn)間的邊,從而形成了一個(gè)巨大的知識(shí)網(wǎng)絡(luò)[7]。
廣西壯族自治區(qū)擁有秀美的自然風(fēng)光資源,豐富的風(fēng)土人情文化,孕育出燦爛的的非物質(zhì)文化遺產(chǎn)項(xiàng)目文化和優(yōu)秀的非物質(zhì)文化遺產(chǎn)傳承人。廣西擁有著豐富的非物質(zhì)文化遺產(chǎn)資源,是廣西乃至全國的文化瑰寶,但在傳播與宣傳上存在著明顯的不足,傳播形式不夠多元[8],保護(hù)措施不夠完善等。
目前,雖然已有結(jié)構(gòu)化的廣西非物質(zhì)文化遺產(chǎn)數(shù)據(jù),但是仍存在著大量的非結(jié)構(gòu)化數(shù)據(jù)未被利用與挖掘。從非結(jié)構(gòu)化數(shù)據(jù)中抽取信息是廣西非物質(zhì)文化遺產(chǎn)知識(shí)構(gòu)建的一個(gè)巨大挑戰(zhàn)。無論是使用基于規(guī)則或基于語法等傳統(tǒng)的自然語言的方法都無法準(zhǔn)確地從非結(jié)構(gòu)化數(shù)據(jù)中抽取知識(shí),因此,本文基于BERT模型對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行實(shí)體與關(guān)系抽取,從而從非機(jī)構(gòu)化數(shù)據(jù)中準(zhǔn)確抽取知識(shí)[9-10]。
中文文本處理的一大難點(diǎn)在于分詞處理,但在特定領(lǐng)域下的中文分詞,無論是精準(zhǔn)模式、全模式、搜索引擎模式下的jieba 分詞模式,非遺數(shù)據(jù)的分詞效果都不理想,見表1。
表1 jieba分詞效果
由于非遺名稱以及非遺數(shù)據(jù)中的一些詞匯并非通用詞匯,在jieba 原始詞典中并沒有關(guān)于非遺領(lǐng)域的詞,導(dǎo)致了使用jieba 分詞后有些實(shí)體并沒有被精準(zhǔn)地切分出來。分詞的效果會(huì)直接影響實(shí)體的提取以及最終知識(shí)圖譜的構(gòu)建效果。因此簡單的分詞方法已不適用于非遺數(shù)據(jù)文本處理。
詞性標(biāo)注的方法分為基于規(guī)則的詞性標(biāo)注方法和基于統(tǒng)計(jì)的詞性標(biāo)注方法,基于統(tǒng)計(jì)的詞性標(biāo)注方法主要有隱馬爾科夫模型(HMM)[11]。該模型可以由隱藏狀態(tài)序列生成觀測序列。利用該模型進(jìn)行詞性標(biāo)注,見表2[12]。
表2 jieba詞性標(biāo)注
由于分詞和詞性標(biāo)注方法都無法把實(shí)體抽取出來,因此,本文使用基于BERT模型的命名實(shí)體識(shí)別方法對(duì)文本中的實(shí)體進(jìn)行抽取。首先,需要把每一個(gè)詞轉(zhuǎn)換成詞向量,這樣做是為了把每一個(gè)單詞轉(zhuǎn)換成可用于計(jì)算機(jī)計(jì)算的向量。獨(dú)熱編碼、Word2Vec 和Glove 都是傳統(tǒng)的詞向量模型,但這些詞向量模型僅僅只是把低維的向量影射到更高維的向量空間中,并沒有很好地表現(xiàn)詞與詞之間的關(guān)聯(lián)。本文使用BERT模型作為詞向量的生成模型,BERT 模型參考上下文信息,相對(duì)于其它模型而言可以解決一詞多義的問題。
BiLSTM 模型被廣泛應(yīng)用于自然語言處理任務(wù)中,它的出現(xiàn)代表著LSTM 有更大的改進(jìn),更好地解決了卷積神經(jīng)網(wǎng)絡(luò)中梯度消失或梯度爆炸的問題。BiLSTM 層由雙向的LSTM 層組成,即前向和后向的LSTM 層,因此該模型能夠更加精確地獲取上下文信息。基本的LSTM 單元由遺忘門、輸出門、輸入門和記憶單元組成,之間的橫向箭頭被稱為單元狀態(tài),它就像一個(gè)傳送帶,可以控制信息傳遞給下一時(shí)刻,它保存了每個(gè)神經(jīng)元的狀態(tài)。通過門控機(jī)制控制信息傳遞的路徑。
BERT-BiLSTM-CRF 模型由詞嵌入層、雙向注意力機(jī)制網(wǎng)絡(luò)層和條件隨機(jī)場層組成。本文采用BIO 標(biāo)注形式對(duì)非遺數(shù)據(jù)進(jìn)行數(shù)據(jù)標(biāo)注,B表示實(shí)體詞的開始字符,I 表示實(shí)體詞的其余字符,O 表示與實(shí)體無關(guān)的字符。先使用BERT 模型預(yù)訓(xùn)練文本字向量,然后通過雙向LSTM 層學(xué)習(xí)上下文特征,輸出層通過softmax 預(yù)測各個(gè)標(biāo)簽的概率,最后通過CRF 模型得到序列標(biāo)簽,至此就完成命名實(shí)體識(shí)別任務(wù)。命名實(shí)體識(shí)別預(yù)測結(jié)果見表3。
表3 命名實(shí)體識(shí)別預(yù)測結(jié)果
關(guān)系抽取是抽取兩個(gè)實(shí)體之間的支配關(guān)系,它是關(guān)系詞(如:是、位于、所屬等級(jí)等)與其否定詞的集合,否定詞也是兩實(shí)體之間的一種支配關(guān)系。在命名實(shí)體識(shí)別任務(wù)中,識(shí)別出句子中廣西非遺項(xiàng)目名和其它實(shí)體名,并按照先后順序進(jìn)行排序。從構(gòu)建好的關(guān)系詞表中抽出關(guān)系R 與詞庫中的關(guān)系詞進(jìn)行對(duì)比,若關(guān)系詞未在詞庫中,則使用詞庫中最相似的詞作為該詞的替換。此時(shí)便完成實(shí)體間關(guān)系的抽取。
至此就完成了廣西非遺知識(shí)圖譜構(gòu)建,知識(shí)圖譜構(gòu)建步驟如圖1所示。
圖1 知識(shí)圖譜構(gòu)建步驟
圖2為廣西非遺知識(shí)圖譜總圖,我們成功從文本信息中抽取了實(shí)體間地域、時(shí)間、類別、級(jí)別等關(guān)系信息,并將數(shù)據(jù)存儲(chǔ)于Neo4j圖數(shù)據(jù)庫中。圖3為廣西非遺知識(shí)圖譜中部份數(shù)據(jù)的類別關(guān)系。圖4為廣西非遺知識(shí)圖譜位置關(guān)系圖。
圖2 廣西非遺知識(shí)圖譜總圖
圖3 廣西非遺知識(shí)圖譜類別關(guān)系
圖4 廣西非遺知識(shí)圖位置關(guān)系圖
知識(shí)圖譜作為一種人工智能的重要部份,越來越被廣泛地運(yùn)用到各行各業(yè)中。由于廣西非物質(zhì)文化遺產(chǎn)數(shù)據(jù)領(lǐng)域特殊,詞匯和表達(dá)與日常用詞存在比較大的差異,在該領(lǐng)域的應(yīng)用研究尚有不足,非遺數(shù)據(jù)間的時(shí)空關(guān)聯(lián)性不強(qiáng)。廣西非遺知識(shí)圖譜的構(gòu)建為廣西非遺資源保護(hù)和傳承提供了新的方向。本文對(duì)知識(shí)構(gòu)建和知識(shí)存儲(chǔ)進(jìn)行了分析,但對(duì)廣西非遺知識(shí)圖譜構(gòu)建與應(yīng)用研究還比較淺顯,有待進(jìn)一步完善。如何把知識(shí)圖譜可視化呈現(xiàn)出來,從知識(shí)圖譜中挖掘更多的信息,靈活應(yīng)用知識(shí)圖譜將是以后研究的重點(diǎn)。