• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      面向食品貯藏領(lǐng)域的知識圖譜構(gòu)建方法研究

      2023-11-27 05:35:48謝鎮(zhèn)璽李朋駿王金龍熊曉蕓
      計算機工程與應(yīng)用 2023年22期
      關(guān)鍵詞:語料圖譜實體

      辛 輝,謝鎮(zhèn)璽,李朋駿,王金龍,熊曉蕓

      青島理工大學(xué) 信息與控制工程學(xué)院,山東 青島266525

      民以食為天,食品不僅是人類賴以生存的必需品,而且也是社會發(fā)展的物質(zhì)基礎(chǔ)。伴隨著國家綜合實力的不斷飛躍,人們對食品的追求從滿足溫飽變?yōu)閮?yōu)質(zhì)健康[1],那么食品貯藏必然是追求高質(zhì)量飲食不可缺少的關(guān)鍵環(huán)節(jié)。科學(xué)貯藏的意義在于保持食物的品質(zhì),減少浪費,真正將建設(shè)資源節(jié)約型社會落到實處[2],是我國致力于建設(shè)資源節(jié)約型社會這一國家發(fā)展決策的重要著力點。同時人們?nèi)绾尉蛹屹A糧,食品產(chǎn)業(yè)如何調(diào)配貯藏環(huán)節(jié),餐飲企業(yè)如何維護(hù)食品貯藏都是亟待解決的問題。合理的貯藏條件與方式能夠保證食品營養(yǎng)品質(zhì)、飲食健康以及能源損耗,而現(xiàn)如今處于信息指數(shù)爆炸的時代,相關(guān)知識分散雜亂,質(zhì)量參差不齊,而且食品貯藏是具備專業(yè)性的特定領(lǐng)域,人們有效便捷地獲取想要的知識信息是比較困難的。

      面對紙質(zhì)技術(shù)書籍、電子學(xué)術(shù)期刊文獻(xiàn)、網(wǎng)絡(luò)資源信息以及企業(yè)實驗數(shù)據(jù)庫信息等海量多源異質(zhì)數(shù)據(jù)存在信息過載[3]、數(shù)據(jù)冗余、查詢困難等問題,知識圖譜技術(shù)便為整合高質(zhì)量貯藏知識、理解海量食品數(shù)據(jù)提供了應(yīng)用前景和實際意義。知識圖譜具備良好的可讀性、擴展性和解釋性[4],針對多而雜的數(shù)據(jù)完成結(jié)構(gòu)化系統(tǒng)化表示,得到<實體,關(guān)系,實體>三元組,從而構(gòu)建語義網(wǎng),為數(shù)據(jù)分析、智能檢索、決策選擇等提供支持。知識圖譜在醫(yī)療、金融、工業(yè)等領(lǐng)域的應(yīng)用取得了可觀的成果[5],然而當(dāng)前食品領(lǐng)域知識圖譜研究相對匱乏。在國外,Damion 等人[6]于2018 年提出了FoodOn 本體概念,為營養(yǎng)、食品安全等相關(guān)知識提供了一套標(biāo)準(zhǔn)化語義表示。Steven 等人[7]于2019 年提出了相對全面的食品飲食方向圖譜構(gòu)建方法FoodKG,以及后續(xù)在此基礎(chǔ)上的健康、個性化推薦等研究[8]。在國內(nèi),目前相關(guān)研究也處在起步階段,而針對食品貯藏相關(guān)信息智能化以及圖譜構(gòu)建鮮有關(guān)注。本文依據(jù)蘊含的研究價值和信息特點提出了一整套食品貯藏知識圖譜(food storage knowledge graph,F(xiàn)SKG)構(gòu)建框架,極大地利用與組織多源異質(zhì)信息,依托于本文設(shè)計的超節(jié)點概念模式,采取深度學(xué)習(xí)等技術(shù)完成抽取,結(jié)構(gòu)化表達(dá)出大數(shù)據(jù)中食品貯藏知識,為普通居民、相關(guān)從業(yè)者和研究人員提供知識庫保障[9],并為該領(lǐng)域后續(xù)研究提供參考。本文的主要貢獻(xiàn)如下:

      (1)對多源異構(gòu)的食品貯藏數(shù)據(jù)進(jìn)行分析,構(gòu)建領(lǐng)域本體并提出了超節(jié)點概念表示模式,從領(lǐng)域知識視角出發(fā)以彌補圖譜三元組知識表示的缺陷。

      (2)設(shè)計了改進(jìn)的融合多特征的命名實體識別模型,結(jié)合食品貯藏語義和文字信息進(jìn)行特征編碼,以提高領(lǐng)域知識的識別性能。

      (3)基于超節(jié)點的表達(dá)模式,提出了多元關(guān)系抽取算法與多分類模型相結(jié)合來完成關(guān)系抽取,然后采取基于詞典和相似度匹配的方法完成數(shù)據(jù)融合。

      (4)構(gòu)建了食品貯藏數(shù)據(jù)集和食品別名詞典,并通過實驗驗證所提出的FSKG框架的可行性和有效性。

      1 相關(guān)工作

      知識圖譜作為一種由概念、關(guān)系和實例構(gòu)成的知識表示模型,既能滿足人類理解的知識組織結(jié)構(gòu),又有利于計算機模擬和處理知識。自2012年谷歌公司正式提出知識圖譜的現(xiàn)代化定義以來[10],在通用領(lǐng)域中已有如YAGO[11]、Freebase[12]、CN-DBpedia[13]、OpenKG平臺(openkg.cn)等具有代表性的大型知識圖譜。通用領(lǐng)域知識圖譜往往涵蓋現(xiàn)實世界的大量常識內(nèi)容,涉及知識跨度廣泛,但面對特定領(lǐng)域場景,從知識深度和專業(yè)性上通用知識圖譜則表現(xiàn)得相對乏力。作為通用知識圖譜的衍生,領(lǐng)域知識圖譜彌補了上述缺點,同時具有知識質(zhì)量高、知識粒度細(xì)等特點,且更加專注于領(lǐng)域數(shù)據(jù)特征和應(yīng)用需求[14]。

      對于知識圖譜的構(gòu)建流程可以分為自頂向下(topdown)和自底向上(bottom-up)兩種[15]。其中自頂向下是從本體構(gòu)建的角度出發(fā)完成模式層設(shè)計,然后利用本體的模式信息完成知識抽取,依據(jù)規(guī)范分明的概念框架完成圖譜構(gòu)建,這種方式適用于專業(yè)性高、知識范圍明確的領(lǐng)域知識圖譜構(gòu)建;而自底向上的方式則以底層數(shù)據(jù)信息為起點,無監(jiān)督聚類抽取知識,歸納整合得到本體,缺乏顯性類型約束,更適用于數(shù)據(jù)量大、知識范圍較廣的通用知識圖譜[10]。

      由于食品貯藏的知識專業(yè)性和領(lǐng)域特征,本文采取自頂向下的方式來完成知識圖譜構(gòu)建。從技術(shù)視角來看,領(lǐng)域知識圖譜構(gòu)建包括采取本體構(gòu)建方法完成上層本體的邏輯抽象,以及利用自然語言處理(natural language processing,NLP)技術(shù)完成知識抽取、知識融合等特定任務(wù),遵循本體規(guī)范,從多源異構(gòu)數(shù)據(jù)中獲取領(lǐng)域知識,并根據(jù)語義對不同數(shù)據(jù)源的信息進(jìn)行融合,最終存儲形成知識圖譜。知識抽取包括實體識別和關(guān)系抽取等方面,通常采用基于規(guī)則和基于機器學(xué)習(xí)的方法實現(xiàn)?;谝?guī)則的方法常常需要針對特定領(lǐng)域匹配規(guī)則,對實體和關(guān)系進(jìn)行設(shè)定。雖然存在可移植性較差、泛化能力不高的問題,但在特定領(lǐng)域中具備較高的準(zhǔn)確性,并對于抽取表述規(guī)范、概念間關(guān)聯(lián)性較強的數(shù)據(jù)信息表現(xiàn)出一定的優(yōu)勢。李峰等人[9]在構(gòu)建遙感應(yīng)用領(lǐng)域知識圖譜時,針對同一論文摘要文本中的實體關(guān)系按照共現(xiàn)頻次完成規(guī)則抽取。錢智勇等人[16]采取規(guī)則的方式建立正則表達(dá)式,完成對注疏語句和例證句子中實體的抽取,最后完成古代辭書知識圖譜的構(gòu)建。而對于基于機器學(xué)習(xí)的方法常常使用隱馬爾可夫模型(hidden Markov model,HMM)、條件隨機場(conditional random field,CRF)等方法來處理實體識別問題。隨著神經(jīng)網(wǎng)絡(luò)的強勢發(fā)展,長短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)、門控循環(huán)單元(gated recurrent unit,GRU)模型等方法進(jìn)一步提高了實體識別的性能。近年來以BERT(bidirectional encoder representation from transformers)為代表的預(yù)訓(xùn)練模型結(jié)合了遷移學(xué)習(xí)的思想,以豐富的語義表征信息使識別效果達(dá)到了新的高度。對于關(guān)系抽取,機器學(xué)習(xí)方法通常將其作為二分類或多分類問題進(jìn)行處理,將語句的特征向量作為輸入,以卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)、長短期記憶網(wǎng)絡(luò)等模型來完成關(guān)系類別預(yù)測,研究人員對特征嵌入、模型改進(jìn)等方面進(jìn)行創(chuàng)新,進(jìn)一步提升了抽取效果。王春雨等人[10]在研究船舶舾裝設(shè)計經(jīng)驗知識圖譜的構(gòu)建方法時,采取基于優(yōu)化的多層神經(jīng)網(wǎng)絡(luò)完成實體識別,接著應(yīng)用基于嵌入的BERT分類模型完成關(guān)系抽取。袁琦等人[17]在構(gòu)建寵物知識圖譜時,針對非結(jié)構(gòu)化數(shù)據(jù)采取CRF與癥狀詞典相結(jié)合的方法完成實體抽取。徐春等人[18]借助改進(jìn)的BERT預(yù)訓(xùn)練模型與指針網(wǎng)絡(luò)相融合,對實體和關(guān)系進(jìn)行聯(lián)合抽取來實現(xiàn)對旅游知識圖譜的構(gòu)建。聶同攀等人[15]構(gòu)建故障診斷領(lǐng)域知識圖譜,采取雙向LSTM 從非結(jié)構(gòu)化文本中抽取實體,然后在雙向LSTM中引入注意力機制來獲取實體間的關(guān)系信息。

      在構(gòu)建知識圖譜的過程中,由于異構(gòu)數(shù)據(jù)多源,表述方式多樣,通過知識融合完成對抽取數(shù)據(jù)的整合,解決實體、關(guān)系等產(chǎn)生的冗余,旨在提高圖譜質(zhì)量。知識融合主要集中在實體對齊任務(wù)上,即解決不同名稱表達(dá)相同實體的問題。Zhou 等人[19]在構(gòu)建移動應(yīng)用知識圖譜過程中,采取規(guī)則挖掘與知識圖譜嵌入的方法完成各應(yīng)用市場之間應(yīng)用程序相關(guān)的實體對齊任務(wù)。周炫余等人[20]提出一種基于層次過濾的知識融合模型,實現(xiàn)百科及教程文本的實體對齊。李峰等人[9]將不同語料抽取產(chǎn)生的實體集合采取字符串相似度計算的方法判斷實體間的相似性,并將相似度超過閾值且名稱較長的名稱作為統(tǒng)一實體。楊波等人[21]采取融合CNN和余弦相似度的實體鏈接模型完成企業(yè)實體融合。一般情況下,在完成實體對齊任務(wù)后,包含對應(yīng)實體的三元組會完成替換,進(jìn)而去掉重復(fù)的三元組。但面對本文研究的食品貯藏領(lǐng)域中無法由簡單三元組表征的復(fù)雜關(guān)系,抽取時會產(chǎn)生一定的冗余,故按照其數(shù)據(jù)特征對知識融合方法做了進(jìn)一步改進(jìn)。

      2 食品貯藏知識圖譜構(gòu)建框架

      本文將食品貯藏領(lǐng)域與知識圖譜技術(shù)相結(jié)合,提出了一整套食品貯藏知識圖譜構(gòu)建框架,就領(lǐng)域內(nèi)存在的多種概念間的復(fù)雜聯(lián)系,提出了多元關(guān)系的表達(dá)模式和知識構(gòu)建方法,以彌補如今大多數(shù)知識圖譜僅用<頭實體,關(guān)系,尾實體>表示而無法表征更多復(fù)雜知識的問題,同時也為相關(guān)研究和應(yīng)用提供新的思路。FSKG構(gòu)建框架如圖1 所示,依據(jù)對領(lǐng)域內(nèi)數(shù)據(jù)資源的分析,完成模式層設(shè)計,然后根據(jù)知識特征采取改進(jìn)的方法進(jìn)行知識抽取,并通過知識融合手段消除數(shù)據(jù)冗余,最后完成知識存儲。下文將對具體環(huán)節(jié)進(jìn)行闡述。

      圖1 食品貯藏知識圖譜構(gòu)建框架Fig.1 Construction framework of food storage knowledge graph

      2.1 數(shù)據(jù)資源分析

      據(jù)研究發(fā)現(xiàn),現(xiàn)階段大多數(shù)的領(lǐng)域知識圖譜研究所關(guān)注的抽取知識往往集中在特定的某一類或某幾類數(shù)據(jù),而對于本領(lǐng)域其他異構(gòu)信息卻不能很好地體現(xiàn)其領(lǐng)域知識圖譜的泛化能力。同樣,食品貯藏數(shù)據(jù)也具有專業(yè)性強、數(shù)據(jù)結(jié)構(gòu)多樣、概念錯綜復(fù)雜、信息載體多元等特點,而為探索一套完備且泛化性高的知識圖譜構(gòu)建技術(shù),首先需要保證食品貯藏信息源多元且全面。從知識的組織形式上來看,食品貯藏數(shù)據(jù)包含結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。其中結(jié)構(gòu)化數(shù)據(jù)主要包括國家標(biāo)準(zhǔn)委等規(guī)范文件、文檔書籍中的數(shù)據(jù)表格,諸如食品冷藏參數(shù)表、蘋果部分品種貯藏條件表等,還包括食品企業(yè)等機構(gòu)內(nèi)部私有數(shù)據(jù),往往以關(guān)系型數(shù)據(jù)存儲在MySQL、Oracle 等數(shù)據(jù)庫中,如食品分類表、食品信息表、貯藏條件表等。上述數(shù)據(jù)的缺陷在于無法高效地查詢檢索,不易真實表達(dá)業(yè)務(wù)場景,這也正是構(gòu)建圖譜的需求和優(yōu)勢所在。而半結(jié)構(gòu)化數(shù)據(jù)包括維基百科、食品相關(guān)網(wǎng)站中的html 網(wǎng)頁數(shù)據(jù),如食品別名、適宜貯藏溫度等信息,以及一些MangoDB 等非關(guān)系型數(shù)據(jù)以json數(shù)據(jù)格式保存。

      非結(jié)構(gòu)化數(shù)據(jù)是構(gòu)建知識圖譜過程中重點和難點所在,因其具備豐富的語義信息和數(shù)據(jù)價值,本文將分為如下幾類數(shù)據(jù)進(jìn)行分析構(gòu)建。

      (1)教材及技術(shù)類書籍,知識整合規(guī)范,專業(yè)性和權(quán)威性強,作為FSKG知識元的主體內(nèi)容,比如《食品安全保藏學(xué)》《食品貯藏保鮮技術(shù)》等。

      (2)科普讀物,食品類型更加集中于常見品種,表述相對寬泛,涉及溫度、濕度等一系列參數(shù),表達(dá)粒度相對較粗,可以作為構(gòu)建圖譜的知識補充,例如《常用食品的貯藏與保鮮》《食品保藏的秘密》等。

      (3)科研文獻(xiàn),這類數(shù)據(jù)往往理論性較強,專業(yè)術(shù)語復(fù)雜,為保證抽取知識的高效性,抽取數(shù)據(jù)以文獻(xiàn)的摘要部分為主。食品貯藏類文獻(xiàn)往往集中發(fā)表在食品以及農(nóng)業(yè)類期刊的貯藏保鮮、包裝貯運等欄目中。

      (4)網(wǎng)絡(luò)論壇文章,主題鮮明,篇幅相對較短,有時候表述不太規(guī)范,需要后期通過知識融合完成數(shù)據(jù)規(guī)范,又因缺乏權(quán)威背書,抽取構(gòu)建過程中可以作為補充數(shù)據(jù)。這類數(shù)據(jù)包括例如食品論壇、海爾冰箱社群、微信公眾號文章等。

      2.2 數(shù)據(jù)模式設(shè)計

      知識圖譜從邏輯的角度分為模式層與數(shù)據(jù)層。模式層是整個知識圖譜的核心部分[22],主要完成專業(yè)術(shù)語上的語義規(guī)范,消除不同數(shù)據(jù)源中同一概念的歧義,對數(shù)據(jù)層知識抽取完成約束。食品貯藏相關(guān)的資源蘊含著重要的信息價值,涉及到食物品種分類、生理病蟲害特性、各種工農(nóng)業(yè)技術(shù)及參數(shù)指標(biāo)、生產(chǎn)生活中的方法經(jīng)驗等。本文按照斯坦福七步法[23]的設(shè)計思路,并參考食品專業(yè)研究者以及企業(yè)專家等相關(guān)領(lǐng)域?qū)<医ㄗh,針對食品貯藏領(lǐng)域的內(nèi)容抽象概括完成本體構(gòu)建。

      在分析設(shè)計過程中,食品貯藏數(shù)據(jù)主要存在以下一些特點:領(lǐng)域數(shù)據(jù)中大多數(shù)以食品為主體進(jìn)行表述,一般包含相關(guān)的溫度、濕度、貯藏時間、使用貯藏技術(shù)等信息,且往往伴隨著對食品品種關(guān)系、化學(xué)生物特性、病蟲害腐敗現(xiàn)象的表述;一些文本則會以具體貯藏操作行為進(jìn)行表述,例如“充分冷卻”“加蓋密封”等,以及操作方式防止或者緩解“冷害”“腐敗”等現(xiàn)象;食品貯藏數(shù)據(jù)條件往往是在特定場景下存在的,若變換為其他場景則各種條件將會發(fā)展變化,例如一些貯藏場景的表述為“廣大農(nóng)村地區(qū)常用”“家庭中貯藏”“遮光封閉條件下”“冷庫中進(jìn)行”等。按照上述數(shù)據(jù)特點和方法將食品貯藏領(lǐng)域知識分成10種實體類型,詳細(xì)信息如表1所示。

      表1 實體類型表Table 1 Entity type

      為了完整描述食品貯藏領(lǐng)域的語義網(wǎng)絡(luò),需要明確實體與實體之間的關(guān)系,本文將其定義為普通關(guān)系和多元限定關(guān)系兩大類。其中普通關(guān)系指領(lǐng)域概念之間的常規(guī)關(guān)系,即以二元一階謂詞邏輯表示,包括食品與食品的“包含”關(guān)系、“貯藏條件相似”關(guān)系、“不可混合貯藏”關(guān)系;食品與貯藏特性以及病蟲害敗壞現(xiàn)象的“具有特性”關(guān)系;保藏方法或者貯藏操作與病蟲害敗壞現(xiàn)象的“防止/緩解”關(guān)系。詳細(xì)描述如表2所示。

      表2 普通關(guān)系類型表Table 2 Common relation type

      根據(jù)對食品貯藏數(shù)據(jù)的特性分析發(fā)現(xiàn),包括貯藏溫度、空氣狀況、貯藏時間、保藏方法、貯藏操作、場景以及包裝在內(nèi)的7 類實體在文本描述中常常作為相互制約的條件約束表征某一食品的貯藏知識。例如“芒果的氣調(diào)貯藏法下要保證5%氧氣和5%二氧化碳,壽命可達(dá)20天?!笔称贰懊⒐痹凇皻庹{(diào)貯藏法”“5%氧氣”“5%二氧化碳”的條件限制下貯藏時間為“20天”。由于這些實體并不是食品的特征且實體間存在隱含的限制關(guān)系,不能將其作為食品屬性的概念來簡單處理。同時如果顯式地以二元關(guān)系表示出來會使整個語義網(wǎng)絡(luò)復(fù)雜且冗余,同時也存在知識表示的缺陷。而本文借鑒Freebase 知識圖譜中的復(fù)合值類型(compound value types,CVT)[24]提出了超節(jié)點的概念來表達(dá)多元實體間的限定關(guān)系。超節(jié)點不代表實際數(shù)據(jù),而是作為虛擬節(jié)點連接食品實體與其他多個制約條件實體,它既表示父節(jié)點食品實體與其葉子節(jié)點實體間的條件關(guān)系,又表達(dá)在父節(jié)點已知的條件下各葉子節(jié)點兩兩之間的限制關(guān)系,達(dá)到食品貯藏領(lǐng)域下特定復(fù)雜知識的表征。經(jīng)上述分析設(shè)計得到食品貯藏知識圖譜的模式層設(shè)計,如圖2所示。

      圖2 食品貯藏知識圖譜模式層Fig.2 Schema layer of food storage knowledge graph

      2.3 數(shù)據(jù)預(yù)處理

      由第2.1節(jié)分析可知,對于結(jié)構(gòu)化數(shù)據(jù),其原始各字段語義明確,故按照模式層與其具體語義設(shè)計相應(yīng)的字段映射規(guī)則[25],保證異構(gòu)數(shù)據(jù)在完成知識圖譜構(gòu)建后的完整性和一致性,提取出對應(yīng)的實體組。比如就蘋果部分品種貯藏條件和貯藏期表而言,由品種、溫度、相對濕度、貯藏期4 列組成,按照規(guī)則映射成為模式層中多元限定關(guān)系下的實體組,形成譬如<元帥,0~1 ℃,相對濕度95%,3~5月>,<金冠,0~2 ℃,相對濕度95%,2~4月>等,為后續(xù)知識融合與知識存儲做準(zhǔn)備。對于半結(jié)構(gòu)化數(shù)據(jù),本文采取Scrapy 框架爬取維基百科等相關(guān)網(wǎng)站,獲取食品、別名、貯藏特性相關(guān)的半結(jié)構(gòu)化網(wǎng)頁數(shù)據(jù),將別名字段構(gòu)建成為食品別名詞典為后續(xù)知識融合提供數(shù)據(jù)支撐,而將爬取的其他短文本信息作為待抽取的數(shù)據(jù)源集合。

      相比結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),處理非結(jié)構(gòu)化數(shù)據(jù)抽取是最為復(fù)雜,也是自然語言處理的重點研究對象。其中對于包括文本描述,以及包括圖、表等結(jié)構(gòu)化數(shù)據(jù)的紙質(zhì)書籍,利用光學(xué)字符識別技術(shù)(optical character recognition,OCR)將紙質(zhì)數(shù)據(jù)處理為計算機可以處理的格式[26],本文采取基于深度學(xué)習(xí)的PaddleOCR開源技術(shù)框架完成紙質(zhì)書籍到文本形式轉(zhuǎn)換,并進(jìn)行數(shù)據(jù)清洗工作,如統(tǒng)一格式、轉(zhuǎn)換識別非法字符、清除空格、剔除無效文本、篩選有效可構(gòu)成語料的文本數(shù)據(jù)。對于網(wǎng)絡(luò)數(shù)據(jù)中知網(wǎng)數(shù)據(jù)庫文獻(xiàn)、網(wǎng)絡(luò)文章和論壇評論同半結(jié)構(gòu)化數(shù)據(jù)一樣進(jìn)行爬取,并經(jīng)正則表達(dá)式清除無關(guān)標(biāo)簽,完成數(shù)據(jù)清洗后形成語料數(shù)據(jù)。

      2.4 融合多特征的實體抽取

      結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)抽取工作已在數(shù)據(jù)處理中完成,故本文不再過多贅述。而對于非結(jié)構(gòu)化數(shù)據(jù),實體及關(guān)系隱藏在自然語言文本中,則需要進(jìn)行識別抽取,這是實現(xiàn)大規(guī)模知識圖譜構(gòu)建過程中的關(guān)鍵工作和技術(shù)難點。實體抽取完成自然語言處理中的命名實體識別(named entity recognition,NER)任務(wù),隨著自然語言處理技術(shù)和硬件算力的發(fā)展,目前采用深度學(xué)習(xí)的NER 技術(shù)則是較為廣泛和高效的方法[27]。針對食品貯藏領(lǐng)域的數(shù)據(jù)特點,本文設(shè)計了一種融合多特征的命名實體識別模型,分為特征編碼層、上下文信息提取層、輸出層三層結(jié)構(gòu),模型采取了遷移學(xué)習(xí)的思想來獲取先驗語義信息,同時融合食品貯藏數(shù)據(jù)的字符特征,確保模型的泛化效果,有效解決了大規(guī)模語料標(biāo)注和抽取效果不明顯等限制性問題[28]。模型完成實體抽取的工作原理如圖3所示。

      圖3 實體抽取工作原理圖Fig.3 Working principle diagram of entity extraction

      首先在特征編碼層中引入BERT預(yù)訓(xùn)練模型,充分利用上下文的關(guān)聯(lián)語義,學(xué)習(xí)到豐富的特征表示信息,能夠解決不同語境下的詞多義性的表征[29]。例如在食品貯藏文本中,“意大利”在不同語境下既有可能表達(dá)為食品產(chǎn)地,也有可能是一種葡萄品類。BERT 在預(yù)訓(xùn)練中分別融入字符嵌入token、句子嵌入segment以及位置嵌入position 三類特征,經(jīng)過多重雙向Transformer 編碼器得到豐富表征的動態(tài)詞向量,從而理解句子以及詞語間的位置和語義關(guān)系[30]。同時為了提升食品貯藏文本的識別效果,本文進(jìn)一步融合了字粒度的部首信息,來增強特征空間中的語義嵌入。相較于英文,漢字中的部首信息能夠使字符信息表達(dá)更加準(zhǔn)確,一般情況下同部首字義相近[31],例如“椒”“柚”“梨”等部首為“木”,屬于植物性食品;“粉”“糖”“糕”等部首為“米”,屬于碳水類食品;再例如“螟”“螨”“蚜”等部首為“蟲”,常常出現(xiàn)在食品病蟲害類型實體的表述當(dāng)中。本文以漢字碼表作為部首對照字典,對于輸入的文本進(jìn)行部首特征映射,如將圖3 中的輸入文本“蘑菇的冷凍保鮮法……”轉(zhuǎn)換為“艸艸白冫冫亻魚氵……”,接著對映射后的序列采用已學(xué)習(xí)部首信息的word2vec 模型來獲取部首向量,然后通過全連接層提取上下文特征,計算公式如下:

      其中,xi為字符的部首表示,feature_dic 為部首對照字典,ci為輸入字符,word2vecrad表示經(jīng)部首特征訓(xùn)練后的詞向量模型,ri表示xi的特征嵌入,ei表示最后輸出的部首特征向量,dense 表示全連接操作。最后經(jīng)字粒度的特征提取后將部首特征向量Er與BERT動態(tài)詞向量Eb進(jìn)行拼接,作為接下來模型的輸入。

      第二層上下文信息提取層將融合了多重特征的詞向量由BiLSTM神經(jīng)網(wǎng)絡(luò)模型繼續(xù)捕獲文本特征,有效解決遠(yuǎn)距離依賴問題,完成上下文信息提取,進(jìn)行實體識別,經(jīng)過解碼輸出字符在各類實體的預(yù)測分?jǐn)?shù)。但由于其作為實體識別概率值是相對獨立的,無法學(xué)習(xí)到輸出序列標(biāo)注的約束條件,需要在第三層輸出層中使用CRF概率模型來解決。這是因為經(jīng)過BiLSTM模塊輸出可能會出現(xiàn)以I-food預(yù)測標(biāo)簽為實體首部的情況,或在B-food 之后緊接著I-method 這樣與語法結(jié)構(gòu)相悖的序列。在BIO標(biāo)注體系下缺少相關(guān)約束條件,例如實體開頭字符的預(yù)測標(biāo)簽須為B-xxx,label_a 類型的I-label_a后面不能出現(xiàn)label_b 類型的I-label_b 預(yù)測標(biāo)簽。對此在輸出層中使用CRF模型學(xué)習(xí)前后標(biāo)簽的依賴約束,通過轉(zhuǎn)移分?jǐn)?shù)矯正上一層發(fā)射分?jǐn)?shù)的偏差,降低出現(xiàn)無效標(biāo)簽的概率,從而計算得到概率值最大的預(yù)測標(biāo)簽。最后得到與輸入文本一一對應(yīng)的最佳預(yù)測標(biāo)注序列,完成對實體的抽取任務(wù)。

      2.5 關(guān)系抽取

      在完成實體抽取任務(wù)之后,關(guān)系抽取則是挖掘海量食品貯藏相關(guān)數(shù)據(jù)知識價值的另一個核心步驟。關(guān)系抽取旨在從文本中抽取出二元或者多元實體間的語義關(guān)系[32],由于食品貯藏實體間語義的特殊性和復(fù)雜性,本文按照模式層設(shè)計采取基于規(guī)則和深度學(xué)習(xí)兩類方法來完成抽取工作。

      2.5.1 基于規(guī)則的關(guān)系抽取

      基于規(guī)則的方法應(yīng)用在具有多元限定關(guān)系的實體之間,首先選擇在實體抽取任務(wù)中含有特定類型實體的語料作為接下來規(guī)則抽取的數(shù)據(jù),其中抽取到的實體包含食品以及貯藏溫度、空氣狀況、貯藏時間、保藏方法、貯藏操作、場景、包裝7 類實體中一類或多類。然后發(fā)掘數(shù)據(jù)中的表述規(guī)律,設(shè)計抽取規(guī)則算法完成關(guān)系抽取,通過對相關(guān)語料分析可以總結(jié)出:

      (1)絕大部分語料都是以食品類型實體作為主語進(jìn)行表述,且一條語料以一種食品居多,常常出現(xiàn)在句子開頭。

      (2)貯藏溫度等7 類實體在文本中不單獨存在,而是依附于食品實體,表述中具有多元限定關(guān)系的實體往往在一句話或者相同句式內(nèi)。

      (3)貯藏溫度、貯藏時間和保藏方法3 類實體根據(jù)實際語義可知,同種類型實體不會同時出現(xiàn)在一個超節(jié)點下,即以上3種類型的同種實體間不構(gòu)成多元限定關(guān)系。

      (4)在一條語料當(dāng)中,多個貯藏條件(即一個超節(jié)點下具有多元限定關(guān)系的實體組成一個貯藏條件)往往以“;”或者以不同的保藏方法、貯藏溫度實體作為界限來劃分,語料在進(jìn)行實體抽取后的實體序列常常具有規(guī)律性。比如抽取的正則實體序列為“(食品,貯藏溫度,空氣狀況(,(貯藏操作|場景|包裝))*)+”,可以表達(dá)“龍眼貯藏適宜溫度3~5 ℃,氧含量3%~5%,二氧化碳5%~8%;巨峰適宜溫度0%,氧含量3%~4%,二氧化碳含量5%~6%。”

      (5)對于多個食品類型實體的表述往往呈并列形式出現(xiàn),常用“和”“;”以及“、”隔開或采取相同句式表述。例如“白梨和沙梨適宜貯溫一般為0~1 ℃,大多西洋梨和秋子梨適宜貯溫-1~0 ℃”“各種罐頭、飲料、油料、干制食品等都適宜在常溫下貯藏和流通”。

      本文基于食品貯藏領(lǐng)域內(nèi)數(shù)據(jù)特點設(shè)計規(guī)則匹配關(guān)系抽取算法,完成對多元實體對應(yīng)關(guān)系的篩選與結(jié)合,繼而完成多元限定關(guān)系中實體序列的抽取。需要說明的是,對于輸入的每一條語料C都有與之對應(yīng)的經(jīng)實體抽取任務(wù)后得到的實體組E和實體類型組M。分割文本c、分割實體類型組mc[h..t]和分割實體組ec[h..t]同樣也一一對應(yīng),h、t表示從M和E中分割的頭位置和尾位置。算法中步驟6 表示將實體類型組與正則實體序列進(jìn)行匹配,若匹配結(jié)果不空則完成數(shù)據(jù)提取。步驟9 旨在匹配那些缺少上文已提及食品指代的分割文本中的多元限定關(guān)系,其中mc-1[h′..t′]表示上一條分割文本的分割實體類型組。

      算法規(guī)則匹配關(guān)系抽取算法

      2.5.2 基于BERT的關(guān)系分類

      關(guān)系抽取任務(wù)應(yīng)用深度學(xué)習(xí)方法進(jìn)行高效解決,則可以將其建模為多標(biāo)簽分類問題。對于模式層構(gòu)建中的五種普通關(guān)系,本文采取基于BERT的關(guān)系分類模型[33],使用預(yù)訓(xùn)練模型來獲得豐富語義的特征向量,提升關(guān)系抽取的效果[34]。與BERT在實體抽取任務(wù)的作用不同在于,本文不僅進(jìn)行句子embedding 表征信息,同時又結(jié)合了實體以及實體位置信息,經(jīng)由特征向量對關(guān)系分類進(jìn)行預(yù)測。

      抽取模型的輸入信息包含實體的文本,以及待抽取關(guān)系的頭尾實體信息。在數(shù)據(jù)預(yù)處理時,以特殊標(biāo)識符表示待確定關(guān)系的兩個實體位置,其中實體位置前后加“#”表示,尾實體位置前后加“$”表示。并以[CLS]作為句子的開始,以[SEP]作為句子結(jié)束。然后采取BERT模型特征提取后將句子信息特征、實體語義特征和實體位置信息拼接,經(jīng)全連接層和softmax 層完成關(guān)系分類的概率預(yù)測,最終輸出待預(yù)測的結(jié)果。普通關(guān)系抽取工作原理如圖4 所示,圖中關(guān)系標(biāo)簽3 為關(guān)系“不可混合貯藏”的編碼信息。

      圖4 普通關(guān)系抽取工作原理圖Fig.4 Working principle diagram of common relation extraction

      2.6 知識融合

      由于食品貯藏領(lǐng)域數(shù)據(jù)多元,文字表述存在差異,對于同一個概念的描述會存在差異,常常會抽取不同的實體卻表達(dá)同一種語義概念,經(jīng)過抽取任務(wù)后完成存儲會使知識產(chǎn)生大量冗余并占有額外的存儲空間,因此需要進(jìn)行實體對齊。例如“洋蔥和土豆這兩種蔬菜卻并不適合放在一起?!敝械摹巴炼埂焙驼Z句“馬鈴薯的貯藏方式很多,依據(jù)各地不同條件可做堆藏、窖藏、溝藏等?!钡摹榜R鈴薯”表達(dá)為同一種食品名稱;還有“水果蔬菜”對應(yīng)“果蔬”的略寫,“軟飲料”對應(yīng)“軟飲”的表達(dá);對于貯藏溫度的表達(dá)“1 ℃~2 ℃”“1~2 攝氏度”,若不進(jìn)行處理則會按照不同的實體進(jìn)行存儲;針對其他類型實體,比如貯藏方法中的“氣調(diào)貯藏”和“氣調(diào)貯藏法”的表述需要進(jìn)行知識合并。針對多元限定關(guān)系同樣也會產(chǎn)生關(guān)系冗余的情況,這是由于在完成關(guān)系抽取和實體對齊任務(wù)后,會出現(xiàn)不同的多元限定關(guān)系實體組內(nèi)含有多個相同實體。例如r1=[“金冠”,“0~2 ℃”,“3個多月”],r2=[“金冠”,“0~2 ℃”,“相對濕度95%”,“3 個多月”],對于“金冠”的同一個貯藏條件(由于r1?r2),顯然r2對應(yīng)的原文本比r1描述得更全面,那么r1相對于r2來說則作為冗余信息存在。由于食品貯藏條件復(fù)雜,實體間關(guān)系相互制約,只有當(dāng)多元限定關(guān)系實體組之間存在包含關(guān)系時,認(rèn)為該食品在相同貯藏條件下存在冗余,否則作為不同的貯藏方式進(jìn)行存儲。

      根據(jù)上述分析,本文采取依據(jù)詞典和相似度匹配的知識融合方法,流程圖如圖5所示。經(jīng)關(guān)系抽取任務(wù)后將實體分成實體對和多元組兩類,識別為多元組中的實體在經(jīng)過實體對齊任務(wù)后,需要額外判斷是否存在冗余多元信息,完成超節(jié)點對齊任務(wù),即消除多元限定關(guān)系冗余。首先依次輸入組內(nèi)實體判斷類型,若輸入實體為“食品”類型,則利用食品別名詞典進(jìn)行匹配查找,若找到則依據(jù)詞典中主名進(jìn)行替換,若沒有找到則進(jìn)入相似度匹配計算。對于含有數(shù)值信息的實體類型(貯藏時間、貯藏溫度、空氣狀況),需進(jìn)行標(biāo)準(zhǔn)化處理,即將實體內(nèi)容統(tǒng)一為“(描述)+數(shù)值范圍+單位/%”,若與已更新實體表述相同則視為同一實體。針對食品貯藏領(lǐng)域數(shù)據(jù),經(jīng)上述兩類實體對齊處理即可消除較大比例的冗余信息,故對于剩余類型實體,本文采取快捷且效果良好的余弦相似度算法來匹配實體間的相似性,采用sklearn中tfidf工具完成實體詞匯級別的向量化表示,依次計算其與圖譜中同類型各實體間的余弦相似度S,計算公式如下:

      圖5 知識融合流程圖Fig.5 Knowledge fusion flowchart

      其中,E和X表示實體的詞向量,n表示向量維度,ei和xi分別表示E和X的第i個分量,S越大表示兩向量的余弦相似性越強,即兩實體語義越接近,選擇超過設(shè)定閾值且數(shù)值最大的實體作為融合對象,若匹配失敗則作為新的實體,依次循環(huán)上述過程完成組內(nèi)實體對齊任務(wù)。由于上述處理可能會存在一定的誤差,為保證準(zhǔn)確性,在循環(huán)結(jié)束后應(yīng)輔助校驗未匹配成功的實體是否需要實體對齊。若是實體對中的實體則完成實體對齊任務(wù),取得新的三元組或鏈接到圖譜中已有的節(jié)點中完成數(shù)據(jù)庫更新。若是多元組內(nèi)的實體,則繼續(xù)完成超節(jié)點對齊,即遍歷圖譜中超節(jié)點下多元限定關(guān)系中實體集合是否與輸入多元組集合有包含關(guān)系,若沒有則作為新的多元限定關(guān)系以超節(jié)點形式存儲在知識圖譜當(dāng)中,反之取兩者的超集(superset)作為存儲在圖譜中的內(nèi)容來更新數(shù)據(jù)庫。經(jīng)過知識融合后,使得知識元質(zhì)量得到提升,節(jié)省了存儲空間。

      3 實驗分析

      3.1 實體抽取

      按照第2.1 節(jié)中非結(jié)構(gòu)化數(shù)據(jù)的劃分方式,分別選取韓艷麗編著的《食品貯藏保鮮技術(shù)》、劉興華編著的《食品安全保藏學(xué)》、王城榮編著的《常用食品的貯藏與保鮮》以及105 篇科研文獻(xiàn)摘要、50 篇網(wǎng)絡(luò)短文作為數(shù)據(jù)來源,經(jīng)數(shù)據(jù)預(yù)處理相應(yīng)操作后,共獲得13萬字的語料,從中隨機抽取2 000條作為命名實體識別的數(shù)據(jù)集,訓(xùn)練集和測試集比例為8∶2,數(shù)據(jù)預(yù)處理后待抽取語料示例圖如圖6所示。

      圖6 待抽取語料示例Fig.6 Examples of unextracted corpus

      本文采取BIO 實體標(biāo)注方法完成對語料中字符的表征,其中B表示命名實體的開頭字符,I表示命名實體的剩余字符,O表示所有命名實體以外的字符。語料共有21種標(biāo)簽,命名實體標(biāo)注示例如表3所示。實體識別模型的BERT預(yù)訓(xùn)練模型版本采用BERT-Base-Chinese,訓(xùn)練批量大小為16,最大序列長度為246,部首特征向量維度為32,BiLSTM隱藏層維數(shù)為128,學(xué)習(xí)率為5E-5,訓(xùn)練輪次為50。

      為了驗證本文提出模型的性能優(yōu)勢,分別選取在命名實體識別中常用的BiLSTM-CRF、BERT-CRF、Word2vec-BiLSTM-CRF、BERT-BiLSTM-CRF模型在構(gòu)建的食品貯藏數(shù)據(jù)集上進(jìn)行對比實驗,實驗結(jié)果采取召回率R、精確率P和F1 分?jǐn)?shù)三種評價指標(biāo)。實驗結(jié)果如表4所示,本文融合多特征的實體識別模型識別效果最佳,其中F1 值為91.07%,比直接融合動態(tài)詞向量的BERT-BiLSTM-CRF 模型以及采取傳統(tǒng)靜態(tài)特征向量的Word2vec-BiLSTM-CRF 模型分別在F1 值上提高1.52 個百分點和13.03 個百分點,相較于沒有學(xué)習(xí)語義特征進(jìn)行隨機編碼的BiLSTM-CRF 模型識別效果更有優(yōu)勢,證明本文模型能夠有效捕獲食品貯藏文本中的語義特征和上下文信息來完成實體抽取任務(wù)。采用本文模型對于10 類不同類型實體抽取的實驗結(jié)果如表5 所示,分析可知其中“貯藏時間”“食品”等實體類型識別效果最好,原因在于這些類型在表述上較為規(guī)范,且模型在這些類型實體上的語義特征提取表現(xiàn)較好;然而對于“貯藏操作”“場景”等實體類型識別效果相對一般,這是由于與其他類型實體相比包含該類實體的文本相對較少,模型學(xué)習(xí)特征稍顯欠缺,同時該類型實體表述方式往往相對復(fù)雜,標(biāo)注可能存在部分偏差。

      表4 不同模型的識別結(jié)果對比Table 4 Comparison of recognition results of different models 單位:%

      3.2 關(guān)系抽取與知識融合

      3.2.1 基于規(guī)則的關(guān)系抽取

      規(guī)則匹配關(guān)系抽取算法主要完成對實體間的多元限定關(guān)系進(jìn)行匹配抽取,其詳細(xì)流程已在第2.5.1 小節(jié)中闡述。首先將經(jīng)實體抽取任務(wù)后具有實體標(biāo)簽的文本和原實體標(biāo)注語料作為候選數(shù)據(jù),然后根據(jù)實體標(biāo)簽類別對候選數(shù)據(jù)進(jìn)行篩選,剔除僅含有例如“食品”或者“食品”“貯藏特性”等不具備多元限定關(guān)系的句子,共計得到2 104條待抽取語料,對應(yīng)2 104組實體組15 649個實體。將待抽取語料、對應(yīng)實體組和實體類型組作為算法的輸入,保證實體序列要與語料中的語序保持一致,經(jīng)過算法中正則表達(dá)式以及文本匹配方法抽離出存在多元限定關(guān)系的實體集合。經(jīng)過規(guī)則匹配關(guān)系抽取算法循環(huán)遍歷所有輸入語料,輸出得到多元限定關(guān)系實體組,并以json 格式進(jìn)行存儲,為后續(xù)實體融合與知識存儲做準(zhǔn)備。抽取結(jié)果示例如圖7 所示,共計抽取2 638組多元限定關(guān)系。圖8 展示了抽取得到的多元限定關(guān)系中各類型實體的占比情況,其中除食品類型外,保藏方法和空氣狀況類型實體相對較多。

      圖7 實體組抽取結(jié)果示例Fig.7 Examples of entity group extraction results

      圖8 多元限定關(guān)系中各類型實體占比情況Fig.8 Proportion of various types of entities in multi-restricted relation

      3.2.2 多分類關(guān)系抽取

      本文同樣從第3.2.1小節(jié)提及的候選數(shù)據(jù)中選擇具有潛在普通關(guān)系的文本作為關(guān)系分類實驗的語料,即句子中包含“食品”“病蟲害/敗壞現(xiàn)象”“保藏方法”“貯藏操作”“食品貯藏特性”5種實體類型,共計得到2 040條語料,并完成6類關(guān)系標(biāo)注,包括5種普通關(guān)系和未知關(guān)系。由于語料中對于“貯藏條件相似”“不可以混合貯藏”2類關(guān)系的知識較少,即與其他關(guān)系類型數(shù)據(jù)分布不均衡,故采取數(shù)據(jù)增強的方法來彌補相對其他長尾類型關(guān)系的影響,共計構(gòu)建4 063 條語料,關(guān)系編碼、各關(guān)系數(shù)量以及抽取文本示例如表6所示。需要注意的是,其中數(shù)據(jù)增強獲得的語料僅作為模型訓(xùn)練數(shù)據(jù),而不能作為圖譜構(gòu)建的知識元。標(biāo)注語料按照8∶2 的比例劃分訓(xùn)練集和驗證集,訓(xùn)練模型中使用的BERT預(yù)訓(xùn)練模型為BERT-Chinese-base,訓(xùn)練批量大小為32,最大序列長度為128,學(xué)習(xí)率為3E-5,訓(xùn)練輪次為30。經(jīng)過實驗驗證各類關(guān)系的評價分?jǐn)?shù)如表7 所示,平均F1 值達(dá)到94.14%,分類效果較好。相比于實體識別任務(wù)和多元限定關(guān)系,普通關(guān)系的表述相對單一,文本中常常會出現(xiàn)“具有”“防止”“相類似”“包括”等內(nèi)容,使得模型學(xué)習(xí)到的數(shù)據(jù)特征較為準(zhǔn)確。依據(jù)評價指標(biāo)和具體抽取情況表明,利用基于BERT的分類模型抽取效果較好。

      表6 普通關(guān)系抽取示例Table 6 Examples of common relation extraction

      表7 普通關(guān)系抽取實驗結(jié)果Table 7 Experimental results of common relation extraction單位:%

      3.2.3 知識融合

      將完成規(guī)則抽取和模型抽取的數(shù)據(jù)分成三元組和多元組兩類,作為本文提出的知識融合方法的輸入項,融合過程中包括食品別名詞典的檢索,向量化相似性比較,多元組集合重疊等。其中構(gòu)建食品別名詞典采取Scrapy框架爬取相關(guān)網(wǎng)站常見的食品別名,共計食品種類為766種,別名數(shù)量4 360個,并以json格式存儲以方便算法中字符查找匹配,同時將余弦相似度閾值設(shè)置為0.7。經(jīng)過知識融合方法后獲得高質(zhì)量實體關(guān)系組,完成實體對齊和多元限定關(guān)系的冗余消除,融合前后的知識對比效果如表8所示。

      表8 知識融合前后示例Table 8 Examples of before and after knowledge fusion

      4 知識圖譜可視化和語義檢索

      將抽取得到的知識進(jìn)行合適的存儲與表示是構(gòu)建知識圖譜的重要環(huán)節(jié),本文選取開源圖數(shù)據(jù)庫Neo4j(neo4j.com)存儲食品貯藏領(lǐng)域知識圖譜。Neo4j 具備處理龐雜數(shù)據(jù)敏捷和查詢速度快等優(yōu)勢,同時還具備直觀、易于理解的可視化前端,但在Neo4j 中常常以三元組的形式進(jìn)行表示。然而本文提出的超節(jié)點表示方式可以很好地嵌入到Neo4j當(dāng)中,從而避免兩兩實體間錯亂復(fù)雜的關(guān)系表示形式,大大減少關(guān)系數(shù)據(jù)的存儲量。

      將相關(guān)的各類異構(gòu)數(shù)據(jù)資源利用本文的知識圖譜構(gòu)建框架技術(shù),在Neo4j 數(shù)據(jù)庫中完成存儲,構(gòu)建可視化食品貯藏知識圖譜用于各類語義檢索。為了提升存入速度,本文使用Neo4j提供的Py2neo工具包批量導(dǎo)入數(shù)據(jù),將抽取完成的數(shù)據(jù)轉(zhuǎn)換為csv 格式,使用Node、Relationship 等方法完成實體和關(guān)系的創(chuàng)建,同時使用merge方法完成節(jié)點與邊的導(dǎo)入。共計導(dǎo)入10 211個實體,普通關(guān)系2 697 組,多元限定關(guān)系2 419 組。圖9 展示了食品貯藏知識圖譜構(gòu)建的整體可視化效果,圖10和圖11分別展示具有多元限定關(guān)系和普通關(guān)系的部分圖譜示例,有效表達(dá)出食品不同條件下的貯藏知識和相互之間的關(guān)聯(lián)關(guān)系。

      圖9 食品貯藏知識圖譜可視化Fig.9 Visualization of food storage knowledge graph

      圖10 具有多元限定關(guān)系的部分圖譜示例Fig.10 Examples of part of knowledge graph in multi-restricted relation

      圖11 具有普通關(guān)系的部分圖譜示例Fig.11 Examples of part of knowledge graph in common rela-tion

      通過構(gòu)建的圖譜可視化結(jié)構(gòu),可以直觀看到“蘋果”與哪些食品不宜貯藏在一起,在哪些貯藏條件下溫度濕度等的不同,具體“蘋果”有哪些品種以及貯藏方式等。為了更精準(zhǔn)的語義檢索,可以使用Cypher 語言進(jìn)行查詢。例如查詢“葡萄”有哪些貯藏特性且適合在什么條件下貯藏,可以通過“match(n:food{name:“葡萄”})-[r1:`具有特性`]->(p)returnn,punion match(n:food{name:“葡萄”})-[r2:` `]->(m)-[r3:` `]->(p)returnn,p”查詢可知“葡萄”較耐貯藏,且適宜在2℃、濕度78%下采取窖藏法貯藏。再者例如查詢?nèi)绾畏乐埂案吡幻住痹诖鎯^程中變味的現(xiàn)象,通過“match(n:food{name:“高粱米”})-[r1:`具有特性`]->(p:bad{name:“變味”})<-[r2:`防止/緩解`]-(q)returnn,p,q”可知貯藏“高粱米”時應(yīng)該保證“風(fēng)晾降濕”來防止“變味”“裂紋”。將繁雜的食品貯藏數(shù)據(jù)通過本文的知識圖譜構(gòu)建技術(shù)形成結(jié)構(gòu)化知識表達(dá),便于知識理解與高效查詢,可以多角度地獲取想要的知識,為后續(xù)該領(lǐng)域的相關(guān)建設(shè)與應(yīng)用提供幫助。

      5 結(jié)束語

      本文在大數(shù)據(jù)的社會背景和食品貯藏研究的背景下,針對食品貯藏領(lǐng)域數(shù)據(jù)海量異構(gòu)、資源利用率較低和缺乏系統(tǒng)化表示等問題,提出了一套較為完整的食品貯藏知識圖譜構(gòu)建框架,包含了不同結(jié)構(gòu)不同來源的數(shù)據(jù)處理方法。本文首先針對領(lǐng)域內(nèi)數(shù)據(jù)特點提出了多元關(guān)系的表達(dá)模式,設(shè)計了融合多特征的實體抽取模型和多元關(guān)系抽取算法完成知識抽取,其次利用構(gòu)建的食品別名詞典和相似性匹配算法完成知識融合,然后將形成的結(jié)構(gòu)化知識通過圖數(shù)據(jù)庫Neo4j 進(jìn)行存儲和可視化表達(dá)。本文分別將技術(shù)書籍、科學(xué)文獻(xiàn)、網(wǎng)絡(luò)文章等作為數(shù)據(jù)源進(jìn)行實驗驗證,充分證明了所提出框架的合理性和有效性,為食品貯藏相關(guān)研究開辟了新的智能視角,同時也為其他領(lǐng)域數(shù)據(jù)分析表達(dá)和知識圖譜構(gòu)建提供借鑒。未來將在完善FSKG構(gòu)建以及自動問答、知識補全等方面開展研究。

      猜你喜歡
      語料圖譜實體
      繪一張成長圖譜
      前海自貿(mào)區(qū):金融服務(wù)實體
      中國外匯(2019年18期)2019-11-25 01:41:54
      實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
      補腎強身片UPLC指紋圖譜
      中成藥(2017年3期)2017-05-17 06:09:01
      振興實體經(jīng)濟地方如何“釘釘子”
      兩會進(jìn)行時:緊扣實體經(jīng)濟“釘釘子”
      基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
      主動對接你思維的知識圖譜
      華語電影作為真實語料在翻譯教學(xué)中的應(yīng)用
      《苗防備覽》中的湘西語料
      手游| 天等县| 南召县| 平遥县| 和政县| 武城县| 阿荣旗| 革吉县| 盘锦市| 淳化县| 太康县| 大洼县| 图片| 遂平县| 鹤岗市| 嘉义县| 莱芜市| 台中市| 淮安市| 墨竹工卡县| 荆门市| 鱼台县| 陕西省| 丘北县| 丰台区| 镇康县| 邮箱| 南雄市| 盐源县| 嘉黎县| 多伦县| 黄浦区| 平和县| 察哈| 扎赉特旗| 安溪县| 清镇市| 左贡县| 九寨沟县| 壶关县| 司法|