呂東東,陳俊華,毛典輝※,張青川,趙 敏,郝治昊,4
(1.北京工商大學(xué)農(nóng)產(chǎn)品質(zhì)量安全追溯技術(shù)及應(yīng)用國(guó)家工程實(shí)驗(yàn)室,北京 100048; 2.北京工商大學(xué)食品安全大數(shù)據(jù)技術(shù)北京重點(diǎn)實(shí)驗(yàn)室,北京100048; 3.中國(guó)標(biāo)準(zhǔn)化研究院標(biāo)準(zhǔn)化理論戰(zhàn)略研究所,北京100088; 4.澳門大學(xué)智慧城市物聯(lián)網(wǎng)國(guó)家重點(diǎn)實(shí)驗(yàn)室,澳門 999078)
農(nóng)產(chǎn)品安全關(guān)系到人民群眾身體健康和生命安全,中國(guó)政府出臺(tái)了實(shí)施農(nóng)產(chǎn)品安全戰(zhàn)略的綱領(lǐng)性文件《中共中央國(guó)務(wù)院關(guān)于深化改革加強(qiáng)食品安全工作的意見(jiàn)》,指出要加快建立農(nóng)產(chǎn)品安全領(lǐng)域現(xiàn)代化治理體系,提高從農(nóng)田到餐桌全過(guò)程的監(jiān)管能力,提升農(nóng)產(chǎn)品全鏈條質(zhì)量安全保障水平。農(nóng)產(chǎn)品標(biāo)準(zhǔn)作為衡量農(nóng)產(chǎn)品安全的尺度與農(nóng)產(chǎn)品安全監(jiān)管的重要依據(jù),在農(nóng)產(chǎn)品全鏈條質(zhì)量安全保障中發(fā)揮著舉足輕重的作用。當(dāng)前農(nóng)產(chǎn)品標(biāo)準(zhǔn)及相關(guān)詞條過(guò)于分散化,往往以信息孤島的形式存在,沒(méi)有得到系統(tǒng)性的關(guān)聯(lián)與復(fù)用,知識(shí)圖譜能夠?qū)⑥r(nóng)產(chǎn)品標(biāo)準(zhǔn)及其各類信息連接形成一個(gè)關(guān)系網(wǎng)絡(luò),從而為人們提供從“關(guān)系”角度分析問(wèn)題的能力。因此憑借智能語(yǔ)義分析與知識(shí)圖譜技術(shù),將海量農(nóng)產(chǎn)品領(lǐng)域數(shù)據(jù)與知識(shí)圖譜關(guān)聯(lián),逐步形成基于農(nóng)產(chǎn)品標(biāo)準(zhǔn)領(lǐng)域知識(shí)圖譜的監(jiān)管輔助分析手段十分必要。
農(nóng)產(chǎn)品領(lǐng)域知識(shí)圖譜相關(guān)研究工作主要分為作物與制品兩個(gè)主題,作物主題主要圍繞科普、病蟲害防治及預(yù)測(cè)為目標(biāo)進(jìn)行知識(shí)構(gòu)建;制品主題主要圍繞農(nóng)產(chǎn)品制品安全主題新聞、農(nóng)產(chǎn)品及其制品中的僅限用物質(zhì)限量、農(nóng)產(chǎn)品標(biāo)準(zhǔn)的相互引用關(guān)系等展開(kāi)。其最終目標(biāo)是實(shí)現(xiàn)農(nóng)產(chǎn)品安全領(lǐng)域知識(shí)圖譜的本體構(gòu)建、實(shí)體關(guān)系抽取以及基于知識(shí)圖譜的下游任務(wù)農(nóng)產(chǎn)品安全領(lǐng)域問(wèn)答系統(tǒng)、推薦系統(tǒng)、社區(qū)網(wǎng)絡(luò)挖掘等。當(dāng)前農(nóng)產(chǎn)品標(biāo)準(zhǔn)領(lǐng)域知識(shí)圖譜構(gòu)建研究存在標(biāo)準(zhǔn)文件內(nèi)容繁雜以及內(nèi)容格式不統(tǒng)一(如國(guó)家標(biāo)準(zhǔn)、行業(yè)標(biāo)準(zhǔn)、地方標(biāo)準(zhǔn)等)等問(wèn)題,從而對(duì)圖譜實(shí)體關(guān)系抽取造成了極大不便。
在實(shí)體關(guān)系抽取相關(guān)研究工作中,限定域關(guān)系抽取研究方法主要分為Pipeline方法與聯(lián)合抽取方法,基礎(chǔ)分析模型主要有循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)、長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory, LSTM)、源自轉(zhuǎn)換器的雙向編碼器表征向量(Bidirectional Encoder Representation from Transformers, BERT)以及上述網(wǎng)絡(luò)與條件隨機(jī)場(chǎng)(Conditional Random Field, CRF)的組合等。Pipeline方法是將實(shí)體關(guān)系抽取分解為命名實(shí)體識(shí)別與關(guān)系分類任務(wù);而聯(lián)合抽取方法主要是考慮命名實(shí)體識(shí)別與關(guān)系分類之間的約束,如CASREL模型,其先識(shí)別語(yǔ)料中的主語(yǔ),然后共享主語(yǔ)信息同時(shí)識(shí)別對(duì)應(yīng)的客體及關(guān)系。在開(kāi)放式關(guān)系抽取領(lǐng)域,國(guó)外已經(jīng)發(fā)展出了諸如ReVerb、RnnOIE等系列高性能模型,而國(guó)內(nèi)發(fā)展相對(duì)緩慢,文獻(xiàn)[30]通過(guò)分析語(yǔ)義進(jìn)而提出ZORE開(kāi)放關(guān)系抽取模型,其通過(guò)雙重傳播算法迭代地識(shí)別語(yǔ)義關(guān)系模式,文獻(xiàn)[31]基于依存句法分析提出了一套通用的關(guān)系抽取范式DSNFs。上述的開(kāi)放域關(guān)系抽取模型在公共數(shù)據(jù)上均表現(xiàn)良好,但在領(lǐng)域數(shù)據(jù)上表現(xiàn)差強(qiáng)人意,主要原因是領(lǐng)域數(shù)據(jù)有較強(qiáng)的領(lǐng)域特性,詞法句法均與公共數(shù)據(jù)存在較大差異。若要在領(lǐng)域數(shù)據(jù)上取得好的效果,傳統(tǒng)基于深度模型的限定域關(guān)系抽取方案需要重新引入大量領(lǐng)域標(biāo)注語(yǔ)料進(jìn)行訓(xùn)練;而基于依存句法分析的開(kāi)放關(guān)系抽取方案只需標(biāo)注少量的初始化種子或定義少量抽取模板,并具有較強(qiáng)的遷移能力,對(duì)領(lǐng)域數(shù)據(jù)處理更為適用。
因此,本研究針對(duì)現(xiàn)有農(nóng)產(chǎn)品標(biāo)準(zhǔn)文件難以關(guān)聯(lián)復(fù)用及知識(shí)圖譜構(gòu)建過(guò)程面臨的文件格式不統(tǒng)一、信息抽取困難等問(wèn)題,依據(jù)標(biāo)準(zhǔn)化文件的起草規(guī)范對(duì)文件內(nèi)容進(jìn)行了本體規(guī)范化,并為半結(jié)構(gòu)化數(shù)據(jù)設(shè)計(jì)了正則包裝器,為非結(jié)構(gòu)化文本提出了一個(gè)基于依存句法分析的農(nóng)產(chǎn)品領(lǐng)域開(kāi)放關(guān)系抽取模型(Open Relation Extraction Model In Agricultural Products Field, OREM-AF),實(shí)現(xiàn)了領(lǐng)域知識(shí)自動(dòng)抽取。依托抽取數(shù)據(jù)構(gòu)建了農(nóng)產(chǎn)品標(biāo)準(zhǔn)領(lǐng)域知識(shí)圖譜,并在知識(shí)圖譜的相互關(guān)聯(lián)網(wǎng)絡(luò)上進(jìn)行了社區(qū)挖掘,獲得的標(biāo)準(zhǔn)文件間的關(guān)聯(lián)知識(shí)能夠?yàn)檗r(nóng)產(chǎn)品安全監(jiān)管提供輔助分析支撐。
農(nóng)產(chǎn)品標(biāo)準(zhǔn)領(lǐng)域數(shù)據(jù)主要由農(nóng)產(chǎn)品標(biāo)準(zhǔn)文件與百科數(shù)據(jù)兩部分構(gòu)成。其中標(biāo)準(zhǔn)文件來(lái)源于食品標(biāo)準(zhǔn)伙伴網(wǎng)(http://down.foodmate.net/standard/)與中國(guó)食品安全標(biāo)準(zhǔn)網(wǎng)(http://www.cnspbzw.com/);百科數(shù)據(jù)來(lái)源于百度百科相關(guān)農(nóng)產(chǎn)品介紹頁(yè);模型訓(xùn)練的公共語(yǔ)料源自影評(píng)及新聞,公共數(shù)據(jù)用于測(cè)試模型的泛化能力。具體數(shù)據(jù)構(gòu)成見(jiàn)表1所示。
表1 數(shù)據(jù)構(gòu)成表 Table 1 Table of data components
本體規(guī)則構(gòu)建是知識(shí)圖譜實(shí)體關(guān)系抽取的核心工作之一。在農(nóng)產(chǎn)品科普內(nèi)容中,公眾較為關(guān)注的信息有:農(nóng)產(chǎn)品的科、屬、別稱、分布地區(qū)及相應(yīng)的功能效果。在農(nóng)產(chǎn)品標(biāo)準(zhǔn)文件中,大家較為關(guān)注的信息有:1)規(guī)范性引用信息:大部分標(biāo)準(zhǔn)文件的描述信息中會(huì)引用其他標(biāo)準(zhǔn)文件,以GB/T 29370-2012(檸檬)為例,其衛(wèi)生指標(biāo)描述為“按GB 2762、GB 2763規(guī)定執(zhí)行”,這些規(guī)范性引用標(biāo)準(zhǔn)是形成標(biāo)準(zhǔn)圖譜網(wǎng)絡(luò)結(jié)構(gòu)的基石;2)適用范圍信息:該部分能直觀給出具體的適用品類或相關(guān)操作。以國(guó)家標(biāo)準(zhǔn)GB 9827-1988(香蕉)為例,其適用范圍描述為“本標(biāo)準(zhǔn)適用于香蕉果品的條蕉、梳蕉的收購(gòu)質(zhì)量規(guī)格”,可知該標(biāo)準(zhǔn)文件不僅適用于條蕉的收購(gòu)質(zhì)量規(guī)格,也適用于梳蕉的收購(gòu)質(zhì)量規(guī)格;3)標(biāo)準(zhǔn)基礎(chǔ)屬性信息:該部分包含標(biāo)準(zhǔn)文件名稱、發(fā)布時(shí)間、實(shí)施時(shí)間、主要起草人、起草單位、歸口單位等信息。
本文結(jié)合標(biāo)準(zhǔn)化文件的起草規(guī)范將農(nóng)產(chǎn)品標(biāo)準(zhǔn)及相關(guān)百科詞條關(guān)系模式分為16類,具體類別如表2所示(以金桔相關(guān)詞條及其相關(guān)的推薦性國(guó)家標(biāo)準(zhǔn)GB/T 33470-2016部分信息為例)。
表2 農(nóng)產(chǎn)品標(biāo)準(zhǔn)本體關(guān)系規(guī)則 Table 2 Agricultural product standard ontology relation rules
在表2中,實(shí)體關(guān)系為Standard name、Standard type、Release date、Implementation date、Main drafter、Proposed unit、Drafting unit、Technical unit的屬性關(guān)系以及實(shí)體關(guān)系為Reference standard的相互引用關(guān)系內(nèi)容主要以半結(jié)構(gòu)化數(shù)據(jù)形式存在于標(biāo)準(zhǔn)文件首頁(yè)及文件頭部,如圖1所示。
圖1 農(nóng)產(chǎn)品標(biāo)準(zhǔn)半結(jié)構(gòu)化數(shù)據(jù) Fig.1 Semi-structured data of agricultural products standard
本文依據(jù)標(biāo)準(zhǔn)化文件的起草規(guī)范,通過(guò)構(gòu)建正則包裝器來(lái)抽取半結(jié)構(gòu)化數(shù)據(jù)實(shí)體關(guān)系。以標(biāo)準(zhǔn)GB/T 5835-2009(干制紅棗)為例,其中有“本標(biāo)準(zhǔn)由中華全國(guó)供銷合作總社提出。本標(biāo)準(zhǔn)由中華全國(guó)供銷合作總社濟(jì)南果品研究院歸口”。依據(jù)該表述格式制作正則表達(dá)式可從中抽取出兩個(gè)三元組:(GB/T 5835-2009,提出部門,中華全國(guó)供銷合作總社)、(GB/T 5835-2009,歸口部門,中華全國(guó)供銷合作總社濟(jì)南果品研究院)。
在表2中,實(shí)體關(guān)系為Family、Genus、Another name、Distribution area、Efficacy、Relevant standard、Scope of application的內(nèi)容主要以標(biāo)準(zhǔn)文件及百科信息中的非結(jié)構(gòu)化文本形式呈現(xiàn),這類文本與關(guān)系抽取領(lǐng)域常見(jiàn)的語(yǔ)料相比,具有主體單一、客體分布密集以及客體存在多并列關(guān)系特征。針對(duì)此類特征,本文提出了一個(gè)基于依存句法分析(Language Technology Platform,LTP)的農(nóng)產(chǎn)品領(lǐng)域開(kāi)放關(guān)系抽取模型(OREM-AF)實(shí)現(xiàn)非結(jié) 構(gòu)化文本實(shí)體關(guān)系抽取。依存句法分析的作用是識(shí)別出句子中的短語(yǔ)結(jié)構(gòu)以及短語(yǔ)之間的層次句法關(guān)系,具體的關(guān)系種類見(jiàn)表3所示。其工作流程首先將語(yǔ)料進(jìn)行分詞,接著對(duì)詞匯進(jìn)行詞性標(biāo)記,最后將詞匯及詞性送入LTP中得到語(yǔ)料的依存句法結(jié)構(gòu),以標(biāo)準(zhǔn)GB/T 9827-1988(香蕉)為例,其中有“本標(biāo)準(zhǔn)適用于香蕉果品的條蕉、梳蕉的收購(gòu)質(zhì)量規(guī)格”,該語(yǔ)句經(jīng)依存句法分析后如圖2所示。
表3 依存句法關(guān)系表 Table 3 Dependency syntactic relation table
圖2 依存句法分析示例 Fig.2 Example of dependent syntactic analysis
進(jìn)行非結(jié)構(gòu)化文本實(shí)體關(guān)系抽取時(shí),本文需要結(jié)合該領(lǐng)域語(yǔ)料特征、語(yǔ)料依存句法分析結(jié)構(gòu)樹并依據(jù)表2中的本體關(guān)系規(guī)則進(jìn)行三元組標(biāo)注,具體的標(biāo)注方式如下:1)由專業(yè)人員依據(jù)本體關(guān)系規(guī)則標(biāo)注出語(yǔ)料中存在的三元組;2)通過(guò)LTP工具解析語(yǔ)料的依存句法分析結(jié)構(gòu)樹,根據(jù)步驟1)中標(biāo)注的三元組及結(jié)構(gòu)樹標(biāo)注出不含ATT定中關(guān)系的偽三元組;3)將三元組與偽三元組以(關(guān)系,偽賓語(yǔ),賓語(yǔ),偽主語(yǔ),主語(yǔ))五元組的形式合并。以圖2為例,根據(jù)上述步驟最終標(biāo)注的五元組為(適用,規(guī)格,香蕉果品的條蕉的收購(gòu)質(zhì)量規(guī)格,標(biāo)準(zhǔn),本標(biāo)準(zhǔn))。為保障試驗(yàn)效果,本文從表1的公共語(yǔ)料中隨機(jī)選取1 300條制作公共數(shù)據(jù)集;從標(biāo)準(zhǔn)語(yǔ)料與百科語(yǔ)料中隨機(jī)選取1 300條制作農(nóng)產(chǎn)品數(shù)據(jù)集;并將兩類數(shù)據(jù)集分別以10:3的比例劃分成訓(xùn)練集與測(cè)試集,數(shù)據(jù)集示例如圖3所示。
圖3 農(nóng)產(chǎn)品非結(jié)構(gòu)化數(shù)據(jù)集 Fig.3 Unstructured data set of agricultural products
OREM-AF農(nóng)產(chǎn)品領(lǐng)域開(kāi)放關(guān)系抽取模型的基本思想是從領(lǐng)域標(biāo)注語(yǔ)料中學(xué)習(xí)實(shí)體與關(guān)系之間的依存樹結(jié)構(gòu),判斷兩者根節(jié)點(diǎn)關(guān)系的一致性或同級(jí)性來(lái)生成實(shí)體關(guān)系抽取依存范式,通過(guò)依存分析與實(shí)體關(guān)系抽取依存范式集匹配,實(shí)現(xiàn)農(nóng)產(chǎn)品相關(guān)語(yǔ)料實(shí)體關(guān)系三元組自動(dòng)抽取。模型的總體框架如圖4所示,包含數(shù)據(jù)預(yù)處理、實(shí)體關(guān)系依存范式學(xué)習(xí)、三元組抽取3個(gè)階段。
圖4 OREM-AF模型框架 Fig.4 Framework of OREM-AF model
1)數(shù)據(jù)預(yù)處理
數(shù)據(jù)預(yù)處理階段將文本語(yǔ)料解析為依存句法樹(如圖2所示),為了提高分詞的準(zhǔn)確率,本文從食品標(biāo)準(zhǔn)伙伴網(wǎng)、中國(guó)植物主題數(shù)據(jù)庫(kù)等網(wǎng)站爬取了科、屬、品種及僅限用物質(zhì)等專有名詞46 157個(gè)以提高模型的準(zhǔn)確率與召回率。
2)實(shí)體關(guān)系依存范式學(xué)習(xí)
實(shí)體關(guān)系依存范式學(xué)習(xí)階段是從依存樹結(jié)構(gòu)(Dependency Tree, DT)中學(xué)習(xí)標(biāo)注的五元組中偽實(shí)體對(duì)(偽主語(yǔ),偽賓語(yǔ))之間的依存關(guān)系結(jié)構(gòu)。學(xué)習(xí)算法步驟為:首先通過(guò)依存樹結(jié)構(gòu)DT,找出該文本中以“HED”為首,并與其保持“COO”關(guān)系的所有詞匯,構(gòu)成該文本的核心詞匯鏈;通過(guò)偽主語(yǔ)逆向找出與其相關(guān)的依存樹結(jié)構(gòu)DT_1;通過(guò)偽賓語(yǔ)逆向找出與其相關(guān)的依存樹結(jié)構(gòu)DT_2;判斷DT_1與DT_2的根節(jié)點(diǎn)是否一致或是否為“COO”結(jié)構(gòu),若是則將二者的關(guān)系樹按文本的原生樹結(jié)構(gòu)進(jìn)行填充合并,并將原核心詞匯替換成“關(guān)系”,生成三元組(偽主語(yǔ),關(guān)系,偽賓語(yǔ))。
以圖2為例,核心詞匯鏈僅有一個(gè)成員“適用”,其偽主語(yǔ)與偽賓語(yǔ)分別為“標(biāo)準(zhǔn)”、“規(guī)格”。通過(guò)查找“標(biāo)準(zhǔn)”與“適用”之間的依存樹結(jié)構(gòu)DT_1,可以確定“標(biāo)準(zhǔn)”與“適用”之間僅有“SBV”一層主謂結(jié)構(gòu)直接關(guān)系;通過(guò)查找“規(guī)格”與“適用”之間的依存樹結(jié)構(gòu)DT_2,可以確定“規(guī)格”與“適用”之間有“CMP”動(dòng)補(bǔ)結(jié)構(gòu)與“POB”介賓結(jié)構(gòu)兩層關(guān)系,DT_1與DT_2依存樹根節(jié)點(diǎn)同為“適用”,因此可以依據(jù)原生依存樹結(jié)構(gòu),生成屬于該核心詞匯的依存范式表達(dá)式,見(jiàn)表4中的DSP3關(guān)系抽取范式。
將公共數(shù)據(jù)集與農(nóng)產(chǎn)品數(shù)據(jù)集的訓(xùn)練集分別輸入模型后,得到兩類數(shù)據(jù)中排名前11的高頻實(shí)體關(guān)系抽取范式如表4所示。其中編號(hào)DSP0用于處理偏正結(jié)構(gòu),也可與其他依存范式配合使用;DSP2處理主謂賓結(jié)構(gòu);DSP3~DSP6處理動(dòng)補(bǔ)結(jié)構(gòu)、狀中結(jié)構(gòu)以及介賓結(jié)構(gòu)等復(fù)雜句式;DSP7~DSP10是在以上結(jié)構(gòu)的基礎(chǔ)上處理實(shí)體及關(guān)系之間的并列結(jié)構(gòu);DSP1情況特殊,并不能從依存范式學(xué)習(xí)算法中直接獲取,但其在子依存樹解析階段出現(xiàn)的概率僅次于DSP0,因此我們手工編輯了該模板,主要用于處理賓語(yǔ)缺失情況,用以生成實(shí)體關(guān)系二元組。
3)三元組抽取
在得到實(shí)體關(guān)系抽取范式集之后,可進(jìn)行三元組抽取。具體步驟如下:將測(cè)試語(yǔ)料用LTP工具進(jìn)行依存句法解析;獲取該語(yǔ)料的核心詞匯鏈;獲取以核心詞為根的依存樹并與實(shí)體關(guān)系抽取范式集匹配得到偽三元組;偽三元組信息可能存在語(yǔ)義放大等情況,因此要對(duì)偽主語(yǔ)、偽賓語(yǔ)進(jìn)行“ATT”定中結(jié)構(gòu)語(yǔ)義補(bǔ)全,并檢查“COO”并列結(jié)構(gòu)進(jìn)行同級(jí)替換。
仍以圖2為例,該語(yǔ)料核心詞匯鏈中僅有“適用”一詞,以“適用”為核心的子依存樹與表4中的DSP3相吻合,可得到粗略的三元組(標(biāo)準(zhǔn),適用于,規(guī)格),然后進(jìn)行主語(yǔ)、賓語(yǔ)語(yǔ)義補(bǔ)全得到三元組(本標(biāo)準(zhǔn),適用于,香蕉果品的條蕉、梳蕉的收購(gòu)質(zhì)量規(guī)格),由于該賓語(yǔ)內(nèi)部存在“條蕉”、“梳蕉”并列結(jié)構(gòu),因此可以拆分得到兩個(gè)三元組:(本標(biāo)準(zhǔn),適用于,香蕉果品的條蕉的收購(gòu)質(zhì)量規(guī)格)、(本標(biāo)準(zhǔn),適用于,香蕉果品的梳蕉的收購(gòu)質(zhì)量規(guī)格)。
表4 高頻實(shí)體關(guān)系依存范式集 Table 4 High frequency entity relationship dependency paradigm set
模型評(píng)測(cè)采用準(zhǔn)確率(Precision,)、召回率(Recall,)、1值(1-score,1)作為評(píng)價(jià)指標(biāo)。
式中CEQ (Correct Extraction Quantity of machine)為機(jī)器抽取結(jié)果中正確的數(shù)量;MEQ(Machine Extraction Quantity)為機(jī)器抽取的總數(shù)量;MLQ(Manual Labeling Quantity)為人工標(biāo)注的數(shù)量。
半結(jié)構(gòu)化標(biāo)準(zhǔn)數(shù)據(jù)采用依據(jù)本體模式構(gòu)建的正則包裝器進(jìn)行抽取。評(píng)估方案是從640份標(biāo)準(zhǔn)文件中隨機(jī)選取100份對(duì)2.1節(jié)中所述的屬性三元組及引用三元組分別進(jìn)行自動(dòng)抽取,抽取結(jié)果如表5所示。
表5 半結(jié)構(gòu)化數(shù)據(jù)關(guān)系抽取結(jié)果 Table 5 Relation extraction result of semi-structured standard data
其中用于基礎(chǔ)屬性三元組抽取的100份標(biāo)準(zhǔn)文件,人工標(biāo)注共有1 736條,通過(guò)機(jī)器自動(dòng)抽取得到1 659條,機(jī)器抽取的正確率為99.81%,召回率在95%以上;用于相互引用關(guān)系三元組抽取的100份標(biāo)準(zhǔn)文件,人工標(biāo)注共有845條,通過(guò)機(jī)器自動(dòng)抽取得到841條,準(zhǔn)確率、召回率、1值均在99%以上。通過(guò)以上數(shù)據(jù)表明,基于正則表達(dá)式的包裝器抽取方案適用于標(biāo)準(zhǔn)文件半結(jié)構(gòu)化數(shù)據(jù)抽取,且擁有較高的準(zhǔn)確率。
1)OREM-AF模型抽取結(jié)果質(zhì)量評(píng)估
非結(jié)構(gòu)化文本語(yǔ)料采用本文的OREM-AF模型進(jìn)行抽取,該類語(yǔ)料主要涉及2.2節(jié)中所述的實(shí)體關(guān)系,將農(nóng)產(chǎn)品標(biāo)準(zhǔn)文本以及百科農(nóng)產(chǎn)品詞條輸入模型后,抽取結(jié)果見(jiàn)表6所示。
表6 非結(jié)構(gòu)化文本語(yǔ)料關(guān)系抽取結(jié)果 Table 6 Relationship extraction results of unstructured text
從表6可知,標(biāo)準(zhǔn)語(yǔ)料的抽取結(jié)果準(zhǔn)確率達(dá)到了78.79%,召回率達(dá)到了80.10%;百科語(yǔ)料的準(zhǔn)確率達(dá)到了76.09%,召回率達(dá)到了71.95%;總體均在70%以上,能夠保證三元組的抽取質(zhì)量。
2)OREM-AF模型抽取性能對(duì)比
為了驗(yàn)證OREM-AF模型的有效性與普適性,本文設(shè)計(jì)了兩組對(duì)比試驗(yàn),將OREM-AF模型與開(kāi)放域關(guān)系抽取模型ZORE、DSNFs在公共數(shù)據(jù)集與農(nóng)產(chǎn)品數(shù)據(jù)集上進(jìn)行了對(duì)比試驗(yàn),試驗(yàn)結(jié)果如表7所示。
表7 開(kāi)放關(guān)系抽取模型性能對(duì)比 Table 7 Performance comparison of open relational extraction models
從表7可以看出在公共數(shù)據(jù)集上,OREM-AF模型的各項(xiàng)數(shù)據(jù)表現(xiàn)略好于DSNFs模型;在農(nóng)產(chǎn)品數(shù)據(jù)集上,OREM-AF模型的準(zhǔn)確率略高于DSNFs模型,但召回率高出較多,主要原因有兩個(gè):公共數(shù)據(jù)集中賓語(yǔ)主體句有大量的同級(jí)替換,本文的OREM-AF模型首先能夠?qū)W習(xí)到該類替換模式,并且針對(duì)主語(yǔ)賓語(yǔ)制定了深度的同級(jí)替換優(yōu)化策略;DSNFs模型需要先進(jìn)行命名實(shí)體識(shí)別,在農(nóng)產(chǎn)品數(shù)據(jù)集上效果較差,且識(shí)別完成后依靠距離構(gòu)建實(shí)體對(duì),有較高的不確定性,因此其召回率表現(xiàn)較差。ZORE模型總體表現(xiàn)較差可能是因?yàn)槠渥詣?dòng)學(xué)習(xí)模式策略有較大的不確定性,而DSNFs模型是高度濃縮語(yǔ)義范式的總結(jié),本文的OREM-AF模型相比DSNFs模型具有主動(dòng)學(xué)習(xí)、深度語(yǔ)義補(bǔ)全、同級(jí)替換等優(yōu)點(diǎn),從而表現(xiàn)更好。
由所有農(nóng)產(chǎn)品標(biāo)準(zhǔn)文件及相關(guān)百科詞條構(gòu)成的半結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù),經(jīng)本文提出的正則包裝器以及OREM-AF模型抽取并加以清洗與屬性矯正共得到19 704條三元組。
三元組知識(shí)條目能夠較好的表示農(nóng)產(chǎn)品相關(guān)信息,Neo4j數(shù)據(jù)庫(kù)可以將三元組這類結(jié)構(gòu)化數(shù)據(jù)以圖的形式存儲(chǔ),從而更加直觀的反映農(nóng)產(chǎn)品標(biāo)準(zhǔn)文件信息之間的關(guān)聯(lián)。因此我們將抽取到的三元組中的實(shí)體儲(chǔ)存為Neo4j中的節(jié)點(diǎn),將三元組中的關(guān)系儲(chǔ)存為Neo4j中的邊,以形成農(nóng)產(chǎn)品標(biāo)準(zhǔn)領(lǐng)域知識(shí)圖譜。當(dāng)食品安全監(jiān)管過(guò)程需要分析“蘋果”相關(guān)標(biāo)準(zhǔn)時(shí),通過(guò)該圖譜可以將所有的蘋果相關(guān)標(biāo)準(zhǔn)展示出來(lái)提供給專家作為參考選擇,如圖5a所示,這樣可以減少大量的人工網(wǎng)絡(luò)搜索時(shí)間等成本;當(dāng)監(jiān)管需要獲取“鮮蘋果”標(biāo)準(zhǔn)的相關(guān)內(nèi)容或需要獲取“鮮蘋果”與“蘋果等級(jí)規(guī)格”兩份標(biāo)準(zhǔn)之間的聯(lián)系時(shí),農(nóng)產(chǎn)品標(biāo)準(zhǔn)領(lǐng)域知識(shí)圖譜也能以此為條件,快速的獲取相關(guān)內(nèi)容如圖5b、5c所示,從而為農(nóng)產(chǎn)品全鏈條監(jiān)管提供輔助分析手段。
圖5 農(nóng)產(chǎn)品標(biāo)準(zhǔn)領(lǐng)域知識(shí)圖譜檢索結(jié)果示例 Fig.5 Example of search results of agricultural product standard domain knowledge graph
在關(guān)系抽取階段,筆者從農(nóng)產(chǎn)品標(biāo)準(zhǔn)文件中抽取出了部分農(nóng)產(chǎn)品標(biāo)準(zhǔn)的相互引用關(guān)系,這些相互引用關(guān)系使得標(biāo)準(zhǔn)文件之間形成了一個(gè)相互引用的關(guān)聯(lián)網(wǎng)絡(luò),經(jīng)過(guò)處理后該網(wǎng)絡(luò)有標(biāo)準(zhǔn)節(jié)點(diǎn)1 190個(gè),形成的關(guān)系有2 665條。下面本文對(duì)該關(guān)聯(lián)網(wǎng)絡(luò)節(jié)點(diǎn)進(jìn)行了編碼處理,并使用Leiden算法結(jié)合網(wǎng)絡(luò)節(jié)點(diǎn)的度試圖找出一些關(guān)聯(lián)標(biāo)準(zhǔn)的公共性與一致性。
Leiden算法可以視為L(zhǎng)ouvain算法的改進(jìn)版,是專門為解決社區(qū)聯(lián)系不緊密而設(shè)計(jì)的,也就是能夠保證所有社區(qū)聯(lián)通。其相對(duì)于Louvain算法加入了加速節(jié)點(diǎn)局部移動(dòng)的思想、將節(jié)點(diǎn)移動(dòng)到隨機(jī)鄰居的思想以及分區(qū)細(xì)化與基于細(xì)化分區(qū)的網(wǎng)絡(luò)聚合思想。該算法在初始狀態(tài)時(shí)將每個(gè)節(jié)點(diǎn)視為單一分區(qū),然后將遵從以下幾個(gè)步驟:1)節(jié)點(diǎn)依據(jù)相對(duì)增益向與其相連接的社區(qū)移動(dòng)并確定一個(gè)相對(duì)合理的分區(qū);2)在分區(qū)內(nèi)通過(guò)查看是否有斷連進(jìn)行細(xì)化分區(qū),基于細(xì)化分區(qū)創(chuàng)建聚合網(wǎng)絡(luò),并使用非細(xì)化分區(qū)為聚合網(wǎng)絡(luò)創(chuàng)建初始分區(qū);3)移動(dòng)聚合后分區(qū)的節(jié)點(diǎn)并進(jìn)行細(xì)化,直到細(xì)化不會(huì)改變當(dāng)前分區(qū)。重復(fù)上述步驟,直到?jīng)]有進(jìn)一步的改進(jìn),具體的算法流程如圖6所示。
圖6 Leiden算法流程圖 Fig.6 Flow chart of Leiden’s algorithm
其中,相對(duì)增益本文使用的是基于模塊度的相對(duì)增益,所用到的質(zhì)量函數(shù)如下式所示:
式中表示圖中的任意兩個(gè)節(jié)點(diǎn),A代表節(jié)點(diǎn)與節(jié)點(diǎn)之間邊的權(quán)重,k代表所有與節(jié)點(diǎn)相連的出度邊的和,k代表所有與節(jié)點(diǎn)相連的入度邊的和,是所有邊的權(quán)重之和。(,)代表若節(jié)點(diǎn)與節(jié)點(diǎn)同屬一個(gè)分區(qū)那么返回1,否則返回0。
在算法步驟中將單個(gè)節(jié)點(diǎn)從一個(gè)社區(qū)移動(dòng)到另一個(gè)社區(qū)依托的是基于模塊度的相對(duì)增益,表示為
式中(→)表示當(dāng)前從一個(gè)分區(qū)開(kāi)始,然后將節(jié)點(diǎn)移動(dòng)到社區(qū)的所獲得的分區(qū),因此相對(duì)增益就等于將節(jié)點(diǎn)移動(dòng)后的分區(qū)質(zhì)量((→))減去移動(dòng)之前的分區(qū)質(zhì)量()。
通過(guò)上述算法最終將農(nóng)產(chǎn)品標(biāo)準(zhǔn)規(guī)范性引用網(wǎng)絡(luò)劃分為了41個(gè)社區(qū),將不同的社區(qū)用不同的顏色標(biāo)記,其中社區(qū)節(jié)點(diǎn)數(shù)小于30的統(tǒng)一用灰色表示;結(jié)合節(jié)點(diǎn)的出度將節(jié)點(diǎn)的大小以及標(biāo)簽的大小與出度的大小成比例放大,最終得到的可視化網(wǎng)絡(luò)如圖7所示。
從圖7中,可以發(fā)現(xiàn)GB/T 8855-2008(新鮮水果和蔬菜 取樣方法)在該領(lǐng)域的權(quán)威性、普適性極高,這也驗(yàn)證了試驗(yàn)所用的標(biāo)準(zhǔn)文件均是農(nóng)產(chǎn)品中果蔬領(lǐng)域的相關(guān)標(biāo)準(zhǔn)文件。黃色區(qū)域內(nèi)較為凸顯的是GB 2762-2017(食品安全國(guó)家標(biāo)準(zhǔn) 食品中污染物限量)、GB 2763-2021(食品安全國(guó)家標(biāo)準(zhǔn) 食品中農(nóng)藥最大殘留限量),其同屬一個(gè)社區(qū)且同屬于食品國(guó)家安全標(biāo)準(zhǔn),從圖中也能看出這兩份標(biāo)準(zhǔn)在食品安全標(biāo)準(zhǔn)領(lǐng)域的通用性強(qiáng),表明了農(nóng)產(chǎn)品領(lǐng)域高度重視農(nóng)產(chǎn)品中的農(nóng)藥及污染物殘留量。藍(lán)色區(qū)域內(nèi)較為凸顯的是GB 5009系列食品衛(wèi)生檢驗(yàn)方法理化標(biāo)準(zhǔn),引用度較高的前四項(xiàng)分別是GB 5009.17-2014(食品中總汞及有機(jī)汞的測(cè)定)、GB 5009.12-2017(食品中總鉛的測(cè)定)、GB 5009.11-2014(食品中總砷及無(wú)機(jī)砷的測(cè)定)、GB 5009.20-2003(食品中有機(jī)磷農(nóng)藥殘留量的測(cè)定)。紅色區(qū)域內(nèi)較為凸顯的是GB 14881-2013(食品安全國(guó)家標(biāo)準(zhǔn) 食品生產(chǎn)通用規(guī)范),且引用該標(biāo)準(zhǔn)的多為地方性標(biāo)準(zhǔn),也能看出地方標(biāo)準(zhǔn)的編寫更加注重農(nóng)產(chǎn)品相關(guān)制品生產(chǎn)過(guò)程中原材料的采購(gòu)、加工、包裝、儲(chǔ)存等準(zhǔn)則。該結(jié)果不僅對(duì)農(nóng)產(chǎn)品標(biāo)準(zhǔn)的社區(qū)網(wǎng)絡(luò)分布研究有良好的指導(dǎo)意義,而且在實(shí)際農(nóng)產(chǎn)品標(biāo)準(zhǔn)制定過(guò)程中,可以依據(jù)相關(guān)標(biāo)準(zhǔn)的引用網(wǎng)絡(luò)及其所在社區(qū)、被引用標(biāo)準(zhǔn)所在社區(qū)等信息,找出類似標(biāo)準(zhǔn)的共性、差異性進(jìn)而指導(dǎo)標(biāo)準(zhǔn)文件編寫。
圖7 社區(qū)網(wǎng)絡(luò)劃分結(jié)果 Fig.7 Results of community network division
1)該研究針對(duì)難以共享、復(fù)用的農(nóng)產(chǎn)品標(biāo)準(zhǔn)文件半結(jié)構(gòu)化數(shù)據(jù),依據(jù)本體工程設(shè)計(jì)了一個(gè)可自動(dòng)化抽取三元組的正則包裝器,該包裝器抽取評(píng)估各項(xiàng)指標(biāo)達(dá)95%以上,能夠進(jìn)行標(biāo)準(zhǔn)文件的大規(guī)模信息抽取工作。
2)針對(duì)農(nóng)產(chǎn)品標(biāo)準(zhǔn)文本及相關(guān)詞條非結(jié)構(gòu)化數(shù)據(jù),提出了一種基于依存句法分析的農(nóng)產(chǎn)品領(lǐng)域開(kāi)放關(guān)系抽取模型(Open Relation Extraction Model In Agricultural Products Field , OREM-AF),該模型能夠依據(jù)少量的領(lǐng)域樣本學(xué)習(xí)領(lǐng)域內(nèi)通用的句法結(jié)構(gòu),進(jìn)而實(shí)現(xiàn)領(lǐng)域非結(jié)構(gòu)化知識(shí)的快速自動(dòng)抽取,試驗(yàn)結(jié)果表明在農(nóng)產(chǎn)品領(lǐng)域數(shù)據(jù)集上1值達(dá)75.12%,該模型同時(shí)具有較強(qiáng)的遷移能力,在以影評(píng)、新聞為主導(dǎo)的公共數(shù)據(jù)集上1值達(dá)75.43%。
3)將抽取的三元組利用neo4j圖數(shù)據(jù)庫(kù)形成的農(nóng)產(chǎn)品標(biāo)準(zhǔn)領(lǐng)域知識(shí)圖譜能夠清晰快速的捕捉當(dāng)前需要檢索的內(nèi)容聯(lián)系,并在圖譜中的標(biāo)準(zhǔn)相互引用關(guān)系關(guān)聯(lián)網(wǎng)絡(luò)上利用Leiden社區(qū)發(fā)現(xiàn)算法進(jìn)行了社區(qū)挖掘,從中發(fā)現(xiàn)了一些標(biāo)準(zhǔn)文件公共性、一致性與其實(shí)際作用范圍之間的聯(lián)系,對(duì)農(nóng)產(chǎn)品的生產(chǎn)銷售監(jiān)管具有一定的指導(dǎo)作用。
當(dāng)前工作仍存在很多改進(jìn)空間,未來(lái)將會(huì)在國(guó)內(nèi)外相關(guān)農(nóng)產(chǎn)品標(biāo)準(zhǔn)圖譜的跨模態(tài)融合,大規(guī)模數(shù)據(jù)實(shí)體關(guān)系抽取等方面進(jìn)行改進(jìn)。