• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      漁業(yè)領(lǐng)域知識(shí)圖譜及其應(yīng)用

      2022-04-20 02:44:08楊立新孫宇豪
      漁業(yè)致富指南 2022年3期
      關(guān)鍵詞:三元組漁業(yè)圖譜

      ○楊立新 石 戀 孫宇豪

      0 引言

      知識(shí)圖譜的理念源自于語(yǔ)義網(wǎng),以圖作為其數(shù)據(jù)結(jié)構(gòu)來(lái)描述知識(shí)并對(duì)真實(shí)世界的客觀事物之間的關(guān)聯(lián)關(guān)系進(jìn)行建模。知識(shí)圖譜由節(jié)點(diǎn)和邊組成,節(jié)點(diǎn)表示概念和實(shí)體,邊表示事物的關(guān)系和屬性,可以用一系列<實(shí)體,關(guān)系,實(shí)體>和<實(shí)體,屬性,值>的三元組來(lái)表示知識(shí)圖譜中的知識(shí)。大量的三元組通過(guò)關(guān)系聯(lián)結(jié),構(gòu)成了網(wǎng)狀的知識(shí)結(jié)構(gòu)。知識(shí)圖譜從應(yīng)用領(lǐng)域上來(lái)說(shuō)可以劃分為分為通用知識(shí)圖譜和垂直領(lǐng)域知識(shí)圖譜。

      通用知識(shí)圖譜可以看做一個(gè)面向通用領(lǐng)域的“結(jié)構(gòu)化的百科知識(shí)庫(kù)”,其中包含了大量的現(xiàn)實(shí)世界中的常識(shí)性知識(shí),覆蓋面極廣。通用知識(shí)圖譜的知識(shí)主要來(lái)自于互聯(lián)網(wǎng)開(kāi)放數(shù)據(jù)、社區(qū)眾包等。通常使用自底向上(Top-Down)的方法進(jìn)行構(gòu)建。對(duì)知識(shí)抽取的質(zhì)量有一定的容忍度,主要應(yīng)用于搜索、問(wèn)答等場(chǎng)景。具有代表性的大規(guī)模通用知識(shí)圖譜有Freebase、DBpedia、Schema.org、Wikidata等,中文通用知識(shí)圖譜有Zhishi.me、SSCO、ZhOnto等。

      垂直領(lǐng)域知識(shí)圖譜面向特定領(lǐng)域,如電商、醫(yī)療、金融、農(nóng)業(yè)、安全等。相比較于通用知識(shí)圖譜,領(lǐng)域知識(shí)圖譜注重知識(shí)的深度與精度,對(duì)知識(shí)質(zhì)量要求更高。典型的垂直領(lǐng)域知識(shí)圖譜有Geo‐Name、GeneOnto、Open PHACTS等。知識(shí)圖譜相比傳統(tǒng)的知識(shí)表達(dá)方式結(jié)構(gòu)化程度更高,更利于計(jì)算機(jī)處理。

      作為知識(shí)圖譜的一種重要應(yīng)用方式,問(wèn)答系統(tǒng)近幾年也廣泛受到人們的關(guān)注。問(wèn)答系統(tǒng)源于專家系統(tǒng)。

      但是這種系統(tǒng)需要專家來(lái)構(gòu)建知識(shí)框架,建設(shè)周期長(zhǎng)且投入成本大,回答范圍有限。以搜索引擎為代表的信息檢索技術(shù)是第二個(gè)層次的對(duì)話系統(tǒng),但搜索引擎屬于淺層自然語(yǔ)言處理,不能很好地理解用戶的真實(shí)意圖,回答準(zhǔn)確率不夠高。基于知識(shí)圖譜的問(wèn)答系統(tǒng),以知識(shí)圖譜作為數(shù)據(jù)支持,通過(guò)神經(jīng)網(wǎng)絡(luò)技術(shù)理解用戶的意圖。較之以往的問(wèn)答系統(tǒng),答案精準(zhǔn)且開(kāi)發(fā)成本相對(duì)較低是目前主流的問(wèn)答系統(tǒng)研究方向。相對(duì)于基于通用領(lǐng)域知識(shí)圖譜的問(wèn)答系統(tǒng),由于垂直領(lǐng)域知識(shí)圖譜數(shù)據(jù)來(lái)源更少、知識(shí)質(zhì)量更高,基于垂直領(lǐng)域的問(wèn)答系統(tǒng)受到了更多的人關(guān)注。如劉源、李帥馳等對(duì)醫(yī)療領(lǐng)域問(wèn)答系統(tǒng)進(jìn)行了研究,楊燕等對(duì)電商領(lǐng)域問(wèn)答系統(tǒng)技術(shù)進(jìn)行研究,蒲偉等網(wǎng)絡(luò)課程智能問(wèn)答系統(tǒng)進(jìn)行了研究。這些問(wèn)答系統(tǒng)都是針對(duì)非漁業(yè)領(lǐng)域,而且采用的技術(shù)體系不夠前沿。本文結(jié)合人工智能技術(shù),提出了一套漁業(yè)領(lǐng)域智能問(wèn)答系統(tǒng)的解決方法,先構(gòu)建漁業(yè)知識(shí)圖譜,然后進(jìn)行問(wèn)句的分析與答案檢索,最后實(shí)現(xiàn)本系統(tǒng)。

      1 領(lǐng)域知識(shí)圖譜的構(gòu)建

      1.1 數(shù)據(jù)的獲取與預(yù)處理

      針對(duì)百度百科等網(wǎng)頁(yè)格式統(tǒng)一的網(wǎng)頁(yè),使用Python編寫爬蟲(chóng)獲取該網(wǎng)頁(yè)的html源碼,再使用BeautifulSoup解析html源碼獲取對(duì)應(yīng)的數(shù)據(jù),存入數(shù)據(jù)庫(kù)。從各種輸入數(shù)據(jù)中將數(shù)據(jù)提取為預(yù)定義形式,數(shù)據(jù)提取的輸入輸出定義如下,輸入:從Internet下載或抓取數(shù)據(jù);輸出:按照每個(gè)數(shù)據(jù)使用如下分類:名稱、外文名、別名、分布區(qū)域、形態(tài)特征、生活習(xí)性、養(yǎng)殖技術(shù)、文本數(shù)據(jù),進(jìn)行分類并存儲(chǔ)到關(guān)系型數(shù)據(jù)庫(kù)中。

      網(wǎng)絡(luò)中存在大量的漁業(yè)領(lǐng)域的數(shù)據(jù)。本文主要通過(guò)網(wǎng)絡(luò)爬蟲(chóng)對(duì)百度百科中漁業(yè)領(lǐng)域相關(guān)的知識(shí)進(jìn)行抓取,構(gòu)成知識(shí)圖譜的原始數(shù)據(jù)。本文使用python實(shí)現(xiàn)爬蟲(chóng)功能,對(duì)網(wǎng)頁(yè)進(jìn)行抓取,再使用BeautifulSoup對(duì)網(wǎng)頁(yè)進(jìn)行分析,將數(shù)據(jù)轉(zhuǎn)化為預(yù)定義的格式,數(shù)據(jù)的預(yù)定義格式為:名稱、外文名、別名、分布區(qū)域、形態(tài)特征、生活習(xí)性、養(yǎng)殖技術(shù)。最后將數(shù)據(jù)存儲(chǔ)到MySQL數(shù)據(jù)庫(kù)中。爬蟲(chóng)處理流程如圖1所示。

      圖1 爬蟲(chóng)處理流程

      數(shù)據(jù)質(zhì)量的好壞直接影響知識(shí)圖譜的構(gòu)建,所以先對(duì)獲取的數(shù)據(jù)預(yù)處理,進(jìn)行清洗、去重、格式化處理等操作。并將預(yù)處理的數(shù)據(jù)進(jìn)行分類,作為知識(shí)抽取的數(shù)據(jù)支撐。

      1.2 詞向量的獲取

      預(yù)處理的數(shù)據(jù)還包含非結(jié)構(gòu)數(shù)據(jù),還需要進(jìn)行知識(shí)抽取,從文本數(shù)據(jù)中抽取知識(shí)三元組。為了方便進(jìn)行知識(shí)抽取,首先對(duì)經(jīng)過(guò)預(yù)處理的數(shù)據(jù)進(jìn)行分詞。本位采用THULAC進(jìn)行分詞,同時(shí)添加自定義的領(lǐng)域詞典來(lái)提高分詞的準(zhǔn)確度。本文中采用的深度學(xué)習(xí)的方式進(jìn)行三元組的知識(shí)抽取。先將文本數(shù)據(jù)轉(zhuǎn)化為詞向量的形式,本文使用Google的詞向量工具word2vec對(duì)詞進(jìn)行詞向量的訓(xùn)練,word2vec包含CBoW和Skipgram兩個(gè)模型。

      CBoW即連續(xù)詞袋模型,該模型不用考慮詞序的信息。其主要思想是,用上下文預(yù)測(cè)中心詞,從而訓(xùn)練出的詞向量包含了一定的上下文信息。CBOW的目標(biāo)函數(shù)是對(duì)數(shù)似然概率式,如公式(1)

      其中w為當(dāng)前詞,w表示其上下文。最后一層使用softmax分類器。每個(gè)詞是一個(gè)類別,輸出每個(gè)詞的概率。y是預(yù)測(cè)的每個(gè)詞的概率,y的計(jì)算如公式(2)

      這里和是參數(shù),函數(shù)是把w,...,w級(jí)聯(lián)或求平均。

      Skip-gram的思想與CBoW恰恰相反,其考慮用中心詞來(lái)預(yù)測(cè)上下文詞。先通過(guò)中心詞的獨(dú)熱表示從詞向量矩陣中得到中心詞的詞向量得到投影層,然后經(jīng)過(guò)一層Sofmx得到輸出,輸出的每維中代表某個(gè)詞作為輸入中心詞的上下文出現(xiàn)的概率。

      本文使用CBOW模型訓(xùn)練詞向量,選取維基百科中文語(yǔ)料作為訓(xùn)練預(yù)料,詞向量維度為256,迭代次數(shù)為40次。得到訓(xùn)練過(guò)的詞向量后,構(gòu)建了一個(gè)Mod‐elEmbedding類,作為模型的Em‐bedding矩陣的來(lái)源。ModelEm‐bedding類的實(shí)例包括Word2vec矩陣,詞數(shù),標(biāo)簽數(shù)word2id詞典,id2label詞典。

      1.3 漁業(yè)數(shù)據(jù)的知識(shí)抽取與存儲(chǔ)

      漁業(yè)知識(shí)三元組的知識(shí)抽取本質(zhì)上是一個(gè)分類問(wèn)題,本文采用LSTM-CRF模型錯(cuò)誤!未找到引用源。進(jìn)行實(shí)現(xiàn)。將預(yù)訓(xùn)練的向量作為模型的輸入,經(jīng)過(guò)LSTM對(duì)其進(jìn)行分類,至于CRF層,完全是為了保證序列的輸出嚴(yán)格性,因?yàn)镃RF對(duì)于預(yù)測(cè)序列有較強(qiáng)的的限制性,比如B-FISH后面只能為I-FISH或者O之類的限制。LSTM-CRF模型結(jié)構(gòu)如圖2所示。

      圖2 LSTM-CRF模型結(jié)構(gòu)

      LSTM-CRF模型使用了長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(Long Shot-Term Memory Neural Network,LSTM)與CRF相結(jié)合進(jìn)行關(guān)系抽取。該模型自底向上分別是Embedding層、雙向LSTM層和CRF層。Em‐bedding層是句子中詞的向量表示,本文通過(guò)Word2vec訓(xùn)練得到詞向量學(xué)習(xí)模型,作為雙向LSTM的輸入。雙向LSTMF通過(guò)一個(gè)正向LSIM和一個(gè)反向LSIM,分別計(jì)算每個(gè)詞考慮左側(cè)和右側(cè)詞時(shí)對(duì)應(yīng)的向量,然后將每個(gè)詞的兩個(gè)向量進(jìn)行連接,形成詞的向量輸出;最后,CRF層以雙向LSTM輸出的向量作為輸入,對(duì)句子進(jìn)行序列標(biāo)注。如輸入句子“魚(yú)類患鰓病的主要癥狀均為爛鰓”可以得到三元組<鰓病,癥狀,爛鰓>。

      知識(shí)圖譜的數(shù)據(jù)主要以三元組的方式存在,傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)在進(jìn)行關(guān)系查詢時(shí)需要大量的聯(lián)表查詢,嚴(yán)重影響效率。所以通常知識(shí)圖譜以RDF或圖數(shù)據(jù)庫(kù)的方式來(lái)進(jìn)行存儲(chǔ),本文在此使用neo4j圖數(shù)據(jù)庫(kù)的方式進(jìn)行三元組信息的存儲(chǔ)。本文一共存儲(chǔ)了17523個(gè)實(shí)體、34815個(gè)關(guān)系。在數(shù)據(jù)庫(kù)中查詢中輸入實(shí)體“泥鰍”,將會(huì)把泥鰍的所屬類別、分布、習(xí)性等相關(guān)信息以圖譜的方式呈現(xiàn)。實(shí)體查詢結(jié)果如圖3所示。

      圖3 泥鰍實(shí)體查詢結(jié)果

      2 問(wèn)答系統(tǒng)的實(shí)現(xiàn)

      2.1 問(wèn)答算法的實(shí)現(xiàn)

      基于知識(shí)圖譜的問(wèn)答系統(tǒng)需要深層理解用戶的語(yǔ)義信息和檢索內(nèi)容,才能夠正確的將用戶的問(wèn)句映射到知識(shí)圖譜的數(shù)據(jù)層。根據(jù)用戶的意圖查詢到相應(yīng)的實(shí)體、屬性或語(yǔ)義關(guān)系,再將結(jié)果進(jìn)行封裝,以用戶所想要的格式進(jìn)行展示。本文采取兩種方法來(lái)對(duì)問(wèn)句進(jìn)行理解:基于關(guān)系抽取的問(wèn)句檢索和基于相似度計(jì)算的問(wèn)句檢索。

      對(duì)于僅包含簡(jiǎn)單語(yǔ)義的問(wèn)句,可以將用戶的意圖轉(zhuǎn)換為知識(shí)圖譜中的三元組。所以對(duì)于簡(jiǎn)單語(yǔ)義的問(wèn)句,通過(guò)關(guān)系抽取的方式能提高用戶搜索速度和查詢準(zhǔn)確率??梢杂蒙衔奶岬降腖STM-CRF模型進(jìn)行關(guān)系抽取。對(duì)于復(fù)雜語(yǔ)義的問(wèn)句,僅通過(guò)關(guān)系抽取是無(wú)法完全理解用戶的意圖的,可以先將問(wèn)句進(jìn)行詞向量的表示,然后用傳統(tǒng)的機(jī)器學(xué)習(xí)對(duì)句子進(jìn)行分類或者聚類,再去進(jìn)行查詢。具體做法是先通過(guò)word2vec訓(xùn)練出句子的詞向量模型,對(duì)于用戶的問(wèn)句,使用該模型處理得到分布式表達(dá),使用余弦距離公式計(jì)算相似性。對(duì)句子向量計(jì)算cosine距離,如公式(3)

      其中x,y是兩個(gè)句子向量的各維度的坐標(biāo)。使用余弦公式計(jì)算問(wèn)題相似性的好處是可以忽略向量絕對(duì)長(zhǎng)度的影響,從方向上比較相似性。根據(jù)該公式算出用戶所提問(wèn)的問(wèn)題與問(wèn)題模板集問(wèn)句的相似性,再用K近鄰算法找出用戶問(wèn)題的分類標(biāo)簽,最后生成答案。本系統(tǒng)K值取1,即最近鄰算法。

      問(wèn)答系統(tǒng)的處理流程如圖4:

      圖4 問(wèn)答系統(tǒng)處理流程圖

      (1)先將問(wèn)句進(jìn)行預(yù)處理,轉(zhuǎn)換為模型可以識(shí)別的格式。預(yù)處理的過(guò)程包括分詞、去除停用詞、詞性標(biāo)注、向量表示以及命名實(shí)體識(shí)別等過(guò)程。然后根據(jù)命名實(shí)體識(shí)別的結(jié)果判斷該問(wèn)題是否為領(lǐng)域相關(guān)問(wèn)題,如果不是漁業(yè)領(lǐng)域問(wèn)題,問(wèn)答過(guò)程結(jié)束;如果是漁業(yè)領(lǐng)域問(wèn)題,進(jìn)行下一步處理。

      (2)對(duì)問(wèn)句進(jìn)行關(guān)鍵詞拓展,然后與漁業(yè)知識(shí)庫(kù)中的問(wèn)句模板進(jìn)行匹配,如果匹配成功則將答案返回給用戶,問(wèn)答流程結(jié)束;如果匹配失敗,進(jìn)入下一步。

      (3)采用基于關(guān)系抽取的問(wèn)句檢索的方式,對(duì)問(wèn)句進(jìn)行關(guān)系抽取。將輸出的三元組作為條件去圖數(shù)據(jù)庫(kù)進(jìn)行查找,若匹配成功,將答案返回給用戶,問(wèn)答流程結(jié)束;匹配失敗進(jìn)入下一步。

      (4)采用基于相似度計(jì)算的方法對(duì)問(wèn)句向量進(jìn)行相似度匹配,根據(jù)相似度匹配相應(yīng)的查詢模板,進(jìn)行數(shù)據(jù)庫(kù)查詢,將答案返回給用戶。

      2.2 Cypher查詢模板

      為了在漁業(yè)知識(shí)圖譜中查詢到問(wèn)題的答案,需要將問(wèn)題三元組轉(zhuǎn)換為Cypher查詢語(yǔ)句.根據(jù)上述定義的部分問(wèn)題設(shè)計(jì)的Cy‐pher查詢模板如表1所示:

      表1 部分Cypher查詢模板

      3 問(wèn)答系統(tǒng)功能展示

      如圖5所示,當(dāng)用戶輸入問(wèn)題,智能問(wèn)答系統(tǒng)給出了相應(yīng)的答案??梢?jiàn)問(wèn)答系統(tǒng)基本上能正確回答出漁業(yè)領(lǐng)域相關(guān)的一些常見(jiàn)問(wèn)題。

      圖5 問(wèn)答系統(tǒng)展示

      4 結(jié)語(yǔ)

      本文介紹知識(shí)圖譜的相關(guān)知識(shí)并構(gòu)建了漁業(yè)領(lǐng)域智能問(wèn)答系統(tǒng)。從數(shù)據(jù)的獲取與預(yù)處理、詞向量的生成、知識(shí)抽取與存儲(chǔ)和答案檢索方案的設(shè)計(jì)等方面進(jìn)行了詳細(xì)的闡述。采用了詞向量、問(wèn)句相似度匹配和關(guān)系抽取等技術(shù),完成了漁業(yè)領(lǐng)域智能問(wèn)答系統(tǒng),并取得了比較好的問(wèn)答效果。

      猜你喜歡
      三元組漁業(yè)圖譜
      基于語(yǔ)義增強(qiáng)雙編碼器的方面情感三元組提取
      軟件工程(2024年12期)2024-12-28 00:00:00
      基于帶噪聲數(shù)據(jù)集的強(qiáng)魯棒性隱含三元組質(zhì)檢算法*
      繪一張成長(zhǎng)圖譜
      歡迎訂閱2020年度《河北漁業(yè)》
      關(guān)于余撓三元組的periodic-模
      補(bǔ)腎強(qiáng)身片UPLC指紋圖譜
      中成藥(2017年3期)2017-05-17 06:09:01
      中菲漁業(yè)合作重啟 菲漁業(yè)代表團(tuán)來(lái)華培訓(xùn)交流
      主動(dòng)對(duì)接你思維的知識(shí)圖譜
      湖南省漁業(yè)協(xié)會(huì)成立
      漁業(yè)
      江蘇年鑒(2014年0期)2014-03-11 17:09:36
      玉林市| 嫩江县| 布尔津县| 嘉善县| 江门市| 南岸区| 朔州市| 当涂县| 无棣县| 买车| 韩城市| 防城港市| 申扎县| 孝义市| 延寿县| 股票| 乃东县| 汽车| 勃利县| 舒城县| 瑞丽市| 东莞市| 伊宁县| 高密市| 临猗县| 东源县| 依安县| 边坝县| 通化县| 九寨沟县| 佛坪县| 巴林左旗| 开远市| 井研县| 昌邑市| 榆社县| 台南县| 拉孜县| 吴江市| 黄梅县| 抚顺市|