• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      一種挖掘文本中實體間關(guān)系的方案設(shè)計

      2021-04-09 01:44:53中國煤炭科工集團
      電子世界 2021年14期
      關(guān)鍵詞:名稱文檔實體

      中國煤炭科工集團 于 澄

      企業(yè)在多年的運營過程中會留存大量的電子文檔,這些文檔多以非結(jié)構(gòu)化形式存儲在文件服務器,里面蘊含了大量的有價值信息。如何能夠把可利用的信息從這些文檔中挖掘出來并加以利用,是一個有價值的課題。本文論述了基于自然語言處理、弱監(jiān)督學習等人工智能技術(shù),設(shè)計一種可行的提取文本內(nèi)實體關(guān)系信息的軟件方案。

      1 文本中實體關(guān)系識別的應用場景及主要內(nèi)容

      隨著信息化、數(shù)字化技術(shù)的發(fā)展與應用,大部分企業(yè)基本實現(xiàn)了紙質(zhì)文件向電子化文檔的過渡。在企業(yè)中,大量電子文檔作為企業(yè)運營的歷史留存,形成了企業(yè)的知識庫、經(jīng)驗庫。而電子文檔在企業(yè)中通常是以非結(jié)構(gòu)化的電子文件形式存放在文件服務器或數(shù)據(jù)庫中。企業(yè)管理者可以通過文本檢索工具,設(shè)定搜索關(guān)鍵字,獲取所需的相關(guān)信息。然而,使用檢索工具的前提是,檢索者須事先知曉所要檢索的對象的稱謂信息,如要檢索“某某公司”相關(guān)的內(nèi)容,則需要知道“某某公司”的全稱作為關(guān)鍵字信息進行檢索。但是面對海量的文檔內(nèi)容,檢索者如何能夠盡可能多的提取其中有價值的信息,包括已知檢索對象和未知檢索對象的信息,并把這些信息進行結(jié)構(gòu)化的存儲,以便后續(xù)更好的利用其價值,就成為了一個值得探究的課題。進一步講,在商業(yè)領(lǐng)域應用較多的場景是,在海量文檔庫中識別出公司、機構(gòu)等實體單位名稱,并根據(jù)語境提取實體之間可能存在的關(guān)系,如股權(quán)關(guān)系、債券關(guān)系、客戶關(guān)系等。

      2 方案設(shè)計中應用的主要技術(shù)

      隨著計算機算法的發(fā)展,尤其是人工智能技術(shù)的逐步成熟,使得以往需要大量的時間成本和人工成本才能處理的文檔信息提取工作,可以應用計算機軟件輔助處理。本設(shè)計應用自然語言處理算法和監(jiān)督學習算法以及其他較為成熟的軟件工具組合,意圖構(gòu)建一個軟件實現(xiàn)方案,一是能夠替代人工操作,從文本中提取公司、組織機構(gòu)名稱等實體名稱;二是通過軟件算法,對一個句子中出現(xiàn)兩個或兩個以上實體的情況,根據(jù)上下文語境判斷實體之間是否存在某種特定關(guān)系;三是將識別出的實體以及實體之間的關(guān)系,以結(jié)構(gòu)化數(shù)據(jù)的方式存儲在數(shù)據(jù)庫中。這種用結(jié)構(gòu)化的方式存儲對象以及對象之間關(guān)系的方法,本質(zhì)上就是在構(gòu)建企業(yè)的知識圖譜,是將來進一步挖掘信息價值的重要基礎(chǔ)。

      本方案的實現(xiàn)涉及到幾個關(guān)鍵的技術(shù)。首先是需要在文本中對詞語進行識別和提取,并對詞語的性質(zhì)進行識別和標注。例如“公司”一詞需要被識別出來,并標注成名詞詞性,再如“收購”一詞,需要被識別出來并標注成動詞詞性。其次,在識別出的名詞基礎(chǔ)上,要能夠識別出名詞組合,并判斷出該名詞組合是否是一個公司的名稱。例如,“上海某某某新材料股份有限公司”,“北京某某科技集團有限公司”等。這個課題屬于自然語言處理范疇,在行業(yè)內(nèi)有多種NLP方案可以選擇,如國外的有斯坦福大學的NLP,國內(nèi)的有HanLP,清華、北大、復旦等大學研發(fā)的NLP等。這些NLP在分詞、詞性標注等方面總體來講準確率和召回率不相上下,在對中文文本的處理上,各有優(yōu)缺點,可以根據(jù)實際處理的文本的特點,經(jīng)過實驗對比后進行選型,本方案選用HanLP,可以達到良好的準確率與召回率,并提供友好的接口方便調(diào)用。

      NLP可以解決分詞和詞性標注的問題,通常也自帶組織機構(gòu)名稱的識別和標注功能,但是對于公司、機構(gòu)名稱識別的準確率和召回率普遍偏低,無法達到使用要求,因此需要另行設(shè)計方案,對公司、機構(gòu)名稱的進行識別。本方案采用規(guī)則表達式引擎和在線匹配技術(shù),提高實體名稱識別的準確率。前述提到,NLP的處理結(jié)果是把一個句子拆分成詞的集合,并給每個詞標注了詞性。此外,公司、機構(gòu)的名稱,通常是以“公司”、“有限公司”、“集團公司”、“大學”、“研究院”等可以枚舉的有限后綴作為結(jié)尾。因此,可以采用規(guī)則表達式技術(shù)對實體名稱進行初步識別,例如,N(名詞)+集團公司,也即截取“集團公司”向前直到第一個非名詞為一個實體名稱,再如,北京+N(名詞)+研究院,則表示“北京”為前綴,“研究院”為后綴,中間部分是名詞的字符串,為一個實體名稱。如果此處規(guī)則條件限定的較為嚴格,則準確率較高,召回率會偏低。如果條件限定的較為寬松,則準確率較低,召回率提升。本方案中,采取較為寬松的規(guī)則設(shè)定提高召回率,用在線匹配的方式進一步識別、提取實體的完整名稱。經(jīng)過規(guī)則表達式技術(shù)處理后,產(chǎn)生出的候選實體名稱,通常是不完整的,或者由于規(guī)則條件設(shè)定的較為寬松實際上并不是實體名稱。如“某某某某科技集團有限公司”可能僅僅提取了“某某科技集團有限公司”。因此,本方案進一步引入在線匹配技術(shù)來提高完整提取實體名稱的準確率。具體方法是,用候選實體名稱通過在線接口,提交給在線企業(yè)查詢平臺或搜索引擎進行查詢,在返回的結(jié)果頁面中,如發(fā)現(xiàn)與候選實體名稱相匹配的字符串,則繼續(xù)匹配候選實體名稱與該字符串前面的字符,直到字符不一致為止,則該字符串與前面若干相同的字符組合在一起就作為該實體的完整名稱。如無法在頁面中找到候選實體名稱相同的字符串,則判定該候選實體名稱不是公司、機構(gòu)名稱。通過上述方法,可以基本識別出文本中出現(xiàn)的公司、機構(gòu)等實體名稱,作為構(gòu)建知識圖譜的基礎(chǔ)。

      方案中第三個需要解決的技術(shù)問題是在一個句子中識別兩個實體之間是否存在某類特定關(guān)系。解決這個問題需要用到機器學習算法,有幾種可行的方案可供選擇。首先是有監(jiān)督學習算法方案,有監(jiān)督學習算法,主要是通過特征工程識別、提取出影響判別結(jié)果的因素,然后通過大量的樣本訓練該模型,使其能夠建立影響因素與判別結(jié)果之間的映射關(guān)系,再把這種映射關(guān)系模型應用到實際案例中去。但在實體關(guān)系識別方案中,應用監(jiān)督學習算法存在較大的障礙。一是監(jiān)督學習需要大量人工標注的樣本進行訓練,在樣本文檔數(shù)量有限,人工成本預算有限,而項目時間不充裕的情況,模型訓練取得的效果不佳。因此本方案不采用傳統(tǒng)的有監(jiān)督學習算法,而考慮采用在其基礎(chǔ)上進化改良的方案,即遠程監(jiān)督學習或弱監(jiān)督學習算法。遠程監(jiān)督學習,主要利用知識圖譜中已有的知識,對于訓練樣本進行標注,然后用該樣本集對模型進行訓練。但應用遠程監(jiān)督學習也存在較大的限制條件和缺點,在不具備較為完善的知識圖譜的條件下,無法應用遠程監(jiān)督學習。此外知識圖譜中的已有知識也可能對樣本數(shù)據(jù)不適用,甚至產(chǎn)生誤導的情況。因此,在缺乏完善知識圖譜的前提下,應采取與弱監(jiān)督學習算法相結(jié)合的方案提高識別的準確率與召回率。弱監(jiān)督學習是有監(jiān)督學習的另一個改良變種算法,它主要適用于缺乏訓練樣本的場景。弱監(jiān)督學習首先是通過一定的規(guī)則產(chǎn)生樣本數(shù)據(jù)(包括樣本及其標記結(jié)果),這個規(guī)則可以是像遠程監(jiān)督學習一樣通過從現(xiàn)有的知識庫中獲取樣本的標記結(jié)果,也可以是通過由程序(標注函數(shù))實現(xiàn)的若干條檢驗規(guī)則進行判別并對結(jié)果進行標記。用這些標注函數(shù)標記過的樣本數(shù)據(jù)訓練一個生成模型,令該模型學習標注函數(shù)的輸出。生成模型訓練完成后,可以用來標注大量的樣本數(shù)據(jù),接下來用這些樣本數(shù)據(jù)訓練一個強大的判別模型。最終就可以使用訓練好的判別模型在生產(chǎn)環(huán)境中對真實數(shù)據(jù)中的實體關(guān)系進行判斷識別。本方案使用斯坦福大學發(fā)布的弱監(jiān)督學習框架Snorkel,進行數(shù)據(jù)處理和模型訓練。

      3 方案的具體設(shè)計及實現(xiàn)步驟

      首先如果有已存在的實體關(guān)系的知識庫,要把知識庫導入數(shù)據(jù)庫做結(jié)構(gòu)化處理形成三元組形式,為后續(xù)標注樣本數(shù)據(jù)做準備,如(x,y,M),x、y即指某實體,M即指它們之間存在的某類特定關(guān)系。第二步,對樣本文檔進行預處理,預處理是把文檔拆分成一個個完整的句子,并給句子進行編號后存入數(shù)據(jù)庫中。接下來,針對每一個句子,用NLP工具對其進行分詞和詞性標注。NLP的處理結(jié)果是針對每個句子生成兩個有序集合,一個是詞的集合,一個是相對應的詞性的集合。這里不推薦使用NLP自帶的實體名稱識別功能,通常識別準確率和召回率都偏低。第四步,基于分詞和詞性標注的基礎(chǔ)上,應用前述技術(shù)方案中描述的規(guī)則表達式和在線匹配的方法,識別句子中的實體名稱。這一步的輸出是,針對每個句子產(chǎn)生一個實體對,存入數(shù)據(jù)庫中,如果句子中存在多個不同實體,則應用笛卡爾積的方式產(chǎn)生多個實體對,并關(guān)聯(lián)該句子。第五步,針對每個實體對,提取實體前后若干詞語以及相關(guān)的詞性標注作為判別實體關(guān)系的特征,并將這些特征詞集合存入數(shù)據(jù)庫中。第六步,編寫標注函數(shù),并給樣本打標。標注函數(shù)可以有多個,每個標注函數(shù)實現(xiàn)一種判定規(guī)則。規(guī)則可以是領(lǐng)域?qū)<业闹R的體現(xiàn),也可以是現(xiàn)有知識庫里關(guān)于相關(guān)實體對的已存在標注。使用標注函數(shù)給樣本打標后,產(chǎn)生一組帶標記結(jié)果的樣本數(shù)據(jù)。接下來,基于標記過的樣本數(shù)據(jù),使用Snorkel框架數(shù)據(jù)編程構(gòu)建因子圖模型,也即構(gòu)建生成模型。應用生成模型,對足夠數(shù)量的樣本數(shù)據(jù)進行打標。最后一步,使用標記過的樣本數(shù)據(jù),訓練判別模型。判別模型主要是應用神經(jīng)網(wǎng)絡模型,尤其針對實體關(guān)系識別的上下文相關(guān)的特點,使用BLSTM,即雙向長短期記憶模型,效果更好。模型訓練完成后,就可以應用到生產(chǎn)環(huán)境中對真實數(shù)據(jù)進行實體關(guān)系識別的工作。

      結(jié)語:本方案是通過若干步驟的組合,逐步從文本中識別出實體以及實體之間的關(guān)系。每一步對于整個方案提高準確率和召回率都起著至關(guān)重要的作用。在實際應用過程中,應根據(jù)文檔的特點,對方法、規(guī)則、模型進行相應調(diào)整,從而達到最優(yōu)效果。

      猜你喜歡
      名稱文檔實體
      有人一聲不吭向你扔了個文檔
      前海自貿(mào)區(qū):金融服務實體
      中國外匯(2019年18期)2019-11-25 01:41:54
      實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
      哲學評論(2017年1期)2017-07-31 18:04:00
      兩會進行時:緊扣實體經(jīng)濟“釘釘子”
      振興實體經(jīng)濟地方如何“釘釘子”
      基于RI碼計算的Word復制文檔鑒別
      滬港通一周成交概況
      滬港通一周成交概況
      滬港通一周成交概況
      滬港通一周成交概況
      寿光市| 乐平市| 宣化县| 河间市| 卢湾区| 沙洋县| 桦南县| 莒南县| 金昌市| 泸定县| 富源县| 新竹县| 仲巴县| 乐都县| 女性| 喀什市| 裕民县| 合作市| 淳化县| 江安县| 涞源县| 卢龙县| 连山| 绿春县| 永顺县| 遂溪县| 巫山县| 宁安市| 公主岭市| 马边| 广安市| 临泽县| 湖南省| 信丰县| 桓仁| 西峡县| 梅河口市| 镇远县| 大宁县| 桃源县| 土默特左旗|