楊凡 任丹
摘 ?要: 傳統(tǒng)自然語言中歧義字段切分系統(tǒng)設(shè)計(jì)對于歧義字段的分辨能力較差,切分效率差,準(zhǔn)確度低。針對上述問題,設(shè)計(jì)一種基于知識圖譜的自然語言中歧義字段切分系統(tǒng)。系統(tǒng)硬件設(shè)計(jì)了三個模塊:采集及分詞知識提取模塊負(fù)責(zé)對自然語言中的字段進(jìn)行收集與信息提取,辨別歧義字段;算法與測試模塊處理負(fù)責(zé)檢測所捕捉字段的歧義字段信息,提高系統(tǒng)精準(zhǔn)度;分詞識別模塊負(fù)責(zé)對歧義字段進(jìn)行系統(tǒng)切分。軟件設(shè)計(jì)了系統(tǒng)的各項(xiàng)功能,包括系統(tǒng)分詞精度提升功能、速度提升功能、完備性增強(qiáng)功能、可維護(hù)性以及系統(tǒng)可移植性增強(qiáng)功能,綜合整理各結(jié)構(gòu)的性能,進(jìn)一步提高整體系統(tǒng)切分能力,以實(shí)現(xiàn)對歧義字段的切分目的。為檢測系統(tǒng)工作效果,與傳統(tǒng)系統(tǒng)進(jìn)行實(shí)驗(yàn)對比,結(jié)果表明,基于知識圖譜的自然語言中歧義字段切分系統(tǒng)設(shè)計(jì)的切分效果優(yōu)于傳統(tǒng)系統(tǒng)設(shè)計(jì)。
關(guān)鍵詞: 知識圖譜; 自然語言; 歧義字段切分; 系統(tǒng)設(shè)計(jì); 信息提取; 效果檢測
中圖分類號: TN02?34 ? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識碼: A ? ? ? ? ? ? ? ? ? ? ? ? 文章編號: 1004?373X(2020)01?0044?04
Design of natural language ambiguity field segmentation system
based on knowledge map
YANG Fan, REN Dan
Abstract: The segmentation system of ambiguous field in traditional natural language has poor resolution ability, poor segmentation efficiency and low accuracy. To solve these problems, a knowledge map based segmentation system of ambiguity field in natural language is designed. Three modules are designed for the system hardware. The acquisition and segmentation knowledge extraction module is responsible for collecting and extracting the information from fields in natural language, and distinguishing the ambiguous fields. The algorithm and testing module is responsible for detecting the ambiguous field information of captured fields, and improving the accuracy of the system. The segmentation recognition module is responsible for segmenting the ambiguous fields. The various functions are designed for the system software, including the functions of accuracy improvement, speed?up, and completeness, maintainability and portability enhancement. The performance of each structure is also integrated and the ability of the whole system to segment ambiguous fields is further improved. In order to detect the working effect of the system, some comparative experiments for the system are carried out in combination with traditional systems. The results show that the design of ambiguity field segmentation system based on knowledge map is better than that of the traditional system.
Keywords: knowledge map; natural language; ambiguity field segmentation; system design; information extraction; effect detection
0 ?引 ?言
在社會發(fā)展的過程中,我國的中文信息事業(yè)不斷發(fā)展,中文信息處理技術(shù)不斷提高,由于人類需要中文信息的分享與個體享用,所以也就需要更高的中文信息處理能力,由于中文信息存在較大的字段差異,因此,對于自然語言中歧義字段的切分更加重要[1]。在科技與信息產(chǎn)業(yè)的有力支持下,自然語言中歧義字段的切分也成了較為重要的事件[2]。自然語言中的歧義字段以普遍字段的形式存在,在語句中對于字段的使用具有較大的影響,使得所檢索的語言為使用者提供兩種語言解釋,模糊語言表達(dá)概念,詞義不準(zhǔn)確,無法引導(dǎo)自然語言進(jìn)行語言交流,最終影響自然語言的使用[3]。為此,需要對自然語言中歧義字段進(jìn)行切分處理,在正常語言語義分析的條件下,進(jìn)行基本結(jié)構(gòu)與理論的自動分詞操作,同時分析出分詞系統(tǒng)的性能指標(biāo)數(shù)值,并對分析出的數(shù)值進(jìn)行進(jìn)一步的追蹤處理,不斷進(jìn)行切分操作,直至完成歧義字段切分[4]。
傳統(tǒng)系統(tǒng)大多專注于歧義字段的表面,在進(jìn)行字段切分的過程中僅僅切換字段形式,而未徹底改變字段歧義含義,無法消除使用者對字段的模糊定位,并且系統(tǒng)在運(yùn)行的過程中受到的干擾較大,系統(tǒng)的運(yùn)行時間較長,工作效率較低,對歧義字段的切分效果較差[5]。針對上述問題,本文提出一種基于知識圖譜的自然語言中歧義字段切分系統(tǒng)設(shè)計(jì),對整體系統(tǒng)進(jìn)行結(jié)構(gòu)設(shè)計(jì),對系統(tǒng)的分詞精度、分詞速度、整體系統(tǒng)功能的完備性與可維護(hù)性及系統(tǒng)的可移植性進(jìn)行綜合設(shè)計(jì)處理,增強(qiáng)系統(tǒng)整合度,提高系統(tǒng)切分能力,以達(dá)到對歧義字段切分的目的[6]。通過實(shí)驗(yàn)驗(yàn)證了系統(tǒng)的有效性,實(shí)驗(yàn)證明,該系統(tǒng)在較大程度上提高了歧義字段切分的準(zhǔn)確率,同時縮減了系統(tǒng)所需切分時間,大大提高了系統(tǒng)工作效率,增強(qiáng)系統(tǒng)切分能力。
1 ?自然語言中歧義字段切分系統(tǒng)硬件設(shè)計(jì)
自然語言歧義字段切分系統(tǒng)中較為核心的結(jié)構(gòu)為分詞中心系統(tǒng),系統(tǒng)需要具有實(shí)用化的特點(diǎn),并時刻檢查其準(zhǔn)確性與實(shí)用性程度,為此,進(jìn)行系統(tǒng)硬件設(shè)計(jì),分別進(jìn)行系統(tǒng)分詞精度、速度、系統(tǒng)功能完備性與可維護(hù)性以及系統(tǒng)可移植性的設(shè)計(jì)[7]。本文研究的基于知識圖譜的自然語言中歧義字段切分系統(tǒng)硬件主要分為采集及分詞知識提取模塊、算法與測試模塊、分詞識別模塊,系統(tǒng)硬件結(jié)構(gòu)如圖1所示。
1.1 ?采集及分詞知識提取模塊
采集及分詞知識提取模塊主要負(fù)責(zé)中文信息的文字采集,同時對信息中的交集歧義字段進(jìn)行系統(tǒng)識別,通過知識庫中的分詞知識進(jìn)行歧義處理,最終產(chǎn)生分詞結(jié)果[8]。
在字段的采集中,采取改進(jìn)后的字段掃描法對收集到的字符串進(jìn)行逐詞正向值匹配,進(jìn)而找到第一個詞匯的位置,并以此為初始點(diǎn),進(jìn)行逐詞查找,匹配不成詞的具體位置,同時劃分查找的字段為交集歧義字段。查找后,進(jìn)行進(jìn)一步的歧義處理,提取知識庫中的字段知識信息對字段進(jìn)行歧義劃分,并根據(jù)分詞結(jié)果,利用知識學(xué)習(xí)方法擴(kuò)充知識庫中的知識儲備量,其總體框圖如圖2所示。
在系統(tǒng)的分詞知識提取中,要綜合考慮全部規(guī)則處理后的歧義字段切分條件,同時設(shè)定某一個字段出現(xiàn)的頻率為[P],[P]為語句中字段的總數(shù)量與句子出現(xiàn)的總量的比值,將此比值作為分詞知識的頻率因子,最后進(jìn)行歧義字段的切分[9]。
1.2 ?算法與測試模塊
由于本文系統(tǒng)分詞操作中所選取的算法主要為以字詞庫與文字統(tǒng)計(jì)相結(jié)合的分詞方式,因此,要對此種算法技能進(jìn)行機(jī)能檢測。在系統(tǒng)進(jìn)行字段分詞之前,同時選擇不同檢測方法,在完成系統(tǒng)字段分詞后,系統(tǒng)屏幕上會顯示系統(tǒng)分詞過程中所耗費(fèi)的總體時間,并根據(jù)此時間進(jìn)行適度的系統(tǒng)時間處理調(diào)整。將系統(tǒng)網(wǎng)頁與用戶進(jìn)行交互鏈接,同時在系統(tǒng)輸入指令中進(jìn)行文字字段的輸入,將分詞最終結(jié)果在屏幕上顯示為文本框內(nèi)輸入形式,算法與測試模塊示意圖如圖3所示。
此模塊功能較為獨(dú)立,可以提供較為全面的網(wǎng)絡(luò)接口與字段信息傳輸,能夠進(jìn)行綜合處理。在算法模塊中,為總系統(tǒng)提供系統(tǒng)調(diào)用接口,與系統(tǒng)進(jìn)行交互單獨(dú)計(jì)算,同時保證算法與接口的功能相同,并進(jìn)行實(shí)際檢測與對比[10]。進(jìn)一步將此模塊分為字段詞典管理與分詞處理兩個部分,在字段詞典管理中,調(diào)用系統(tǒng)中心字段控制臺,避免其在網(wǎng)絡(luò)頁面上的使用,同時進(jìn)行詞典的系統(tǒng)構(gòu)建與軟件更新操作。在分詞處理中,先輸入系統(tǒng)原始字段文本信息,并采用單獨(dú)權(quán)值算法將文本信息中的字段詞匯切分出來,進(jìn)行系統(tǒng)運(yùn)算,最終返回到分詞結(jié)果中,完成系統(tǒng)操作。在測試模塊中,對中心系統(tǒng)提供圖形界面,并對輸出輸入文檔進(jìn)行數(shù)據(jù)管理,保存算法模塊中的分詞結(jié)果,并進(jìn)行算法效果的檢測,最終統(tǒng)計(jì)系統(tǒng)字段分詞的結(jié)果[11]。
算法與測試模塊工作過程示意圖如圖4所示。
1.3 ?分詞識別模塊
在分詞識別模塊中,利用計(jì)算機(jī)模擬人腦對于句子的權(quán)重理解,在分詞的同時進(jìn)行文本信息語法、句式及語義分析,并根據(jù)語法數(shù)據(jù)以及語義分析結(jié)果處理歧義現(xiàn)象。首先對總體控制部分進(jìn)行語句協(xié)調(diào),利用分字詞系統(tǒng)的相關(guān)詞匯、句子等的語法及語義分析結(jié)果對歧義字段進(jìn)行分詞識別,并需要同時使用數(shù)量龐大的語言語句知識數(shù)據(jù)信息,對信息中相近出現(xiàn)的每個字詞進(jìn)行組合頻率的系統(tǒng)統(tǒng)計(jì),同時計(jì)算它們之間的互現(xiàn)頻度,以獲取的互現(xiàn)頻度來表示其結(jié)合關(guān)系的緊密程度。如果緊密程度超出規(guī)定標(biāo)準(zhǔn)參數(shù),則可視為本字段組構(gòu)成了一個詞匯,進(jìn)而達(dá)到對歧義字段的構(gòu)成分析,并在此基礎(chǔ)上進(jìn)行數(shù)據(jù)統(tǒng)計(jì),分辨系統(tǒng)是否需要對詞典進(jìn)行分詞識別與切分操作[12]。分詞識別模塊結(jié)構(gòu)圖如圖5所示。
由于此模塊具有一定的局限性,為此,添加統(tǒng)計(jì)方法進(jìn)行新式詞匯的識別,并將串頻字詞統(tǒng)計(jì)與字符串相匹配,同時發(fā)揮分詞切分速度較快、系統(tǒng)效率較高的優(yōu)勢,最終達(dá)到對分詞的識別目的,并進(jìn)一步實(shí)現(xiàn)對歧義字段的系統(tǒng)切分[13]。
2 ?自然語言中歧義字段切分系統(tǒng)軟件設(shè)計(jì)
根據(jù)切分系統(tǒng)硬件結(jié)構(gòu)設(shè)計(jì)軟件程序,系統(tǒng)能夠?qū)崿F(xiàn)的功能如圖6所示。
分詞精度主要是保證切分的精確度,為核心系統(tǒng)的重要技術(shù)衡量標(biāo)準(zhǔn)。本文系統(tǒng)中,句子為連寫模式,字詞間空格較少,因此,本文系統(tǒng)首先需要解決字段切分問題。首先排除分詞中中文姓名、地點(diǎn)名稱、機(jī)構(gòu)名稱等專有名詞的識別,在不影響更高一級處理的條件下,獲取分詞系統(tǒng)較高的準(zhǔn)確率。從系統(tǒng)的整體機(jī)能、專用詞匯識別以及歧義分析幾個角度進(jìn)行機(jī)能檢測。為此,自動分詞系統(tǒng)的切分準(zhǔn)確率公式為:
[K=i=13αiKi]
式中:[K1,K2,K3]分別為系統(tǒng)機(jī)能綜合測試、歧義測試以及專用詞匯測試的精確度;[αi]([i=]1,2,3)為全部測試的添加權(quán)值。算法流程圖如圖7所示。
分詞速度為單位時間下系統(tǒng)對于漢字處理的總個數(shù),通常要滿足分詞的基本準(zhǔn)確度條件,作為另一個較為重要的系統(tǒng)標(biāo)準(zhǔn)而存在,并且對于分詞準(zhǔn)確度的算法較多,本文利用輔助手段,通過對系統(tǒng)想象、原則主義、神經(jīng)網(wǎng)絡(luò)框架以及專業(yè)系統(tǒng)等方法進(jìn)行算法加強(qiáng),同時排除影響因素:漢字符號機(jī)械切分的同時搜索詞典的時間、自然語言中歧義字段的查詢與系統(tǒng)矯正等。在中文信息的處理過程中,先對數(shù)量較為龐大的文本信息進(jìn)行區(qū)分處理,同時合理考慮系統(tǒng)總體成本問題。通過人機(jī)交互處理的方式,解決字段中的歧義問題,并根據(jù)問題進(jìn)行策略的統(tǒng)計(jì)與人機(jī)連接口的系統(tǒng)設(shè)計(jì),由于系統(tǒng)在運(yùn)行過程中會對切分速度造成影響,因此,要綜合處理系統(tǒng)切分器的機(jī)能反應(yīng),并進(jìn)行反應(yīng)檢測,從而減少系統(tǒng)切分時間的影響。
針對自動分詞系統(tǒng)的功能完備性與可維護(hù)性,本文系統(tǒng)著手考慮系統(tǒng)的詞庫增減刪除、字詞修改、字段查詢以及語句成批處理等基本系統(tǒng)能力,同時對系統(tǒng)進(jìn)行修正性維護(hù)處理,適應(yīng)性與維護(hù)性系統(tǒng)機(jī)能增強(qiáng)處理[14]。首先滿足系統(tǒng)數(shù)據(jù)信息存儲以及運(yùn)算功能補(bǔ)充的屬性條件,綜合處理詞庫的儲存構(gòu)造以及輸出輸入的形式變化狀況的拓展與完善,將此項(xiàng)標(biāo)準(zhǔn)與分詞系統(tǒng)的系統(tǒng)清晰度、模塊化、結(jié)構(gòu)簡潔性與系統(tǒng)完備性進(jìn)行直接連接處理,并不斷進(jìn)行提高與改進(jìn),使其能夠較好地適應(yīng)中文字段信息的處理應(yīng)用問題。
在分詞系統(tǒng)的可移植性中,綜合考慮系統(tǒng)移動性能,簡化應(yīng)用系統(tǒng)從本機(jī)環(huán)境轉(zhuǎn)移至另一種系統(tǒng)環(huán)境中的轉(zhuǎn)移步驟,并對其進(jìn)行系統(tǒng)修正,使其能夠更好地適應(yīng)轉(zhuǎn)移環(huán)境,同時增強(qiáng)系統(tǒng)的轉(zhuǎn)移器調(diào)制能力,能夠使系統(tǒng)僅需簡便操作便可完成對整體系統(tǒng)的轉(zhuǎn)移。綜上進(jìn)行綜合系統(tǒng)設(shè)計(jì),在完善系統(tǒng)結(jié)構(gòu)的基礎(chǔ)上,提高系統(tǒng)整體切分能力,為系統(tǒng)歧義字段切分奠定基礎(chǔ)。
3 ?實(shí)驗(yàn)研究
3.1 ?實(shí)驗(yàn)?zāi)康?/p>
為了檢測本文基于知識圖譜的自然語言中歧義字段切分系統(tǒng)設(shè)計(jì)的切分效果,與傳統(tǒng)自然語言中歧義字段切分系統(tǒng)進(jìn)行了對比。
3.2 ?歧義字段切分模型建立
針對自然語言中的字段存在模式對歧義字段進(jìn)行分類與切分處理,并進(jìn)行歧義字段切分模型的建立,歧義字段切分模型圖如圖8所示。
根據(jù)上述建立的模型,進(jìn)行實(shí)驗(yàn)參數(shù)的設(shè)定:
1) 測試系統(tǒng)為專業(yè)詞測試系統(tǒng)和歧義測試系統(tǒng);
2) 選取相同中文字段;
3) 采取權(quán)值加重法,選用標(biāo)準(zhǔn)精度的分詞設(shè)備;
4) 語言環(huán)境固定;
5) 獨(dú)立系統(tǒng)自動進(jìn)行分詞。
3.3 ?實(shí)驗(yàn)結(jié)果與分析
根據(jù)上述切分模型進(jìn)行對比實(shí)驗(yàn),將本文基于知識圖譜的自然語言中歧義字段切分系統(tǒng)的切分效果與傳統(tǒng)自然語言中歧義字段切分系統(tǒng)的切分效果進(jìn)行對比,得到的切分準(zhǔn)確度對比圖與相同時間內(nèi)切分效率對比圖如圖9,圖10所示。
對比圖9,圖10可知,在相同的參數(shù)條件下,本文系統(tǒng)切分的準(zhǔn)確度隨時間不斷增長,且增長幅度較大,相同時間內(nèi),對于歧義字段切分的數(shù)量較多,系統(tǒng)工作效率較高。而傳統(tǒng)系統(tǒng)切分的準(zhǔn)確度雖然隨時間增長,但增長幅度較小,且一直低于本文系統(tǒng),在相同工作時間內(nèi),對于歧義字段的切分?jǐn)?shù)量較少,切分效果較差,工作效率較低。
本文系統(tǒng)大幅度提高了對自然語言中歧義字段的切分準(zhǔn)確率,能夠較為清晰地分辨歧義字段與正常字段,保證系統(tǒng)的正常工作,提高中文信息的處理能力,在一定程度上縮減了系統(tǒng)的切分時間,提高了系統(tǒng)的工作效率,滿足使用者對于系統(tǒng)自動分詞的需求,具有較為強(qiáng)大的系統(tǒng)工作能力。
4 ?結(jié) ?語
本文在傳統(tǒng)設(shè)計(jì)的基礎(chǔ)上設(shè)計(jì)了一種基于知識圖譜的自然語言歧義字段切分系統(tǒng),相對于傳統(tǒng)系統(tǒng),本文系統(tǒng)設(shè)計(jì)對于自然語言中歧義字段的切分準(zhǔn)確度更高,能夠更好地提供歧義字段信息,及時避免分詞錯誤,較大程度上減少了歧義字段的切分時間,進(jìn)而提高了整體系統(tǒng)的工作效率,同時為中文處理系統(tǒng)提供更加強(qiáng)大的切分系統(tǒng)支撐,進(jìn)一步滿足用戶對于歧義字段切分的較高要求,具有更為廣泛的市場前景與可推廣性。
參考文獻(xiàn)
[1] 邱均平,方國平.基于知識圖譜的中外自然語言處理研究的對比分析[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2018,30(12):51?61.
[2] 任函,孫為.知識圖譜在智能教學(xué)系統(tǒng)中的應(yīng)用[J].開封教育學(xué)院學(xué)報,2017,37(6):171?173.
[3] 蔣鍇,錢夔,鄭玄.基于知識圖譜的軍事信息搜索技術(shù)架構(gòu)[J].指揮信息系統(tǒng)與技術(shù),2016,7(1):47?52.
[4] 時雨,古天龍,賓辰忠,等.基于知識圖譜的旅游景點(diǎn)問答系統(tǒng)[J].桂林電子科技大學(xué)學(xué)報,2018(4):296?302.
[5] 趙維平,孫寧,楊曉春,等.基于知識圖譜的東方音樂可視化教育研究與應(yīng)用[J].計(jì)算機(jī)工程與科學(xué), 2018, 40(z1):56?62.
[6] 鄭逢斌,付征葉,喬保軍,等.HENU漢語自動分詞系統(tǒng)中歧義字段消除算法[J].河南大學(xué)學(xué)報(自然版),2019,34(4):49?52.
[7] 張培穎,李村合.一種改進(jìn)的上下文相關(guān)的歧義字段切分算法[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2018,15(5):46?48.
[8] 張培穎,李村合.基于知識庫的交集型歧義字段切分系統(tǒng)[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2016,15(8):42?43.
[9] 張利,張立勇,張曉淼,等.基于改進(jìn)BP網(wǎng)絡(luò)的中文歧義字段分詞方法研究[J].大連理工大學(xué)學(xué)報,2017,47(1):131?135.
[10] 張嚴(yán)虎,潘璐璐,彭子平,等.基于規(guī)則挖掘和Na?ve Bayes方法的組合型歧義字段切分[J].計(jì)算機(jī)應(yīng)用,2018,28(7):1686?1688.
[11] 申琳.中文分詞算法及改進(jìn)研究[J].電腦知識與技術(shù),2017(11):199?200.
[12] 胡阿明,王衛(wèi)東.中文分詞歧義識別算法的優(yōu)化[J].現(xiàn)代電子技術(shù),2012,35(8):107?109.
[13] 曲維光,吉根林,穗志方,等.基于語境信息的組合型分詞歧義消解方法[J].計(jì)算機(jī)工程,2016,32(17):74?76.
[14] 秦錦玉,翟潔,陳程,等.基于知識圖譜的可視化技術(shù)研究[J].電子設(shè)計(jì)工程,2018,26(14):1?5.
作者簡介:楊 ?凡(1981—),男,湖北襄陽人,碩士,講師,研究方向?yàn)閿?shù)據(jù)挖掘和云計(jì)算。
任 ?丹(1976—),女,湖北襄陽人,講師,研究方向?yàn)閿?shù)據(jù)挖掘、計(jì)算機(jī)圖形學(xué)。