• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于文本相似度的智能查號(hào)引擎研究

      2018-05-14 12:19喬世權(quán)戴繼勇
      關(guān)鍵詞:分詞

      喬世權(quán) 戴繼勇

      摘 要:為了幫助電話人工客服座席提供不間斷地、質(zhì)量穩(wěn)定的服務(wù),有必要研發(fā)智能查號(hào)引擎。基于最長公共子序列算法和最長公共子元素序列算法的研究,提出了短文本相似度計(jì)算算法,以提高查號(hào)的準(zhǔn)確性,并以此為基礎(chǔ),設(shè)計(jì)出智能查號(hào)搜索引擎系統(tǒng)及其實(shí)現(xiàn)方法??紤]到實(shí)際需求,通過自然語言處理中的分詞、簡稱替換、同義詞替換、構(gòu)建停用詞表等,對(duì)數(shù)據(jù)進(jìn)行預(yù)處理;通過基于HowNet和同義詞詞林的相似計(jì)算,完成進(jìn)一步的數(shù)據(jù)處理;對(duì)外提供遵循REST規(guī)范的API接口。實(shí)驗(yàn)表明,智能查號(hào)引擎的設(shè)計(jì)可行,具有較好的業(yè)務(wù)處理能力,可滿足用戶需求;同時(shí),也存在一些問題,有待于進(jìn)一步的改進(jìn)。智能查號(hào)引擎可以提供24 h不間斷服務(wù),相對(duì)于人工服務(wù),具有更高的查號(hào)效率和更穩(wěn)定的高質(zhì)服務(wù),可為智能電話客服的發(fā)展提供借鑒。

      關(guān)鍵詞:計(jì)算機(jī)信息管理系統(tǒng);文本相似度;分詞;停用詞;同義詞;查號(hào)引擎

      中圖分類號(hào):TP391 文獻(xiàn)標(biāo)志碼:A

      文章編號(hào):1008-1542(2018)03-0282-07

      當(dāng)今是一個(gè)高度信息化的時(shí)代,目前搜索引擎可以為大家提供方便的信息查詢功能,但是在查詢電話號(hào)碼方面還有其不足之處,例如:網(wǎng)絡(luò)查詢時(shí)會(huì)得到大量的相關(guān)信息,需要人工挑揀需要的電話信息,并且在查詢信息中,還可能存在詐騙電話。因此撥打查詢電話是獲取準(zhǔn)確單位電話的最有保障的方式。由于人工電話查詢存在著單任務(wù)、速度慢并且不能提供不間斷、穩(wěn)定質(zhì)量服務(wù)的特點(diǎn),研發(fā)基于自然語言的對(duì)話引擎是很有必要的。對(duì)話引擎針對(duì)用戶提出的問題返回的不是一些相關(guān)的信息列表,而是一個(gè)精準(zhǔn)的答案,從而能夠省去用戶從信息列表當(dāng)中篩選信息所耗費(fèi)的時(shí)間和精力。

      目前針對(duì)智能客服方面的研究主要集中在人機(jī)對(duì)話[1]、智能服務(wù)機(jī)器人[2]等領(lǐng)域,研究內(nèi)容大部分是對(duì)自然語言的理解和處理上,而針對(duì)電話查詢業(yè)務(wù)的智能客服研究甚少。本文利用文本相似度算法,通過數(shù)據(jù)預(yù)處理、停用詞表和同義詞庫構(gòu)建完成實(shí)現(xiàn)智能查號(hào)的搜索引擎設(shè)計(jì)。

      1 數(shù)據(jù)預(yù)處理

      當(dāng)用戶表達(dá)一種需求的時(shí)候可能存在多種描述形式,每種描述形式呈現(xiàn)在文本中就會(huì)存在差異,例如“河北科技大學(xué)的地址”和“河北科技大學(xué)在哪兒”,雖然表述方式不同,但是表達(dá)的都是同一種意思,將同一語義的不同表述方式歸化為同一種表述方式即為語義歸一化,本文采用了簡稱替換和同義詞替換兩種語義歸一化操作,同時(shí)借助設(shè)定的規(guī)則模板,完成對(duì)核心查詢?cè)~的抽取工作。

      1.1 分詞與簡稱替換

      本文采用開源的分詞工具:先進(jìn)行原子切分,然后在此基礎(chǔ)上進(jìn)行N-最短路徑粗切分,找出前N個(gè)最符合的切分結(jié)果,生成二元分詞表,然后生成分詞結(jié)果,接著進(jìn)行詞性標(biāo)注并完成主要分詞步驟[3]。例如,給定一個(gè)問題“幫我查詢一下河北科技大學(xué)教務(wù)處的電話”,將“科技大學(xué)”和“教務(wù)處”人工標(biāo)注為自定義詞典,對(duì)其進(jìn)行分詞的結(jié)果為{幫/v}{我/n}{查詢/v}{一/num}{下/quant}{河北/ns}{科技大學(xué)/user-defined}{教務(wù)處/user-defined}{的/uj}{電話/n}。其中“/*”代表詞性,“/user-defined”為自定義詞性。

      簡稱,是指抽出原詞語中的共同部分,或概括原來幾個(gè)詞語表示的事物的共性[4]組成的短語。簡稱更多的時(shí)候會(huì)被用在口語化的表達(dá)中。在問答系統(tǒng)中,用戶輸入的簡稱表達(dá)不僅會(huì)省略想要表達(dá)的部分語義,甚至?xí)驗(yàn)榧?xì)小的差別而導(dǎo)致語義理解的錯(cuò)誤。所以在對(duì)用戶輸入文本做相似度計(jì)算的時(shí)候,將簡稱替換為全稱是很有必要的。

      表1為通過對(duì)日志和原始數(shù)據(jù)的分析整理得出部分簡稱替換數(shù)據(jù),其中簡稱欄為用戶常用的簡稱表達(dá)方式,全稱為對(duì)應(yīng)的全稱表達(dá)方式。

      簡稱替換機(jī)制是用在對(duì)話引擎的文本輸入部分,用在停用詞處理之前,通過將用戶的輸入與簡稱替換表中的簡稱進(jìn)行匹配,匹配成功則替換為對(duì)應(yīng)的簡稱。

      1.2 基礎(chǔ)詞法分析

      基礎(chǔ)詞法是對(duì)用戶輸入的中文文本的處理程序,主要是依據(jù)已有的基礎(chǔ)詞庫和自定義詞庫對(duì)用戶輸入進(jìn)行處理。該部分對(duì)中文的處理都是基于語音識(shí)別結(jié)果較好的中文詞語進(jìn)行,例如“大學(xué)”“公安局”“酒店”“賓館”等詞語都是用戶能夠表達(dá)清楚并且語音識(shí)別效果較好的詞匯,依據(jù)這些能夠識(shí)別準(zhǔn)確的詞匯,實(shí)現(xiàn)了觸發(fā)詞的機(jī)制,該機(jī)制的思想是:當(dāng)用戶輸入了能夠代表其語義目的的詞匯時(shí),就會(huì)自動(dòng)觸發(fā)該機(jī)制,并在給用戶的回復(fù)當(dāng)中優(yōu)先回復(fù)該觸發(fā)詞對(duì)應(yīng)的單位信息。

      觸發(fā)詞機(jī)制的數(shù)據(jù)是以文件的形式存儲(chǔ)在TXT文檔中,有3列數(shù)據(jù)并以空格隔開,存儲(chǔ)結(jié)構(gòu)如表2所示。

      其中觸發(fā)詞的定義規(guī)則為每一列之間用空格隔開,當(dāng)有多個(gè)觸發(fā)詞時(shí)使用“|”隔開,當(dāng)需要多個(gè)觸發(fā)詞同時(shí)生效才觸發(fā)時(shí),使用“*”號(hào)隔開,其中“*”號(hào)匹配任何長度的任何字符串。例如當(dāng)用戶輸入“幫我查下科大教務(wù)處的電話”或者“幫我查下科技大學(xué)”時(shí),就會(huì)觸發(fā)“科*大”這個(gè)觸發(fā)詞,并在系統(tǒng)回復(fù)當(dāng)中優(yōu)先回復(fù)這條電話號(hào)碼。

      1.3 短文本相似度計(jì)算算法

      文本相似度是兩個(gè)文本之間相似匹配程度的重要參考指標(biāo)[5],目前大多數(shù)的文本相似度算法[6]主要是基于統(tǒng)計(jì)和語義的方法,其相似度對(duì)象主要是中文文字或者詞語,而由于本文研究課題的特殊性,提出基于拼音最長公共子序列的文本相似度計(jì)算算法。

      1.3.1 最長公共子序列算法

      由式(1)可計(jì)算得出兩個(gè)字符串的最長公共子序列長度。

      1.3.2 最長公共子元素序列算法

      1.3.3 短文本相似度計(jì)算

      對(duì)話引擎的輸入文本是電話語音識(shí)別成文本的結(jié)果,而電話語音識(shí)別成文本的效果往往并不是很好,一方面原因是電話語音采集的質(zhì)量本身就比大多數(shù)電子設(shè)備的語音采集質(zhì)量差,另一方面的原因是不同地區(qū)用戶,乃至同一地區(qū)不同用戶的口音也會(huì)存在差別,口語的語音轉(zhuǎn)文本會(huì)受用戶普通話標(biāo)準(zhǔn)程度的影響。通過測(cè)試發(fā)現(xiàn),雖然語音轉(zhuǎn)寫的大多數(shù)漢字都不準(zhǔn)確,但是大致的音還是能識(shí)別對(duì)的,即同音不同字。為了解決這個(gè)問題,本文采取的是將漢字文本轉(zhuǎn)寫為拼音后的文本相似度計(jì)算,其中參與相似度計(jì)算的文本的基本單位是一個(gè)漢字或者數(shù)字或者英文字母的拼音表示,以下所有提到參與相似度計(jì)算的文本的基本單位都是一個(gè)拼音字符串。

      在數(shù)據(jù)庫中,用于信息檢索的字段為3~15個(gè)字符的單位名稱,而通過對(duì)用戶輸入文本的預(yù)處理,最終形成大概5~20個(gè)字符的文本,通過計(jì)算用戶輸入的內(nèi)容與數(shù)據(jù)庫中單位名稱字段文本的相似度,給出相似度的排序列表并最終選出一個(gè)最優(yōu)解?;谶@樣的需求和對(duì)前兩節(jié)內(nèi)容的研究,本文提出了一種文本相似度計(jì)算方法:文本的相似度與兩個(gè)文本的長度成反比關(guān)系,與兩個(gè)文本的最長公共子序列的長度成正比關(guān)系。由此可得出公式

      1.4 停用詞表及同義詞庫構(gòu)建

      1.4.1 停用詞表構(gòu)建

      正確理解用戶輸入問題的語義是影響對(duì)話引擎效果好壞的關(guān)鍵,而由于用戶輸入內(nèi)容的不可控性,除了能正確表達(dá)用戶意圖的文本,還會(huì)有許多的干擾因素,稱之為噪音詞[16]。文本預(yù)處理就是在通過技術(shù)手段消除噪音詞、提取核心語義文本的過程。

      停用詞(Stop Word)[17-18]是指在進(jìn)行語義理解或者相似度計(jì)算當(dāng)中,在輸入的文本當(dāng)中出現(xiàn)頻率很高但是在信息檢索的時(shí)候幾乎不起任何作用甚至?xí)鸬礁蓴_作用的詞語,如“的”、“啦”、“呀”等詞語。但是在對(duì)話引擎或者問答系統(tǒng)當(dāng)中,停用詞并不是唯一的,停用詞會(huì)因?yàn)槠鋺?yīng)用場(chǎng)景或者問題的不同而動(dòng)態(tài)的改變[19]。

      本文構(gòu)建的停用詞表分為絕對(duì)停用詞和相對(duì)停用詞。

      1) 絕對(duì)停用詞是不考慮停用詞所在文本中的上下文語義必須過濾的停用詞;

      2) 相對(duì)停用詞是需要考慮停用詞在上下文語境中的成分、位置的停用詞,只在特定語境下才會(huì)觸發(fā)該停用詞。

      在構(gòu)建停用詞的時(shí)候本文引入了熵計(jì)算[20]的概念,熵計(jì)算是一個(gè)基于詞語出現(xiàn)的平均信息量,對(duì)詞的有效性進(jìn)行計(jì)算

      在同一個(gè)文本當(dāng)中,P(Wi|W)為貝葉斯公式原理,表示詞語W出現(xiàn)的情況下,Wi出現(xiàn)的概率。通過對(duì)多個(gè)文本進(jìn)行分詞統(tǒng)計(jì)詞頻的計(jì)算,可得出某一停用詞出現(xiàn)的情況下,其他詞語出現(xiàn)的概率,從而可以得出在同一個(gè)文本當(dāng)中兩個(gè)詞之間的語義關(guān)聯(lián)。

      其中原始數(shù)據(jù)進(jìn)行分詞處理是對(duì)原始名稱、地址處理,這兩個(gè)字段的內(nèi)容代表著該單位名稱語義的核心內(nèi)容,此外,由于原始數(shù)據(jù)和日志數(shù)據(jù)的不規(guī)范性,最終確定停用詞表的規(guī)模在100個(gè)詞語以后,對(duì)于最終停用詞表的確定需要一定工作量的人工標(biāo)注以確保準(zhǔn)確性。

      1.4.2 同義詞庫的構(gòu)建

      同義詞是指詞匯意義相同或者相近的詞語。一般情況下同義詞都會(huì)是兩個(gè)詞語中間有一個(gè)或者幾個(gè)字重復(fù)或者重音的,例如“地址”和“地點(diǎn)”,“發(fā)現(xiàn)”和“發(fā)覺”。同義詞所表達(dá)的基本意義相同,會(huì)因不同的表達(dá)習(xí)慣和場(chǎng)合而有所不同。

      詞語相似度計(jì)算在許多領(lǐng)域如信息檢索、信息抽取、問答系統(tǒng)、詞義消歧、多文檔文摘系統(tǒng)等都有著非常廣泛的應(yīng)用。它可以表示為兩個(gè)詞語在同一個(gè)文本當(dāng)中可以相互替換而不改變文本原來含義的程度。由于網(wǎng)絡(luò)資源的不規(guī)范性,需要對(duì)一些差別比較大的同義詞進(jìn)行過濾。本文采取的是以數(shù)據(jù)分詞結(jié)果作為主詞通過網(wǎng)絡(luò)爬蟲的方式構(gòu)建同義詞庫,并通過計(jì)算詞語相似度的方式對(duì)同義詞的近義程度進(jìn)行數(shù)據(jù)化表示。

      同義詞替換[21]機(jī)制是用在停用詞替換之后,同義詞替換過程流程圖如圖2所示。將用戶輸入進(jìn)行分詞和詞性標(biāo)注之后,通過這兩個(gè)屬性分別與同義詞庫當(dāng)中的同義詞節(jié)點(diǎn)進(jìn)行比對(duì),首先與主詞進(jìn)行比對(duì),匹配成功則不進(jìn)行任何操作循環(huán)進(jìn)行下一個(gè)詞語的匹配;與主詞匹配不成功則與副詞進(jìn)行匹配,匹配成功則替換成對(duì)應(yīng)的主詞,匹配不成功則進(jìn)行下一個(gè)詞語的匹配,直到同義詞替換完成返回替換后的結(jié)果。

      2 智能查號(hào)引擎設(shè)計(jì)

      2.1 單位信息查詢

      單位信息查詢是基于文本相似度的計(jì)算和排序機(jī)制實(shí)現(xiàn)的,其中相似度的計(jì)算包括漢字和拼音相似度計(jì)算。文本相似度的計(jì)算會(huì)將用戶的問句通過文本研究的相似度計(jì)算算法與語義分析得出的場(chǎng)景知識(shí)庫中的數(shù)據(jù)一一進(jìn)行計(jì)算,其中計(jì)算的兩個(gè)文本相似度的因素主要有3個(gè),如表3所示。

      在漢字的語義相似度計(jì)算當(dāng)中,如果經(jīng)過分詞之后觸發(fā)了觸發(fā)詞機(jī)制,則會(huì)把觸發(fā)詞對(duì)應(yīng)的單位名稱的

      名稱相似度、地址相似度和部門相似度全部設(shè)為最

      高值,在系統(tǒng)回復(fù)的過程中優(yōu)先回復(fù)本條信息。

      對(duì)于單位名稱的相似度計(jì)算是使用基于主文本長度的相似度計(jì)算算法,對(duì)于地址和部門信息的相似度計(jì)算是使用基于關(guān)鍵字匹配的相似度計(jì)算算法。

      計(jì)算完相似度之后,會(huì)根據(jù)每條數(shù)據(jù)的單位名稱相似度、地址信息相似度和部門信息相似度對(duì)已有的場(chǎng)景知識(shí)庫數(shù)據(jù)進(jìn)行排序,并得出最優(yōu)解。對(duì)最優(yōu)解答案的排序規(guī)則如下:

      1)通過對(duì)名稱相似度的計(jì)算,按照單位名稱的相似度評(píng)分進(jìn)行排序,取前若干條中單位名稱相同但部門和地址不同的數(shù)據(jù)得到一個(gè)通過單位名稱評(píng)分排序的列表;

      2)在經(jīng)過第1次排序之后加入地址評(píng)分的考慮因素進(jìn)行二次排序,即相同單位名稱的情況中,地址評(píng)分較高者,將排序的位置調(diào)整到所在單位中最靠前的位置;

      3)再加入部門評(píng)分的考慮因素進(jìn)行第3次排序,在第2次排序結(jié)果的基礎(chǔ)上,單位名稱和地址信息都相同的情況下,部門評(píng)分較高者排序到最靠前的位置。

      如果部門評(píng)分都相同,即沒有匹配到部門信息的情況下,則按照設(shè)定好的優(yōu)先部門排序規(guī)則進(jìn)行排序。例如如果設(shè)定部門優(yōu)先排序規(guī)則為“辦公室、財(cái)務(wù)科、人事科”,則會(huì)優(yōu)先排序該單位中部門為“辦公室”的數(shù)據(jù),如果數(shù)據(jù)當(dāng)中沒有部門為“辦公室”的,則優(yōu)先排序部門為“財(cái)務(wù)科”的,以此類推。

      語義相似度排序流程圖如圖3所示。

      2.2 智能查號(hào)引擎的實(shí)現(xiàn)與性能分析

      在查號(hào)引擎測(cè)試中,測(cè)試并分析了1 000條數(shù)據(jù)分別請(qǐng)求對(duì)話。查號(hào)引擎的響應(yīng)時(shí)間分布圖如圖4所示,最快響應(yīng)時(shí)間為1 ms,最慢響應(yīng)時(shí)間為3 815 ms,平均響應(yīng)時(shí)間為282.353 ms,這個(gè)平均響應(yīng)時(shí)間完全可以滿足用戶的需求。

      3 結(jié) 語

      本文首先通過分詞、簡稱替換和單位名稱基礎(chǔ)分詞分析完成數(shù)據(jù)的預(yù)處理。構(gòu)建了停用詞表和同義詞庫,實(shí)現(xiàn)了對(duì)原始數(shù)據(jù)名稱、地址語義和部門語義的抽取。通過最長公共子序列、最長公共子元素序列、短文本相似度計(jì)算等算法實(shí)現(xiàn)了單位信息的查詢處理。利用文本相似度計(jì)算結(jié)合前期對(duì)數(shù)據(jù)的預(yù)處理,通過提供遵循REST規(guī)范的API接口來實(shí)現(xiàn)智能查號(hào),最終完成了智能查號(hào)引擎的設(shè)計(jì)。最后,對(duì)查號(hào)引擎響應(yīng)時(shí)間進(jìn)行了測(cè)試,分析了其業(yè)務(wù)處理能力。結(jié)果表明,智能查號(hào)引擎能夠滿足用戶的基本需求,

      可以提供24 h不間斷服務(wù),相對(duì)于人工服務(wù),具有更高的查號(hào)效率和更穩(wěn)定的高質(zhì)服務(wù),可為智能電話客服的發(fā)展提供借鑒。盡管如此,本研究在文本預(yù)處理階段需要做大量人工標(biāo)注工作,今后的研究方向是進(jìn)一步減少人工干預(yù),實(shí)現(xiàn)數(shù)據(jù)處理的自動(dòng)化。

      參考文獻(xiàn)/References:

      [1] 馬龍. 人機(jī)對(duì)話理解中聯(lián)合學(xué)習(xí)技術(shù)的研究與應(yīng)用[D].北京:北京郵電大學(xué),2017.

      MA Long. Research and Application on Joint Learning Technology in Spoken Language Understanding[D]. Beijing: Beijing University of Posts and Telecommunications,2017.

      [2] 谷鑫.微信公眾平臺(tái)客服機(jī)器人設(shè)計(jì)與實(shí)現(xiàn)[J].信息技術(shù),2017(5):166-169.

      GU Xin. Design and implementation of customer service robot on WeChat public platform[J].Information Technology,2017(5):166-169.

      [3] 王飛. 基于蟻群優(yōu)化的模糊文本聚類算法研究[D].鄭州:河南工業(yè)大學(xué),2010.

      WANG Fei. The Research on Fuzzy C-Means Documents Clustering Based on Ant Colony Optimization[D]. Zhengzhou: Henan University of Technology, 2010.

      [4] 劉麗彬.語言學(xué)視角下中西新聞報(bào)道的文體特征差異[J].新聞知識(shí),2013(5):28-29.

      LIU Libin. Differences in stylistic features between chinese and western news reports from the perspective of linguistics[J]. News Research, 2013(5):28-29.

      [5] 趙謙. 基于HowNet的短文本語義相似度計(jì)算方法研究[D].太原:太原理工大學(xué),2017.

      ZHAO Qian. Research on the Method of Semantic Similarity Calculation of Short Texts Based on HowNet[D]. Taiyuan: Taiyuan University of Technology, 2017.

      [6] ZHU Ganggao, CARLOS A I. Exploiting semantic similarity for named entity disambiguation in knowledge graphs[J]. Expert Systems with Applications,2018,101: 8-24.

      [7] 于海英. 程序代碼相似度識(shí)別的研究[D].呼和浩特:內(nèi)蒙古師范大學(xué),2006.

      YU Haiying. Research of Identifying Progam Code Similarity[D]. Hohhot: Inner Mongolia Normal University, 2006.

      [8] 孫燾,朱曉明.基于格代數(shù)的最長公共子序列近似求解[J].計(jì)算機(jī)科學(xué),2017,44(2):270-274.

      SUN Tao, ZHU Xiaoming. Computing longest common subsequences approximately based on lattice[J]. Computer Science,2017,44(2):270-274.

      [9] 林翠萍,吳揚(yáng)揚(yáng).采用改進(jìn)最長公共子序列的人名消歧[J].華僑大學(xué)學(xué)報(bào)(自然科學(xué)版),2016,37(2):201-206.

      LIN Cuiping, WU Yangyang. Person name disambiguation based on revised longest common subsequence[J]. Journal of Huaqiao University(Natural Science),2016,37(2):201-206.

      [10]李城,沙俊淞,武文.基于最長公共子序列的微博謠言溯源研究[J].計(jì)算機(jī)與現(xiàn)代化,2018(1):107-112.

      LI Cheng, SHA Junsong, WU Wen. Research on origin of micro-blog rumors based on longest common subsequence[J]. Computer and Modernization, 2018(1):107-112.

      [11]TSENG Kuotsung, CHAN Desheng, YANG Changbiau,et al. Efficient merged longest common subsequence algorithms for similar sequences[J]. Theoretical Computer Science,2018,708:75-90.

      [12]劉鼎甲. 基于關(guān)系模型的語料庫查詢處理問題研究[D].秦皇島:燕山大學(xué),2015.

      LIU Dingjia. Issues on the Query Processing of Corpora Based on Relational Model[D]. Qinhuangdao:Yanshan University, 2015.

      [13]王鑒全. 基于概念圖挖掘的中文文本傾向性研究[D].大連:大連理工大學(xué),2012.

      WANG Jianquan. Chinese Sentiment Analysis Based on Comception Map Mining[D]. Dalian: Dalian University of Technology, 2012.

      [14]王先勝. XSemantic:基于語義擴(kuò)展的XML關(guān)鍵字檢索技術(shù)研究[D].上海:復(fù)旦大學(xué),2010.

      WANG Xiansheng. XSemantic: The Research of Keuword Search on XML Documents based on Keyword Expansion[D]. Shanghai: Fudan University, 2010.

      [15]王鑒全, 季紹波. 基于關(guān)聯(lián)規(guī)則的自動(dòng)構(gòu)詞算法研究[J]. 計(jì)算機(jī)科學(xué), 2014, 41(11):256-259.

      WANG Jianquan, JI Shaobo. Research and application on auto-word buiding[J].Computer Science, 2014, 41(11):256-259.

      [16]陳俊鵬. 詞義消歧中若干關(guān)鍵技術(shù)研究[D].武漢:武漢大學(xué),2012.

      CHEN Junpeng. The Reaearch of Several Key Technologies of Word Semse Disambiquation[D]. Wuhan: Wuhan University, 2012.

      [17]化柏林.知識(shí)抽取中的停用詞處理技術(shù)[J].現(xiàn)代圖書情報(bào)技術(shù),2007(8):48-51.

      HUA Bolin. Stop-word processing technique in knowledge extraction[J]. New Technology of Library and Information Service, 2007(8):48-51.

      [18]馬治濤. 文本分類停用詞處理和特征選擇技術(shù)研究[D].西安:西安電子科技大學(xué),2014.

      MA Zhitao. Research on Stop Words and Feature Selection for Text Classification[D].Xian: Xidian University,2014.

      [19]熊文新,宋柔.信息檢索用戶查詢語句的停用詞過濾[J].計(jì)算機(jī)工程,2007,33(6):195 -197.

      XIONG Wenxin, SONG Rou. Removal of stop word in users request for information retrieval[J]. Computer Engineering, 2007,33(6):195-197.

      [20]靳銳,張宏莉,張玥,等.中文公眾事件信息熵計(jì)算方法[J].軟件學(xué)報(bào),2016,27(11):2855-2869.

      JIN Rui, ZHANG Hongli, ZHANG Yue,et al. Calculation method of chinese public event information entropy[J].Journal of Software,2016,27(11):2855-2869.

      [21]胡毅君. 基于低失真替換的文本隱寫算法研究[D].長沙:長沙理工大學(xué),2015.

      HU Yijun.Research on Text Steganography based on Low Distortion Substitution[D].Changsha: Changsha University of Science & Technology,2015.

      猜你喜歡
      分詞
      分詞在英語教學(xué)中的妙用
      耶魯大學(xué)的52歲新生
      結(jié)巴分詞在詞云中的應(yīng)用
      結(jié)巴分詞在詞云中的應(yīng)用
      分詞做狀語的概念解析
      最大概率分詞方法研究
      高中階段出現(xiàn)的英語懸垂分詞
      分詞邏輯主語的理解與應(yīng)用
      現(xiàn)在分詞與過去分詞的主要區(qū)別在哪里?
      聚焦現(xiàn)在完成進(jìn)行時(shí)
      和政县| 屯留县| 资中县| 东至县| 依安县| 曲松县| 太仆寺旗| 阿坝县| 白山市| 富源县| 通辽市| 仙桃市| 荃湾区| 大悟县| 靖边县| 广西| 通化市| 湖南省| 边坝县| 旅游| 新晃| 泸定县| 舟曲县| 白玉县| 广安市| 三原县| 陇西县| 巴马| 封开县| 余庆县| 浠水县| 长丰县| 长岛县| 河源市| 鄂州市| 东平县| 安庆市| 云南省| 云安县| 建湖县| 大石桥市|