• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于統(tǒng)計(jì)的中文地址位置語(yǔ)義解析方法研究

      2017-11-02 08:30謝婷婷嚴(yán)柯
      軟件導(dǎo)刊 2017年10期
      關(guān)鍵詞:互信息字符串詞頻

      謝婷婷 嚴(yán)柯

      摘要:為獲取中文自然地址描述語(yǔ)句中的位置信息,提出一種不依賴于詞典的中文地址分詞方法。首先根據(jù)地址語(yǔ)料庫(kù)中字串共現(xiàn)的統(tǒng)計(jì)規(guī)律統(tǒng)計(jì)詞頻,然后對(duì)地名地址串進(jìn)行正則表達(dá)式預(yù)處理,再對(duì)地址串進(jìn)行全切分處理。通過(guò)互信息和信息熵得到最優(yōu)粗分結(jié)果,通過(guò)置信度對(duì)粗分結(jié)果進(jìn)行過(guò)濾得到最優(yōu)分詞結(jié)果。實(shí)驗(yàn)結(jié)果表明,該方法在不依賴詞典的情況下能有效實(shí)現(xiàn)對(duì)地名地址串的拆分,正確率和召回率分別達(dá)到了80.03%和89.28%。

      關(guān)鍵詞:中文分詞;地名地址分詞;互信息;信息熵

      DOIDOI:10.11907/rjdk.172069

      中圖分類號(hào):TP301文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):16727800(2017)010001903

      0引言

      互聯(lián)網(wǎng)是信息傳播交流的重要平臺(tái)。網(wǎng)絡(luò)空間中存在海量的中文地址數(shù)據(jù),蘊(yùn)含著豐富的空間信息。但是與傳統(tǒng)的地理信息或數(shù)據(jù)相比,文本中的地理信息是非結(jié)構(gòu)化的,只有在形式化處理后才能進(jìn)行分析和挖掘。文本中的空間信息形式包括中文地址分詞、空間關(guān)系提取、事件提取等。地名地址分詞作為空間信息形式化最基礎(chǔ)的工作,其準(zhǔn)確性將直接影響到后續(xù)工作的有效性和準(zhǔn)確性。地名地址分詞是中文分詞在地名地址中的應(yīng)用,它將地名地址串拆分成若干地理要素[1]。中文分詞算法大體分為3類:基于詞庫(kù)的分詞算法、基于統(tǒng)計(jì)的分詞算法、基于理解的分詞算法[2]?;谠~庫(kù)的方法將待分析的漢字串與一個(gè)“充分大的”機(jī)器詞典中的詞條進(jìn)行匹配,若在詞典中找到某個(gè)字符串則匹配成功。這類方法簡(jiǎn)單、分詞效率較高。但漢語(yǔ)語(yǔ)言現(xiàn)象復(fù)雜豐富,詞典的完備性、規(guī)則的一致性等問(wèn)題使其難以適應(yīng)開放的大規(guī)模文本分詞處理。基于統(tǒng)計(jì)的方法將相鄰字間的信息、詞頻及相應(yīng)的共現(xiàn)信息等應(yīng)用于分詞。由于這些信息是通過(guò)真實(shí)語(yǔ)料取得的,因而基于統(tǒng)計(jì)的分詞方法具有較好的實(shí)用性?;诶斫獾姆椒ㄊ窃噲D通過(guò)計(jì)算機(jī)模擬人對(duì)文字的理解過(guò)程來(lái)進(jìn)行分詞,但目前尚不成熟,實(shí)際應(yīng)用中無(wú)法直接使用該算法。

      中文地址解析方面,文獻(xiàn)[3]首先創(chuàng)建一個(gè)符合地址分級(jí)模型的地名庫(kù),并在此基礎(chǔ)上通過(guò)地址串的拆分和匹配完成地址標(biāo)準(zhǔn)化編碼工作,這種方法的困難在于需要人工維護(hù)基礎(chǔ)地址庫(kù)。文獻(xiàn)[4]在中文地址編碼研究中采用分段、組合、優(yōu)先規(guī)則,對(duì)中文地址進(jìn)行分段匹配。這些規(guī)則在一定程度上減少了地址要素的匹配次數(shù),但由于采用數(shù)據(jù)庫(kù)查詢方式,使算法總體匹配速率不佳。文獻(xiàn)[5]應(yīng)用自然語(yǔ)言處理中的中文分詞和語(yǔ)義推理原理(HMM模型)對(duì)非結(jié)構(gòu)化中文地址進(jìn)行處理,該方法缺點(diǎn)是依賴于訓(xùn)練語(yǔ)料,前期需要進(jìn)行大量的地址訓(xùn)練操作。

      由于我國(guó)地址名稱多而雜亂,而且地址名稱不斷在更新,人工構(gòu)建一個(gè)標(biāo)準(zhǔn)的涵蓋各級(jí)地址的工作量非常大。因此,本文針對(duì)地名地址串,提出一種基于統(tǒng)計(jì)的中文地址分詞方法:首先統(tǒng)計(jì)語(yǔ)料庫(kù)詞頻,然后對(duì)地名地址串進(jìn)行正則表達(dá)式預(yù)處理,再對(duì)地址串進(jìn)行全切分處理,通過(guò)互信息和信息熵得到最優(yōu)粗分結(jié)果,最后通過(guò)置信度對(duì)粗分結(jié)果進(jìn)行過(guò)濾,得到最優(yōu)結(jié)果。該方法地址識(shí)別率高,對(duì)原始地址結(jié)構(gòu)和部分地址元素缺失不敏感,不需要人工構(gòu)建一個(gè)海量地址庫(kù)。

      1基于統(tǒng)計(jì)的中文地址解析方法

      本文提出了基于無(wú)詞典的中文地址分詞方法。首先對(duì)互聯(lián)網(wǎng)上爬取的30萬(wàn)條地址數(shù)據(jù)構(gòu)成的語(yǔ)料庫(kù)詞頻、相鄰詞語(yǔ)之間的互信息、詞語(yǔ)的信息熵進(jìn)行統(tǒng)計(jì),然后對(duì)地名地址串進(jìn)行正則表達(dá)式預(yù)處理,提取出“數(shù)字+號(hào)”這類描述方式以及一些標(biāo)點(diǎn)符號(hào);再對(duì)剩下的地址串進(jìn)行全切分處理,得到所有的分詞方案,然后通過(guò)互信息和信息熵計(jì)算選擇弧度花費(fèi)最小的分詞方案;最后通過(guò)置信度對(duì)該分詞方案進(jìn)行過(guò)濾得到最優(yōu)結(jié)果。步驟如圖1所示。

      1.1統(tǒng)計(jì)詞頻

      詞是最小的能夠獨(dú)立活動(dòng)的有意義的語(yǔ)言成分[6],是相鄰的字與字構(gòu)成的穩(wěn)定組合。在語(yǔ)料庫(kù)中,相鄰的字同時(shí)出現(xiàn)的頻率越高,就越有可能構(gòu)成一個(gè)詞。因此字與字相鄰共現(xiàn)的頻率或概率能夠較好地反映成詞的可信度。本文對(duì)互聯(lián)網(wǎng)上爬取的30多萬(wàn)條地址文本進(jìn)行統(tǒng)計(jì)處理。在沒(méi)有地名詞典的情況下,任意長(zhǎng)度的字串都有可能構(gòu)成一個(gè)地理要素。一個(gè)最長(zhǎng)的地理要素長(zhǎng)度為8(如新疆維吾爾自治區(qū)),所以將字符串的最大長(zhǎng)度設(shè)為8,統(tǒng)計(jì)語(yǔ)料庫(kù)中任意長(zhǎng)度(最大為8)字符串的詞頻。在地名地址串比如“武漢市洪山區(qū)珞瑜路312號(hào)”中,312在計(jì)算機(jī)中是3個(gè)字符,而在人們認(rèn)知的地址數(shù)據(jù)中312是一個(gè)整體,所以在預(yù)處理時(shí)將連續(xù)的數(shù)字認(rèn)定為一個(gè)字符。哈希查找方法是效率較高的查詢算法,因此將統(tǒng)計(jì)好的詞頻采用哈希結(jié)構(gòu)存儲(chǔ)。

      1.2構(gòu)造切分詞圖

      給定一個(gè)中文地址字符串S,對(duì)S進(jìn)行全切分處理,那么就有2l-1種切分方法。其中,l是地址字符串S的長(zhǎng)度,S的全切分集合為W={Wi},1≤i≤2l-1,Wi代表一種切分方法。把切分的字符串當(dāng)作節(jié)點(diǎn),把字符串的切分位置當(dāng)作弧段,就可以將地址語(yǔ)句的全切分集合表示為圖,稱為地址語(yǔ)句的切分詞圖。

      1.3設(shè)定弧段花費(fèi)

      中文信息處理中,統(tǒng)計(jì)方法主要應(yīng)用于自動(dòng)抽詞或未登錄詞識(shí)別,比如串頻、互信息、信息熵、檢驗(yàn)值、相關(guān)度等統(tǒng)計(jì)量可用于定量判斷候選詞的邊界[7],其中最常用的是互信息和信息熵。

      互信息度量?jī)蓚€(gè)對(duì)象之間的相互性。互信息通常用來(lái)衡量?jī)蓚€(gè)信號(hào)的相互依賴程度,并可用來(lái)衡量詞語(yǔ)的內(nèi)部結(jié)合緊密程度?;バ畔⒃酱?,說(shuō)明詞語(yǔ)的內(nèi)部結(jié)合緊密度越大,它們構(gòu)成詞語(yǔ)的可能性越大?;バ畔⒃叫。瑯?gòu)成詞語(yǔ)的可能性越小。其計(jì)算公式為:

      MI(x,y)=log2p(x,y)p(x)p(y)(1)

      其中:p(xy)是字符串xy在語(yǔ)料庫(kù)中鄰接出現(xiàn)的概率,p(x)是x在語(yǔ)料庫(kù)出現(xiàn)的概率;p(y)是y在語(yǔ)料庫(kù)中出現(xiàn)的概率。當(dāng)MI(x,y)大于一定閾值時(shí),表明字符串xy是一個(gè)詞;當(dāng)MI(x,y)小于一定閾值時(shí),字符串xy不會(huì)結(jié)合成詞。

      信息熵是用來(lái)衡量一個(gè)隨機(jī)變量出現(xiàn)的期望值,一個(gè)變量的信息熵越大,它出現(xiàn)的各種情況就越多,不確定性就越大,正確估計(jì)其值的可能性也越小。字符串左右搭配越豐富,選擇越多。在自然語(yǔ)言處理中,分別利用左信息熵和右信息熵來(lái)判斷字符串的邊界。一個(gè)字符串的左信息熵指該字符串與它相鄰的左鄰接字串集合的信息熵之和,用來(lái)表示該字符串的左鄰接字的不確定性。左信息熵越大,說(shuō)明該字符串的左鄰接字越不確定,該字符串成為某一個(gè)詞語(yǔ)左邊界的可能性越大。相反,左信息熵越小,該字符串的左鄰接字越確定,它成為某一個(gè)詞語(yǔ)左邊界的可能性就越小。同理,右信息熵可以確定詞語(yǔ)的右邊界。endprint

      EL(w)=-∑a∈AP(aww)log2P(aww)(2)

      ER(w)=-∑b∈BP(wbw)log2p(wbw)(3)

      上式中,w表示該字符串,aw表示該字符串和左鄰接字的組合形式,wb表示該字符串和右鄰接字的組合形式。

      本文根據(jù)互信息和信息熵原理將其轉(zhuǎn)化為切分詞圖中弧段的開銷。一條弧段相鄰字符串之間的互信息越大,越不適合作為詞的邊界,弧段開銷越大;其連接左右字串的信息熵越大,越適合作為詞的邊界,該弧段開銷越小。因此,可以定義如下弧段花費(fèi)計(jì)算公式:

      c(A,B)=MI(a,b)ER(A)EL(B)(4)

      A、B表示弧段連接的左右字串,a、b表示左字串最右側(cè)的字和右字串最左側(cè)的字。

      1.4置信度過(guò)濾

      在地址語(yǔ)句中,由于地理要素存在層級(jí)關(guān)系,上述計(jì)算方式容易產(chǎn)生數(shù)據(jù)稀疏問(wèn)題,不能將兩個(gè)地理要素切分開,因此引入置信度過(guò)濾的計(jì)算方法。

      已知字符串w1為fre(w1),字符串w2的詞頻為fre(w2),字符串w=w1+w2的詞頻為fre(w),則字符串w1相對(duì)于字符串w,詞的置信度如公式(5)所示。

      conf(w1w)=fre(w1)-fre(w)fre(w1)(5)

      同樣可知字符串w2相對(duì)于字符串w的置信度。

      字符串w1相對(duì)于字符串w的置信度,反映了字符串與前綴漢字串或后綴漢字串結(jié)合的穩(wěn)定性,即字符串w2構(gòu)成詞條的可能性。如果字符串w1相對(duì)于字符串w的置信度小于閾值α,則認(rèn)為字符串w是真實(shí)字符串的可能性比w1大,則從詞頻生成的詞庫(kù)中去掉w1字符串。如果字符串w1相對(duì)于字符串w的置信度大于閾值β,則認(rèn)為字符串w1是真實(shí)字符串的可能性比w大,從詞頻生成的詞庫(kù)中去掉w字符串。如果字符串w1相對(duì)于字符串w的置信度大于閾值α且小于閾值β,則比較兩個(gè)詞的詞頻大小,保留詞頻大的字符串。

      通過(guò)分析不同取值條件下的實(shí)驗(yàn)結(jié)果選取α和β的閾值。一般在α=0.3和β=0.8的情況下分詞結(jié)果更好。

      比如w1=“武漢”,w=“武漢市”,fre(w1)=7 096,fre(w)=7 086,則conf(w1w)=(7 096-7 086)/7 096=0.001 9,小于閾值α=0.3,所以從詞頻生成的詞庫(kù)中去掉“武漢”字符串,保留字符串“武漢市”。

      再比如w1=“武漢市”,w=“武漢市武”,fre(w1)=7 082,fre(w)=1 110,則conf(w1w)=(7 083-1 110)/7 082=0.84>β=0.8。所以,應(yīng)從統(tǒng)計(jì)語(yǔ)料庫(kù)的詞頻生成詞庫(kù)中去掉“武漢市武”字符串,保留“武漢市”字符串。

      2實(shí)驗(yàn)結(jié)果分析

      實(shí)驗(yàn)采用完全基于統(tǒng)計(jì)特征的分詞方法和引入了置信度過(guò)濾的分詞方法。前者基于統(tǒng)計(jì)考慮,說(shuō)明了統(tǒng)計(jì)分詞方法的有效性,后者通過(guò)引入置信度過(guò)濾改進(jìn)了統(tǒng)計(jì)分詞效果。從互聯(lián)網(wǎng)上爬取30萬(wàn)條地址數(shù)據(jù)構(gòu)成的語(yǔ)料庫(kù)中,隨機(jī)選取2 000條地址語(yǔ)句,采用上述兩種方法進(jìn)行分詞實(shí)驗(yàn),統(tǒng)計(jì)兩種分詞方法的正確率、召回率和F值,各指標(biāo)計(jì)算如公式(6)~(8)所示。

      通過(guò)分析地址解析方法,將最大熵分詞方法與本文方法對(duì)比。本文方法雖然在正確率上沒(méi)有前者高,但是在召回率和F值上有了較大提升。而且最大熵方法在前期需要人工標(biāo)注大量的語(yǔ)料,工作量大,本文方法則不需要標(biāo)注,實(shí)用性更強(qiáng)。兩者對(duì)比結(jié)果如表1所示。

      正確率(P)=切分正確的總詞數(shù)切分出的總詞數(shù)×100%(6)

      召回率(R)=切分正確的總詞數(shù)標(biāo)準(zhǔn)結(jié)果中的總詞數(shù)×100%(7)

      F=2×P×RP+R×100%(8)

      3結(jié)語(yǔ)

      本文提出了一種無(wú)詞典的中文地址分詞方法。在互聯(lián)網(wǎng)上爬取30多萬(wàn)條地址數(shù)據(jù)構(gòu)成語(yǔ)料庫(kù),通過(guò)統(tǒng)計(jì)地址文本中各個(gè)字的組合頻度,計(jì)算待分詞文本的各種參數(shù),判斷漢字之間的緊密程度,通過(guò)置信度過(guò)濾最后獲得分詞結(jié)果。實(shí)驗(yàn)結(jié)果表明,本文方法不需要依靠人工去構(gòu)建一個(gè)地名地址庫(kù),且不需要人工去標(biāo)注訓(xùn)練語(yǔ)料就能實(shí)現(xiàn)對(duì)地名地址串的切分,且分詞效果較好,實(shí)用性強(qiáng)。

      參考文獻(xiàn)參考文獻(xiàn):

      [1]趙陽(yáng)陽(yáng),王亮,仇阿根.地址要素識(shí)別機(jī)制的地名地址分詞算法[J].測(cè)繪科學(xué),2013,38(5):8183.

      [2]于光.中文分詞系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].成都:電子科技大學(xué),2012.

      [3]孫存群,周順平,楊林.基于分級(jí)地名庫(kù)的中文地理編碼[J].計(jì)算機(jī)應(yīng)用,2010(7):19531958

      [4]唐靜.城市地名地址的編碼匹配研究[D].昆明:昆明理工大學(xué),2011.

      [5]宋子輝.自然語(yǔ)言理解的中文地址匹配算法[J].遙感學(xué)報(bào),2013,17(4):788801.

      [6]徐飛,孫勁光.中文分詞切分技術(shù)研究[J].計(jì)算機(jī)工程與科學(xué),2008,30(5):126128.

      [7]李文坤,張仰森,陳若愚.基于詞內(nèi)部結(jié)合度和邊界自由度的新詞發(fā)現(xiàn)[J].計(jì)算機(jī)應(yīng)用研究,2015,32(8):23022342.

      責(zé)任編輯(責(zé)任編輯:杜能鋼)endprint

      猜你喜歡
      互信息字符串詞頻
      基于詞頻分析法的社區(qū)公園歸屬感營(yíng)建要素研究
      基于互信息的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)
      聯(lián)合互信息水下目標(biāo)特征選擇算法
      詞頻,一部隱秘的歷史
      改進(jìn)的互信息最小化非線性盲源分離算法
      基于增量式互信息的圖像快速匹配方法
      云存儲(chǔ)中支持詞頻和用戶喜好的密文模糊檢索
      以關(guān)鍵詞詞頻法透視《大學(xué)圖書館學(xué)報(bào)》學(xué)術(shù)研究特色
      一種新的基于對(duì)稱性的字符串相似性處理算法
      依據(jù)字符串匹配的中文分詞模型研究
      南岸区| 剑河县| 天全县| 济宁市| 修水县| 图们市| 九台市| 香港| 郁南县| 汤阴县| 崇礼县| 富源县| 康马县| 外汇| 清河县| 渝中区| 河东区| 黄龙县| 于都县| 宜都市| 海伦市| 汤阴县| 奇台县| 荣成市| 镇平县| 十堰市| 凤山市| 武山县| 丹凤县| 都江堰市| 雷波县| 肇州县| 周至县| 乌鲁木齐县| 福泉市| 松潘县| 潮州市| 乌鲁木齐市| 孙吴县| 商都县| 台湾省|