• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于角色標(biāo)注的中文POI名稱語義分類方法

      2012-12-11 07:27:28張福浩劉紀(jì)平
      測繪通報 2012年1期
      關(guān)鍵詞:中心詞名稱短語

      羅 安,王 勇,張福浩,劉紀(jì)平

      (中國測繪科學(xué)研究院,北京100830)

      一、引 言

      當(dāng)前,互聯(lián)網(wǎng)已成為發(fā)布、使用地理信息的重要途徑,據(jù)不完全統(tǒng)計(jì),從事互聯(lián)網(wǎng)地理信息服務(wù)的網(wǎng)站超過500家,按照每個網(wǎng)站每天產(chǎn)生500~1000條地理興趣點(diǎn)標(biāo)注,每月將產(chǎn)生近1000萬條標(biāo)注,每年將產(chǎn)生1億多條標(biāo)注信息。面對數(shù)量如此龐大的地理信息興趣點(diǎn)標(biāo)注,如何有效快速地對它們進(jìn)行自動分類,是目前地理信息產(chǎn)業(yè)化面臨的一個重要問題。

      POI標(biāo)注的信息結(jié)構(gòu)主要包括POI名稱、坐標(biāo)位置及詳細(xì)描述信息三種信息。由于坐標(biāo)位置信息不帶有文本描述屬性,不具有文本分類的作用,詳細(xì)描述信息作為POI屬性特征的詳細(xì)描述,具有一定的分類特征屬性,但由于其篇幅比較長,特征屬性偏少,使得整體噪聲比較多,因此,本文將POI名稱作為其主題分類的重要研究對象。

      從詞性的角度來看,POI標(biāo)注的中文名稱一般是以專有名詞的形式出現(xiàn),主要以地名、地址、事物名稱、機(jī)構(gòu)組織名稱等形式表現(xiàn),往往是特指或泛指某一事物的專用名稱。然而專有名詞是一個數(shù)量巨大、成分復(fù)雜、層出不窮的開放集,絕大多數(shù)無法收入普通的語文詞典。因此,這就使得POI名稱的識別和分類具有很大的難度。

      目前,英文POI分類方法比較成熟,而中文POI標(biāo)注信息的分類還處于研究性階段。相比英文名稱,POI中文名稱的分類難點(diǎn)主要在于:①中文POI名稱是個開放的類,數(shù)量巨大,且具有不穩(wěn)定性,經(jīng)常會出現(xiàn)很多新的名稱或簡稱等;②名稱中的具有復(fù)雜的嵌套關(guān)系,對其識別和分析造成一定的困難;③中文文本中沒有空格等標(biāo)注性詞,使得對于未登錄詞的分詞目前還沒有一種成熟的方法。

      現(xiàn)階段,對于中文POI名稱分類的方法還比較少,主要集中對POI名稱的匹配和機(jī)構(gòu)名的識別等方面,劉曉娟提出一種基于Lucene的中文POI名稱的切分與匹配方法,能夠根據(jù)POI的切分單元的角色不同而模糊匹配[1]。張小衡通過分析中文機(jī)構(gòu)名稱的結(jié)構(gòu)而實(shí)現(xiàn)對中文機(jī)構(gòu)名稱的自動識別[2]。李軍針對中文機(jī)構(gòu)名中的未登錄詞,提出一種基于模板匹配的中文機(jī)構(gòu)名稱識別方法[3]。俞鴻魁則提出一種基于角色標(biāo)注的中文機(jī)構(gòu)名稱識別方法[4]。對于中文POI分類一般只是將中文文本分類技術(shù)引用到對POI名稱分類中,主要通過對名稱的特征關(guān)鍵詞進(jìn)行提取,并構(gòu)建SVM特征向量,然后通過特征向量的相似度計(jì)算來進(jìn)行分類。這種方法主要存在以下兩個不足:①沒有考慮名稱短語與長篇文本信息的區(qū)別,并沒有專門針對名稱短語的結(jié)構(gòu)進(jìn)行分類算法的設(shè)計(jì);②只是簡單地通過關(guān)鍵詞進(jìn)行劃分,沒有從語義的層次上對POI名稱進(jìn)行理解和分類。對于中文地名地址研究已經(jīng)比較成熟,而對于事物名或機(jī)構(gòu)名的研究還處于探索階段。

      本文根據(jù)中文POI名稱結(jié)構(gòu)特征,通過對POI名稱的切分和不同角色的標(biāo)注,并利用中文文本處理、語義相似度計(jì)算等方法,提出一種基于角色標(biāo)注的中文名稱語義分類方法,提高POI分類效率和精度。

      二、POI名稱短語的結(jié)構(gòu)分析

      從語言學(xué)的角度來看,POI名稱主要是各種地名、機(jī)構(gòu)名等實(shí)體名稱,是具有許多特性的專有名詞,其構(gòu)成有一定的規(guī)律可循。通常來說,在不考慮簡稱的情況下,POI名稱是一種偏正復(fù)合式名詞短語。形式上,中文POI名稱的構(gòu)造是[修飾詞+]+[中心詞],其中修飾詞可以是復(fù)合型詞語,并且可以出現(xiàn)多個,中心詞則一般為名詞性的名稱特征詞。換句話說,POI名稱是由一個或多個修飾詞加上表示實(shí)體或機(jī)構(gòu)等稱呼的中心名詞所組成的。POI名稱短語從宏觀上來看,屬于一種偏正式復(fù)合名詞,從其內(nèi)部結(jié)構(gòu)上來看,又屬于一類特別的偏正式名詞短語。

      在POI名稱中,最常出現(xiàn),同時也是最難識別和分析的屬于中文機(jī)構(gòu)名稱短語,目前對于中文機(jī)構(gòu)名的組織規(guī)定分析已經(jīng)有一些成果。一般都認(rèn)為,中文機(jī)構(gòu)名稱的組織規(guī)律大體上是:[地名]+[前綴修飾成分]+[數(shù)詞]+[經(jīng)營內(nèi)容說明]+[專名]+[中心詞]。其中修飾語中的[地名]、[前綴修飾成分]、[數(shù)詞]、[專名]等專用名稱至少出現(xiàn)一個,其余的可以按需增加。例如:“北京聯(lián)想計(jì)算機(jī)集團(tuán)公司”、“中國第一汽車制造廠”、“上海人民廣播電臺”、“北京信息工程學(xué)院”、“江蘇有色金屬合金制造廠”等。并且對于離中心詞越近的修飾語,其語義上關(guān)系就與整個名稱短語的關(guān)系性越大,這也正符合中文短語中的多項(xiàng)式定心短語的基本格式和要求,即含兩個或兩個以上定語的短語,其前面修飾語的格式主要可以分為迭加式、頓加式和列加式三種,其定語之間遵行越是反映事物固定的內(nèi)在本質(zhì)的定語離中心詞越近的基本語序規(guī)則。

      三、基于角色標(biāo)注的POI名稱語義分類方法

      本文提出的基于角色標(biāo)注的POI名稱語義分類的主要步驟為(如圖1):首先利用文中分詞引擎,對POI名稱短語進(jìn)行分詞處理,將其分為不可再分的詞語粒度單元;然后根據(jù)各個分詞單元的詞性特征,對其進(jìn)行角色標(biāo)注,確定其在整個名稱短語中的地位;再根據(jù)角色標(biāo)注確定名稱短語中的中心詞,并利用基于中心詞的剪枝算法,去除不具有實(shí)際意義的詞語標(biāo)注;最后根據(jù)賦權(quán)重的語義相似度算法,設(shè)置修飾特征詞與中心詞的語義權(quán)重,計(jì)算POI名稱與分類體系中各個類別的相似度,實(shí)現(xiàn)POI名稱的自動分類。

      圖1 POI名稱自動分類

      1.POI名稱的角色標(biāo)注

      根據(jù)POI名稱結(jié)構(gòu)的分析,能夠發(fā)現(xiàn)POI名稱中的各種詞處于不同的位置,而使得其在POI名稱中扮演的角色也不同,在名稱分類中的作用也不相同。因此,本文首先根據(jù)POI名稱中各種詞的不同詞性進(jìn)行角色標(biāo)注。

      在角色標(biāo)注時,本文主要通過對POI名稱中的詞性進(jìn)行標(biāo)注。其方法主要是根據(jù)帶詞性的分詞詞典進(jìn)行對中文POI名稱短語的分詞和詞性標(biāo)引,而對于具有多種詞性的詞語的詞性選擇時,可以利用隱馬科夫(HMM)模型方式進(jìn)行詞性組合的選擇和確定。其具體方法如下:對于一個給定的中文POI名稱短語W=w1w2w3…wm,首先通過帶有詞性標(biāo)注的分詞詞典對詞串W進(jìn)行相應(yīng)的角色標(biāo)注,記錄為T1=t11t12t13…t1m、T2=t21t22t23…t2m,…、Tn=tn1tn2tn3…tnm。然后根據(jù)計(jì)算T1,T2,…,Tn中哪種組合出現(xiàn)的概率最大,即求使得P(T|W)概率最大的那個角色標(biāo)注串Ti

      根據(jù)貝葉斯公式,有P(T|W)=P(T)P(W|T)/P(W)。

      上述問題可以利用HMM模型進(jìn)行求解,將POI名稱短語wi作為觀察值,角色標(biāo)注系列ti作為狀態(tài)值,則W為觀察序列,T為狀態(tài)序列。從而對角色標(biāo)注序列T的求解就迎刃而解。從而實(shí)現(xiàn)中文POI名稱的角色標(biāo)注,如圖2所示。

      圖2 POI名稱角色標(biāo)注

      2.基于中心詞的裁剪方法

      通過對POI名稱短語的角色標(biāo)注,使得POI名稱中各詞的詞性都具有標(biāo)注信息,說明其在名稱短語中的不同作用。從POI名稱結(jié)構(gòu)中,可以發(fā)現(xiàn)作為偏正式的名詞短語,其中心詞往往為名稱的后部,為了簡單和方便,本文選取POI名稱角色標(biāo)注中最后一個名詞作為其中心詞。例如:“華夏集團(tuán)有限公司”其中心詞為“公司”,“雷達(dá)表專賣商店”中心詞為“商店”。然后根據(jù)POI名稱短語中其余部分的不同角色標(biāo)注,進(jìn)行枝葉裁剪。

      根據(jù)POI名稱中各構(gòu)成詞的作用分析發(fā)現(xiàn),其名稱結(jié)構(gòu)中的詞可以大致分為地名、專名、業(yè)務(wù)名、修飾詞、門類詞、數(shù)字和通用名,其中的地名、修飾詞、門類詞和數(shù)字對于POI名稱分類的作用不大,專名、業(yè)務(wù)名和通用名等相關(guān)名詞就可以對POI名稱進(jìn)行分類。例如:“北京教育局”作為POI標(biāo)注名稱,其中北京作為地名來修飾教育局的,而對于整個名稱短語的分類并沒有影響。同時又存在一些修飾詞并不是直接修飾中心詞,而是修飾中心詞的限定詞,這類詞對于POI名稱分類也沒有實(shí)際意義,如“上海大學(xué)嘉定校區(qū)”,上海是修飾大學(xué)的,而嘉定則是修飾校區(qū)的,這兩個地名名稱都不影響標(biāo)注的分類,只有大學(xué)作為修飾校區(qū)的一個前綴修飾名詞,用來說明該校區(qū)是指大學(xué)的校區(qū),對分類是有一定的影響。

      因此,本文采用以中心詞為基礎(chǔ)的枝葉裁剪方法,通過選定POI名詞短語中的中心名詞,然后根據(jù)中心詞前面和后面不同位置進(jìn)行不同方式的裁剪,其具體裁剪方法為:

      1)對于位于中心詞后面的部分,這部分內(nèi)容主要以一些方位詞出現(xiàn),可以是對POI名稱位置的說明,這類方位詞對于POI名稱的分類沒有任何作用,如“北京大學(xué)東邊”中“東邊”是個方位詞,其裁剪方法是直接去除。

      2)對于位于中心詞前面的部分,這部分內(nèi)容可以是多重復(fù)合型名詞定語,其中有些特征性名詞、專用名詞及表示作用的通用名詞都對POI名稱分類有很多作用,而對于非名詞性詞語、地名、人名、數(shù)字等對于POI名稱分類作用不大,因此,該部分的裁剪方法主要是對于非名詞性標(biāo)注的詞和地名性的名詞可以直接去除,對于其他名詞可以根據(jù)其內(nèi)部語義關(guān)系進(jìn)行選擇性去除。

      例如:北京海關(guān)駐順義區(qū)辦事處南面,通過上述裁剪方法如圖3所示,將中心詞“辦事處”后面部分去掉,并將前面部分的地名性名詞和動詞去掉,最后剩下“海關(guān)/nd辦事處/nc”。

      圖3 基于中心詞的裁剪算法

      3.POI語義分類方法

      通過對POI角色標(biāo)注,根據(jù)POI名稱中不同角色的劃分進(jìn)行語義相似度分類計(jì)算,其主要方法為:為中心詞賦上比較高的權(quán)重,然后根據(jù)離中心詞距離的遠(yuǎn)近分配不同的權(quán)值逐一對不同角色標(biāo)注信息進(jìn)行賦值,再通過計(jì)算每個名詞角色之間的語義相似度,來實(shí)現(xiàn)整個POI名稱短語的相似度的計(jì)算,最后通過相似度的選擇實(shí)現(xiàn)POI的自動語義分類。

      POI名稱自動分類算法如下

      式中,PC(n)表示名稱為n的POI屬于分類C的概率;P(wcenter)表示POI名稱中中心詞屬于C的概率;PC(wi)表示第i個修飾詞屬于C的概率;λ、ai為[0,1]之間的參數(shù),并且∑(λ,a1,…,ai)=1。

      對于POI中每個詞語之間屬于某一分類的概率則直接通過其與分類詞語的語義相似度進(jìn)行衡量。一般而言,兩個詞的語義距離是一個位于[0,∞)之間的實(shí)數(shù)。兩個互不相關(guān)的詞語之間的距離為+∞,兩個相同詞語或同義詞語之間的距離為0。詞語之間的語義相似度則跟其距離具有密切的關(guān)系。即:兩個詞語的距離越大,其相似度就越低;相反,兩個詞語的距離越小,其相似度就越大。二者之間可以建立一種簡單的映射關(guān)系。這種映射關(guān)系需要滿足以下幾個條件:

      1)兩個詞語距離為0時,其相似度為1;

      2)兩個詞語距離為+∞時,其相似度為0;

      3)兩個詞語的相似性與它們之間距離成反比。

      然而詞語的語義相似度,也并不是僅僅與其距離相關(guān),還應(yīng)該考慮其他一些相關(guān)因素,例如:詞語所處語義樹中的深度、區(qū)域密度等因素,因?yàn)槿绻硟蓚€詞語處于構(gòu)建的語義樹的頂層,就算其距離很小,但是由于其節(jié)點(diǎn)之間分類跨度很大,其相似性相對就很小,而當(dāng)某兩個詞語處于語義樹的底層,此時分類類型比較精細(xì),使得其詞語距離相同的情況下,相似性相對比較大。

      因此,本文采用的詞語W1與W2相似度計(jì)算算法為

      式中,sim(w1,w2)為兩個詞語之間的相似度;α是用于控制詞語深度影響的可調(diào)節(jié)參數(shù);dw1、dw2表示W(wǎng)1與W2的各自的語義距離;h(w1,w2)為詞語W1與W2共同最小父類的深度值;dis(w1,w2)為W1與W2之間的詞語距離。

      四、試驗(yàn)與分析

      為了對本文的POI名稱分類方法進(jìn)行驗(yàn)證,主要建立的分類包括軍事、公共設(shè)施、組織機(jī)構(gòu)等在內(nèi)的15個一級類,33個二級分類以及72個三級分類,然后通過計(jì)算POI名稱與各類之間的相似度進(jìn)行自動分類。例如:以POI名稱為“老式軍事雷達(dá)”的POI分類為例,其分類結(jié)果如圖4所示。

      圖4 試驗(yàn)分類結(jié)果

      為了進(jìn)行大量 POI名稱分類的測試,選取meet99網(wǎng)站的1萬條POI記錄進(jìn)行測試,通過對這1萬條POI名稱的自動分類,能夠找到軍事類的167條,其中遺漏POI數(shù)量為12條,錯誤歸類的數(shù)量26條,說明了本文POI名稱自動分類的準(zhǔn)確度為84.4%,召回率為92.1%,如表1 所示。

      表1 試驗(yàn)結(jié)果分析表

      從上述的分類結(jié)果可以發(fā)現(xiàn),本文的中文POI名稱分類方法能夠在分類準(zhǔn)確率和召回率上有所提升,尤其是在召回率上面比較高,其原因可能主要分為以下幾點(diǎn):①一條POI根據(jù)其名稱可能被分到多個類別中,也可能不能歸類到任何類別,這就需要通過分類中相似度的閾值進(jìn)行設(shè)置,在試驗(yàn)中,設(shè)置的相似度閾值為0.3,能夠在確保一定分類準(zhǔn)確率的基礎(chǔ)上,提高分類的召回率;②從語義的層次上進(jìn)行深入挖掘POI名稱中的語義信息,使得其歸類的數(shù)量就相對多了些,相應(yīng)地提高了分類算法中的召回率。

      五、結(jié)束語

      本文介紹了一種基于角色標(biāo)注的中文POI名稱分類方法,首先對中文POI的組成結(jié)構(gòu)進(jìn)行了相關(guān)分析,然后針對其結(jié)構(gòu)特征進(jìn)行中文分詞和角色標(biāo)注,然后通過以中心詞為依據(jù)進(jìn)行名稱中各種詞性角色的裁剪,再通過對中心詞和前置修飾名詞的語義相似度計(jì)算,來實(shí)現(xiàn)POI名稱的分類,最后通過試驗(yàn)進(jìn)行驗(yàn)證和結(jié)果的分析。

      從試驗(yàn)的結(jié)果來看,本文的分類方法具有一定的效率,但由于中文POI短語角色標(biāo)注的不成熟及語義詞典構(gòu)建不完整等問題,使得POI自動分類還需要進(jìn)一步的研究,這將是今后POI分類研究中需要重點(diǎn)解決的問題。

      [1]劉曉娟.基于Lucene的中文興趣點(diǎn)名稱的切分與匹配研究[J].電腦知識與技術(shù),2011,21(7):1009-3044.

      [2]張小衡,王玲玲.中文機(jī)構(gòu)名稱的識別與分析[J].中文信息學(xué)報,1997,4(11):21-32.

      [3]李軍,王丁,王鑫.基于模板匹配的中文機(jī)構(gòu)名識別[J].信息技術(shù),2008,6(25):97-99

      [4]俞鴻魁,張華平,劉群.基于角色標(biāo)注的中文機(jī)構(gòu)名識別[C]∥Proceedings of the 20th International Conference on Computer Processing of Oriental Languages.Shenyang:[s.n.],2003.

      [5]萬菁,姬東鴻,任函,等.漢語復(fù)合名詞短語特征結(jié)構(gòu)的標(biāo)注研究[M]∥中國計(jì)算語言學(xué)研究前沿進(jìn)展.北京:清華大學(xué)出版社,2011:94-99.

      [6]朱嫣嵐,閔錦,周雅倩,等.基于HowNet的詞匯語義傾向計(jì)算[J].中文信息學(xué)報,2006,1(20):14-20.

      [7]張雪英,朱少楠,張春菊.中文文本的地理命名實(shí)體標(biāo)注[J].測繪學(xué)報,2012,41(1):115-120.

      [8]張華平,劉群.基于角色標(biāo)注的中國人名自動識別研究[J].計(jì)算機(jī)學(xué)報,2004,27(1):85-91.

      [9]楊德來.SVM和最大熵相結(jié)合的中文機(jī)構(gòu)名自動識別[D].大連:大連理工大學(xué),2006.

      [10]王紅玲.基于特征向量的中英文語義角色標(biāo)注研究[D].蘇州:蘇州大學(xué),2009.

      猜你喜歡
      中心詞名稱短語
      Why I ride
      滬港通一周成交概況
      滬港通一周成交概況
      滬港通一周成交概況
      滬港通一周成交概況
      同位語從句與中心詞的句法關(guān)系
      準(zhǔn)確把握“中心詞”輕松突破高考英語閱讀理解題
      考試周刊(2013年89期)2013-04-29 00:44:03
      “中心詞+外化親屬稱謂語”的多維分析
      东海县| 曲水县| 承德市| 灌云县| 四子王旗| 龙口市| 广水市| 黔西县| 子洲县| 个旧市| 佛冈县| 抚顺县| 社旗县| 佛冈县| 齐齐哈尔市| 合川市| 柳州市| 德钦县| 临朐县| 江门市| 武宁县| 冀州市| 东宁县| 阳江市| 河曲县| 蕉岭县| 美姑县| 永安市| 陕西省| 晋宁县| 萨嘎县| 兴隆县| 安乡县| 漾濞| 麻江县| 股票| 潞城市| 金山区| 石首市| 东兰县| 古丈县|