• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      一種迭代式的概念屬性名稱自動(dòng)獲取方法

      2014-02-28 05:12:46汪平仄曹存根
      中文信息學(xué)報(bào) 2014年4期
      關(guān)鍵詞:后綴置信度名稱

      汪平仄,曹存根,王 石

      (1. 中國(guó)科學(xué)院 計(jì)算技術(shù)研究所,北京 100190)(2. 中國(guó)科學(xué)院大學(xué),北京 100049)

      1 引言

      任何概念詞都有一定的語(yǔ)義,其直接表達(dá)語(yǔ)義的能力非常弱,因此我們必須借助其他類型的知識(shí)來(lái)進(jìn)一步表達(dá)或者刻畫(huà)它所蘊(yùn)涵的語(yǔ)義。概念的屬性就是一種此類的知識(shí)。

      一般認(rèn)為,屬性是一種概念內(nèi)涵的載體。一個(gè)屬性描述了概念的一個(gè)特征或性質(zhì)。屬性具備描述概念和鑒別概念的功能,通過(guò)屬性,我們可以區(qū)分不同的概念,發(fā)現(xiàn)它們之間的差異。屬性在文本中表現(xiàn)為不同的屬性名稱。屬性名稱是表示屬性的專有名詞,大多數(shù)屬性名稱都能起到見(jiàn)名知義的作用。

      在本文中,屬性名稱也稱屬性詞;在不致混淆的情況下,我們可能會(huì)直接使用屬性或?qū)傩栽~來(lái)簡(jiǎn)稱屬性名稱。

      中文屬性名稱主要包括數(shù)量型、定性型、角色型三種類型[1]。目前的屬性名稱獲取依據(jù)語(yǔ)料數(shù)據(jù)的來(lái)源,主要包括基于結(jié)構(gòu)化數(shù)據(jù)源的提取,如Web查詢?nèi)罩綶2];基于半結(jié)構(gòu)化的Web網(wǎng)頁(yè)的提取,如從網(wǎng)頁(yè)表格或表單中提取[3],從Wikipedia Articles中提取[4];以及基于多數(shù)據(jù)源的提取[5-6]。基于結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)源的方法因其語(yǔ)料結(jié)構(gòu)規(guī)整簡(jiǎn)短,具有一定的規(guī)律性,針對(duì)性強(qiáng),主要采用弱文法和統(tǒng)計(jì)的方式進(jìn)行提取,具有較高的準(zhǔn)確率,但由于數(shù)據(jù)源的規(guī)模有限,因此召回率普遍不高?;诙鄶?shù)據(jù)源的方法主要是將結(jié)構(gòu)化與非結(jié)構(gòu)數(shù)據(jù)交叉迭代起來(lái)獲取,首先從結(jié)構(gòu)化數(shù)據(jù)中獲取準(zhǔn)確率較高的結(jié)果作為種子屬性,然后使用種子屬性從非結(jié)構(gòu)化文本中迭代獲取更多的屬性。這種方法相比單一語(yǔ)料來(lái)源,綜合考慮了準(zhǔn)確率和召回率,但獲取方法相對(duì)更加復(fù)雜,且結(jié)果屬性的好壞和屬性類型過(guò)多依賴于種子。

      我們提出了一種基于前后綴迭代的屬性名稱獲取方法,語(yǔ)料來(lái)源于非結(jié)構(gòu)化數(shù)據(jù)源。本方法的每一步迭代分為兩個(gè)步驟。

      第一個(gè)步驟是: 從現(xiàn)有屬性集合中選擇合適的前后綴,構(gòu)造詞匯—句法模式,從Web網(wǎng)頁(yè)中提取候選屬性;

      第二個(gè)步驟是: 采用基于相似性的驗(yàn)證模型對(duì)候選屬性進(jìn)行驗(yàn)證以擴(kuò)充現(xiàn)有屬性集合。

      與現(xiàn)有的屬性名稱獲取方法相比,本方法的特點(diǎn)在于:

      (1) 基于非結(jié)構(gòu)化的數(shù)據(jù)源,但引入了種子屬性,兼顧了準(zhǔn)確率和召回率,具有多數(shù)據(jù)源的優(yōu)點(diǎn),但獲取方法更簡(jiǎn)單;

      (2) 強(qiáng)化了結(jié)果的驗(yàn)證,提出了一組基于相似性的屬性驗(yàn)證模型,提高了候選結(jié)果的準(zhǔn)確率;

      (3) 提出了一種滾雪球似的屬性迭代獲取方法,極大地提高了召回率、準(zhǔn)確率和屬性類型覆蓋率。

      本文的組織如下: 第2節(jié)介紹候選屬性名稱的獲取方法;第3節(jié)介紹候選屬性名稱的驗(yàn)證方法;第4節(jié)給出實(shí)驗(yàn)結(jié)果與實(shí)驗(yàn)分析;第5節(jié)給出與相關(guān)工作的比較;第6節(jié)總結(jié)全文,并且討論進(jìn)一步的工作。

      2 概念候選屬性名稱的獲取方法

      為了方便陳述,我們先引入一些概念,并通過(guò)例子加以解釋。

      在一個(gè)屬性詞中,我們稱其中具有語(yǔ)義的最小單元為屬性元(attribute element)。例如,在屬性“IT產(chǎn)業(yè)增速”中,“IT”、“產(chǎn)業(yè)”、“增速”均為屬性元。

      屬性詞中的各屬性元的地位并不是平等的,有一個(gè)是處于核心地位的,也有依存在其他屬性元上以修飾它們的[7-9]。 有一類屬性元,它們經(jīng)常出現(xiàn)在屬性詞的結(jié)尾而被其他屬性元所修飾,我們稱它為屬性后綴(簡(jiǎn)稱后綴)。表1中給出了一些常見(jiàn)的屬性后綴。

      表1 一些常見(jiàn)的屬性后綴

      出現(xiàn)在屬性開(kāi)頭的屬性元稱為屬性前綴(簡(jiǎn)稱前綴),它們充當(dāng)屬性的修飾性成分。表2中給出了一些常見(jiàn)的屬性前綴。

      表2 一些常見(jiàn)的屬性前綴

      前綴和后綴是屬性名稱中重要的元素。我們對(duì)手工獲取的屬性名稱進(jìn)行統(tǒng)計(jì),結(jié)果表明約53%的屬性包含前綴,97%的屬性包含后綴。因此,基于這種觀察,我們提出了一種基于前后綴的屬性名稱獲取方法。

      概念C和其屬性A的搭配常常滿足一定的句法結(jié)構(gòu),例如,A[的]C[是|為|包括],其中方括號(hào)[]中間的內(nèi)容表示可省。如對(duì)“中國(guó)”這一概念,我們常常會(huì)說(shuō): “中國(guó)的國(guó)土面積”、“中國(guó)總?cè)丝跀?shù)為”、“中國(guó)的GDP”,等等。

      我們把概念C的所有屬性名稱構(gòu)成的集合稱為C的屬性空間,記為RC。

      一般而言,給定屬性空間RC中常見(jiàn)的后綴集合SUF={SUF1…SUFi…SUFk},我們就可以構(gòu)造一批簡(jiǎn)單的查詢模式,從Web網(wǎng)頁(yè)中提取語(yǔ)料,如“C的**SUFi”和“C的*SUFi(是|為|包括)”。在Google支持的查詢模式中,一個(gè)通配符“*”匹配一個(gè)詞。得到語(yǔ)料后,可以將通配符匹配到的序列和SUFi一起提取出來(lái)作為候選屬性名稱。

      同樣,如果有一組前綴詞集合PRE={PRE1…PREi…PREk},也可以構(gòu)造類似的查詢模式,如“C的PREi**(是|為|包括)”。得到語(yǔ)料后,可以將PREi(包括PREi)以及通配符匹配到的序列提取出來(lái)作為候選屬性名稱。

      這種基于屬性前后綴的獲取方法提取簡(jiǎn)單,且結(jié)果具有一定的準(zhǔn)確率。但人工給定的前后綴詞典畢竟數(shù)量有限,而且對(duì)不同類型的概念,其前綴后綴的差異也較大。如果對(duì)每個(gè)概念,將前后綴詞典中所有的元素均嘗試一次,則不僅耗時(shí),還會(huì)得到許多錯(cuò)誤的結(jié)果,影響結(jié)果的準(zhǔn)確率。因此,我們對(duì)每類概念,給出一批人工驗(yàn)證過(guò)的正確屬性(這些屬性可能是手工整理的,也可能是自動(dòng)獲取后經(jīng)過(guò)人工校驗(yàn)的)作為種子集合Seeds,依據(jù)屬性前后綴詞典,從Seeds中提取前后綴,使用這些前后綴進(jìn)行獲取。同時(shí),為了打破前后綴詞典和Seeds的限制,我們提出了一種前后綴擴(kuò)充的迭代獲取方法。

      本方法的基本思路是: 首先從種子屬性中提取新的前后綴,然后使用新的前后綴從Web中獲取新的候選屬性,并驗(yàn)證得到正確屬性;然后從驗(yàn)證過(guò)的正確屬性中提取新的前后綴,并使用新的前后綴繼續(xù)從Web中獲取新的候選屬性,如此反復(fù)迭代。具體的算法見(jiàn)圖1。

      屬性迭代獲取算法(AIAAlgorithm)Step1:SUFnewproduceNewSuffix(Seeds);PREnewproduceNewPrefix(Seeds);Step2:While(SUFnew!=null||PREnew!=null){ As'getcandidateattributesbysuffix(SUFnew); AsvalidateAs'; putAsintoRC; putproduceNewPrefix(As)intoPREnew; As'getcandidateattributesbyprefix(PREnew); AsvalidateAs'; putAsintoRC; clearPREnew; SUFnewproduceNewSuffix(As);}圖1 屬性迭代獲取算法AIA

      在算法AIA中,

      (1) 算法在同一概念C的屬性空間RC中執(zhí)行;

      (2) SUFnew表示新產(chǎn)生的后綴詞,PREnew表示新產(chǎn)生的前綴詞;

      (3) 函數(shù)produceNewSuffix(Para)是從屬性集合Para中生成新的后綴詞;函數(shù)produceNewPrefix(Para)是從屬性集合Para中生成新的前綴詞。

      對(duì)于produceNewSuffix(Para),我們給出了一種比較簡(jiǎn)單的訓(xùn)練方式: 根據(jù)Suffixes Dictionary(屬性后綴詞典),從Para中得到未曾使用過(guò)的后綴詞,加入到返回結(jié)果中;同時(shí),對(duì)于Para中不出現(xiàn)在Suffixes Dictionary(屬性后綴詞典)中的結(jié)尾詞,如果其在Para中的頻率大于等于頻繁閾值s,也將它們作為潛力后綴詞加入到返回結(jié)果中。produceNewPrefix (Para)的訓(xùn)練方式類似,只不過(guò)是依據(jù)Prefixes Dictionary(前綴詞典),從Para中屬性的開(kāi)頭詞中提取。

      3 候選屬性名稱的驗(yàn)證方法

      3.1 候選屬性名稱的預(yù)處理

      每一次對(duì)概念C的屬性空間RC擴(kuò)充時(shí),需要對(duì)新的候選屬性集合As′進(jìn)行驗(yàn)證。As′中有幾種常見(jiàn)的錯(cuò)誤,以下列出3個(gè)主要錯(cuò)誤,并分析產(chǎn)生錯(cuò)誤的原因,同時(shí)給出預(yù)處理策略。

      1. 需要?jiǎng)冸x。例如,從源句子“中國(guó)的很多工業(yè)產(chǎn)品產(chǎn)量已經(jīng)躍居在世界的第一位”,我們獲得了候選屬性為“很多工業(yè)產(chǎn)品產(chǎn)量”。為消除此類錯(cuò)誤,我們將候選屬性開(kāi)頭的程度副詞“很多”剝離掉。

      2. 是句子片段。例如,從源句子“根源是中國(guó)的傳統(tǒng)文化輕視技術(shù)”,我們獲得了候選屬性“傳統(tǒng)文化輕視技術(shù)”。由于屬性名稱均是名詞短語(yǔ),因此對(duì)每個(gè)候選屬性,我們采用基于句法模式的概念識(shí)別方法[10-11],如果該候選屬性無(wú)法通過(guò)名詞短語(yǔ)識(shí)別,則直接丟棄。

      3. 不完整。例如,從源句子“中國(guó)的進(jìn)口價(jià)格指數(shù)出現(xiàn)了比較大的上升”,我們獲得了候選屬性“進(jìn)口價(jià)格”。通過(guò)觀察源句子,知道正確的屬性應(yīng)該是“進(jìn)口價(jià)格指數(shù)”。作為預(yù)處理,如果發(fā)現(xiàn)“價(jià)格”后面還有新的后綴詞“指數(shù)”,則將“進(jìn)口價(jià)格”和“進(jìn)口價(jià)格指數(shù)”一起作為候選屬性進(jìn)行驗(yàn)證。

      經(jīng)過(guò)以上的預(yù)處理,我們由As′得到候選屬性集As″。下一步將對(duì)As″進(jìn)行驗(yàn)證。

      在驗(yàn)證中,本文引入了以下兩條啟發(fā)式規(guī)則,并通過(guò)例子來(lái)說(shuō)明。

      啟發(fā)式規(guī)則1(示例):

      已知“自行車保有量”是“中國(guó)”的屬性,那么“機(jī)動(dòng)車保有量”也可能是“中國(guó)”的屬性。

      其理由是“自行車”和“機(jī)動(dòng)車”有某種程度的相似性。

      啟發(fā)式規(guī)則2(示例):

      已知兩個(gè)屬性“IT產(chǎn)業(yè)增速”、“GDP年均增速”是“中國(guó)”的屬性,那么“信息產(chǎn)業(yè)年均增速”也可能是“中國(guó)”的屬性。

      其理由是“IT”和“信息”有某種程度的相似性;而通過(guò)“GDP年均增速”可以認(rèn)為在“中國(guó)”的屬性空間中“年均”可以搭配“增速”以修飾它。同樣如果已知“鋼鐵行業(yè)發(fā)展?fàn)顩r”,“經(jīng)濟(jì)發(fā)展前景”是“中國(guó)”的屬性,那么“鋼鐵行業(yè)發(fā)展前景”也可能是“中國(guó)”的屬性。

      基于以上的啟發(fā)式規(guī)則,我們提出了一種基于相似性的屬性驗(yàn)證模型。

      3.2 屬性元相似度

      在啟發(fā)式規(guī)則示例中,我們知道屬性元之間存在某些相似性。

      在漢語(yǔ)構(gòu)詞和構(gòu)字中,包含了豐富的語(yǔ)義信息。比如“自行車”、“機(jī)動(dòng)車”均以“車”結(jié)尾,預(yù)意著它們都是一種“車”。同樣,能確定上下位關(guān)系等受限語(yǔ)境的詞,借鑒文獻(xiàn)[12],我們也能定義它們之間的語(yǔ)義相似性。但是對(duì)于絕大多數(shù)屬性元,很難得到這樣的語(yǔ)義信息。所以,我們提出了一種更一般的屬性元相似度定義方式。

      前面的例子表明,我們更關(guān)心的是結(jié)構(gòu)相似,即屬性元依存關(guān)系之間的相似性。

      我們不易直接把握“需求量”和“總產(chǎn)值”之間的語(yǔ)義相似度,但是如果我們得到了以下候選屬性: “煤炭需求量”、“煤炭總產(chǎn)值”,“鋼鐵需求量”、“鋼鐵總產(chǎn)值”,我們會(huì)認(rèn)為“需求量”和“總產(chǎn)值”之間的相似度較高,因?yàn)樗鼈儽幌嗤膶傩栽揎?。?jù)此,我們得到以下假設(shè)。

      假設(shè)在一個(gè)概念的屬性空間中,如果兩個(gè)屬性元AE1和AE2頻繁被相同的屬性元修飾(即被相同的屬性元所依存),那么AE1,AE2之間的相似度較高;反之,則相似度越低。

      考慮到依存關(guān)系,我們定義函數(shù)D(x,用它來(lái)表示依存在x上的屬性元集合。例如,D(“需求量”)={“煤炭”,“鋼鐵”…}。

      基于這個(gè)假設(shè),借鑒文獻(xiàn)[13]的方法,我們提出一種建立在依存關(guān)系上的屬性元相似度,如式(1)所示。

      (1)

      其中,I(S=-∑f∈SlogP(f,

      P(f)為屬性元f在訓(xùn)練語(yǔ)料中的概率,-logP(f)表示f的信息量;

      與以上假設(shè)同理,如果兩個(gè)屬性元AE1和AE2頻繁修飾相同的屬性元(即依存在相同的屬性元上),那么AE1和AE2之間的相似度較高;反之越低。例如,我們有以下候選屬性: “煤炭消費(fèi)量”、“煤炭需求量”、“煤炭進(jìn)口量”、“石油消費(fèi)量”、“石油需求量”、“石油進(jìn)口量”,我們會(huì)認(rèn)為“煤炭”和“石油”之間的相似度較高,因?yàn)樗鼈冃揎椫嗤膶傩栽?“消費(fèi)量”、“需求量”等。我們定義函數(shù)BD(x,用它來(lái)表示x所依存的屬性元集合。例如,BD(“石油”={“需求量”,“進(jìn)口量”,“消費(fèi)量”…}。則: 概念C上兩個(gè)屬性元在被依存關(guān)系上的相似度定義為式(2)。

      (2)

      綜合以上考慮,我們定義概念C上AE1和AE2的相似度如式(3)所示。

      Sim(AE1,AE2|C
      =λ·SimD(AE1,AE2|C+
      (1-λ·SimBD(AE1,AE2|C

      (3)

      其中,λ[0,1]為加權(quán)系數(shù),根據(jù)具體應(yīng)用或試驗(yàn)確定。

      為了簡(jiǎn)化陳述,下文定義的所有公式均是指在概念C上的。

      3.3 屬性元依存對(duì)相似度

      在屬性元相似度基礎(chǔ)上,我們引入依存對(duì)(P,P′的相似度如式(4)所示。

      (4)

      例如, 對(duì)依存對(duì)“(IT,產(chǎn)業(yè))”和“(信息,產(chǎn)業(yè))”之間的相似度,表示為Sim(IT,信息)×Sim(產(chǎn)業(yè),產(chǎn)業(yè))

      對(duì)有相似關(guān)系的屬性名稱A和A′,若A中的依存對(duì)P能在A′中找到相似的依存對(duì)P′,則構(gòu)造從P到P′的映射,稱這個(gè)過(guò)程為對(duì)齊。

      在屬性名稱對(duì)齊時(shí),需要依存對(duì)的兩個(gè)屬性元都相似才能將其對(duì)齊。

      設(shè)A1=“IT產(chǎn)業(yè)增速”,依存結(jié)構(gòu)見(jiàn)圖2;A2=“GDP年均增速”,依存結(jié)構(gòu)見(jiàn)圖3;A3=“信息產(chǎn)業(yè)年均增速”,依存結(jié)構(gòu)見(jiàn)圖4。圖5中給出了A1和A3對(duì)齊后的結(jié)構(gòu)圖。

      圖2 A1的依存結(jié)構(gòu)圖3 A2的依存結(jié)構(gòu)

      圖4 A3的依存結(jié)構(gòu)

      圖5 A1和A3對(duì)齊后的結(jié)構(gòu)

      3.4 屬性相似度

      在依存對(duì)相似度的基礎(chǔ)上,我們引入馬爾科夫假設(shè),認(rèn)為屬性的各個(gè)依存對(duì)之間彼此獨(dú)立,于是我們定義屬性A和A′之間的相似度如式(5)所示。

      (5)

      其中,

      (1) Pi(A),Pi(A′)表示為A和A′的第i個(gè)對(duì)齊的依存對(duì);

      (2) Max_Pair(A,A′為A,A′依存對(duì)數(shù)量的較大值。

      根據(jù)圖5中A1和A3的對(duì)齊結(jié)果,計(jì)算A1和A3之間的相似度,如果“IT”與“信息”的相似度為0.8,則如式(6)所示。

      Sim(A1,A3)=(0.8×1+1×1)/3=0.6(6)

      3.5 屬性置信度

      引入定量指標(biāo)屬性置信度D (D∈[0,1]) 來(lái)描述屬性的正確性。

      如果已知候選屬性A′的置信度D(A′;A和A′的相似度為Sim(A,A′);A的置信度未知,我們定義:

      定義1由A′推導(dǎo)出A的屬性置信度如式(7)所示。

      真實(shí)的屬性空間中,和A相似的屬性數(shù)量常常會(huì)大于1,令其相似屬性集合Sim(A)={A1,A2,…An}。我們可以在Sim(A)上定義A的置信度。如,我們可以在Sim(A)中,找到一個(gè)與它最相似的屬性Ai,用D(Ai→A)作為A的置信度,如式(8)所示。

      屬性置信度1

      其中i=argmaxiSim(Ai,A)

      同樣,也可以在Sim(A)中,將得到的推導(dǎo)置信度的最大值作為其置信度,如式(9)所示。

      屬性置信度2

      類似于屬性置信度,我們也可以得到依存對(duì)P的兩種置信度定義方式,用來(lái)描述依存關(guān)系的穩(wěn)定程度,分別為式(10)、式(11)所示。

      依存對(duì)置信度1

      其中i=argmaxiSim(P(Ai),P)

      依存對(duì)置信度2

      定義依存對(duì)置信度的意義將在3.7節(jié)中說(shuō)明。

      在上述例子的A1,A2,A3中,只有當(dāng)A1和A2都為正確屬性時(shí),即關(guān)系(IT,產(chǎn)業(yè))、(產(chǎn)業(yè),增速)、(年均,增速)都合理時(shí),才有可能認(rèn)為A3也是正確屬性。盡管A1和A3可能最相似,但A3的真實(shí)置信度和A1,A2都相關(guān),而不僅僅取決于其中的某一個(gè)。因此,如果對(duì)A3中的依存關(guān)系做劃分。(信息,產(chǎn)業(yè))、(產(chǎn)業(yè),增速)由A1決定,而(年均,增速)由A2決定,則可以由A1,A2得到的A3的置信度。于是,我們得到式(12)。

      屬性置信度3

      其中

      (1) t為劃分個(gè)數(shù);

      (3) 選擇t最小化原則進(jìn)行劃分;若t最小時(shí)存在多個(gè)劃分,選擇D3(A)最大化進(jìn)行劃分。

      3.6 屬性驗(yàn)證算法

      在屬性置信度的基礎(chǔ)上,我們提出了一個(gè)屬性驗(yàn)證算法。算法的基本思想是: 對(duì)種子屬性和待驗(yàn)證的候選屬性做屬性元分解和依存關(guān)系解析,然后根據(jù)屬性元之間的相似關(guān)系,構(gòu)建屬性空間圖,圖中的節(jié)點(diǎn)為屬性,邊表示相似關(guān)系。然后從種子屬性開(kāi)始,采用廣度優(yōu)先搜索計(jì)算相鄰節(jié)點(diǎn)的置信度。詳細(xì)的驗(yàn)證算法(AV Algorithm)如圖6所示。

      屬性驗(yàn)證算法(AVAlgorithm)Step1:marktheDsofallSeedsas1;Step2:puttheSeedsandCandidateattributesintoA;Step3:generateattributesspaceGraphasG:for(i=0;i

      在算法AV中,analyze(Ai)表示對(duì)Ai做屬性元分解和依存關(guān)系解析。

      3.7 基于屬性元序列的驗(yàn)證

      前面定義的屬性置信度以依存對(duì)為基礎(chǔ),它認(rèn)為屬性的構(gòu)成滿足二元的依存關(guān)系,即依存對(duì)之間彼此獨(dú)立。而實(shí)際的屬性構(gòu)成經(jīng)常會(huì)是樹(shù)形方式(例子中的A2和A3),或是鏈?zhǔn)?例子中的A1)。因此,我們提出一種基于屬性元序列(attribute elements sequence,AES)的驗(yàn)證方法。

      我們可以給出了一個(gè)AES的遞歸定義,但是為了便于理解,這里僅給出AES的直觀感受: 如果把屬性依存樹(shù)看成是一個(gè)無(wú)向圖,則屬性元序列AES是這個(gè)圖的連通子圖(連通子圖中的任意兩個(gè)節(jié)點(diǎn)都必須是邊可達(dá)的)。

      在例子A3中: “信息產(chǎn)業(yè)”,“產(chǎn)業(yè)增速”,“年均增速”,“信息產(chǎn)業(yè)增速”,“產(chǎn)業(yè)年均增速”,“信息產(chǎn)業(yè)年均增速”均為屬性元序列。而: “產(chǎn)業(yè)年均”則不是屬性元序列。通過(guò)例子發(fā)現(xiàn),屬性元序列具有相對(duì)完整的語(yǔ)義。

      屬性元序列之間存在相似關(guān)系。對(duì)依存對(duì)相似度進(jìn)行擴(kuò)展,我們引入屬性元序列S和S′的相似度如式(13)所示。

      此公式要求計(jì)算相似度的兩個(gè)序列的長(zhǎng)度(屬性元個(gè)數(shù))相同;序列的相似度為對(duì)應(yīng)位置屬性元相似度的乘積。

      用屬性元序列置信度D來(lái)描述序列依存關(guān)系的穩(wěn)定程度。擴(kuò)展定義1,得到:

      定義2由S′推導(dǎo)出的屬性元序列S置信度,如式(14)所示。

      同理,若令S的相似屬性元序列空間Sim(S={S1,S2,…,Sn},我們擴(kuò)展依存對(duì)置信度1和2,也可以得到S的置信度計(jì)算公式如式(15)、式(16)所示。

      屬性元序列置信度1

      其中i=argmaxiSim(Si,S)。

      屬性元序列置信度2

      對(duì)于包含N個(gè)屬性元的序列S,我們提出了一種基于(分解→組合)的置信度計(jì)算方法,即將該屬性元序列分解為多個(gè)已經(jīng)計(jì)算過(guò)D值的子序列{subS1,subS2,…subSk},并以這些D值為基礎(chǔ),組合計(jì)算新的值作為S的D值。

      如果子序列是縱向關(guān)系,則認(rèn)為它們彼此相關(guān),將子序列的D值衰減求積。比如已知“鋼鐵行業(yè)發(fā)展”的D值為a,“發(fā)展前景”的D值為b,則“鋼鐵行業(yè)發(fā)展前景”的 D值為: λ×a×b;其中λ為衰減系數(shù)。

      采用前向序列分解的方法是優(yōu)先從序列S(屬性詞也是屬性元序列)的開(kāi)頭起,向后找最長(zhǎng)的子序列,使其置信度已經(jīng)計(jì)算過(guò)(或者其相似序列的置信度計(jì)算過(guò)),以此子序列作為分解點(diǎn)。

      比如對(duì)“鋼鐵行業(yè)發(fā)展前景”,如果其子序列subS1=“鋼鐵行業(yè)發(fā)展”,subS2=“發(fā)展前景”,subS3=“鋼鐵行業(yè)”,subS4=“行業(yè)發(fā)展前景”均已計(jì)算過(guò)D值,則前向的分解方式為subS1和subS2。

      在漢語(yǔ)中,重心往往靠右,我們?cè)谟?jì)算時(shí),也可以優(yōu)先去計(jì)算靠近后綴的那些序列。采用后向的分解方法與前向類似,只不過(guò)是優(yōu)先從序列的結(jié)尾開(kāi)始向前找。對(duì)“鋼鐵行業(yè)發(fā)展前景”,基于后向的分解方式為subS3和subS4。

      實(shí)驗(yàn)表明,若采用前向或后向的分解方式計(jì)算,去掉重復(fù)后,實(shí)際分解得到的子序列總數(shù)約為屬性空間中節(jié)點(diǎn)數(shù)的2倍。

      由于屬性詞本身也是屬性元序列,因此候選屬性的置信度可采用前向或是后向的分解方法來(lái)計(jì)算。在計(jì)算前,先對(duì)種子屬性做序列分解,并將得到的所有子序列置信度標(biāo)記為1.然后依據(jù)序列相似關(guān)系構(gòu)建屬性空間圖,并采用廣度優(yōu)先搜索依次計(jì)算候選屬性的置信度。

      4 實(shí)驗(yàn)和分析

      我們選擇地域類、商業(yè)主體類實(shí)體概念作為獲取對(duì)象。因?yàn)檫@兩大類相對(duì)具有較大的屬性空間,以及較好的前后綴傾向,便于發(fā)現(xiàn)我們方法的優(yōu)缺點(diǎn)。對(duì)地域類實(shí)體,我們選擇“中國(guó)”、“英國(guó)”、“朝鮮”、“北京”和“荊州”作為實(shí)驗(yàn)對(duì)象,它們代表了發(fā)展中國(guó)家、發(fā)達(dá)國(guó)家、社會(huì)主義國(guó)家、資本主義國(guó)家、大型現(xiàn)代化城市、普通中小型城市等,因此不僅具有代表性,也具有多樣性?;陬愃频目紤],我們?cè)谏虡I(yè)主體類中,選擇了“中石油”、“摩根大通”、“碧桂園”、“比亞迪”和“沃爾瑪”作為實(shí)驗(yàn)對(duì)象。

      在最近幾年的本體建設(shè)中,我們總結(jié)了8 470個(gè)概念,共計(jì)獲得了25 753個(gè)屬性;從這些屬性中,通過(guò)我們的算法,結(jié)合人工校對(duì),總共獲得了2 292個(gè)屬性后綴和1 377個(gè)屬性前綴,形成了本文實(shí)驗(yàn)的Suffixes Dictionary和Prefixes Dictionary。

      對(duì)每組概念,我們給定一批人工驗(yàn)證過(guò)的種子屬性。在這里,我們是對(duì)每組概念給定一批,而不是每個(gè)概念給定一批。因?yàn)橄嗤愋偷母拍睿瑫?huì)有很多共同的屬性前后綴[14]。例如,對(duì)概念“中國(guó)”和“北京”都具有“國(guó)內(nèi)生產(chǎn)總值”、“耕地面積”等相同或是相似的屬性名稱,同時(shí)也共享一批相同的前后綴,如“年均”、“一般”、“總量”、“面積”等。

      對(duì)每組概念,我們依據(jù)前后綴詞典,從種子屬性中提取一組前后綴詞以合成Google查詢模式。

      表3給出了2個(gè)基于后綴的獲取模式。

      表3 基于后綴的獲取模式

      表4給出了2個(gè)基于前綴的獲取模式。

      表4 基于前綴的獲取模式

      在實(shí)際的Google查詢模式中,我們會(huì)生成1至4個(gè)通配符*,以匹配1至4個(gè)詞。

      對(duì)每個(gè)查詢模式,我們提取Google反饋的前100項(xiàng)錨文本作為候選結(jié)果,經(jīng)過(guò)預(yù)處理后,采用前面定義的5種驗(yàn)證模型(即基于屬性置信度1、屬性置信度2、屬性置信度3、基于前向序列分解、基于后向序列分解)分別驗(yàn)證。

      在對(duì)正確屬性和候選屬性做屬性元分解時(shí),采用一般的分詞程序,分詞后得到詞,我們認(rèn)為它們?yōu)閷傩栽?。在依存關(guān)系解析時(shí),我們初始假設(shè)屬性元之間是線性依存關(guān)系,然后對(duì)包含強(qiáng)前綴(例如,“年均”、“平均”,“總”等)的屬性做依存關(guān)系調(diào)整(類似于上文給出的例子中的A2和A3)。這樣不僅具有較好的效果,而且具有較高的解析效率。

      在屬性元相似性訓(xùn)練時(shí),對(duì)加權(quán)系數(shù)λ,根據(jù)多次試驗(yàn),我們發(fā)現(xiàn)取經(jīng)驗(yàn)值λ=0.6時(shí)效果較好。直觀的解釋是: 在漢語(yǔ)中,重心常常靠右,因此搭配相同的更重要的詞,可能權(quán)重會(huì)略高些。

      在屬性詞對(duì)齊時(shí),我們?cè)O(shè)定屬性元相似度閾值。在實(shí)驗(yàn)中,根據(jù)經(jīng)驗(yàn)值,設(shè)定屬性元相似度大于0.1時(shí),才認(rèn)為它們之間有相似關(guān)系,則兩個(gè)依存對(duì),它們對(duì)應(yīng)位置的屬性元之間相似度都大于0.1時(shí),才認(rèn)為依存對(duì)之間相似。

      屬性空間圖中,節(jié)點(diǎn)標(biāo)記為屬性詞,而邊表示屬性詞之間的相似關(guān)系。實(shí)際上,幾乎所有的屬性都能在屬性空間里找到與它有相似關(guān)系的節(jié)點(diǎn)。而且在每個(gè)獨(dú)立的連通子圖中,候選屬性都有已經(jīng)標(biāo)記了置信度的種子屬性與之相連接(因?yàn)閷傩钥臻g里總有和它前綴或后綴相同的正確屬性詞),若采用屬性置信度1和2,對(duì)于所有的候選屬性,都能計(jì)算。

      基于劃分的驗(yàn)證模型(屬性置信度3,前向分解,后向分解)中,有一些的依存對(duì),在已經(jīng)驗(yàn)證過(guò)的屬性中找不到對(duì)應(yīng)的相似關(guān)系,因此對(duì)這批屬性,我們采用基于最大相似度的方式計(jì)算其置信度。最終對(duì)每個(gè)概念,我們得到5組驗(yàn)證結(jié)果。

      其中,在前向分解和后向分解中,對(duì)相似屬性元序列,我們采用屬性元序列置信度1(式15)中定義的公式計(jì)算置信度。

      我們對(duì)未進(jìn)行驗(yàn)證的結(jié)果做抽樣統(tǒng)計(jì),準(zhǔn)確率分布在65%~80%之間。理想情況下,使用驗(yàn)證模型計(jì)算后,越是正確屬性,置信度則越高,錯(cuò)誤的結(jié)果得到的置信度最低;如果我們對(duì)計(jì)算后的結(jié)果依據(jù)置信度做倒序排序,那么,前80%的結(jié)果應(yīng)集中了所有的正確結(jié)果。在統(tǒng)計(jì)中,我們認(rèn)定這80%的結(jié)果作為正確結(jié)果。表5和表6是經(jīng)過(guò)一輪迭代后的獲取結(jié)果,其中驗(yàn)證后的準(zhǔn)確率也就是前 80%結(jié)果的準(zhǔn)確率。

      表5 地域類概念的獲取結(jié)果

      表6 商業(yè)主體類概念的獲取結(jié)果

      實(shí)驗(yàn)結(jié)果表明,我們提出的基于前后綴迭代的獲取方法得到的初始結(jié)果也具有較高的準(zhǔn)確率,經(jīng)過(guò)驗(yàn)證后,準(zhǔn)確率又有了較大的提升。

      另外,在5組驗(yàn)證模型中,基于最大相似度(置信度1)和基于最大置信度(置信度2)的驗(yàn)證效果較為接近,原因可能是這兩種模型考慮的基本因素是一致的;而基于劃分(置信度3)的驗(yàn)證效果較佳,因?yàn)檫@種驗(yàn)證模型考慮了屬性名稱中的每個(gè)依存對(duì)。但是基于劃分的驗(yàn)證模型無(wú)法計(jì)算所有的屬性置信度,對(duì)于它不能計(jì)算的部分,必須借用置信度1或置信度2的驗(yàn)證模型。

      基于前向和后向序列分解的驗(yàn)證模型盡管考慮了中文屬性詞的語(yǔ)法結(jié)構(gòu),但由于計(jì)算高度依賴于子序列的分解,以及相似屬性元序列的對(duì)齊。而這種運(yùn)算都很難得到較高的準(zhǔn)確率,同時(shí),大部分屬性詞只包含2,3個(gè)屬性元,且搭配結(jié)構(gòu)簡(jiǎn)單,對(duì)它們來(lái)說(shuō),這2種模型的計(jì)算效果與基于劃分的效果等價(jià)。所以綜合來(lái)看,這2種模型的驗(yàn)證效果相比基于劃分的驗(yàn)證,并沒(méi)有明顯的提高。同時(shí),基于前向和后向?qū)傩栽蛄械尿?yàn)證模型本質(zhì)上也是基于劃分的,因此也存在模型3的缺點(diǎn)。

      5 與相關(guān)工作比較

      前人方法的結(jié)果數(shù)量一般都在100以內(nèi),且偏重于Top N結(jié)果的準(zhǔn)確率,而忽略了真實(shí)屬性空間的龐大和多樣性。實(shí)際上,每種類型的概念,其真實(shí)的屬性空間一般遠(yuǎn)遠(yuǎn)超過(guò)了他們獲取得到的數(shù)量,且屬性類型豐富多樣,其中很多屬性盡管不是很常見(jiàn),但在某個(gè)領(lǐng)域卻很重要(例如,對(duì)類型“國(guó)家”來(lái)說(shuō),“貨幣供應(yīng)量增長(zhǎng)率”,“淡水人均擁有量”就是不常見(jiàn)但是分別在經(jīng)濟(jì)和環(huán)境領(lǐng)域卻很重要的屬性),而他們的方法一般無(wú)法獲取到這種不常見(jiàn)的屬性,也就無(wú)法滿足構(gòu)建大型知識(shí)庫(kù)的需求。而我們方法的獲取規(guī)模都在千級(jí)或萬(wàn)級(jí),且能覆蓋大多數(shù)類型的屬性,能較好的滿足上述需求。

      在我們?cè)仁止ふ淼姆N子庫(kù)中,地域類中有96個(gè)不同概念,共6 378個(gè)屬性(共3 689個(gè)不同屬性),每個(gè)概念平均66.4個(gè)屬性。商業(yè)主體類有263個(gè)不同概念,共2 860個(gè)屬性(共1 435個(gè)不同屬性),每個(gè)概念平均10.9個(gè)屬性。采用我們的獲取方法,對(duì)地域類概念,一次迭代后,獲取到22 427個(gè)不同的屬性(其中20 829個(gè)不在種子庫(kù)中),為該類的種子屬性庫(kù)的擴(kuò)充5.6倍,而為具體某個(gè)概念(如“中國(guó)”)的屬性空間擴(kuò)充大于100倍。對(duì)商業(yè)主體類概念獲取到4 426個(gè)不同屬性(其中3 644個(gè)不在種子屬性中),為該類的種子屬性庫(kù)的擴(kuò)充2.5倍,而為具體某個(gè)概念(如“比亞迪”)的屬性空間擴(kuò)充接近100倍。因此,我們的方法對(duì)原有種子庫(kù)具有很好的擴(kuò)充效果,能較好地適用于大規(guī)模知識(shí)獲取。

      6 結(jié)束語(yǔ)和進(jìn)一步工作

      在本文中,我們?cè)O(shè)計(jì)了一種基于前綴后綴迭代的屬性名稱獲取方法,并提出了一組屬性的驗(yàn)證模型。同時(shí),在地域類和商業(yè)主體類實(shí)體概念上運(yùn)用了該方法,并比較了各模型的驗(yàn)證效果,證明了我們的獲取方法具有較好的擴(kuò)充率,同時(shí)也具有很好的驗(yàn)證效果,得到了較高的準(zhǔn)確率。

      通過(guò)實(shí)驗(yàn)我們發(fā)現(xiàn),不同的前后綴具有各不相同的擴(kuò)充效果,有些前后綴擴(kuò)充效果很好,有些則很差,有些甚至?xí)玫酱罅垮e(cuò)誤的結(jié)果;有些前后綴能幫助我們得到很多不易得到的屬性,而有些前后綴則能得到比較大眾化的屬性;不同的前后綴(尤其是后綴)還有不同的屬性類型的偏好。因此,如何從大量的被驗(yàn)證過(guò)的結(jié)果中選擇種子屬性以及選擇前后綴進(jìn)行迭代是我們下一步面臨的主要問(wèn)題。

      本方法在地域類和商業(yè)主體類概念上具有較好的獲取效果。嘗試將本方法運(yùn)用到其它類型的概念上,也是我們后續(xù)研究的問(wèn)題。同時(shí),總是會(huì)有一些屬性很難通過(guò)自動(dòng)的方式得到驗(yàn)證,于是,我們想提出一種人工干預(yù)的模型對(duì)這類屬性進(jìn)行交互驗(yàn)證,實(shí)現(xiàn)一種人機(jī)互動(dòng)的系統(tǒng),以較少的人工干預(yù),得到較大的驗(yàn)證效率和效果。

      另外,根據(jù)我們的統(tǒng)計(jì)估算,約1.41%的屬性既不包含前綴也不包含后綴,它們中有些可能是比較常見(jiàn)而重要的屬性;而有些雖然包含前綴或后綴,但卻不一定能通過(guò)前后綴迭代的方法獲取出來(lái),因此如何利用現(xiàn)有的資源解決這類問(wèn)題,也是我們下一步面臨的重要工作。

      [1] 田國(guó)剛.受限中文語(yǔ)料的自監(jiān)督文本知識(shí)獲取研究[D]. 中國(guó)科學(xué)院大學(xué)博士學(xué)位論文. 2007.

      [3] Naoki Yoshinaga, Kentaro Torisawa. Open-Domain Attribute-Value Acquisition from Semi-Structured Texts[C]//Proceedings of the 6th International Semantic Web Conference (ISWC-07).Workshop on Text to Knowledge: The Lexicon/Ontology Interface (OntoLex-2007) , Busan, South Korea, 2007: 55-66.

      [4] Wladmir C. Brand?o,Edleno S. Moura, Altigran S. Silva. A Self-Supervised Approach for Extraction of Attribute-Value Pairs from Wikipedia Articles[C]//Proceedings of the Int’l Symp,on String Processing and Information Retrieval. 2010: 279-289.

      [6] Joseph Reisinger, Marius Paca. Low-Cost Supervision for Multiple-Source Attribute Extraction[C]//Proceedings of 10th International Conference on Intelligent Text Processing and Computational Linguistics, 2009:382-393.

      [7] 郭艷華,周昌樂(lè).一種漢語(yǔ)語(yǔ)句依存關(guān)系網(wǎng)協(xié)動(dòng)生成方法研究[J]. 杭州電子工業(yè)學(xué)院學(xué)報(bào). 2000,20(4):24-32.

      [8] 李彬,劉挺,秦兵等. 基于語(yǔ)義依存的漢語(yǔ)句子相似度計(jì)算[J]. 計(jì)算機(jī)應(yīng)用研究. 2003,12: 15-17.

      [9] 趙妍妍,秦兵,劉挺等. 基于多特征融合的句子相似度計(jì)算[C]. 全國(guó)第八屆計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議(JSCL-2005). 南京,2005:168-174.

      [10] Shi Wang,Yanan Cao, Xinyu Cao, et al. Learning Concepts from Text Based on the Inner-Constructive Model[C]//Proceedings of the KSEM. 2007:255-266.

      [11] 王石.中文實(shí)體名稱的識(shí)別和語(yǔ)義分析方法研究[D]. 中國(guó)科學(xué)院研究生院博士學(xué)位論文. 2009.

      [12] Shi Wang,Yanan Cao,Han Lu et al. Measuring Taxonomic Similarity between Words Using Restrictive Context Matrices[C]//Proceedings of the FSKD. 2008:193-197.

      [13] Dekang Lin. An Information-Theoretic Definition of Similarity[C]//Proceedings of the 15th International Conference on Machine Learning(ICML),Madison, WI, 24-27,1998:296-304.

      [14] 盧漢,曹存根,王石.基于元性質(zhì)的數(shù)量型屬性值自動(dòng)提取系統(tǒng)的實(shí)現(xiàn)[J]. 計(jì)算機(jī)研究與發(fā)展. 2010,10:1741-1748.

      猜你喜歡
      后綴置信度名稱
      硼鋁復(fù)合材料硼含量置信度臨界安全分析研究
      正負(fù)關(guān)聯(lián)規(guī)則兩級(jí)置信度閾值設(shè)置方法
      滬港通一周成交概況
      滬港通一周成交概況
      滬港通一周成交概況
      滬港通一周成交概況
      河北霸州方言后綴“乎”的研究
      TalKaholic話癆
      說(shuō)“迪烈子”——關(guān)于遼金元時(shí)期族名后綴問(wèn)題
      置信度條件下軸承壽命的可靠度分析
      軸承(2015年2期)2015-07-25 03:51:04
      宝鸡市| 布尔津县| 富阳市| 霸州市| 洞头县| 阳曲县| 延长县| 保山市| 布拖县| 胶南市| 馆陶县| 隆安县| 汝南县| 龙南县| 陇川县| 茂名市| 三江| 台安县| 东明县| 河北区| 东海县| 伊宁市| 桐梓县| 常山县| 莱州市| 芜湖县| 五寨县| 莱州市| 三江| 哈尔滨市| 如东县| 保亭| 清远市| 达拉特旗| 上饶县| 许昌市| 呼玛县| 灵璧县| 应城市| 兴山县| 拜泉县|