• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于雙層語(yǔ)料過(guò)濾器的短語(yǔ)抽取方法

      2015-11-25 03:00:48林偉佳郭靖羽丁東輝
      計(jì)算機(jī)與現(xiàn)代化 2015年12期
      關(guān)鍵詞:后綴過(guò)濾器語(yǔ)料

      林 波,林偉佳,郭靖羽,丁東輝,黃 翰

      (1.中國(guó)移動(dòng)通信集團(tuán)廣東有限公司,廣東 廣州 510006;2.華南理工大學(xué)軟件學(xué)院,廣東 廣州 510006)

      0 引言

      互聯(lián)網(wǎng)在給予人們豐富信息的過(guò)程中,也給予人們急切獲取第一手重要熱點(diǎn)信息帶來(lái)的困擾。在信息爆炸的時(shí)代,人們被動(dòng)地接受大量無(wú)效的垃圾信息,也花費(fèi)大量的時(shí)間和精力去尋找關(guān)注感興趣的網(wǎng)絡(luò)話題[1-2]。盡管目前的搜索引擎能在一定程度上引導(dǎo)用戶去獲取特定的信息,針對(duì)時(shí)效性較高的網(wǎng)絡(luò)話題,還是無(wú)法提供較為深入的隱含話題信息挖掘以及話題跟蹤的統(tǒng)計(jì)顯示。人們迫切需要在網(wǎng)絡(luò)信息搜索方面能提供較為全面的網(wǎng)絡(luò)話題挖掘與跟蹤的服務(wù),能夠無(wú)論從時(shí)間線或者熱門程度方面都能有直觀的話題信息演化過(guò)程。人們不僅需要獲知網(wǎng)絡(luò)話題所涉及的概括性描述,也希望從中獲知其他人針對(duì)該話題的具體細(xì)節(jié)評(píng)價(jià)和討論。

      國(guó)外針對(duì)短文本的提取已經(jīng)有很多指導(dǎo)性工作。例如Mehran Sahami[3]等采用以Web 語(yǔ)義核函數(shù)為基礎(chǔ)方法來(lái)抽取概念類似的短語(yǔ),應(yīng)用于文檔的信息語(yǔ)義概括。D.Metaler[4]等從相似性的度量角度來(lái)挖掘發(fā)現(xiàn)短文本之間的關(guān)聯(lián)程度。W.Yih[5]等通過(guò)對(duì)前人的工作進(jìn)行方法完善,結(jié)合當(dāng)時(shí)Web 的發(fā)展趨勢(shì)適時(shí)擴(kuò)展Web 語(yǔ)義核函數(shù),深化了語(yǔ)義核函數(shù)的影響。Xuan-Hieu Phan[6]等人為了解決短文本的稀疏性問(wèn)題,嘗試性地提供采用隱匿的文檔主題來(lái)建立較為廣泛的模型架構(gòu)。J.Hyneck 擴(kuò)展了Apriori 的詞集分類方法,并應(yīng)用于文獻(xiàn)的文檔分類工作中。D.Song 以領(lǐng)域知識(shí)庫(kù)的建立作為基本出發(fā)點(diǎn),通過(guò)采集消息流和研究并預(yù)測(cè)其趨向來(lái)對(duì)短文本實(shí)現(xiàn)分類工作。S.Tant[7]等結(jié)合專利知識(shí)數(shù)據(jù)以及術(shù)語(yǔ)庫(kù)來(lái)進(jìn)行跨領(lǐng)域的術(shù)語(yǔ)提取。Dacheng Liu[8]等提出半自動(dòng)的語(yǔ)料分割器針對(duì)專利知識(shí)數(shù)據(jù)進(jìn)行專利術(shù)語(yǔ)的信息抽取。K.K.Bharti[9]等通過(guò)對(duì)文本不同維度的特征重要度進(jìn)行排序,提出混合維度的文本特征選擇方法來(lái)改進(jìn)文本特征表示。

      由于中文漢字的復(fù)雜性以及前期缺乏相關(guān)研究,學(xué)者未針對(duì)短文本進(jìn)行系統(tǒng)分析,國(guó)內(nèi)針對(duì)短文本的研究相對(duì)比較晚,其研究方向基本可以分為2 類:

      1)基于詞語(yǔ)規(guī)則的方法?;谠~語(yǔ)規(guī)則方法本質(zhì)是總結(jié)并分析不同詞語(yǔ)之間相互關(guān)系來(lái)進(jìn)行規(guī)則歸納,并對(duì)待處理文本執(zhí)行后續(xù)工作。例如吳薇[10]利用正則表達(dá)式規(guī)則初始化步驟來(lái)對(duì)海量文本實(shí)現(xiàn)規(guī)則過(guò)濾。王鵬[11]使用詞語(yǔ)之間的依存關(guān)聯(lián)來(lái)進(jìn)行詞語(yǔ)的提煉,進(jìn)而擴(kuò)充文本的基本維度屬性。王細(xì)薇[12]首先對(duì)短文本抽象概念詞進(jìn)行統(tǒng)計(jì),然后使用詞語(yǔ)的關(guān)聯(lián)關(guān)系對(duì)候選詞實(shí)現(xiàn)表征擴(kuò)充。胡吉祥[13]基于短文本中詞頻或短語(yǔ)串頻的統(tǒng)計(jì)信息來(lái)進(jìn)行細(xì)粒度信息的提取以及特征表示。

      2)基于文本語(yǔ)義的規(guī)則方法。基于語(yǔ)義方法本質(zhì)是搜索通用知識(shí)庫(kù)來(lái)進(jìn)行文本語(yǔ)義信息的抽取。如寧亞輝[14]首先利用《知網(wǎng)》來(lái)獲取不同層次的基礎(chǔ)詞匯本體,在這些候選種子詞的基礎(chǔ)上采用中心鄰近的分類方法。盛宇利[15]基于“熟悉原理”、“典型原理”的心理認(rèn)知學(xué)知識(shí)對(duì)文本進(jìn)行初步的預(yù)處理,包括引入白名單詞庫(kù)以及典型詞庫(kù)來(lái)進(jìn)行分詞,提高詞語(yǔ)的辨別準(zhǔn)確度。王永恒利用詞語(yǔ)語(yǔ)義特征構(gòu)建了特征網(wǎng)絡(luò)圖,然后通過(guò)描述網(wǎng)絡(luò)圖的中心鄰近程度來(lái)實(shí)現(xiàn)分類。

      本文以文本短語(yǔ)為基本語(yǔ)義信息單位,針對(duì)中文短語(yǔ)抽取進(jìn)行研究,提出基于雙層語(yǔ)料過(guò)濾器(詞性過(guò)濾器與短語(yǔ)擴(kuò)展規(guī)則過(guò)濾器)的方法來(lái)進(jìn)行文本語(yǔ)料的冗余信息過(guò)濾,并抽取文本主題短語(yǔ)信息。其中詞性過(guò)濾器從通用的中文本質(zhì)的詞性規(guī)則出發(fā)來(lái)進(jìn)行初步候選短語(yǔ)過(guò)濾,短語(yǔ)擴(kuò)展規(guī)則過(guò)濾器從特點(diǎn)語(yǔ)料知識(shí)的統(tǒng)計(jì)分析規(guī)則來(lái)進(jìn)行二次過(guò)濾。

      1 短語(yǔ)串的語(yǔ)義表達(dá)優(yōu)勢(shì)

      從中文的自然語(yǔ)言角度分析,漢語(yǔ)的語(yǔ)言結(jié)構(gòu)的語(yǔ)義表達(dá)單元為:漢字-詞匯-短語(yǔ)-句子-段落-文檔[16]。其語(yǔ)義單元的級(jí)別越高,其包含的信息量也越多。由于漢語(yǔ)本身并非只有漢字的語(yǔ)義信息進(jìn)行拼接,其信息內(nèi)容本身存在上下文關(guān)系,因此隨著語(yǔ)義表達(dá)單元包含的基本語(yǔ)素(漢字)單元數(shù)目增加,其信息內(nèi)容的豐富程度遠(yuǎn)超于線性增長(zhǎng),其信息粒度也是隨著層次的增加而逐步增大[17]。在日常的人類社會(huì)中,句子是作為常見(jiàn)的溝通交流的語(yǔ)義表達(dá)單元,能夠清晰傳遞信息。句子盡管可作為基本的信息載體單元,但由于句子受限于客觀的語(yǔ)法結(jié)構(gòu),其中也包含了大量冗余的無(wú)價(jià)值信息。其語(yǔ)義表達(dá)不夠簡(jiǎn)練,人們理解句子的語(yǔ)義也是需要無(wú)意識(shí)地快速篩選出句子的主干意思來(lái)進(jìn)行消息接收。

      本文考慮采用相比句子較低層次的短語(yǔ)來(lái)作為語(yǔ)義表達(dá)單元。中文短語(yǔ)串相對(duì)于句子而言也有類似的詞法結(jié)構(gòu)(主謂結(jié)構(gòu)、動(dòng)賓結(jié)構(gòu)等),在語(yǔ)義表達(dá)方面滿足最基本的要求。中文短語(yǔ)串相對(duì)于低層次級(jí)別的詞匯,其信息豐富量更多,短語(yǔ)串中的詞匯間通過(guò)特定的組合搭配結(jié)構(gòu),能夠表達(dá)出遠(yuǎn)多于純粹詞匯之間拼湊而成的信息。

      目前在文本特征表示步驟中,詞匯作為文檔的特征項(xiàng)實(shí)際上僅僅作為一個(gè)標(biāo)簽屬性值的形式存在,詞匯自身并沒(méi)有為特征表征提供更多的語(yǔ)義信息。然而通過(guò)短語(yǔ)抽取,在文本特征表達(dá)的同時(shí)還可以直觀地理解文本的語(yǔ)義含義。在探索和挖掘中文短語(yǔ)結(jié)構(gòu)組成的同時(shí),有助于對(duì)中文自然語(yǔ)言處理研究提供可參考性的意見(jiàn)。

      2 雙層語(yǔ)料過(guò)濾器的主要思想

      語(yǔ)料過(guò)濾器主要是基于中文短語(yǔ)本質(zhì)的詞性規(guī)則組成方式和基于統(tǒng)計(jì)分析理論來(lái)進(jìn)行設(shè)計(jì)。

      1)從詞性規(guī)則組成方式:適用于大多數(shù)符合中文詞法語(yǔ)法規(guī)則的中文短語(yǔ),具有一般普遍性。

      2)從統(tǒng)計(jì)分析理論出發(fā):適用于針對(duì)某一類專有知識(shí)資料的語(yǔ)料過(guò)濾。由于針對(duì)特定某類的專有知識(shí)的短語(yǔ)特征較為明顯,許多詞語(yǔ)形成固定的短語(yǔ)搭配,容易從統(tǒng)計(jì)角度來(lái)獲取詞語(yǔ)之間的基于前后位置的頻次關(guān)聯(lián)關(guān)系。

      圖1 短語(yǔ)抽取方法的主要處理步驟流程

      短語(yǔ)抽取方法的主要處理流程步驟(見(jiàn)圖1):

      1)預(yù)處理階段。在預(yù)處理階段主要包括了常規(guī)的文本分析的預(yù)處理步驟,包括中文分詞、停用詞處理和詞性標(biāo)注。針對(duì)本文需要處理的文本語(yǔ)料由于其專有性比較強(qiáng),語(yǔ)料中存在大量的專有名詞,因此引入另外的擴(kuò)展詞庫(kù)來(lái)提高中文分詞的準(zhǔn)確度和精度,擴(kuò)展詞庫(kù)可不斷進(jìn)行知識(shí)術(shù)語(yǔ)關(guān)鍵詞的存儲(chǔ)和更新維護(hù)。

      2)第一層過(guò)濾器處理階段。第一層語(yǔ)料過(guò)濾器的輸入文本是基于結(jié)構(gòu)化的文本集合,該文本集合由最基本的中文詞語(yǔ)所構(gòu)成,每個(gè)詞語(yǔ)都已經(jīng)標(biāo)注了詞性。其中由于并非所有詞性的詞都能構(gòu)成句子的細(xì)粒度短語(yǔ),因此重點(diǎn)研究其中的名詞、形容詞、動(dòng)詞和副詞4 種詞性的詞語(yǔ),并根據(jù)中文的短語(yǔ)語(yǔ)法知識(shí)歸納出這4 種詞性短語(yǔ)所構(gòu)成的所有可能形式。從短語(yǔ)的結(jié)構(gòu)考查分析,其中并列短語(yǔ)、偏正短語(yǔ)、動(dòng)賓短語(yǔ)、主謂短語(yǔ)構(gòu)成了句子的主要短語(yǔ)信息,因此根據(jù)這4 種基本短語(yǔ)規(guī)則組成方式作為第一層語(yǔ)料過(guò)濾器的模式匹配規(guī)則。通過(guò)輸入短語(yǔ)規(guī)則組成的正則表達(dá)式,建立了相對(duì)應(yīng)的第一層語(yǔ)料過(guò)濾器的短語(yǔ)抽取確定性有限狀態(tài)自動(dòng)機(jī)(Deterministic Finite Automaton,DFA),進(jìn)而作為具體的算法處理來(lái)得到初步的短語(yǔ)篩選結(jié)果,這部分短語(yǔ)篩選結(jié)果將作為第二層語(yǔ)料過(guò)濾器的輸入樣本。

      3)第二層過(guò)濾器處理階段。第二層語(yǔ)料過(guò)濾器是基于詞語(yǔ)串頻的統(tǒng)計(jì)分析而建立的。詞語(yǔ)串頻信息是在測(cè)試樣本中指前后2 個(gè)詞同時(shí)出現(xiàn)的頻次,同時(shí)包括2 個(gè)詞語(yǔ)的字符內(nèi)容以及位置信息。由于第一層過(guò)濾器是基于短語(yǔ)本質(zhì)的規(guī)則組成方式而建立,其抽取出來(lái)的短語(yǔ)結(jié)果中有部分顯然不是實(shí)際的短語(yǔ),會(huì)出現(xiàn)信息冗余或者信息截?cái)嗟默F(xiàn)象。因此,針對(duì)包含了大量固定短語(yǔ)搭配的專有語(yǔ)料,分析詞語(yǔ)串頻次的信息來(lái)獲取其中固定短語(yǔ)串的詞語(yǔ)組成方式。在對(duì)所有初次篩選過(guò)后的短語(yǔ)結(jié)果中,以詞語(yǔ)為單位來(lái)統(tǒng)計(jì)詞語(yǔ)串頻信息,然后在短語(yǔ)結(jié)果中選取候選種子詞,并從最基本的候選種子詞出發(fā),從前向和后向2 個(gè)方向進(jìn)行短語(yǔ)擴(kuò)展,其擴(kuò)展的主要判斷依據(jù)也是依賴詞語(yǔ)串頻信息。當(dāng)短語(yǔ)擴(kuò)展達(dá)到了擴(kuò)展的終止條件,則停止擴(kuò)展步驟,獲取最終的短語(yǔ)抽取結(jié)果。

      3 第一層語(yǔ)料過(guò)濾器——詞性過(guò)濾器

      第一層語(yǔ)料過(guò)濾器是從短語(yǔ)結(jié)構(gòu)構(gòu)成的詞性角度出發(fā),采用正則表達(dá)式的規(guī)則來(lái)進(jìn)行數(shù)學(xué)模型描述。詞性過(guò)濾器的設(shè)計(jì)是通過(guò)DFA 的處理來(lái)進(jìn)行實(shí)現(xiàn)。

      3.1 基于詞性的正則表達(dá)式匹配

      筆者從搜狗實(shí)驗(yàn)室下載了100 篇較短的新聞?wù)Z料文章,其中包含的句子數(shù)目為1 610 個(gè),從中標(biāo)注了句子的短語(yǔ)數(shù)目,進(jìn)行統(tǒng)計(jì)分析,中文短語(yǔ)的含詞量基本分布在1~7 個(gè),因此以7 個(gè)詞語(yǔ)作為短語(yǔ)長(zhǎng)度的上限,見(jiàn)圖2。

      圖2 搜狗新聞?wù)Z料含詞量占比

      對(duì)其中的語(yǔ)料短語(yǔ)進(jìn)行結(jié)構(gòu)上的分析,短語(yǔ)的詞性包括4 種詞語(yǔ)詞性:名詞n、動(dòng)詞v、形容詞adj 和副詞adv。參考目前的中文漢語(yǔ)語(yǔ)法,用于表達(dá)中文語(yǔ)義的短語(yǔ)類型主要分類如下:

      1)并列短語(yǔ)。地位平等,互不修飾,其形式包括:n+n/v+v/adj+adj/adv+adv。

      2)偏正短語(yǔ)。前一個(gè)詞語(yǔ)對(duì)后一個(gè)詞語(yǔ)進(jìn)行修飾限制,其形式包括:adj+n/adv+adj/adv+v。

      3)動(dòng)賓短語(yǔ)。動(dòng)詞和賓語(yǔ)是支配關(guān)系,其形式包括:v+n/v+v/v+adj。

      4)主謂結(jié)構(gòu)。形式包括:n+v/n+adj。

      正則表達(dá)式(Regular Expressions)的本質(zhì)核心是通過(guò)字符的格式匹配來(lái)進(jìn)行詞法分析。目前已經(jīng)被ISO 國(guó)際標(biāo)準(zhǔn)組織批準(zhǔn)認(rèn)定,已經(jīng)廣泛應(yīng)用到信息技術(shù)領(lǐng)域,許多計(jì)算機(jī)應(yīng)用平臺(tái)和腳本語(yǔ)言支持正則表達(dá)式的詞法規(guī)則?;谏鲜鲋形亩陶Z(yǔ)的長(zhǎng)度上限為7個(gè)詞語(yǔ),根據(jù)短語(yǔ)結(jié)構(gòu)的詞性組成內(nèi)容,在短長(zhǎng)度內(nèi)能夠枚舉相對(duì)可能出現(xiàn)的詞性短語(yǔ)組成的正則表達(dá)式:

      1)以名詞作為短語(yǔ)首詞:

      2)以動(dòng)詞作為短語(yǔ)首詞:

      3)以形容詞作為短語(yǔ)首詞:

      4)以副詞作為短語(yǔ)首詞:

      以上基本包含了7 個(gè)或7 個(gè)詞語(yǔ)長(zhǎng)度以下的短語(yǔ)結(jié)構(gòu)的組成方式,通過(guò)3.2 節(jié)中的DFA 處理和代碼實(shí)現(xiàn)來(lái)獲取初步的短語(yǔ)抽取結(jié)果。

      3.2 基于詞性的正則表達(dá)式匹配

      基于3.1 節(jié)所列舉的基于詞性的正則表達(dá)式,設(shè)計(jì)確定性有限狀態(tài)自動(dòng)機(jī)來(lái)進(jìn)行短語(yǔ)的抽取。圖3~圖6 分別為以不同詞性(n,v,adj,adv)為開頭的DFA 匹配處理過(guò)程。

      圖3 以名詞n 為開始的有限狀態(tài)自動(dòng)機(jī)

      圖4 以動(dòng)詞v 為開始的有限狀態(tài)自動(dòng)機(jī)

      其中,在以上確定性有限狀態(tài)自動(dòng)機(jī)的狀態(tài)中的轉(zhuǎn)移條件如下:

      1)n:匹配到名詞n。

      2)v:匹配到動(dòng)詞v。

      3)adj:匹配到形容詞adj。

      4)adv:匹配到副詞adv。

      5)c1:匹配到除了adv 和v 以外的詞。

      6)c2:匹配到除了n、v、adj 和adv 以外的詞。

      7)c3:匹配到除了adj 和n 以外的詞。

      圖5 以形容詞adj 為開始的有限狀態(tài)自動(dòng)機(jī)

      圖6 以副詞adv 為開始的有限狀態(tài)自動(dòng)機(jī)

      在代碼實(shí)現(xiàn)中,采用DFA 作為短語(yǔ)文本匹配的主要實(shí)現(xiàn)方式,并得到最初的短語(yǔ)抽取實(shí)驗(yàn)結(jié)果。由于在進(jìn)行詞性規(guī)則匹配的過(guò)程中,詞語(yǔ)的詞性有限并且可枚舉,其狀態(tài)轉(zhuǎn)移條件相對(duì)簡(jiǎn)單,使用DFA 能夠直觀地表示整個(gè)詞性規(guī)則匹配的過(guò)程。同時(shí)DFA 也具有良好的擴(kuò)展性,例如在進(jìn)行詞性規(guī)則重構(gòu)時(shí)出現(xiàn)了另外的詞性需要處理(介詞、代詞等),只需要在原有的DFA 基礎(chǔ)上增加狀態(tài)轉(zhuǎn)移條件即可完成擴(kuò)展。

      4 第二層語(yǔ)料過(guò)濾器——短語(yǔ)擴(kuò)展過(guò)濾器

      4.1 詞語(yǔ)串頻信息統(tǒng)計(jì)

      詞語(yǔ)串頻信息包括前綴詞語(yǔ)串頻集合和后綴詞語(yǔ)串頻集合。前綴詞語(yǔ)串頻集合是指候選種子詞的前綴詞語(yǔ)所組成的集合,包括前綴詞語(yǔ)的詞語(yǔ)內(nèi)容以及出現(xiàn)頻次。本文用數(shù)學(xué)集合進(jìn)行表示,對(duì)于某一種子詞t,前綴詞語(yǔ)串頻集合p_set(prefix-set)定義如下:

      其中,pwi是第i 個(gè)前綴詞,pfi是第i 個(gè)前綴詞出現(xiàn)的頻次。

      類似地,后綴詞語(yǔ)串頻集合是指候選種子詞的后綴詞語(yǔ)所組成的集合,也包含了詞語(yǔ)的詞語(yǔ)內(nèi)容以及出現(xiàn)頻次。對(duì)于某一種子詞t,后綴詞語(yǔ)串頻集合s_set(suffix-set)定義如下:

      其中,swi是第i 個(gè)后綴詞,sfi是第i 個(gè)后綴詞出現(xiàn)的頻次。

      對(duì)于種子詞,最頻繁前綴詞是前綴詞語(yǔ)集合中頻次最高的前綴詞,最頻繁后綴詞是后綴詞語(yǔ)集合中頻次最高的后綴詞。其定義分別如下:

      前綴詞最高頻比max_p_freqt是最頻繁前綴詞的頻次與所有前綴詞頻次求和的比率。

      后綴詞最高頻比max_s_freqt是最頻繁后綴詞的頻次與所有后綴詞頻次求和的比率。

      針對(duì)目前熱門詞“股市”在網(wǎng)絡(luò)上進(jìn)行搜索,摘錄了一些句子文本集合進(jìn)行舉例說(shuō)明。

      1)安本亞洲高管周二警告稱,中國(guó)股市資金流動(dòng)情況已經(jīng)“有點(diǎn)像賭場(chǎng)”。

      2)因全球股市上漲和美元走堅(jiān),打擊了黃金作為避險(xiǎn)資產(chǎn)的魅力。

      3)股市市場(chǎng)是已經(jīng)發(fā)行的股票轉(zhuǎn)讓、買賣和流通的場(chǎng)所,包括交易所市場(chǎng)和場(chǎng)外交易市場(chǎng)2 大類別。

      4)繁榮股市幫助實(shí)體經(jīng)濟(jì)擴(kuò)大股權(quán)融資、降低過(guò)高負(fù)債、減少財(cái)務(wù)成本創(chuàng)造了條件。

      5)比如,16 日中國(guó)股市上漲,創(chuàng)5 年來(lái)的新高,就在于市場(chǎng)預(yù)期央行降準(zhǔn)降息會(huì)陸續(xù)出臺(tái)。

      6)在其看來(lái),股市上漲的根本原因是均值回歸。

      7)近日有一種觀點(diǎn)認(rèn)為,股市上漲與樓市低迷是密不可分的,是樓市釋放了大量資金,提供了強(qiáng)有力的貨幣基礎(chǔ)。

      8)股市行情大盤指數(shù)飆高,同時(shí)余額寶收益受影響。

      9)GDP 在增長(zhǎng),卻導(dǎo)致股市低迷。

      通過(guò)對(duì)文本集合進(jìn)行分詞并統(tǒng)計(jì)詞語(yǔ)串頻信息,候選種子詞“股市”的詞語(yǔ)串頻信息如下(見(jiàn)圖7):

      圖7 基于種子詞“股市”的前綴詞語(yǔ)串頻集合和后綴詞語(yǔ)串頻集合

      4.2 詞語(yǔ)串頻信息參數(shù)分析

      前綴詞語(yǔ)串頻集合p_set 和后綴詞語(yǔ)串頻集合s_set 包含了種子詞在上下文中的詞語(yǔ)串共現(xiàn)的信息。p_set 和s_set 的集合越大,表示該種子詞越容易和其他詞語(yǔ)進(jìn)行組合,從而完成詞語(yǔ)的擴(kuò)展。然而對(duì)于文本的大規(guī)模統(tǒng)計(jì)分析而言,p_set 和s_set 中每個(gè)前綴詞語(yǔ)或者后綴詞語(yǔ)相對(duì)應(yīng)的頻次pf 和sf 大小決定了該前綴詞語(yǔ)或者后綴詞語(yǔ)是否會(huì)成為種子詞擴(kuò)展。本文定義一個(gè)閾值thresholdt來(lái)進(jìn)行pf 和sf 的對(duì)比,當(dāng)pf 和sf 的值高于閾值threshold,則判斷前綴詞語(yǔ)或者后綴詞語(yǔ)符合短語(yǔ)擴(kuò)展的條件從而進(jìn)行短語(yǔ)擴(kuò)展。假設(shè)qi,t為布爾變量對(duì)應(yīng)于某個(gè)前綴或后綴詞語(yǔ)能否作為種子詞t 的擴(kuò)展詞來(lái)進(jìn)行短語(yǔ)擴(kuò)展,那么:

      因此對(duì)于4.1 節(jié)的例子,當(dāng)threshold=2 時(shí),那么“股市”作為其種子詞將會(huì)在文本1)中擴(kuò)展為“中國(guó)股市”,在文本2)、6)、7)中將擴(kuò)展為“股市上漲”,在文本5)中將擴(kuò)展為“中國(guó)股市上漲”。然而當(dāng)threshold=4 時(shí),“股市”作為其種子詞只能擴(kuò)展為在文本2)、5)~7)中擴(kuò)展成為“股市上漲”。

      4.3 候選種子詞選取與短語(yǔ)擴(kuò)展

      基于4.2 節(jié)對(duì)于種子詞的分析,p_set 和s_set 的集合大小越大越容易成為種子詞。單純計(jì)算p_set和s_set 的集合元素的個(gè)數(shù)進(jìn)行求和是有所欠缺考慮的。

      假設(shè)某種子詞p 的p_set 元素個(gè)數(shù)為10,s_set 的元素個(gè)數(shù)為2,其元素個(gè)數(shù)總和為12。然而同一短語(yǔ)中的另外一個(gè)種子詞q 的s_set 元素個(gè)數(shù)為5,s_set的元素個(gè)數(shù)為2,其元素個(gè)數(shù)總和為7。直觀而言,在集合元素大小的比較中,種子詞q 與種子詞p 相比處于劣勢(shì)。從詞語(yǔ)擴(kuò)展性的角度而言,種子詞p 很有可能作為其他詞語(yǔ)的后綴詞而出現(xiàn)(因?yàn)槠鋚_set 的元素個(gè)數(shù)遠(yuǎn)遠(yuǎn)大于s_set 的個(gè)數(shù)),其后綴擴(kuò)展性比較差,而種子詞q 的p_set 與s_set 的元素個(gè)數(shù)相當(dāng),因此種子詞q 容易作為文本短語(yǔ)中位置處于中心的詞,起著聯(lián)系前后的作用。因此在候選種子詞的選擇上,仿照笛卡兒乘積的思想,選取p_set 和s_set 的集合元素的個(gè)數(shù)分別加上1,再進(jìn)行乘積計(jì)算作為判斷依據(jù),用candidate-value 表示:

      2 個(gè)乘數(shù)之所以要加上1,主要是避免某些詞語(yǔ)的p_set 或者s_set 中元素個(gè)數(shù)為0 直接導(dǎo)致其candidate-value 的值為0,但是實(shí)際上該詞語(yǔ)在進(jìn)行候選種子詞時(shí)依然有其貢獻(xiàn)度。

      假設(shè)seed_word 是所需尋找的候選種子詞用于擴(kuò)展,{t1,t2,...,tn}是短語(yǔ)中的詞語(yǔ)集合,那么:

      在選取種子詞后就能夠?qū)Χ陶Z(yǔ)進(jìn)行擴(kuò)展,因此其主要的第二層語(yǔ)料過(guò)濾器的流程步驟如下:

      1)輸入中間短語(yǔ)結(jié)果。

      2)遍歷短語(yǔ)中每一個(gè)詞,統(tǒng)計(jì)每個(gè)詞語(yǔ)的詞語(yǔ)串頻信息,包括得到p_set 和s_set,max_pw,max_p_freq,max_sw,max_s_freq。

      3)根據(jù)公式(10)選取候選種子詞。

      4)進(jìn)行并行操作:向前進(jìn)行短語(yǔ)擴(kuò)展和向后進(jìn)行短語(yǔ)擴(kuò)展。在擴(kuò)展的過(guò)程中,如果達(dá)到短語(yǔ)的擴(kuò)展邊界則認(rèn)為達(dá)到擴(kuò)展終止條件,或者當(dāng)找不到前綴詞或者后綴詞作為新的擴(kuò)展種子詞時(shí)則停止擴(kuò)展。

      5)輸出短語(yǔ)抽取結(jié)果。

      第二層語(yǔ)料過(guò)濾器的流程步驟如圖8 所示。

      圖8 第二層語(yǔ)料過(guò)濾器的流程步驟

      第二層語(yǔ)料過(guò)濾器的偽代碼如下:

      算法1 第二層語(yǔ)料過(guò)濾器算法描述

      5 實(shí)驗(yàn)與計(jì)算結(jié)果

      本文根據(jù)第一層語(yǔ)料過(guò)濾器設(shè)計(jì)了DFA 進(jìn)行初步的短語(yǔ)抽取,同時(shí)根據(jù)算法1 設(shè)計(jì)第二層語(yǔ)料過(guò)濾器,并對(duì)目前已有的文本數(shù)據(jù)資源進(jìn)行實(shí)驗(yàn)結(jié)果分析。算法采用Java 語(yǔ)言編寫實(shí)現(xiàn)。

      本實(shí)驗(yàn)運(yùn)行在CPU 為Intel(R)Core(TM)i5-3210M,內(nèi)存為DDR3 1333,4 GB,顯卡為NVIDIA Ge-Force GT 540M,硬盤容量為500GB,操作系統(tǒng)為Window 7 x64 的機(jī)器上(見(jiàn)表1)。

      表1 軟硬件系統(tǒng)環(huán)境

      該文本數(shù)據(jù)資源來(lái)源于廣東移動(dòng)公司的投訴文本記錄(已經(jīng)對(duì)移動(dòng)客戶的私隱信息進(jìn)行消除),抽取了其中500 條投訴文本記錄,并逐條擬定其關(guān)鍵短語(yǔ)并進(jìn)行實(shí)驗(yàn)對(duì)比。該500 條投訴文本記錄分成10組進(jìn)行測(cè)試。平均每條投訴文本記錄的長(zhǎng)度為51.7個(gè)漢語(yǔ)字符。

      采用準(zhǔn)確率、召回率來(lái)評(píng)價(jià)實(shí)驗(yàn)的結(jié)果,定義如下:

      其中,{result_phrase}是自動(dòng)抽取的關(guān)鍵短語(yǔ)結(jié)果,{tag_phrase}是筆者擬定的關(guān)鍵短語(yǔ)結(jié)果。

      表2 是基于實(shí)驗(yàn)結(jié)果的數(shù)據(jù),圖9~圖11 是實(shí)驗(yàn)的P 值、R 值、F1 值曲線圖。

      表2 基于10 個(gè)結(jié)果測(cè)試集的P 值、R 值、F1 值

      圖9 基于10 組結(jié)果測(cè)試集的P 值曲線圖

      圖10 基于10 組結(jié)果測(cè)試集的R 值曲線圖

      圖11 基于10 組結(jié)果測(cè)試集的F1 值曲線圖

      從實(shí)驗(yàn)結(jié)果來(lái)看,雙層語(yǔ)料過(guò)濾器在查全率的效果比較優(yōu)異,R 值基本上都位于0.8 以上(除了第6組測(cè)試數(shù)據(jù)比較低),這說(shuō)明抽取出來(lái)的短語(yǔ)集合里包含了大多數(shù)預(yù)期中的短語(yǔ)。

      P 值基本在0.4~0.6 之間波動(dòng),主要原因是在文本中會(huì)出現(xiàn)一些修飾意義比較高的短語(yǔ)成分,這些成分對(duì)于文本的表達(dá)起著補(bǔ)充的作用,但并非文本的主旨意思。然而雙層語(yǔ)料過(guò)濾器也會(huì)把這些修飾的短語(yǔ)提取出來(lái),如何進(jìn)一步通過(guò)語(yǔ)義的方法把這些噪聲信息剔除出去是值得研究的改進(jìn)之處。

      雙層語(yǔ)料過(guò)濾器目前只考慮了4 種詞性的規(guī)則關(guān)系,具有較強(qiáng)的擴(kuò)展性。對(duì)于不同的文檔數(shù)據(jù)集,通過(guò)分析文本數(shù)據(jù)詞性規(guī)則還能夠加入其他詞性的詞語(yǔ)進(jìn)行規(guī)則重構(gòu),進(jìn)一步提高P 值以及F1 值。

      6 結(jié)束語(yǔ)

      本文首先對(duì)目前在文本信息抽取研究領(lǐng)域進(jìn)行了介紹和分析,梳理了目前技術(shù)發(fā)展的主流趨勢(shì)以及遇到的瓶頸問(wèn)題,并基于中文短語(yǔ)串在文本主題語(yǔ)義表達(dá)上的優(yōu)勢(shì),論證了短語(yǔ)串在細(xì)粒度主題抽取方面的重要性,為下一步對(duì)文本片段的信息抽取奠定了一定的基礎(chǔ)。從語(yǔ)料知識(shí)的通用性和專有性2 方面出發(fā),設(shè)計(jì)了雙層的語(yǔ)料過(guò)濾器。第一層語(yǔ)料過(guò)濾器是從通用的語(yǔ)料詞性規(guī)則組成出發(fā),研究了最為常見(jiàn)的短語(yǔ)搭配形式,枚舉所有可能的詞性組成規(guī)則,通過(guò)分詞后對(duì)文本片段進(jìn)行詞性分析處理,過(guò)濾掉規(guī)則以外的冗余信息。第二層語(yǔ)料過(guò)濾器是從語(yǔ)料知識(shí)的統(tǒng)計(jì)出發(fā),研究了某一專有語(yǔ)料知識(shí)在短語(yǔ)構(gòu)成中特有的短語(yǔ)規(guī)則組成形式,在第一層語(yǔ)料過(guò)濾器的結(jié)果的基礎(chǔ)上選取候選詞進(jìn)行短語(yǔ)擴(kuò)展,直至滿足擴(kuò)展終止條件,最終完成短語(yǔ)抽取。雙層語(yǔ)料過(guò)濾器不需要對(duì)語(yǔ)料樣本進(jìn)行先行的知識(shí)庫(kù)輸入或者詞性語(yǔ)義的模型建立,通用性較強(qiáng)。隨著語(yǔ)料樣本的規(guī)模擴(kuò)大,語(yǔ)料過(guò)濾器的短語(yǔ)抽取效果會(huì)更好。

      [1]中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心.第35 次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告[DB/OL].http://www.cnnic.net.cn/hlwfzyj/hlwxzbg/201502/P020150203551802054676.pdf,2015-03-26.

      [2]魯明羽,姚曉娜,魏善嶺.基于模糊聚類的網(wǎng)絡(luò)論壇熱點(diǎn)話題挖掘[J].大連海事大學(xué)學(xué)報(bào)(自然科學(xué)版),2008,34(4):52-54.

      [3]Sahami Mehran,Heilman Timothy D.A Web-based kernel function for measuring the similarity of short text snippets[C]// Proceedings of ACM the 15th International Conference on World Wide Web.2006:377-386.

      [4]Metaler D,Dumais S,Meek C.Similarity measures for short segments of text[C]// European Colloquium on IR Research-ECIR.2007:16-27.

      [5]Yih W,Meek C.Improving similarity measures for short segments of text[C]// National Conference on Artificial Intelligence-AAAI.2007:1489-1494.

      [6]Phan Xuan-Hieu,Nguyen Le-Minh,Horiguchi Susumu.Learning to classify short and sparse Text&Web with hidden topics from large-scale data collections[C]// World Wide Web Conference Series-WWW.2008:91-100.

      [7]Tantanasiriwong Supaporn,Haruechaiyasak Choochart,Guha Sumanta.A comparative study of key phrase extraction for cross-domain document collections[C]// The 16th International Conference on Asia-Pacific Digital Libraries.2014:393-398.

      [8]Liu Dacheng,Peng Zhiyong,Liu Bin,et al.Technology effect phrase extraction in Chinese patent abstracts[C]//Web Technologies and Applications,Lecture Notes in Computer Science.2014,8709:141-152.

      [9]Bharti Kusum Kumari,Singh Pramod Kumar.Hybrid dimension reduction by integrating feature selection with feature extraction method for text clustering[J].Expert Systems with Applications,2015,42(6):3105-3114.

      [10]吳薇.大規(guī)模短文本的分類過(guò)濾方法研究[D].北京:北京郵電大學(xué),2007.

      [11]王鵬.文本分類中利用依存關(guān)系的實(shí)驗(yàn)研究[J].計(jì)算機(jī)工程,2010,46(3):131-133.

      [12]王細(xì)薇.基于特征擴(kuò)展的中文短文本分類方法[J].計(jì)算機(jī)應(yīng)用,2009,29(3):843-845.

      [13]胡吉祥.基于頻繁模式的消息文本聚類研究[D].北京:中科院研究生院,2006.

      [14]寧亞輝.基于領(lǐng)域詞語(yǔ)本體的短文本分類[J].計(jì)算機(jī)科學(xué),2009,36(3):142-145.

      [15]盛宇利.自然語(yǔ)言理解心理學(xué)在短文本分類中的實(shí)證研究[J].現(xiàn)代情報(bào),2009,29(8):4-7.

      [16]桂卓民.基于事件的多文檔自動(dòng)文摘系統(tǒng)的研究[D].武漢:華中師范大學(xué),2010.

      [17]馮琴榮,苗奪謙,程昳.決策表屬性約簡(jiǎn)的相對(duì)劃分粒度表示[J].小型微型計(jì)算機(jī)系統(tǒng),2008,29(12):2305-2308.

      猜你喜歡
      后綴過(guò)濾器語(yǔ)料
      支持過(guò)濾器的REST模型研究與實(shí)現(xiàn)
      聲音過(guò)濾器
      基于語(yǔ)料調(diào)查的“連……都(也)……”出現(xiàn)的語(yǔ)義背景分析
      河北霸州方言后綴“乎”的研究
      TalKaholic話癆
      說(shuō)“迪烈子”——關(guān)于遼金元時(shí)期族名后綴問(wèn)題
      華語(yǔ)電影作為真實(shí)語(yǔ)料在翻譯教學(xué)中的應(yīng)用
      一種基于后綴排序快速實(shí)現(xiàn)Burrows-Wheeler變換的方法
      《苗防備覽》中的湘西語(yǔ)料
      國(guó)內(nèi)外語(yǔ)用學(xué)實(shí)證研究比較:語(yǔ)料類型與收集方法
      博白县| 揭西县| 渝中区| 绥宁县| 普定县| 永仁县| 项城市| 威宁| 军事| 象州县| 镇雄县| 闵行区| 陆河县| 格尔木市| 武功县| 尉犁县| 辉县市| 通城县| 磐安县| 万山特区| 潼南县| 岳池县| 秦皇岛市| 镇坪县| 凭祥市| 贵德县| 镇安县| 永州市| 华容县| 弥勒县| 慈利县| 河津市| 大渡口区| 万山特区| 宜宾市| 南宫市| 萨嘎县| 冀州市| 日照市| 静安区| 西青区|