• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于粒度商空間下的話題識別與跟蹤研究

      2019-12-03 16:06:06毛建景張君君
      計算機技術(shù)與發(fā)展 2019年7期
      關(guān)鍵詞:論域粒度文檔

      毛建景,張君君

      (鄭州工業(yè)應(yīng)用技術(shù)學院 信息工程學院,河南 鄭州 451150)

      0 引 言

      隨著網(wǎng)絡(luò)媒體技術(shù)的發(fā)展,大多社會熱點源于網(wǎng)絡(luò)輿論,對社會輿情的分析也從傳統(tǒng)的機械裝置逐漸過渡到網(wǎng)絡(luò)媒體,網(wǎng)絡(luò)輿情分析是社會輿情分析的重要途徑。

      如何挖掘出有效的社會熱點或敏感問題,以促進網(wǎng)絡(luò)監(jiān)管能力,就成為網(wǎng)絡(luò)輿情分析的主要研究內(nèi)容[1]。話題識別作為信息跟蹤與處理的主要研究技術(shù),其識別精度和準確判斷直接影響識別效度。當前,對話題識別的主要研究方式之一就是聚類分析。常用的聚類分析方法有劃分聚類法、密度聚類法、層次聚類法、網(wǎng)格聚類法、模型聚類法等。常用的聚類策略大多采用硬聚類,然而硬聚類過程容易造成話題結(jié)構(gòu)的混亂,降低了邊界文本識別度及準確度。

      1 國內(nèi)外研究現(xiàn)狀及研究任務(wù)

      1.1 研究現(xiàn)狀

      話題識別與跟蹤技術(shù)作為輿情分析的主要技術(shù)[2],參與研究的技術(shù)人員越來越多,其研究范圍也從傳統(tǒng)的普通Web頁面,逐步擴展到微博、博客、新聞Web、Facebook、論壇等。由于媒體渠道不同,關(guān)于話題識別與跟蹤技術(shù)的研究方法也存在爭議。目前,國內(nèi)外都進行了大量的理論和實踐研究。例如,劉倩等對基于情感Ontology的資源分析,利用詞匯特征抽取的方式對文本的傾向性進行分析[3];史仁仁等提出了周期分類的概念,利用Single-Pass聚類算法,完成對網(wǎng)絡(luò)輿情的分析與研究;周丹晨采用WordNet,利用上下文本信息同時構(gòu)造設(shè)計出小靈通定位系統(tǒng)(LSC),基于該系統(tǒng)的文本信息描述采用單向路徑的聚類算法用以解決對新出現(xiàn)事件的檢測問題。

      1.2 研究任務(wù)

      文中以網(wǎng)絡(luò)話題識別研究為目的,采用軟聚類算法,首先計算出距離函數(shù)dis(α,β),并通過與半徑di的比較,在相容商空間粒度下,實現(xiàn)對文檔信息的反復(fù)分析、連續(xù)分解和不斷合成,以同步達到聚類重心點集合的形成;其次,利用基于隸屬度函數(shù)的容度決策理論,即函數(shù)μ(Xj,X)=|I(Xj)∩X|/I(Xj),測量出邊界文本發(fā)生的可能性概率,從而確認具有明確話題標注的信息[4]。通過該方法,可以實現(xiàn)對話題的識別、話題容錯、精度確認及話題的跟蹤研究,也可有效解決細粒度劃分和情感分類等知識共享問題。這些研究在后續(xù)文本趨勢分析中有重要的理論意義和廣闊的應(yīng)用前景。

      1.3 話題識別與跟蹤技術(shù)概述

      (1)概念。話題識別與跟蹤(TDT),包括話題識別和跟蹤。該技術(shù)的出現(xiàn)源于網(wǎng)絡(luò)信息爆炸下衍生的新問題,目的是解決在線媒體信息流中對話題的識別和跟蹤問題[5]。(2)作用。該技術(shù)可以識別和跟蹤某一特定環(huán)境下發(fā)生的事情,更能拓展到相關(guān)外延事件,從而將話題識別與跟蹤的研究領(lǐng)域跨越到對突發(fā)事件甚至“未然態(tài)”信息的處理。與其相關(guān)的定義包括事件(Event)、活動(Activity)、話題(Topic)及報道。

      (3)任務(wù)。話題識別與跟蹤主要完成:對新聞報道的切分,也就是將稿件劃分成獨立模塊;對于第一次出現(xiàn)新的報道的識別;Story Link Detection,即關(guān)聯(lián)性檢測,主要目的是檢測兩篇報道是否屬于同一話題;對話題的跟蹤,抽取某一特征集以進行匹配為主要任務(wù)[6]。

      (4)評價。常用的評價形式有評估矩陣,以矩陣形式計算話題的查全率和召回率。

      召回率公式為:R=a/(a+c)

      其中,a是系統(tǒng)判定屬于話題;c是系統(tǒng)判定不屬于話題。

      查全率公式為:F=a/(a+b)

      其中,a是系統(tǒng)判定屬于話題;b是系統(tǒng)判定不屬于話題。

      二者之比為調(diào)和平均值:p=2/(1/R+1/F)

      1.4 基于Ontology的情感分類體系

      基于Ontology的情感分類體系是通過詞匯語義[7-8],判別其相互之間的相似程度,從而為文本的傾向性提供分析依據(jù)。情感Ontology中的詞匯量的來源有多種途徑,其中主要來源于網(wǎng)絡(luò)數(shù)據(jù)庫,這些數(shù)據(jù)源是通過相似度計算為理論基礎(chǔ)。表達情感的詞匯通常只有正面和負面的詞匯。對于詞匯傾向性的計算,一般需要基于語義相似及情感深度[9]。語義相似度的計算公式為:

      Sim=μHsim(Ti)+(1-μ)0dis(Ti)

      其中,Hsim(Ti)是詞匯與情感Ontology的相似度計算;0dis(Ti)是詞匯在情感Ontology中的深度;μ為可調(diào)節(jié)參數(shù),且有0≤μ≤1。

      情感Ontology采用向量空間模型來表示文檔信息,通??梢詫⑽臋n表示成:Di={(Ti1,wi1),(Ti2,wi2),…,(Tin,win)},其中Tij(j=1,2,…,n)(Ti1,wi1)指的是文本中的詞匯,wij(j=1,2,…,n)指的是Tij所對應(yīng)的權(quán)重。在進行情感傾向分析時,一般分兩步完成:第一,過濾掉不相似的詞匯,需要利用相似度公式來完成;第二,對情感傾向性進行判斷和識別,該過程要通過分析模型中的權(quán)重進行判別。

      2 相關(guān)技術(shù)及基本原理

      2.1 相容商空間理論的粒度變換原理

      解決問題的過程可以用三元組(a,b,c)來表示,其中a表示所研究對象的通用名稱,也稱為論域,函數(shù)b表示從a到c的一個映射,c屬于論域的結(jié)構(gòu),反映a中各元素之間相互存在的關(guān)系。在對(a,b,c)的分析和求解過程中,主要是指對論域a及其相關(guān)結(jié)構(gòu)和屬性的分析以及研究計算。當從不同的粒度進行分析和處理問題時[10],將最細的粒度看作為a,然后以粗角度分析并以某種方式簡化它,對于特征性質(zhì)相近的作為等價處理。最后,整體作為一個元素構(gòu)成一個新的域,也是最大的粒度,稱之為[A],并將之前的(a,b,c)轉(zhuǎn)化成[A,B,C]。在簡化元組的過程中,仿照數(shù)學中商集的概念,把不同粒度世界的世界模型稱為相容商空間[11]。此時,用(a,b,c)對一個問題進行描述,并在其論域上引入等價關(guān)系T,對應(yīng)于T的商集[A]作為一個新的論域。在進行分析研究時,對待不同的問題就可以表述成不同的粒度世界,這樣就達到了簡化問題、解決問題的目的。相容商空間因其強大的表達能力[12],既可以對多種函數(shù)進行定義,又可以對論域中的不同元素進行描述,從而分析出不同元素之間的關(guān)系以及結(jié)構(gòu)和運算等。

      2.2 相容商和粒度計算的基本簡介

      粒度計算是一種涵蓋所有關(guān)于粒度基本理論方法、相關(guān)技術(shù)及研究工具的新的概念和計算公式。其應(yīng)用領(lǐng)域主要是分析和處理無法確定和不完整的模糊信息[4],屬于軟計算科學的一個分支。

      相容商空間:假設(shè)(X,Y)屬于拓撲空間,其中Y是X的拓撲。假設(shè)T是X上的等價關(guān)系,則可以計算X相應(yīng)的商集,稱為[X]。然后,假設(shè)在[X]的定義上,將T值誘導(dǎo)計算出來,稱為[T]。則([X],[Y])都是商集的拓撲空間。

      假設(shè)R是相容的,若x,y∈(X,Y)并且x

      2.3 相容商空間粒度原理

      2.3.1 不同相容商空間粒度的獲取

      定義1:令[X]={x|Ix∈X},其中[X]是與相容關(guān)系I相關(guān)的相容商空間。根據(jù)公式中的關(guān)系定義,可以計算出距離函數(shù)。假設(shè)a,b,c都是論域X中的三個向量,那么dis(a,b)就是一個距離函數(shù)關(guān)系。作為距離函數(shù),dis(a,b)滿足以下特征:

      (1)dis(a,b)≥0;

      (2)dis(a,a)=0;

      (3)dis(a,b)=dis(b,a);

      (4)dis(a,b)≤dis(a,c)+dis(b,c)。

      根據(jù)上述條件可以得知,dis(a,b)≤d就是一個相容關(guān)系,其中也要滿足條件d≥0,也可將d稱之為函數(shù)dis(a,b)的半徑。

      根據(jù)上述條件公式得出,相容關(guān)系I與距離函數(shù)dis(a,b)≤d之間就形成了一種一對一的對應(yīng)關(guān)系。

      定義2:假設(shè)I1和I2∈I,那么對于任意x,y∈X,都有xI2y?xI1y,則稱相對I2,I1更細,表示為I1

      根據(jù)定義2,獲得n層層次結(jié)構(gòu)對應(yīng)的n個相應(yīng)的相容關(guān)系的序關(guān)系:

      I0

      可以通過以上相容序關(guān)系及距離函數(shù)獲得n層層次結(jié)構(gòu),其距離半徑有如下序關(guān)系:

      d0>d1>…>dn>0

      設(shè)Ii對應(yīng)的相容商集為[X]i(i=0,1,…,n),則不同層次的粒度論域集有如下的相容序關(guān)系:

      [X]0<[X]1<…<[X]n

      根據(jù)不同級別層次的粒度論域集的相容序關(guān)系,可以得到不同相容商空間的粒度。

      定義3:假設(shè)IS=(U,A)是一種信息系統(tǒng),X,Y?A,則:

      (1)若x→y,則dis(X)≥dis(Y);

      (2)若x?y,則dis(X)=dis(Y)。

      由此可以得出,如若X,Y?A,則有y→x,從而得出A屬于子集,隨著屬性的增加,粒度不斷減小,則表明分辨率在不斷增加。

      定義4:?x∈X,令[x]={y|(x,y)∈I},稱為[x]的相容類。

      2.3.2 相容商空間粒度下的軟聚類原理

      (1)在所有數(shù)據(jù)中,選取最初始的T個樣本Y={X1,X2,…,Xt}表示樣本的重心點數(shù)據(jù)的所有集合,同時dn仍舊表示相容空間的距離半徑。

      (2)通過計算dis(Xa,Xb),a∈(1,2,…,t),b∈(1,2,…,t),就能夠得出dis(Xa,Xb)和d0之間存在的關(guān)系。

      (3)通過dis(Xa,Xb)≤d0,就可以計算出原來所有樣本和重心之間的距離,還能夠與距離半徑進行比較。

      (4)充分利用相容商空間粒度分析法,對通過軟聚類計算得到樣本重心點之間的距離調(diào)整進行反復(fù)分析比對[14]。在實際的計算解答中,也可以采用合并求解法對粒度之間的關(guān)系進行調(diào)整,還能夠?qū)崿F(xiàn)結(jié)構(gòu)層次的劃分。

      (5)對于邊界距離dis(Xa,Xb)=da,則表示X值在兩個結(jié)構(gòu)中都同時存在,利用任何一個結(jié)構(gòu)公式都可以進行解答計算,通過不斷的反復(fù)解答計算,就可以得出軟聚類的結(jié)果。

      通過不斷的分析和計算,就可以得出距離函數(shù)和相容關(guān)系之間一對一的對應(yīng)關(guān)系,也可以解決話題層次和不確定邊界存在的一些問題。

      2.4 相容商空間粒度下的軟聚類設(shè)計

      本節(jié)提供了話題識別和跟蹤的算法基礎(chǔ)。相容商空間粒度的確定是連續(xù)不斷地分析、比較和調(diào)整樣本重心點集的過程。在軟聚類設(shè)計時,通過合并和分解來調(diào)整粒度[15],以實現(xiàn)層次結(jié)構(gòu)的明確劃分;利用相容隸屬函數(shù)確定邊界。基本路線:(1)選取初始k個樣本X={X1,X2,…,Xk}作為樣本的重心點集合,并以d0作為相容距離的半徑;(2)計算相容距離函數(shù)dis(Xi,Xj),i∈(1,2,…,n),j∈(1,2,…,n),判斷dis(Xx,Xy)與d0的關(guān)系;(3)當dis(Xi,Xj)

      2.5 話題識別與跟蹤

      (1)文檔向量空間降維。解析Web語料庫中的XML文檔集并將其表示為向量空間模型D={D1,D2,…,Dr}(Di為向量空間,i為第i篇文檔)。Di={(Ti1,wi1),(Ti2,wi2),…,(Tim,wim),…},wij表示詞匯權(quán)重值,指的是文檔信息Di中第j個詞匯的權(quán)重。由于某些詞匯與話題關(guān)聯(lián)度不高或詞頻較低,影響話題分析的精度[16],因此需對向量空間降維,抽取與已知話題關(guān)聯(lián)度高的詞匯和高頻詞匯,形成n維文檔向量空間集D={D1,D2,…,Dr},其中Di={(Ti1,wi1),(Ti2,wi2),…,(Tim,wim),…}(n

      (2)話題層次劃分與不確定話題邊界確定。采用軟聚類算法對目標文檔M進行識別。經(jīng)過識別后會形成一個層次話題集,即TP={tp1,tp2,…,tps}。在聚類過程中,動態(tài)地形成向量集C={c1,c2,…,cs},其被稱為話題重心點向量集。

      (3)話題標題解析。把重心點向量集反饋到預(yù)處理的XML文檔集,解析重心向量集得到標題信息,作為話題標題,形成帶有標題、具有層次的話題集TP={(tp1,name1),(tp2,name2),…,(tps,names)}。根據(jù)話題tpi中的所有文檔向量集tpi={di1,di2,…,dic}(0

      (4)新報道向量空間軟聚類與話題節(jié)點信息更新。根據(jù)層次話題集TP中的文檔向量集tpi={mi1,mi2,…,min},對Web語料文檔集中跟話題節(jié)點相關(guān)的標注信息進行修改更新。確定話題識別后,需要動態(tài)跟蹤,并在話題監(jiān)督下完成該過程。

      對話題集TP={(tp1,name1),(tp2,name2),…,(tps,names)}和重心點向量集C={c1,c2,…,cs},利用軟聚類算法對新報道向量空間V進行分類。

      第一步,計算向量空間V與文檔重心點集距離函數(shù)dis(F,C);第二步,根據(jù)以上距離函數(shù)的結(jié)果,與相關(guān)的距離半徑dr進行比較,準確地得出V所屬的類別。如果獲得的距離函數(shù)結(jié)果大于距離半徑,則使用向量空間V為重心點,作為新話題加入新層次話題集:TP={(tp1,name1),(tp2,name2),…,(tps,names),(F,namef)},同時,更新Web語料庫中文本文檔話題節(jié)點的標注信息。

      3 結(jié)束語

      在相容商空間中,粒度計算可以基于原始的知識來變換和分析各種子集。在以不同層次粒度上的論域、結(jié)構(gòu)和屬性對待同一問題進行遞進求解時,就可以利用商空間中細粒度和粗粒度之間的保真性定理執(zhí)行空間層次結(jié)構(gòu)的反復(fù)推理和計算,最終得出結(jié)果,這種計算方式很大程度上降低和簡化了問題在求解過程中的難度。

      猜你喜歡
      論域粒度文檔
      粉末粒度對純Re坯顯微組織與力學性能的影響
      有人一聲不吭向你扔了個文檔
      基于變論域模糊控制的Taylor逼近型內(nèi)模PID算法
      基于矩陣的多粒度粗糙集粒度約簡方法
      變論域自適應(yīng)模糊PID控制系統(tǒng)仿真與應(yīng)用
      基于粒度矩陣的程度多粒度粗糙集粒度約簡
      基于RI碼計算的Word復(fù)制文檔鑒別
      雙論域粗糙集在故障診斷中的應(yīng)用
      微生物燃料電池的變論域自適應(yīng)模糊控制研究
      Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
      海丰县| 安康市| 永安市| 新野县| 哈密市| 高陵县| 福海县| 新建县| 广饶县| 永兴县| 龙州县| 福泉市| 陕西省| 高密市| 孟州市| 郑州市| 郎溪县| 林甸县| 杭锦后旗| 嘉黎县| 蓬安县| 石首市| 正宁县| 鄂尔多斯市| 文昌市| 金溪县| 溧水县| 洛宁县| 方山县| 昂仁县| 淮南市| 萨嘎县| 宝坻区| 大埔县| 黎城县| 平远县| 古浪县| 旌德县| 云霄县| 澄江县| 高雄县|