武文英+熊才權(quán)+余高峰+李元+甘聲穩(wěn)
摘要:研討系統(tǒng)會(huì)產(chǎn)生大量的專(zhuān)家發(fā)言文本信息,對(duì)發(fā)言文本進(jìn)行聚類(lèi)分析并可視化展現(xiàn)聚類(lèi)結(jié)果,可以引導(dǎo)專(zhuān)家思維,提高研討效率。提出一種基于聚類(lèi)的研討文本分析及可視化方法。首先對(duì)專(zhuān)家發(fā)言文本進(jìn)行分詞,提取專(zhuān)家發(fā)言文本向量;再采用聚類(lèi)算法對(duì)專(zhuān)家發(fā)言文本進(jìn)行聚類(lèi)分析,得到不同發(fā)言簇;最后在基于Web的研討系統(tǒng)中實(shí)現(xiàn)研討文本聚類(lèi),并采用D3方法對(duì)聚類(lèi)結(jié)果進(jìn)行可視化展現(xiàn)。實(shí)驗(yàn)結(jié)果表明,該方法能有效展現(xiàn)專(zhuān)家發(fā)言之間的相似性和聚集度,引導(dǎo)專(zhuān)家思維收斂并達(dá)成共識(shí)。關(guān)鍵詞:研討支持系統(tǒng);發(fā)言文本;文本聚類(lèi);可視化DOI:10.11907/rjdk.171214中圖分類(lèi)號(hào):TP301文獻(xiàn)標(biāo)識(shí)碼:A(文章編號(hào))文章編號(hào):16727800(2017)0040014040引言 研討是一種基于言語(yǔ)的群體交互行為,通過(guò)研討可以消除分歧,從而達(dá)成共識(shí)。群體研討系統(tǒng)[1]是一種計(jì)算機(jī)支持研討工具,它支持研討人員在線(xiàn)發(fā)表自己的觀點(diǎn),并顯示研討進(jìn)程和共識(shí)達(dá)成狀態(tài)。群體研討環(huán)境的開(kāi)發(fā)涉及研討模型及共識(shí)達(dá)成算法、研討過(guò)程控制和研討結(jié)果可視化展示及利用等理論和技術(shù)問(wèn)題,其中研討模型及共識(shí)達(dá)成算法則是最重要的研究?jī)?nèi)容,它決定了系統(tǒng)能否自動(dòng)得出研討結(jié)果。目前,對(duì)研討模型的研究大都基于抽象辯論理論,即把專(zhuān)家發(fā)言抽象為一個(gè)結(jié)點(diǎn),而不考慮發(fā)言的內(nèi)容。如文獻(xiàn)[2]根據(jù)發(fā)言結(jié)點(diǎn)之間的攻擊和支持關(guān)系確定發(fā)言結(jié)點(diǎn)的可接受性,文獻(xiàn)[3]~[5]則對(duì)發(fā)言結(jié)點(diǎn)或發(fā)言之間的響應(yīng)強(qiáng)度賦予量化值,再根據(jù)這些量化值求得發(fā)言結(jié)點(diǎn)的共識(shí)值。事實(shí)上,群體共識(shí)隱藏在專(zhuān)家發(fā)言之中,對(duì)發(fā)言文本內(nèi)容進(jìn)行分析處理是提取群體共識(shí)的重要手段。目前對(duì)發(fā)言文本分析已有諸多研究,如白冰等[6]提出了一種基于主題聚類(lèi)的熱點(diǎn)提取方法,先對(duì)專(zhuān)家發(fā)言進(jìn)行聚類(lèi)分析,得到不同的聚類(lèi)簇,每個(gè)聚類(lèi)簇對(duì)應(yīng)一個(gè)主題,再?gòu)木垲?lèi)簇中提取熱門(mén)話(huà)題。唐錫晉等[7]提出用對(duì)偶刻度法對(duì)專(zhuān)家發(fā)言關(guān)鍵詞進(jìn)行聚類(lèi)分析,形成專(zhuān)家與觀點(diǎn)關(guān)鍵詞之間的映射關(guān)系,以激勵(lì)成員產(chǎn)生聯(lián)想,形成創(chuàng)意。李欣苗等[8]針對(duì)開(kāi)放式團(tuán)隊(duì)創(chuàng)新研討的短文本特征,運(yùn)用AntSA算法對(duì)研討文本進(jìn)行聚類(lèi)分析,識(shí)別每個(gè)類(lèi)別的研討主題并展示給成員,從而激發(fā)成員的創(chuàng)新思維。本文在以上研究的基礎(chǔ)上,采用一種基于中心點(diǎn)的聚類(lèi)算法對(duì)研討發(fā)言文本進(jìn)行分析,并采用基于D3的Web可視化技術(shù)對(duì)聚類(lèi)結(jié)果進(jìn)行展現(xiàn)。這種方法的主要特色是在給定文本相似度閾值的前提下,得到若干個(gè)文本子集,同一個(gè)子集中的文本內(nèi)容具有一定的相似性,而不同子集之間的文本內(nèi)容差異較大,調(diào)整文本相似度閾值可以得到不同的聚類(lèi)結(jié)果,便于專(zhuān)家從不同角度觀察發(fā)言之間的相似性,從而幫助專(zhuān)家分析發(fā)言?xún)?nèi)容,促進(jìn)研討達(dá)成共識(shí)。 1研討文本分析1.1研討文本預(yù)處理 研討文本是一種無(wú)結(jié)構(gòu)的數(shù)據(jù),需要將它們轉(zhuǎn)化成計(jì)算機(jī)能處理的數(shù)據(jù)。預(yù)處理的關(guān)鍵操作是對(duì)文本中的詞語(yǔ)進(jìn)行切分,將連續(xù)的一句話(huà)分成無(wú)依賴(lài)關(guān)系并且按一定規(guī)則排列的單個(gè)詞語(yǔ),然后過(guò)濾掉它們中的無(wú)關(guān)詞組,從而獲取一個(gè)文本特征詞的集合,最后按照停用詞表中的詞語(yǔ)將語(yǔ)料中對(duì)文本內(nèi)容識(shí)別意義不大但出現(xiàn)頻率很高的詞、符號(hào)、標(biāo)點(diǎn)及亂碼等去掉。其處理流程如圖1所示。1.2文本特征詞權(quán)重確定及文本向量生成1.2.1文本特征項(xiàng)選擇與加權(quán) 首先根據(jù)研討內(nèi)容及相關(guān)領(lǐng)域知識(shí)建立特征詞庫(kù),標(biāo)識(shí)每個(gè)詞的權(quán)重,再根據(jù)文本內(nèi)容利用TFIDF[10]方法確定特征詞的權(quán)重。詞頻(term frequency,TF)是指某一個(gè)給定的詞語(yǔ)在該文本中出現(xiàn)的頻率。這個(gè)數(shù)值是對(duì)詞的個(gè)數(shù)(term count)的歸一化,以防止它偏向長(zhǎng)的文本。對(duì)于在某一特定文本dj中的詞ti來(lái)說(shuō),它的重要性可表示為:tfij=(ni,j∑knk,j,其中ni,j是指ti在dj中出現(xiàn)的次數(shù),而∑knk,j是dj中詞的總數(shù)。逆向文本頻率(inverse document frequency,IDF)是對(duì)一個(gè)詞語(yǔ)普遍重要性的度量。某一個(gè)特定詞的逆向文本頻率可以由總文本數(shù)目除以包含該詞語(yǔ)的文本的個(gè)數(shù),其公式可以表示為:idfi=log(|D||{j:ti∈dj}|,其中D={d1,…,dn}是文本集,|D|是文本集中文本的個(gè)數(shù),|{j:ti∈dj}|是指包含ti的文本的個(gè)數(shù)。如果該詞語(yǔ)不在文本集中,即ti未在任意一個(gè)文本中出現(xiàn),就會(huì)導(dǎo)致分母為零,因此一般的處理方法是將其設(shè)為:|{j:ti∈dj}|+1。那么,TFIDF可以表示為:TF-IDF=tfij×idfi,其主要作用是過(guò)濾掉常見(jiàn)的詞語(yǔ),保留重要的詞語(yǔ)。1.2.2向量空間模型VSM 向量空間模型(Vector space model)[11]就是把文本內(nèi)容轉(zhuǎn)化為相應(yīng)的文本向量,通過(guò)計(jì)算文本向量之間的相似性來(lái)度量文檔間的相似性。常用的文本向量相似性度量方式是余弦距離。文檔用較簡(jiǎn)單的向量表示,簡(jiǎn)化了文本中關(guān)鍵詞之間的復(fù)雜關(guān)系,使得文本分析具備了可計(jì)算性。這個(gè)算法的基本思想是:在含有n個(gè)研討文本的集合中,先將文本集合中的每個(gè)文本單獨(dú)作為一個(gè)簇,取各自的中心點(diǎn)向量,對(duì)簇集中兩兩簇的中心點(diǎn)向量進(jìn)行相似度計(jì)算處理,從長(zhǎng)度為(n×(n-1))/2的結(jié)果集中選出最大的相似度值所對(duì)應(yīng)的兩個(gè)簇。若該最大相似度值大于或等于閾值f,則將這兩個(gè)簇合并為一個(gè)新的簇,計(jì)算其中心點(diǎn)向量,并對(duì)簇集進(jìn)行更新,然后再對(duì)簇集中的兩兩簇的中心點(diǎn)向量進(jìn)行相似度計(jì)算處理,直至簇集中簇的中心點(diǎn)向量的最大相似度值小于閾值f,此時(shí)說(shuō)明所有文本之間的相似度都不滿(mǎn)足要求,各自成為一簇。該算法主要是基于中心點(diǎn)向量來(lái)進(jìn)行聚類(lèi)分析,每獲取一個(gè)新的簇,都要取其中心點(diǎn)并對(duì)更新后的簇集重新進(jìn)行相似度值的計(jì)算處理,因而算法的時(shí)間復(fù)雜度為O(n2)。2實(shí)例分析結(jié)果 為了驗(yàn)證本文中提出的研討系統(tǒng)中的發(fā)言文本聚類(lèi)分析方法的有效性和可行性,對(duì)已經(jīng)計(jì)算出相似度、關(guān)鍵詞及其詞頻的研討文本建立相關(guān)視圖,并采用基于D3的Web可視化技術(shù)對(duì)研討結(jié)果進(jìn)行展現(xiàn),以更直觀的方式幫助專(zhuān)家理解研討結(jié)果。為了測(cè)試其結(jié)果有效性,本文團(tuán)隊(duì)以“大學(xué)生暑期計(jì)劃如何安排”為話(huà)題展開(kāi)研討。團(tuán)隊(duì)共有9名同學(xué)參與了此次研討,這9個(gè)同學(xué)分別對(duì)應(yīng)大學(xué)的不同階段,并就自己的暑期計(jì)劃進(jìn)行發(fā)言。把這9名同學(xué)的發(fā)言信息收集整理成了9篇文檔,并將文檔以發(fā)言的主體內(nèi)容進(jìn)行命名,如圖2所示,暑期計(jì)劃可以分為旅游(出國(guó)游和國(guó)內(nèi)游)、實(shí)習(xí)(公司和學(xué)校實(shí)習(xí))、在家(考研復(fù)習(xí)、健身、務(wù)農(nóng))和備考公務(wù)員4類(lèi)。本次實(shí)驗(yàn)通過(guò)調(diào)整閾值的方式來(lái)實(shí)現(xiàn)文本聚類(lèi)的多種結(jié)果,然后通過(guò)與人為判斷的預(yù)期結(jié)果進(jìn)行比較來(lái)分析聚類(lèi)的有效性和可行性。圖2是選出的9個(gè)作為本次聚類(lèi)的實(shí)驗(yàn)文檔樣本,并利用本文的基于中心點(diǎn)的聚類(lèi)算法進(jìn)行聚類(lèi)。圖3~圖6展示了不同相似度閾值對(duì)聚類(lèi)結(jié)果的影響。當(dāng)閾值為0.01時(shí)說(shuō)明對(duì)文本的區(qū)分度要求很低,所以9個(gè)文本聚在一起,表明各個(gè)文本內(nèi)容在主題上具有相似性。但隨著閾值的逐漸升高,聚類(lèi)效果也逐步提升。當(dāng)閾值在0.11附近時(shí)達(dá)到一個(gè)相對(duì)較好的聚類(lèi)效果,此時(shí)旅游、實(shí)習(xí)、在家和備考公務(wù)員剛好各自歸為一類(lèi),與預(yù)期結(jié)果保持一致。但當(dāng)閾值調(diào)整到0.35附近時(shí),發(fā)現(xiàn)出國(guó)游和國(guó)內(nèi)游分開(kāi)了,“在家的不同計(jì)劃”也各自歸為一類(lèi),雖然實(shí)習(xí)類(lèi)沒(méi)有任何變化,但結(jié)合文本內(nèi)容來(lái)看,實(shí)習(xí)內(nèi)容有較多相似之處。這是因?yàn)殡S著閾值提高,文本之間的區(qū)分度也逐漸變大,需要參考的文本內(nèi)容也越來(lái)越多,關(guān)鍵詞個(gè)數(shù)增多也會(huì)相應(yīng)地導(dǎo)致相似度降低,這顯然是合乎常理的。當(dāng)閾值在0.5及其以上時(shí),發(fā)現(xiàn)各個(gè)文本獨(dú)自為一類(lèi),說(shuō)明文本之間的相似度已經(jīng)不滿(mǎn)足閾值了。從以上結(jié)果分析可以看出,本文提出的研討系統(tǒng)中的文本聚類(lèi)方法具有較強(qiáng)的有效性和可行性。3結(jié)語(yǔ) 本文主要研究研討系統(tǒng)中發(fā)言文本的聚類(lèi)方法,采用了一種基于中心點(diǎn)的聚類(lèi)算法,對(duì)發(fā)言文本的相似性進(jìn)行了分析并可視化展示聚類(lèi)結(jié)果。這種方法主要是在給定相似度閾值的前提下,得到若干個(gè)子集,同一個(gè)子集中的文本內(nèi)容具有一定相似度,而不同子集之間的文本差異比較大。從另一個(gè)角度來(lái)說(shuō),文本聚類(lèi)結(jié)果的顯示是依據(jù)文本相似度值反映的,通過(guò)對(duì)文本相似度進(jìn)行計(jì)算分析,用不同顏色標(biāo)識(shí)文本中出現(xiàn)的不同特征詞及其頻率,并用柱狀圖來(lái)反映詞頻之間的差異,從而使用戶(hù)對(duì)測(cè)試文本有一個(gè)主觀上的評(píng)判,為進(jìn)一步研討提供很好的參考。不同專(zhuān)家的發(fā)言文本也可以通過(guò)同心圓的形式表示,由此反映研討文本的觀點(diǎn)的趨勢(shì),有利于專(zhuān)家對(duì)自己的文本主體內(nèi)容進(jìn)行反思與完善,使得專(zhuān)家思維收斂速度更快,加快研討進(jìn)程,對(duì)促進(jìn)專(zhuān)家思維一致性具有很好的導(dǎo)向效果。但是,此算法仍然存在一些不足,由于語(yǔ)義分析方面不夠強(qiáng)大,對(duì)于文本中的同義詞識(shí)別的敏感度不是特別高,加上語(yǔ)料庫(kù)、停用詞庫(kù)等的規(guī)模都比較小,對(duì)將要進(jìn)行聚類(lèi)的文本的過(guò)濾處理不夠完善,從而導(dǎo)致詞頻統(tǒng)計(jì)中詞匯有點(diǎn)冗余,對(duì)文本內(nèi)容關(guān)鍵詞的提取數(shù)量有一定影響,從而對(duì)文本向量的維度以及相似度的計(jì)算結(jié)果產(chǎn)生了一定的影響。這將是后續(xù)進(jìn)一步完善的方向。參考文獻(xiàn):[1]唐錫晉, 劉怡君. 有關(guān)社會(huì)焦點(diǎn)問(wèn)題的群體研討實(shí)驗(yàn)——定性綜合集成的一種實(shí)踐[J]. 系統(tǒng)工程理論與實(shí)踐,2007(3):4249.[2]熊才權(quán), 李德華. 一種研討模型[J]. 軟件學(xué)報(bào),2009,20(8):21812190.[3]RAGO A, TONI F, AURISICCHIO M,et al.Discontinuityfree decision support with quantitative argumentation debates[J].AAAI Press,2016(23):6373.[4]BARONI P, ROMANO M, TONI F, et al. Automatic evaluation of design alternatives with quantitative argumentation[J]. Argument & Computation. 2015,6(1): 2449.[5]ARVAPALLY R S, LIU X. Collective assessment of arguments in an online intelligent argumentation system for collaborative decision support[C]. Collaboration Technologies and Systems (CTS), 2013 International Conference on, 2013: 411418.[6]白冰,李德華,熊才權(quán).研討支持系統(tǒng)中基于主題聚類(lèi)的熱點(diǎn)提取[J].計(jì)算機(jī)與數(shù)字工程,2010,38(11):8185.[7]唐錫晉,劉怡君.從群體支持系統(tǒng)到創(chuàng)造力支持系統(tǒng)[J].系統(tǒng)工程理論與實(shí)踐,2006,26(5):6371.[8]FOX J, GLASSPOOL D, GRECU D, et al. Argumentationbased inference and decision makingA medical perspective[J]. IEEE Intelligent Systems,2007,22(6): 3441.[9]熊才權(quán), 李德華, 張玉. 研討廳專(zhuān)家意見(jiàn)聚類(lèi)分析及其可視化[J].模式識(shí)別與人工智能,2009,22(2): 282287.[10]VAN GELDER T.Enhancing deliberation through computer supported argument visualization[M].Visualizing Argumentation: Software Tools for Collaborative and Educational SenseMaking,London:Springer London,2003:97115.[11]BARNES E, LIU X. Textbased clustering and analysis of intelligent argumentation data[C].26th International Conference on Software Engineering and Knowledge Engineering, SEKE,2014.(責(zé)任編輯:陳福時(shí))Abstract:The webbased argumentation support system(WASS) will produce a large number of experts speech texts. Clustering analysis for speech texts and visualizing the clustering results can not only guide experts' thinking but also improve the efficiency of argumentation. In this paper, a method of text clustering and visualization for WASS is proposed. First, the speeches text is segmented and the text vector is extracted. Then clustering algorithm is used to cluster the experts' speeches and get different text clusters. Finally, the proposed method is realized in WASS, and the D3based method is used to visualize the clustering results. The experimental results show that the method can achieve clustering and visualization of speech texts, thus improving the efficiency of the argumentation.Key Words: WebBased Argumentation Support System(WASS);Speech Text;Text Clustering;Visualizationendprint