徐靜 張文學(xué)
摘 要:運(yùn)用中文信息處理方法,從大量醫(yī)藥新聞報(bào)道中進(jìn)行有價(jià)值話題挖掘,為后續(xù)話題跟蹤提供訓(xùn)練測(cè)試文本。從醫(yī)藥新聞特點(diǎn)入手,使用輪廓系數(shù)評(píng)價(jià)法對(duì)k-means的聚類性能進(jìn)行評(píng)估,選取最佳聚類中心數(shù)。利用LDA對(duì)選取的最佳主題進(jìn)行提取,從而得到相應(yīng)的話題。輪廓系數(shù)評(píng)價(jià)法與k-means方法相結(jié)合,有助于從海量信息中篩選出有價(jià)值的話題。當(dāng)樣本量足夠大、聚類效果不好時(shí),人工標(biāo)記可在一定程度上改善聚類效果。
關(guān)鍵詞:醫(yī)藥新聞;k-means;LDA;話題發(fā)現(xiàn)
DOI:10. 11907/rjdk. 182740
中圖分類號(hào):TP319 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-7800(2019)005-0151-04
Abstract: By using the method of Chinese information processing, valuable topics are mined from a large number of medical news reports, and training test texts are provided for follow-up topic tracking. Starting from the characteristics of medical news, the clustering performance of K-means is evaluated by using contour coefficient evaluation method, and the optimal number of clustering centers is selected. Then we use LDA to extract the best topics and get the corresponding topics. The combination of contour coefficient evaluation method and K-means method is helpful to select valuable topics from mass information. When the sample size is large enough and the clustering effect is not good, artificial markers can improve the clustering effect to a certain extent.
Key Words: Medical News; k-means; LDA; Topic discovery
0 引言
大數(shù)據(jù)時(shí)代,藥品生產(chǎn)企業(yè)的藥品安全輿情動(dòng)態(tài)是企業(yè)決策的重要依據(jù),從網(wǎng)絡(luò)媒體發(fā)布的藥品安全事件、藥品安全監(jiān)管及藥品安全形勢(shì)等醫(yī)藥新聞報(bào)道中發(fā)現(xiàn)價(jià)值,進(jìn)行快速、準(zhǔn)確、有效的數(shù)據(jù)收集與分析具有重要意義。從海量網(wǎng)絡(luò)信息中發(fā)掘出有價(jià)值的藥品安全相關(guān)話題,給藥品生產(chǎn)企業(yè)提供決策引導(dǎo),需應(yīng)用話題發(fā)現(xiàn)技術(shù)。
話題發(fā)現(xiàn)技術(shù)集中在算法改進(jìn)及新聞分類語(yǔ)料利用兩個(gè)方面。路榮等[1]通過(guò)利用隱主題分析技術(shù)及混合聚類方法實(shí)現(xiàn)微博客中新聞話題的發(fā)現(xiàn),并通過(guò)實(shí)驗(yàn)驗(yàn)證算法的可行性;孫紅光等[2]通過(guò)改進(jìn)Single-Pass算法并以話題為粒度組織新聞信息,實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)新聞話題的發(fā)現(xiàn)。其改進(jìn)方法充分考慮了網(wǎng)絡(luò)新聞的實(shí)時(shí)性、特征詞不同位置的權(quán)重比例及話題的相似度計(jì)算3個(gè)方面,驗(yàn)證了改進(jìn)算法的準(zhǔn)確性及有效性;車?yán)俚萚3]通過(guò)融合新聞標(biāo)題、段落、文本語(yǔ)義等特征實(shí)現(xiàn)多特征融合的新聞話題發(fā)現(xiàn)模型;魏德志等[4]提出基于時(shí)間序列的熱點(diǎn)話題發(fā)現(xiàn)模型和算法,在改進(jìn)算法的基礎(chǔ)上以網(wǎng)頁(yè)內(nèi)容相似度和頁(yè)面鏈接分析為依據(jù),按照權(quán)重值大小獲取話題。鑒于藥品安全領(lǐng)域相關(guān)語(yǔ)料分析缺乏,話題發(fā)現(xiàn)技術(shù)是直接采用分類語(yǔ)料這一現(xiàn)狀,本文嘗試通過(guò)k-means方法對(duì)大量無(wú)標(biāo)記醫(yī)藥新聞進(jìn)行聚類分析,幫助藥品生產(chǎn)企業(yè)從醫(yī)藥新聞數(shù)據(jù)中識(shí)別出藥品生產(chǎn)市場(chǎng)發(fā)展動(dòng)態(tài)及重要政策方針等有價(jià)值信息,在進(jìn)行分類訓(xùn)練后對(duì)藥品生產(chǎn)企業(yè)關(guān)注的問(wèn)題進(jìn)行有效跟蹤,從而為企業(yè)相關(guān)決策提供有力的信息支撐。
1 話題發(fā)現(xiàn)流程
本文藥品安全話題發(fā)現(xiàn)框架如圖1所示,包含數(shù)據(jù)預(yù)處理、文本表示和話題發(fā)現(xiàn)技術(shù)3個(gè)部分。
1.1 數(shù)據(jù)預(yù)處理
在網(wǎng)站上采集到醫(yī)藥新聞?wù)Z料后,需要對(duì)這些原始新聞網(wǎng)頁(yè)信息進(jìn)行預(yù)處理,為后續(xù)文本聚類作準(zhǔn)備。數(shù)據(jù)預(yù)處理步驟如下:
(1)數(shù)據(jù)清洗。對(duì)采集到的網(wǎng)頁(yè)信息進(jìn)行噪聲數(shù)據(jù)清除[5],去掉網(wǎng)頁(yè)鏈接、重復(fù)數(shù)據(jù)、多余標(biāo)簽等無(wú)用信息,實(shí)現(xiàn)數(shù)據(jù)去噪目的,保留有效信息。
(2)預(yù)處理。是進(jìn)行自然語(yǔ)言處理的基本過(guò)程,包含中文分詞、停用詞過(guò)濾、詞性標(biāo)注3部分:①進(jìn)行中文分詞[6],即對(duì)文本內(nèi)容中的句子按照詞的含義進(jìn)行切分,是對(duì)文本內(nèi)容進(jìn)行處理的一項(xiàng)基礎(chǔ)性工作;②對(duì)停用詞進(jìn)行過(guò)濾[7],去除文本中的標(biāo)點(diǎn)符號(hào)及無(wú)意義的虛詞。文本中出現(xiàn)頻率很高的虛詞如冠詞、感嘆詞、介詞、連詞等,它們?cè)跇?gòu)建語(yǔ)法時(shí)并不能獨(dú)立承擔(dān)句子成分,沒(méi)有實(shí)在意義。去除這些虛詞,不僅可以減少對(duì)文本中有效信息的噪聲干擾,提高檢測(cè)精度,而且可以減輕算法開銷,降低后續(xù)處理難度;③對(duì)詞性進(jìn)行標(biāo)注[8],即對(duì)分詞后的每個(gè)詞匯確定詞性并標(biāo)注。通過(guò)詞性標(biāo)注可以消除歧義,強(qiáng)化單詞特征,保證句法分析的精確率。
由于中文分詞技術(shù)并不是本文重點(diǎn)研究?jī)?nèi)容,因此直接選用Python開發(fā)的中文分詞模塊——jieba分詞進(jìn)行文本預(yù)處理。jieba分詞具有開源性和靈活性,可以完成文本內(nèi)容的中文分詞和詞性標(biāo)注,并通過(guò)調(diào)用包含1 893個(gè)符號(hào)和詞的停用詞表剔除標(biāo)點(diǎn)符號(hào)及無(wú)意義的虛詞。語(yǔ)料庫(kù)預(yù)處理效果如表1所示。
1.2 文本表示
(1)特征選擇及權(quán)重計(jì)算。原始語(yǔ)料在經(jīng)過(guò)預(yù)處理后其維度得到有效降低,但由于詞、詞組和短語(yǔ)構(gòu)成的詞條數(shù)量眾多,存在很多無(wú)效詞,因此需要去掉無(wú)效詞構(gòu)造較為精簡(jiǎn)的特征空間。醫(yī)藥新聞文本中不同的詞對(duì)主題的貢獻(xiàn)度不同,需要根據(jù)重要程度賦予對(duì)應(yīng)權(quán)重。在進(jìn)行文本向量化之前,通過(guò)詞頻統(tǒng)計(jì)方法對(duì)預(yù)處理后文檔中詞語(yǔ)出現(xiàn)的頻數(shù)進(jìn)行統(tǒng)計(jì),并從中抽取出標(biāo)識(shí)性的特征詞,利用詞頻-逆文檔頻率[9](TF-IDF)方法得出詞向量的權(quán)重值。TF-IDF體現(xiàn)了詞語(yǔ)對(duì)文本的區(qū)分能力,過(guò)濾掉文本中出現(xiàn)頻率低和對(duì)聚類作用權(quán)重值較小的詞,使主要特征詞成為后續(xù)文本表示模型中有效的數(shù)據(jù)輸入。這樣既可以對(duì)特征進(jìn)行有效降維,又有助于提高聚類效率和精度 [10]。
(2)文本向量化。指既能將文本表示成計(jì)算機(jī)可以理解的形式,又能將文本描述的內(nèi)容進(jìn)行完整表示的模型。潛在狄利克雷分布模型(LDA)[11]認(rèn)為一篇文檔對(duì)應(yīng)多個(gè)主題,而每個(gè)主題又對(duì)應(yīng)著不同的詞,從而形成文檔-主題矩陣和主題-詞性矩陣。LDA是一種概率生成模型,可以將文檔集中的每一篇文檔主題按概率分布的形式給出[12]。
1.3 話題發(fā)現(xiàn)技術(shù)
1.3.1 k-means算法
k-means算法[13]是一種解決聚類問(wèn)題的典型無(wú)監(jiān)督學(xué)習(xí)算法,在處理無(wú)標(biāo)記數(shù)據(jù)集方面可以極大減少工作量。通過(guò)該算法可以找到無(wú)標(biāo)記數(shù)據(jù)集的模式特征,對(duì)不同數(shù)據(jù)所屬類型進(jìn)行分類。k-means聚類的輸入是一組無(wú)標(biāo)記樣本,在堅(jiān)持組內(nèi)距離最小化和組間距離最大化原則下,根據(jù)數(shù)據(jù)自身距離將其分成若干組[14],實(shí)現(xiàn)流程如圖2所示:①給聚類中心分配點(diǎn)。從數(shù)據(jù)對(duì)象中選擇k個(gè)點(diǎn)作為聚類中心,遍歷數(shù)據(jù)集計(jì)算無(wú)標(biāo)記數(shù)據(jù)點(diǎn)到聚類中心點(diǎn)的距離,將無(wú)標(biāo)記數(shù)據(jù)點(diǎn)分配到距其最近的聚類中心點(diǎn);②移動(dòng)聚類中心。遍歷所有聚類中心,將聚類中心移動(dòng)到這個(gè)聚類的均值處;③重復(fù)上述步驟,直到聚類中心不再移動(dòng)達(dá)到穩(wěn)定分布為止。
K-means算法原理簡(jiǎn)單,計(jì)算復(fù)雜度小,容易實(shí)現(xiàn)[15]。但其過(guò)分依賴初始聚類中心k的選取,一旦k值選擇不好會(huì)直接影響最后結(jié)果,造成無(wú)法得到有效聚類結(jié)果[16]。因此,預(yù)先給定k值是最困難的一步。
1.3.2 k-means算法改進(jìn)
無(wú)監(jiān)督學(xué)習(xí)算法一個(gè)顯著優(yōu)點(diǎn)是不需要對(duì)數(shù)據(jù)集進(jìn)行標(biāo)注,而輪廓系數(shù)[17](Silhouette Coefficient)可以在無(wú)標(biāo)注數(shù)據(jù)集基礎(chǔ)上對(duì)聚類算法的好壞進(jìn)行有效度量。本文利用輪廓系數(shù)對(duì)聚類性能評(píng)估的優(yōu)勢(shì),合理選擇k-means的聚類中心,以解決k值設(shè)置不合理影響聚類結(jié)果的問(wèn)題。
輪廓系數(shù)是1986年P(guān)eter J. Rousseeuw?在結(jié)合內(nèi)聚度和分離度兩種因素基礎(chǔ)上提出的評(píng)價(jià)聚類效果好壞的一種方式,適用于實(shí)際類別信息未知的情形[18],可在原始數(shù)據(jù)相同的基礎(chǔ)上,對(duì)不同算法或算法的不同運(yùn)行方式對(duì)聚類結(jié)果產(chǎn)生的影響進(jìn)行性能評(píng)價(jià)。輪廓系數(shù)取值介于[-1,1]之間,其中1表示完美的聚類,0表示聚類重疊,-1表示完全錯(cuò)誤的聚類。輪廓系數(shù)評(píng)價(jià)法需根據(jù)不同類別數(shù)目下的輪廓系數(shù)走勢(shì)尋找最佳的聚類數(shù)目,一般將畸變程度最大處作為最佳值[19]。輪廓系數(shù)指標(biāo)構(gòu)成如表2所示。
2 實(shí)驗(yàn)
2.1 實(shí)驗(yàn)數(shù)據(jù)
本文利用八爪魚采集器[20]從某醫(yī)藥網(wǎng)獲取2015年5月1日到2018年9月1日間15 910條醫(yī)藥新聞作為分析數(shù)據(jù)源,后續(xù)實(shí)驗(yàn)結(jié)果均由原始數(shù)據(jù)處理得到。
2.2 實(shí)驗(yàn)環(huán)境
本文在PC上搭建整體測(cè)試環(huán)境,以保證后續(xù)系統(tǒng)測(cè)試順利進(jìn)行。實(shí)驗(yàn)環(huán)境如表3所示。
2.3 模型參數(shù)確定
LDA模型的主題個(gè)數(shù)對(duì)模型推理和聚類質(zhì)量影響較大,當(dāng)主題個(gè)數(shù)較小時(shí),主題會(huì)包含多重語(yǔ)義;當(dāng)主題個(gè)數(shù)較大時(shí),主題會(huì)缺乏明顯語(yǔ)義信息。因此本文通過(guò)輪廓系數(shù)對(duì)k-means評(píng)估最佳主題數(shù)來(lái)選定LDA的理想主題數(shù),避免主題數(shù)選取不合理問(wèn)題。
2.4 實(shí)驗(yàn)結(jié)果分析
實(shí)驗(yàn)一:k-means算法參數(shù)。
本實(shí)驗(yàn)以醫(yī)藥新聞為研究對(duì)象,通過(guò)輪廓系數(shù)評(píng)價(jià)法對(duì)聚類效果性能進(jìn)行評(píng)估,選取最佳聚類中心數(shù)。在k-means算法結(jié)構(gòu)保持不變的前提下,將預(yù)處理后數(shù)據(jù)源控制在15 773例時(shí),探討數(shù)據(jù)集主題個(gè)數(shù)為5、10、11、12、13、14、15、20、25、40的聚類性能,實(shí)驗(yàn)結(jié)果見表4。
從表4可以看出,聚類結(jié)果比較一般。結(jié)合指標(biāo)含義和數(shù)值表達(dá)意義,可以推測(cè)出原因可能是數(shù)據(jù)集質(zhì)量不高,因此后續(xù)嘗試通過(guò)選取一部分原始數(shù)據(jù)集進(jìn)行人工標(biāo)記,檢驗(yàn)人工標(biāo)記是否在一定程度上提高文章正確分類的準(zhǔn)確性。
實(shí)驗(yàn)二:手工標(biāo)記數(shù)據(jù)集后的參數(shù)。
在數(shù)據(jù)集主題個(gè)數(shù)分別為5、10、11、12、13、14、15、20、25、40時(shí),以手工標(biāo)記的方式從原始數(shù)據(jù)集中選取7類藥品安全領(lǐng)域數(shù)據(jù)共5 637例,作為后續(xù)檢驗(yàn)手工標(biāo)記對(duì)聚類結(jié)果的影響。手工標(biāo)記的實(shí)驗(yàn)數(shù)據(jù)類別分布情況如表5所示,實(shí)驗(yàn)結(jié)果如表6所示。
從表4和表6結(jié)果可以看出,手工標(biāo)記的數(shù)據(jù)集在一定程度上可以提高聚類效果,說(shuō)明在樣本量足夠大但聚類效果不好的情況下,對(duì)原始數(shù)據(jù)集進(jìn)行手工標(biāo)注是改善聚類效果的一種可行方式。手工標(biāo)記數(shù)據(jù)集的輪廓系數(shù)在聚類個(gè)數(shù)不同時(shí),聚類結(jié)果的畸變程度走勢(shì)更為清晰。在考慮輪廓系數(shù)走勢(shì)及其定義最佳主題數(shù)的基礎(chǔ)上,最終選取聚類個(gè)數(shù)為12的主題數(shù)作為聚類初始中心的最佳值。
實(shí)驗(yàn)三:LDA模型對(duì)聚類主題的提取。
以輪廓系數(shù)評(píng)價(jià)法確定的最佳主題數(shù)12作為主題數(shù)進(jìn)行實(shí)驗(yàn),從每個(gè)類簇中提取權(quán)重值最大的10個(gè)主題詞來(lái)限定主題,提高主題詞的專指度并確定主題范圍空間。通過(guò)LDA主題模型對(duì)每個(gè)類簇進(jìn)行主題詞提取后,可將主題限定在一定范圍內(nèi),有助于各主題的概括。LDA模型提取的主題結(jié)果如表7所示。
3 結(jié)語(yǔ)
本文以醫(yī)藥新聞為數(shù)據(jù)源,通過(guò)話題聚類及相應(yīng)的主題提取實(shí)驗(yàn)發(fā)現(xiàn)藥品安全話題,取得一定效果。在聚類效果一般時(shí),采用人工標(biāo)記方式在一定程度上提高了聚類效果。文中對(duì)于藥品安全話題的聚類只是檢測(cè)出了話題類簇,未進(jìn)行后續(xù)話題跟蹤。如果進(jìn)一步追蹤話題發(fā)展規(guī)律和趨勢(shì),將更有利于相關(guān)決策制定。
參考文獻(xiàn):
[1] 路榮,項(xiàng)亮,劉明榮,等. 基于隱主題分析和文本聚類的微博客中新聞話題的發(fā)現(xiàn)[J]. 模式識(shí)別與人工智能,2012,25(3):382-387.
[2] 孫紅光,高星,孫鐵利,等. 基于改進(jìn)Single-Pass算法的網(wǎng)絡(luò)新聞話題發(fā)現(xiàn)[J]. 吉林大學(xué)學(xué)報(bào):理學(xué)版,2018,56(1):114-118.
[3] 車?yán)?,楊小? 多特征融合文本聚類的新聞話題發(fā)現(xiàn)模型[J]. 國(guó)防科技大學(xué)學(xué)報(bào),2017,39(3):85-90.
[4] 魏德志,陳福集,林麗娜. 一種基于時(shí)間序列的熱點(diǎn)話題發(fā)現(xiàn)模型和算法[J]. 情報(bào)科學(xué),2017,35(10):142-146.
[5] 米允龍,米春橋,劉文奇. 海量數(shù)據(jù)挖掘過(guò)程相關(guān)技術(shù)研究進(jìn)展[J]. 計(jì)算機(jī)科學(xué)與探索,2015,9(6):641-659.
[6] 劉澤文,丁冬,李春文. 基于條件隨機(jī)場(chǎng)的中文短文本分詞方法[J]. 清華大學(xué)學(xué)報(bào):自然科學(xué)版,2015,55(8):906-910,915.
[7] 范佳健. 微博評(píng)論信息的聚類分析[D]. 合肥:安徽大學(xué),2017.
[8] 王國(guó)龍,杜建強(qiáng),郝竹林,等. 中醫(yī)診斷古文的詞性標(biāo)注與特征重組[J]. 計(jì)算機(jī)工程與設(shè)計(jì),2015,36(3):835-841.
[9] 唐明,朱磊,鄒顯春. 基于Word2Vec的一種文檔向量表示[J]. 計(jì)算機(jī)科學(xué),2016,43(6):214-217,269.
[10] 商憲麗,王學(xué)東. 微博話題識(shí)別中基于動(dòng)態(tài)共詞網(wǎng)絡(luò)的文本特征提取方法[J]. 圖書情報(bào)知識(shí),2016(3):80-88.
[11] 陳曉美,高鋮,關(guān)心惠. 網(wǎng)絡(luò)輿情觀點(diǎn)提取的LDA主題模型方法[J]. 圖書情報(bào)工作,2015,59(21):21-26.
[12] 王鵬,高鋮,陳曉美. 基于LDA模型的文本聚類研究[J]. 情報(bào)科學(xué),2015,33(1):63-68.
[13] 周潤(rùn)物,李智勇,陳少淼,等. 面向大數(shù)據(jù)處理的并行優(yōu)化抽樣聚類K-means算法[J]. 計(jì)算機(jī)應(yīng)用,2016,36(2):311-315,329.
[14] 李亞,劉麗平,李柏青,等. 基于改進(jìn)K-Means聚類和BP神經(jīng)網(wǎng)絡(luò)的臺(tái)區(qū)線損率計(jì)算方法[J]. 中國(guó)電機(jī)工程學(xué)報(bào),2016,36(17):4543-4552.
[15] 朱曉峰,陳楚楚,尹嬋娟. 基于微博輿情監(jiān)測(cè)的K-Means算法改進(jìn)研究[J]. 情報(bào)理論與實(shí)踐,2014,37(1):136-140.
[16] 翟東海,魚江,高飛,等. 最大距離法選取初始簇中心的K-means文本聚類算法的研究[J]. 計(jì)算機(jī)應(yīng)用研究,2014,31(3):713-715,719.
[17] 劉睿倫,葉文豪,高瑞卿,等. 基于大數(shù)據(jù)崗位需求的文本聚類研究[J]. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2017,1(12):32-40.
[18] 王學(xué)賀. 一種基于改進(jìn)微粒群和輪廓系數(shù)的劃分聚類方法[J]. 云南民族大學(xué)學(xué)報(bào):自然科學(xué)版,2016,25(4):367-371.
[19] 朱連江,馬炳先,趙學(xué)泉. 基于輪廓系數(shù)的聚類有效性分析[J]. 計(jì)算機(jī)應(yīng)用,2010,30(S2):139-141,198.
[20] 崔玉潔,廖坤. 借助八爪魚采集器實(shí)現(xiàn)過(guò)刊網(wǎng)刊元數(shù)據(jù)的自動(dòng)提取[J]. 編輯學(xué)報(bào),2016,28(5):485-488.
(責(zé)任編輯:杜能鋼)