• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      圖情領(lǐng)域LDA 主題模型應(yīng)用研究進(jìn)展述評(píng)

      2022-03-13 08:49:16張東鑫張敏
      圖書(shū)情報(bào)知識(shí) 2022年6期
      關(guān)鍵詞:語(yǔ)義建模文本

      張東鑫 張敏

      (1.西南大學(xué)計(jì)算機(jī)與信息科學(xué)學(xué)院,重慶,400715;2.華中師范大學(xué)信息管理學(xué)院,武漢,430079)

      1 引言

      潛在狄利克雷分布(Latent Dirichlet Allocation,LDA)是一種對(duì)文本主題進(jìn)行建模挖掘的三層貝葉斯產(chǎn)生式概率模型[1],該模型通過(guò)無(wú)監(jiān)督學(xué)習(xí),生成“文檔-主題”和“主題-詞”概率分布,被用于識(shí)別大規(guī)模文檔集中潛藏的主題信息。LDA具有良好的數(shù)據(jù)降維能力和模型擴(kuò)展性,被廣泛應(yīng)用于各種文本分析任務(wù)。

      目前,計(jì)算機(jī)學(xué)科的相關(guān)研究主要圍繞LDA擴(kuò)展模型的分類(lèi)、算法改進(jìn)[2,3],尤其是深度學(xué)習(xí)主題模型[4]展開(kāi)了較多探討,相關(guān)研究強(qiáng)調(diào)主題模型對(duì)于文本挖掘及自然語(yǔ)言處理的重要作用,聚焦于LDA主題模型原理、參數(shù)估計(jì)及訓(xùn)練方法的總結(jié)歸納,注重不同主題建模技術(shù)之間性能的對(duì)比[5],少數(shù)研究歸納了主題模型在語(yǔ)言、政治、生物醫(yī)學(xué)、地理等學(xué)科領(lǐng)域應(yīng)用,指出LDA主題模型在多媒體信息加工處理等文本挖掘任務(wù)中存在的挑戰(zhàn)及問(wèn)題[2]。圖情領(lǐng)域的學(xué)者則較多針對(duì)特定的文本挖掘任務(wù)[6]展開(kāi)分析研究,已有部分綜述針對(duì)某一應(yīng)用場(chǎng)景[7]或某一類(lèi)擴(kuò)展模型[8]進(jìn)行了歸納總結(jié)??傮w而言,現(xiàn)有研究針對(duì)LDA模型完整應(yīng)用過(guò)程的梳理還較為缺乏。本研究聚焦圖情領(lǐng)域LDA模型整體應(yīng)用研究現(xiàn)狀,細(xì)致剖析其應(yīng)用過(guò)程關(guān)鍵環(huán)節(jié)和應(yīng)用領(lǐng)域,以期為相關(guān)領(lǐng)域的理論研究和實(shí)踐應(yīng)用提供參考。本研究梳理了LDA模型應(yīng)用的現(xiàn)存問(wèn)題和創(chuàng)新發(fā)展,有助于更好應(yīng)對(duì)多維度場(chǎng)景的復(fù)雜文本處理任務(wù),增強(qiáng)LDA模型的泛化能力以及建模結(jié)果的準(zhǔn)確性和可解釋性,實(shí)現(xiàn)更精準(zhǔn)的主題挖掘和識(shí)別。

      2 文獻(xiàn)調(diào)研概述

      本研究以Web of Science核心集、LISA、Google Scholar為英文數(shù)據(jù)源進(jìn)行文獻(xiàn)檢索,以中國(guó)知網(wǎng)、維普、萬(wàn)方數(shù)據(jù)庫(kù)為中文數(shù)據(jù)源進(jìn)行文獻(xiàn)檢索。英文文獻(xiàn)以 主題=“Latent Dirichlet Allocation”O(jiān)R “Topic Model*”為檢索式進(jìn)行檢索,中文文獻(xiàn)以主題=“LDA” OR“潛在狄利克雷分布”O(jiān)R“概率主題模型”為檢索式進(jìn)行檢索。中英文數(shù)據(jù)源均限定為圖書(shū)情報(bào)領(lǐng)域期刊(中文進(jìn)一步限定為CSSCI來(lái)源期刊),檢索時(shí)段設(shè)置為近十年(2012年1月1日到 2022年1月31日)。基于文獻(xiàn)標(biāo)題、關(guān)鍵詞與摘要,輔以內(nèi)容審讀,選取符合研究主題的文獻(xiàn),最終篩選得到369篇英文文獻(xiàn)和426篇中文文獻(xiàn)。文獻(xiàn)分布如圖1所示,近十年國(guó)內(nèi)外研究發(fā)文量均處于持續(xù)增長(zhǎng)的態(tài)勢(shì),且國(guó)內(nèi)研究的發(fā)文量遠(yuǎn)高于國(guó)外??梢钥闯觯琇DA相關(guān)研究引起國(guó)內(nèi)外圖情領(lǐng)域?qū)W者的高度關(guān)注,研究成果較為豐碩。

      圖1 國(guó)內(nèi)外發(fā)文量年代分布Fig.1 The Chronological Distribution of Published Papers at Home and Abroad

      進(jìn)一步,本研究深度研讀代表性文獻(xiàn),基于應(yīng)用過(guò)程的關(guān)鍵環(huán)節(jié)梳理構(gòu)建了LDA模型應(yīng)用研究分析框架(見(jiàn)圖2)。LDA模型應(yīng)用過(guò)程主要包括:在文本預(yù)處理環(huán)節(jié),對(duì)主題建模所涉及的數(shù)據(jù)源進(jìn)行預(yù)處理操作,獲得模型所需的格式化數(shù)據(jù);在模型構(gòu)建環(huán)節(jié),先依據(jù)研究情境選定合適的主題模型,然后結(jié)合相關(guān)模型評(píng)價(jià)方法確定最優(yōu)主題數(shù);在模型求解環(huán)節(jié),采用合適的主題建模工具完成模型求解;最后,依據(jù)實(shí)際研究情境,結(jié)合相關(guān)方法與工具解決具體應(yīng)用領(lǐng)域問(wèn)題[7]。當(dāng)前,LDA模型的應(yīng)用涵蓋主題探索、知識(shí)組織、學(xué)術(shù)評(píng)價(jià)、情感分析、推薦研究等諸多領(lǐng)域。本文將基于上述流程對(duì)現(xiàn)有應(yīng)用研究現(xiàn)狀進(jìn)行歸納總結(jié)。

      圖2 圖情領(lǐng)域LDA 主題模型應(yīng)用研究分析框架Fig.2 The Analytical Framework for the Application Studies of LDA Topic Models in LIS field

      3 LDA 主題建模的應(yīng)用過(guò)程

      3.1 文本預(yù)處理

      文本預(yù)處理的過(guò)程針對(duì)不同的數(shù)據(jù)源,通過(guò)分詞、去停用詞以及特征選擇等預(yù)處理技術(shù)獲取模型所需的格式化數(shù)據(jù)。該環(huán)節(jié)可實(shí)現(xiàn)文檔內(nèi)容初步降維,降低模型推理時(shí)間,是LDA主題建模的基礎(chǔ)。其中,所獲取表達(dá)文本主題語(yǔ)義的特征詞對(duì)主題建模結(jié)果的可解釋性具有重要影響。

      在主題建模的數(shù)據(jù)源方面,基于微博、Twitter等社交媒體平臺(tái)短文本數(shù)據(jù)的主題挖掘成為近年來(lái)圖情領(lǐng)域極具價(jià)值的研究方向。然而由于文本長(zhǎng)度有限,稀疏性高,更新速度快以及規(guī)模巨大,LDA模型在處理短文本時(shí)效果較差[9]。同時(shí)此類(lèi)數(shù)據(jù)一般帶有許多俚語(yǔ)、縮略詞以及表情符號(hào)等,其文本語(yǔ)義相對(duì)模糊、邏輯關(guān)系較差,經(jīng)過(guò)預(yù)處理后的文本能夠有效表達(dá)主題信息的詞項(xiàng)較少,這就使得抽取有意義主題的過(guò)程更加復(fù)雜[10]。針對(duì)稀疏、動(dòng)態(tài)短文本,如何保障主題建模結(jié)果的質(zhì)量是當(dāng)前需解決的重點(diǎn)問(wèn)題。學(xué)者們一是通過(guò)信息整合構(gòu)建偽文檔來(lái)增加文本長(zhǎng)度;二是使用改進(jìn)后的擴(kuò)展模型,包括調(diào)整模型假設(shè)和改進(jìn)主題生成過(guò)程等措施[11]。前者如狄利克雷多項(xiàng)式混合模型(Dirichlet Multinomial Mixture,DMM),針對(duì)短文本詞項(xiàng)少于長(zhǎng)文本文檔的特點(diǎn),嚴(yán)格限制模型假設(shè)中的主題數(shù)量;后者如詞對(duì)主題模型(Biterm Topic Model,BTM),從詞間關(guān)系中挖掘局部語(yǔ)言信息,在詞對(duì)上進(jìn)行主題建模,以提高短文本主題挖掘的全面性和準(zhǔn)確性。

      確定主題建模的數(shù)據(jù)源后,通過(guò)具體的文本預(yù)處理技術(shù)獲取模型所需的格式化數(shù)據(jù)。得益于成熟的分詞工具[7,12]與停用詞表,中文文本數(shù)據(jù)在分詞與去停用詞階段已經(jīng)形成一體化的應(yīng)用流程。而英文文本數(shù)據(jù)通常以空格為分隔符進(jìn)行一元分詞,導(dǎo)致單個(gè)單詞所代表的語(yǔ)義較少,建模結(jié)果的可解釋性較差。有研究提出按照詞組分詞[13],或者引入短語(yǔ)生成算法[11]挖掘數(shù)據(jù)中的短語(yǔ)來(lái)提高特征詞的主題表示能力。

      特征選擇是在分詞與去停用詞的基礎(chǔ)上對(duì)建模語(yǔ)料的進(jìn)一步降維,常用的方法有評(píng)價(jià)函數(shù)[14](如詞頻、信息增益等)、領(lǐng)域本體[15]、詞性過(guò)濾[16]以及正則表達(dá)式[17]等。不同的特征選擇方法在特征詞降維上具有不同的性能,對(duì)建模結(jié)果的可解釋性也具有不同程度的影響。以特征選擇方法中的領(lǐng)域本體和詞性過(guò)濾為例,基于領(lǐng)域本體進(jìn)行詞匯過(guò)濾可以有效提高特征詞的領(lǐng)域貼切性,提高建模結(jié)果在專(zhuān)業(yè)領(lǐng)域背景下的可解釋性。如林杰[15]等利用擴(kuò)充后的汽車(chē)專(zhuān)業(yè)本體詞匯對(duì)語(yǔ)料進(jìn)行詞匯過(guò)濾,有效提高了主題詞的領(lǐng)域純度與主題的可解釋性,但缺點(diǎn)是依賴(lài)于研究人員的領(lǐng)域知識(shí),花費(fèi)的人工成本較高。而詞性過(guò)濾[16]可以獲取對(duì)主題貢獻(xiàn)度較大的名詞和動(dòng)詞,相對(duì)于基于本體的方法可以更便捷、高效地實(shí)現(xiàn)文本降維,但詞的領(lǐng)域貼切性相對(duì)較差,專(zhuān)業(yè)領(lǐng)域背景下建模結(jié)果的可解釋性弱。

      整體來(lái)看,分詞、去停用詞以及特征選擇等預(yù)處理環(huán)節(jié)已形成較為成熟的處理流程,當(dāng)前的應(yīng)用研究多固化于已有的文本預(yù)處理技術(shù)工具與語(yǔ)義資源,側(cè)重于單一方法或少數(shù)幾種方法的簡(jiǎn)單結(jié)合。值得注意的是,分詞算法[18]的選擇,領(lǐng)域術(shù)語(yǔ)[19]與領(lǐng)域停用詞表[20]的構(gòu)建,以及不同的特征選擇方法對(duì)特征詞表達(dá)主題語(yǔ)義時(shí)的有效性都具有不同程度的影響。因此,需針對(duì)不同的應(yīng)用場(chǎng)景深入探索,以提高文本預(yù)處理的質(zhì)量。

      3.2 主題模型構(gòu)建

      經(jīng)過(guò)文本預(yù)處理操作獲得主題模型所需的格式化數(shù)據(jù)后,進(jìn)入模型構(gòu)建與求解環(huán)節(jié)。首先需要依據(jù)數(shù)據(jù)特征與研究情境,選擇或構(gòu)建合適的主題模型,然后通過(guò)模型評(píng)價(jià)方法確定最優(yōu)主題數(shù),最后選擇或構(gòu)建相應(yīng)的主題建模工具進(jìn)行自動(dòng)參數(shù)估計(jì),從而完成模型求解。

      3.2.1 主題模型選擇

      主題模型構(gòu)建的第一步是選定合適的主題模型。LDA模型是基于詞袋模型提出的三層貝葉斯概率主題模型,模型訓(xùn)練時(shí)無(wú)需人工標(biāo)注數(shù)據(jù),挖掘長(zhǎng)文本如科技文獻(xiàn)[21]等語(yǔ)料的隱含語(yǔ)義時(shí)效果良好,且應(yīng)用工具和流程比較成熟,是目前最常用的主題模型。隨著所處理的語(yǔ)料對(duì)象、面臨的文本分析任務(wù)更趨復(fù)雜多樣,LDA模型應(yīng)用具有一定局限性,比如無(wú)法有效處理動(dòng)態(tài)短文本,應(yīng)用于大規(guī)模數(shù)據(jù)集時(shí)訓(xùn)練時(shí)間過(guò)長(zhǎng)[22],而且無(wú)法識(shí)別主題之間的關(guān)系[23]。模型泛化能力以及建模結(jié)果的準(zhǔn)確性和可解釋性受到挑戰(zhàn)[4]。針對(duì)LDA模型的應(yīng)用局限性,學(xué)者們根據(jù)文本特征與任務(wù)情境提出各類(lèi)擴(kuò)展模型[3]以提升主題建模效果。綜合LDA模型的擴(kuò)展類(lèi)型(如非參性、動(dòng)態(tài)性、相關(guān)性等)及其在各數(shù)據(jù)庫(kù)中的總被引頻次,表1歸納了圖情領(lǐng)域應(yīng)用各類(lèi)LDA模型的代表性研究。

      表1 圖情領(lǐng)域應(yīng)用各類(lèi)LDA 模型的代表性文獻(xiàn)Table 1 Representative Literature About the Application of Various LDA Models in LIS Field

      如表1所示,各類(lèi)LDA模型的性能各具特色,基于模型的改進(jìn)特點(diǎn)與已有的LDA擴(kuò)展模型分類(lèi)相關(guān)研究[3,7],以上擴(kuò)展模型大致上分為六類(lèi):①貝葉斯非參模型HDP;②基于時(shí)間因素的擴(kuò)展模型DTM;③基于模型參數(shù)的擴(kuò)展模型CTM;④有監(jiān)督模型Labeled-LDA;⑤基于文檔元數(shù)據(jù)的擴(kuò)展模型STM;⑥面向特定任務(wù)的擴(kuò)展模型ATM、JST、BTM、TWE、NTM、LDA2vec和JointAT。不同類(lèi)型的擴(kuò)展模型應(yīng)用場(chǎng)景豐富,可以滿足科研人員不同的建模需求。當(dāng)數(shù)據(jù)處理對(duì)象為靜態(tài)長(zhǎng)文本,可直接選擇傳統(tǒng)LDA模型;如果數(shù)據(jù)處理對(duì)象具有明顯的動(dòng)態(tài)性、主觀性或稀疏性等特征,可選擇動(dòng)態(tài)主題模型、面向特定任務(wù)的情感主題模型或短文本主題模型等來(lái)提高建模精度。在圍繞LDA擴(kuò)展模型的應(yīng)用研究中,早期基于非參性、相關(guān)性等的擴(kuò)展模型仍然以其良好性能而被廣泛應(yīng)用。

      隨著新興應(yīng)用場(chǎng)景的不斷涌現(xiàn),主題挖掘任務(wù)的多元化使得近來(lái)面向特定任務(wù)的擴(kuò)展模型成為顯著趨勢(shì),如基于詞向量、多語(yǔ)言作者信息以及混合語(yǔ)境[37]等擴(kuò)展模型。然而擴(kuò)展模型依然存在一些不足之處,其包含的隱變量和附加信息較多,算法復(fù)雜度相對(duì)較高,同時(shí)受訓(xùn)練語(yǔ)料與任務(wù)情境的影響,模型的領(lǐng)域通用性和建模結(jié)果的穩(wěn)定性有待提高。

      值得注意的是,基于深度學(xué)習(xí)思想與方法的主題模型已成為L(zhǎng)DA擴(kuò)展模型研究的重要分支。相較于其他擴(kuò)展模型,深度學(xué)習(xí)主題模型結(jié)合詞向量技術(shù)、神經(jīng)網(wǎng)絡(luò)等方法充分挖掘詞匯的上下文語(yǔ)境以及詞間關(guān)系,具備較強(qiáng)的主題語(yǔ)義理解能力,建模結(jié)果的可解釋更高[38]。目前,深度學(xué)習(xí)主題模型主要包括三類(lèi):詞向量輔助的概率主題模型、基于神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的主題模型和聯(lián)合訓(xùn)練主題模型[4]。詞向量主題模型通過(guò)訓(xùn)練低維稠密的詞向量來(lái)刻畫(huà)詞匯間的語(yǔ)義相似度,應(yīng)用于短文本和領(lǐng)域文本時(shí)可有效提高主題詞的語(yǔ)義一致性,如基于高斯分布的Gaussian LDA模型[39]?;谏窠?jīng)網(wǎng)絡(luò)結(jié)構(gòu)的主題模型多以詞袋作為模型輸入,進(jìn)而通過(guò)增加相應(yīng)的網(wǎng)絡(luò)層來(lái)捕捉詞匯間的語(yǔ)義關(guān)系,同時(shí)結(jié)合稀疏約束解決“主題-詞”分布的稀疏性,提高主題模型的生成質(zhì)量。聯(lián)合訓(xùn)練主題模型則融合了概率主題模型與神經(jīng)語(yǔ)言模型的優(yōu)勢(shì),可以在原有“文檔-主題-詞”全局語(yǔ)義關(guān)系發(fā)現(xiàn)基礎(chǔ)上,通過(guò)語(yǔ)言模型發(fā)現(xiàn)句子級(jí)詞序之間的依賴(lài)關(guān)系,克服“詞袋”假設(shè)的局限性。以上深度學(xué)習(xí)擴(kuò)展模型在短文本、領(lǐng)域文本等數(shù)據(jù)上的主題聚類(lèi)效果相比傳統(tǒng)模型性能更優(yōu),功能更豐富,但是在應(yīng)用過(guò)程中通常需要大規(guī)模語(yǔ)料的支撐,訓(xùn)練過(guò)程也更為復(fù)雜,常面臨參數(shù)調(diào)優(yōu)等問(wèn)題。除了詞向量擴(kuò)展模型較為常見(jiàn)外,其他兩類(lèi)深度學(xué)習(xí)擴(kuò)展模型應(yīng)用還有待進(jìn)一步探索。

      3.2.2 最優(yōu)主題數(shù)選擇

      依據(jù)研究情境選定最合適的主題模型后就要進(jìn)行參數(shù)估計(jì)與設(shè)置。參數(shù)估計(jì)用于推理“文檔-主題”和“主題-詞”兩組分布,目前已形成多種近似推理算法[7]。參數(shù)設(shè)置與模型性能密切相關(guān),可以賦予模型特定屬性[40],主要涉及Dirichlet先驗(yàn)α、β參數(shù),以及主題數(shù)。α和β常按照經(jīng)驗(yàn)值進(jìn)行設(shè)置。

      主題數(shù)則依據(jù)主題模型質(zhì)量評(píng)價(jià)方法做出選擇,而最優(yōu)主題數(shù)的確定是一個(gè)長(zhǎng)久以來(lái)的難題。主題數(shù)過(guò)多容易導(dǎo)致主題概括范圍小,語(yǔ)義內(nèi)容差異小,主題劃分困難;主題數(shù)過(guò)少則容易導(dǎo)致概括的語(yǔ)義內(nèi)容過(guò)于寬泛,忽視小主題。主題數(shù)選擇直接影響LDA主題建模結(jié)果的準(zhǔn)確性和可解釋性。目前相關(guān)研究在確定主題數(shù)時(shí)通常基于先驗(yàn)知識(shí)對(duì)文檔包含的主題數(shù)進(jìn)行初步估計(jì),再結(jié)合困惑度、一致性以及主題間相似度等質(zhì)量評(píng)價(jià)方法作出選擇。本文對(duì)幾種典型的主題數(shù)確定方法的核心思想、優(yōu)缺點(diǎn)進(jìn)行歸納比較,如表2所示。

      表2歸納總結(jié)顯示,目前確定LDA模型主題數(shù)的方法較為豐富,評(píng)價(jià)角度各有側(cè)重,差別較大,還沒(méi)有形成一致的主題建模結(jié)果評(píng)價(jià)準(zhǔn)則,客觀評(píng)估建模結(jié)果有效性的問(wèn)題仍未解決。從實(shí)際應(yīng)用情況來(lái)看還是以困惑度居多,而有研究認(rèn)為一致性是衡量主題質(zhì)量最有效的方法[47],該指標(biāo)的使用在近兩年的相關(guān)研究中有所提升。由于在上述模型評(píng)價(jià)方法的指導(dǎo)下依然可能產(chǎn)生混合主題、不合邏輯的主題和難以區(qū)分的主題等問(wèn)題,為進(jìn)一步保障建模結(jié)果的有效性,相關(guān)研究開(kāi)始對(duì)傳統(tǒng)評(píng)價(jià)方法進(jìn)行改進(jìn)[43],嘗試提出新指標(biāo)[41],注重以可解釋性為標(biāo)準(zhǔn)進(jìn)行模型評(píng)價(jià)[48],引入專(zhuān)家意見(jiàn)類(lèi)指標(biāo),如同質(zhì)性、完整性以及V-Measure[49],以保障主題生成的質(zhì)量與可靠性。也有學(xué)者提出對(duì)相關(guān)方法進(jìn)行聯(lián)合應(yīng)用,并在模型運(yùn)行的過(guò)程中建立評(píng)價(jià)機(jī)制以動(dòng)態(tài)調(diào)整最優(yōu)主題數(shù)[10],提高主題數(shù)選擇的靈活性。此外,LDA模型基于隨機(jī)抽樣進(jìn)行參數(shù)求解以及其對(duì)建模語(yǔ)料極為敏感的特征,導(dǎo)致建模結(jié)果穩(wěn)定性較差。部分研究嘗試引入新的穩(wěn)定性分析算法[50]以及健壯性、描述能力等模型質(zhì)量評(píng)價(jià)指標(biāo)[51]來(lái)選擇最優(yōu)主題數(shù),以保障主題模型的預(yù)測(cè)能力,進(jìn)而提高建模結(jié)果的可靠性。

      表2 常用主題數(shù)確定方法及其比較Table 2 The List and Comparison of Common Methods for Determining the Number of Topic

      3.3 模型求解

      完成最優(yōu)主題數(shù)選擇后,就要選擇或構(gòu)建相應(yīng)的主題建模工具完成模型求解。目前已研發(fā)出各類(lèi)開(kāi)源LDA建模工具來(lái)完成參數(shù)自動(dòng)求解,在圖情領(lǐng)域常用的有七種。從開(kāi)發(fā)語(yǔ)言來(lái)看,分別是基于Java語(yǔ)言的Stanford TMT(Stanford Topic Modeling Toolbox)[52]、JGibbLDA[53]以 及Mallet[24],基于R語(yǔ)言的Lda庫(kù)[54]與Topicmodels[55]庫(kù),這五種工具的模型基礎(chǔ)均是LDA模型;另外兩種是基于Python語(yǔ)言以O(shè)LDA(Online LDA)模型為基礎(chǔ)的Gensim庫(kù)[56]與Scikit-learn[57]庫(kù)。利用上述工具完成模型求解得到“文檔-主題”分布與“主題-詞”分布兩組參數(shù)后,再通過(guò)主題詞篩選進(jìn)行主題命名,完成每個(gè)文檔中的隱含主題發(fā)現(xiàn)。

      4 LDA 主題模型的應(yīng)用領(lǐng)域

      LDA模型可以有效挖掘文本中隱含的語(yǔ)義信息,已經(jīng)被廣泛應(yīng)用于主題探索、知識(shí)組織、學(xué)術(shù)評(píng)價(jià)、情感分析以及推薦研究等眾多領(lǐng)域。

      4.1 主題探索

      主題探索研究主要包含主題發(fā)現(xiàn)與演化分析[6]。LDA模型擁有良好的降維能力,可以從大規(guī)模文本中通過(guò)無(wú)監(jiān)督的方式提取隱含語(yǔ)義,保證主題提取的相對(duì)客觀性與效率,是主題探索的熱門(mén)工具。本文基于相關(guān)文獻(xiàn)的內(nèi)容分析發(fā)現(xiàn),當(dāng)前圖情領(lǐng)域主題探索主要面向科技文獻(xiàn)數(shù)據(jù),以在線消費(fèi)平臺(tái)評(píng)論數(shù)據(jù)及網(wǎng)絡(luò)輿情數(shù)據(jù)為代表的用戶生成內(nèi)容,以及新聞報(bào)道、政策文本等網(wǎng)絡(luò)信息資源挖掘分析。

      4.1.1 科技文獻(xiàn)的主題探索

      科技文獻(xiàn)是科學(xué)技術(shù)信息發(fā)布與傳播的重要載體,主要包括科技期刊、會(huì)議論文、專(zhuān)利和科技報(bào)告等[7]。早期科技文獻(xiàn)的主題發(fā)現(xiàn)依賴(lài)于以篇章為單位的詞頻統(tǒng)計(jì)、共詞分析、引文分析等傳統(tǒng)計(jì)量學(xué)方法,關(guān)注詞或者文獻(xiàn)等外部數(shù)量特征。而LDA模型可以對(duì)文本內(nèi)容進(jìn)行主題建模,逐漸成為科技文獻(xiàn)主題探索的主流工具之一,比如針對(duì)SIGIR(Special Interest Group on Information Retrieval)會(huì)議論文[58]以及中國(guó)ICT產(chǎn)業(yè)[21]專(zhuān)利文獻(xiàn)相關(guān)研究熱點(diǎn)的主題分析。總體而言,科技文獻(xiàn)主題發(fā)現(xiàn)研究存在過(guò)度依賴(lài)單一LDA模型的問(wèn)題,只有部分學(xué)者嘗試應(yīng)用新方法進(jìn)一步優(yōu)化對(duì)文本語(yǔ)義的理解。比如裘惠麟等[59]將期刊論文與專(zhuān)利文獻(xiàn)同時(shí)作為數(shù)據(jù)源,運(yùn)用LDA2vec模型識(shí)別機(jī)器學(xué)習(xí)熱點(diǎn)研究主題,該模型在LDA模型全局性建模的基礎(chǔ)上,通過(guò)Word2vec詞向量對(duì)語(yǔ)料局部的上下文信息進(jìn)行建模,從而挖掘更豐富的隱含語(yǔ)義。然而Word2vec等經(jīng)典詞向量模型通常只對(duì)每個(gè)詞匯訓(xùn)練一種向量表示[4],難以發(fā)現(xiàn)不同語(yǔ)境下詞的不同含義。有研究引入TWE[33]模型,可同時(shí)訓(xùn)練出詞匯和主題的向量表示,從而學(xué)習(xí)不同主題下詞向量的不同表示,有效提高了醫(yī)學(xué)科技報(bào)告主題挖掘的精度。

      主題演化分析以主題發(fā)現(xiàn)為前提,是對(duì)主題動(dòng)態(tài)發(fā)展規(guī)律的把握。在主題演化分析中,如何提高主題演化路徑分析的精度一直是研究熱點(diǎn),如引文層次狄利克雷過(guò)程[60](Citation Involved Hierarchical Dirichlet Process,CIHDP),在人工智能領(lǐng)域期刊論文的主題提取中使用引文信息來(lái)增強(qiáng)文檔文本表示,可自動(dòng)確定每個(gè)時(shí)期的主題數(shù)量,同時(shí)識(shí)別更加詳盡完整的路徑分裂和融合信息;針對(duì)石墨烯專(zhuān)利文獻(xiàn),有研究在LDA模型的基礎(chǔ)上,通過(guò)引入新穎性、關(guān)注度和主題結(jié)構(gòu)指標(biāo)衡量主題發(fā)展程度,并識(shí)別不同狀態(tài)的主題類(lèi)型[42]。此外,也有研究利用主題演化過(guò)程中的時(shí)間序列特征來(lái)提高主題演化分析的精度。比如以圖情學(xué)科期刊論文為數(shù)據(jù)源,在LDA模型抽取學(xué)科主題的基礎(chǔ)上,通過(guò)時(shí)間切片獲得學(xué)科主題的熱度序列,然后利用長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)[13]對(duì)學(xué)科主題熱度演化的時(shí)間序列特征進(jìn)行建模,可有效提高學(xué)科主題熱度未來(lái)趨勢(shì)預(yù)測(cè)的準(zhǔn)確性。

      4.1.2 用戶生成內(nèi)容的主題探索

      在用戶生成內(nèi)容的主題發(fā)現(xiàn)相關(guān)研究中,一是將在線消費(fèi)平臺(tái)用戶評(píng)論作為數(shù)據(jù)源,目標(biāo)是挖掘用戶對(duì)產(chǎn)品或服務(wù)的觀點(diǎn)。比如 Opinion LDA[61],通過(guò)改進(jìn)文檔結(jié)構(gòu),將基于用戶評(píng)論內(nèi)容的詞序列轉(zhuǎn)換為基于用戶觀點(diǎn)的產(chǎn)品特征詞序列,可有效識(shí)別用戶對(duì)具體產(chǎn)品特征的偏好。二是將網(wǎng)絡(luò)輿情數(shù)據(jù)作為數(shù)據(jù)源,目標(biāo)是輿情管控。比如在LDA模型挖掘微博文本主題特征的基礎(chǔ)上,結(jié)合隨機(jī)森林算法進(jìn)行謠言分類(lèi)[62],謠言識(shí)別的準(zhǔn)確性顯著提升。但是以上兩類(lèi)數(shù)據(jù)通常以短文本居多,反映文本主題內(nèi)容的特征詞較少,導(dǎo)致利用LDA進(jìn)行主題發(fā)現(xiàn)時(shí)較難挖掘完整的語(yǔ)義信息。針對(duì)上述問(wèn)題,常用的方法主要通過(guò)信息整合來(lái)增加文本長(zhǎng)度或使用更適用于短文本的主題模型。也有研究嘗試將LDA模型與其他方法相結(jié)合,比如在得到學(xué)術(shù)APP評(píng)論的建模結(jié)果以后,通過(guò)Glove詞向量計(jì)算詞語(yǔ)相似度來(lái)擴(kuò)充主題下的特征詞[63],進(jìn)而提高主題間的區(qū)分度,挖掘更加系統(tǒng)深層的主題信息。

      用戶生成內(nèi)容的主題演化分析關(guān)注話題內(nèi)容的變化趨勢(shì),對(duì)企業(yè)、政府等機(jī)構(gòu)具有重要的現(xiàn)實(shí)意義。面向在線消費(fèi)平臺(tái)用戶評(píng)論數(shù)據(jù),主題演化分析可以挖掘用戶在不同時(shí)間節(jié)點(diǎn)對(duì)產(chǎn)品與服務(wù)的關(guān)注重點(diǎn)[64],輔助企業(yè)提升產(chǎn)品與服務(wù)品質(zhì)。面向網(wǎng)絡(luò)輿情數(shù)據(jù)的主題演化分析[65]可輔助有關(guān)部門(mén)進(jìn)行輿情應(yīng)急管控。然而社交媒體平臺(tái)是一個(gè)極具動(dòng)態(tài)性、復(fù)雜性的輿論場(chǎng),輿情管控效果的好壞在于對(duì)輿情演化過(guò)程中的關(guān)鍵節(jié)點(diǎn)、熱點(diǎn)主題[66]的發(fā)現(xiàn)。學(xué)者們以超網(wǎng)絡(luò)理論為基礎(chǔ),通過(guò)LDA模型識(shí)別微博主題子網(wǎng),然后結(jié)合相應(yīng)的社交、內(nèi)容以及情感子網(wǎng)構(gòu)建微博輿情超網(wǎng)絡(luò),采用超邊排序算法HyperEdgeRank識(shí)別出關(guān)鍵人物,全面挖掘微博輿情傳播中的關(guān)鍵節(jié)點(diǎn)[67],有效服務(wù)于社交媒體輿情監(jiān)管。

      4.1.3 其他網(wǎng)絡(luò)信息資源的主題探索

      新聞報(bào)道、政策文本等網(wǎng)絡(luò)信息資源的主題發(fā)現(xiàn)可以為企業(yè)和政府決策提供有利的情報(bào)支持,也可輔助相關(guān)研究人員追蹤研究熱點(diǎn)。在新聞報(bào)道[68]的主題發(fā)現(xiàn)研究中,由于新聞文本主題識(shí)別一般存在文本數(shù)據(jù)不均衡的問(wèn)題,有研究[69]結(jié)合特征檢測(cè)方法(獨(dú)立性檢測(cè)、方差檢測(cè)和信息熵檢測(cè))優(yōu)化特征詞的主題表示能力,文本主題識(shí)別的準(zhǔn)確性得以顯著提高。政策文本是指因政策活動(dòng)而產(chǎn)生的記錄文獻(xiàn),包括官方文獻(xiàn)、公文檔案以及政策輿情文本等[70]。不同語(yǔ)境下政策詞語(yǔ)的內(nèi)涵差別較大,而LDA 模型利用文本、主題、詞之間的關(guān)系可以解決文本聚類(lèi)中語(yǔ)義挖掘的問(wèn)題,已經(jīng)被廣泛應(yīng)用于氣候[71]、政府開(kāi)放數(shù)據(jù)[72]等政策文本的主題發(fā)現(xiàn)。也有學(xué)者[73]利用LDA2vec模型進(jìn)一步提高政策文本語(yǔ)義內(nèi)涵挖掘的完整性。此外,標(biāo)簽是一類(lèi)對(duì)網(wǎng)絡(luò)信息資源進(jìn)行分類(lèi)或描述的詞語(yǔ),標(biāo)簽生成則是指從文檔中提取出能體現(xiàn)文檔主題的詞語(yǔ)或短語(yǔ)[74]。LDA模型可以保證標(biāo)簽生成時(shí)的客觀性與效率,已被廣泛應(yīng)用于微博[74]、在線醫(yī)生[75]等的標(biāo)簽生成研究中。部分研究通過(guò)構(gòu)建擴(kuò)展模型將其用于特定領(lǐng)域數(shù)據(jù)的標(biāo)簽生成,如用于電子健康記錄數(shù)據(jù)表型標(biāo)簽生成的sureLDA[76](Surrogate-guided ensemble Latent Dirichlet Allocation),使得LDA模型的應(yīng)用范圍得到進(jìn)一步擴(kuò)展。

      在新聞報(bào)道的主題演化分析中,當(dāng)前研究多以LDA模型為基礎(chǔ),引入其他模型[77]與方法來(lái)提高演化分析的準(zhǔn)確性。比如引入流形學(xué)習(xí)[78]可從全局時(shí)間角度重構(gòu)新聞主題間的關(guān)系,避免利用相鄰時(shí)間窗口導(dǎo)致的演化路徑斷裂問(wèn)題;也可利用基于密度的DBSCAN聚類(lèi)算法[79]去除噪聲文本,從而保障 LDA 模型主題抽取的純度,提升主題演化分析的準(zhǔn)確性。

      在政策文本的主題演化分析中,LDA模型結(jié)合主題相似度、主題強(qiáng)度等算法已經(jīng)被應(yīng)用于人工智能[80]、區(qū)域技術(shù)創(chuàng)新[81]等政策文本的量化分析,可有效支持相關(guān)政策的制定和完善。部分研究使用擴(kuò)展模型如主題時(shí)間模型[82](Topic over Time,ToT),將時(shí)間因素引入,獲取不同時(shí)間切片下的主題分布強(qiáng)度,可避免繁瑣的主題對(duì)齊環(huán)節(jié)。

      4.2 知識(shí)組織

      LDA模型可以通過(guò)無(wú)監(jiān)督的方式以主題和主題詞為單元描述信息資源的內(nèi)容,促進(jìn)了分析單元從文檔向主題詞細(xì)化發(fā)展,被廣泛應(yīng)用于知識(shí)組織研究中。知識(shí)組織關(guān)注文本中的語(yǔ)義信息,強(qiáng)調(diào)知識(shí)之間的關(guān)聯(lián)關(guān)系。而LDA模型可以通過(guò)挖掘隱含的主題特征構(gòu)建文檔與特征詞之間的關(guān)聯(lián)關(guān)系,方便知識(shí)推理,被圖情領(lǐng)域?qū)W者應(yīng)用于知識(shí)圖譜與主題圖譜構(gòu)建研究。

      4.2.1 知識(shí)圖譜構(gòu)建

      目前的知識(shí)圖譜構(gòu)建一般采用命名實(shí)體識(shí)別與模版匹配等方式來(lái)實(shí)現(xiàn),在專(zhuān)業(yè)領(lǐng)域語(yǔ)料的知識(shí)圖譜構(gòu)建中可以獲得較為完備的實(shí)體及其關(guān)系抽取。當(dāng)語(yǔ)料內(nèi)容涉及不同主題時(shí),僅通過(guò)命名實(shí)體識(shí)別等方法抽取局部信息作為實(shí)體對(duì)象,會(huì)造成語(yǔ)義缺失等問(wèn)題[83]。而利用LDA模型將基于全局信息抽取的文本主題作為實(shí)體,可實(shí)現(xiàn)知識(shí)圖譜的精細(xì)化展示,將主題復(fù)雜、關(guān)聯(lián)性差的文本數(shù)據(jù)進(jìn)行結(jié)構(gòu)化組織,提高實(shí)體間的關(guān)聯(lián)關(guān)系,能有效提升知識(shí)推理的效果。比如華斌等[83]構(gòu)建的電子政務(wù)領(lǐng)域知識(shí)圖譜,利用LDA模型獲取主題實(shí)體,完成電子政務(wù)領(lǐng)域?qū)嶓w擴(kuò)充,從而解決實(shí)體抽取算法存在語(yǔ)義缺失的問(wèn)題,以便更好地進(jìn)行知識(shí)推理,輔助政務(wù)決策。除了將主題作為實(shí)體構(gòu)建知識(shí)圖譜外,也可聯(lián)合主題詞來(lái)實(shí)現(xiàn)。比如岳麗欣等[84]首先通過(guò)LDA模型對(duì)醫(yī)療健康信息領(lǐng)域文獻(xiàn)進(jìn)行主題識(shí)別,然后通過(guò)社會(huì)網(wǎng)絡(luò)分析挖掘核心主題詞,最后基于核心主題詞的共現(xiàn)關(guān)系構(gòu)建醫(yī)療健康信息領(lǐng)域知識(shí)圖譜,輔助領(lǐng)域知識(shí)關(guān)聯(lián)分析。

      4.2.2 主題圖譜構(gòu)建

      主題圖譜是一種存儲(chǔ)主題及其之間邏輯關(guān)系與層次結(jié)構(gòu)的知識(shí)庫(kù)[85],相比于知識(shí)圖譜,其更加適用于無(wú)序、非結(jié)構(gòu)化、主題發(fā)散特征明顯的網(wǎng)絡(luò)信息資源組織。在處理非結(jié)構(gòu)化文本信息時(shí),傳統(tǒng)主題聚類(lèi)方法如共詞分析方法易受詞頻、文本領(lǐng)域的復(fù)雜性的影響,難以解釋文檔間以及詞匯間的語(yǔ)義關(guān)系,而K-means聚類(lèi)分析結(jié)果描述比較復(fù)雜,并且兩者都難以解決詞項(xiàng)不匹配(即近義、同義詞)的問(wèn)題,導(dǎo)致主題識(shí)別效果較差。LDA模型在非結(jié)構(gòu)化文本信息的主題建模上表現(xiàn)良好,通過(guò)主題的思想描述文檔的隱含特征以及詞匯之間的語(yǔ)義關(guān)系,一定程度上可以解決詞項(xiàng)不匹配的問(wèn)題,相比于傳統(tǒng)主題聚類(lèi)方法可以更好地挖掘文本中的語(yǔ)義信息,被廣泛應(yīng)用于主題圖譜構(gòu)建中,比如臨床醫(yī)學(xué)課程知識(shí)主題圖譜[86]。此外,主題圖譜適用于輿情分析[87]。比如在基于微博信息的網(wǎng)絡(luò)輿情管控中,通過(guò)LDA模型對(duì)用戶評(píng)論轉(zhuǎn)發(fā)文本進(jìn)行主題聚類(lèi)后,既可將用戶所屬的共同主題作為節(jié)點(diǎn),主題分布的相似度為邊構(gòu)建用戶主題圖譜[88],也可將用戶作為節(jié)點(diǎn),轉(zhuǎn)發(fā)評(píng)論關(guān)系為邊構(gòu)造用戶主題圖譜[89],從而挖掘輿情演化中的關(guān)鍵主題與關(guān)鍵用戶,輔助監(jiān)管部門(mén)實(shí)現(xiàn)精準(zhǔn)輿情應(yīng)對(duì)。

      盡管LDA模型能較好地解決非結(jié)構(gòu)化文本信息的主題圖譜構(gòu)建問(wèn)題,但是也需要注意增強(qiáng)主題詞的專(zhuān)業(yè)領(lǐng)域相關(guān)性以及主題圖譜的時(shí)效性,以提高主題圖譜的應(yīng)用價(jià)值。

      4.3 學(xué)術(shù)評(píng)價(jià)

      學(xué)術(shù)評(píng)價(jià)主要包括文獻(xiàn)影響力評(píng)價(jià)與作者影響力評(píng)價(jià)等。現(xiàn)有的定量學(xué)術(shù)評(píng)價(jià)方法主要通過(guò)綜合傳統(tǒng)的文獻(xiàn)計(jì)量學(xué)指標(biāo)如被引頻次、網(wǎng)絡(luò)特征指標(biāo)如PageRank、H指數(shù)以及Altmetrics評(píng)價(jià)指標(biāo)等進(jìn)行評(píng)價(jià)。然而文獻(xiàn)內(nèi)容與作者涉及的研究領(lǐng)域一般具有主題差異[54],從而導(dǎo)致上述指標(biāo)難以有效地反映文獻(xiàn)與作者在某一研究主題中的實(shí)際影響力。因此,相關(guān)研究開(kāi)始以主題為單位對(duì)文獻(xiàn)與作者進(jìn)行細(xì)粒度的學(xué)術(shù)評(píng)價(jià)。對(duì)文獻(xiàn)或作者的研究主題進(jìn)行分類(lèi)是按主題進(jìn)行學(xué)術(shù)評(píng)價(jià)的首要環(huán)節(jié)。而LDA模型可通過(guò)概率推斷求解“文檔-主題”分布參數(shù),從而將文獻(xiàn)客觀地分為若干主題類(lèi)別,然后根據(jù)文獻(xiàn)與作者之間的映射關(guān)系,實(shí)現(xiàn)作者研究主題的分類(lèi),再結(jié)合其他計(jì)量指標(biāo)進(jìn)行影響力計(jì)算[90]。有研究直接使用相應(yīng)的影響力評(píng)價(jià)模型如集合主題 PageRank 模型[91](Collective Topic PageRank Model,CTPM),在識(shí)別文獻(xiàn)主題及主題間相關(guān)性的基礎(chǔ)上,引入文獻(xiàn)被引次數(shù)、期刊影響因子等元數(shù)據(jù),有效反映了文獻(xiàn)在特定主題內(nèi)的影響力。作者影響力評(píng)價(jià)中,有研究采用ATM模型[92]來(lái)實(shí)現(xiàn)更加精準(zhǔn)的作者研究主題分類(lèi)。在當(dāng)前科學(xué)研究領(lǐng)域不斷細(xì)分背景下,LDA模型可以獲取文獻(xiàn)與作者的研究主題,較好地解決傳統(tǒng)學(xué)術(shù)評(píng)價(jià)中忽視內(nèi)容信息的問(wèn)題,進(jìn)一步推動(dòng)精細(xì)化學(xué)術(shù)評(píng)價(jià)發(fā)展。

      4.4 情感分析

      LDA模型主要用于挖掘語(yǔ)料中的主題信息,難以識(shí)別相關(guān)主題背后用戶的情感態(tài)度。深入挖掘主題的情感傾向需要結(jié)合相應(yīng)的情感分析方法,或者構(gòu)建情感主題模型來(lái)實(shí)現(xiàn),相關(guān)研究成果對(duì)企業(yè)與政府的決策制定具有重要的現(xiàn)實(shí)意義。例如采用LDA獲取Reddit平臺(tái)中公眾關(guān)注的三星手機(jī)產(chǎn)品主題[45],隨后結(jié)合情感分析工具AlchemyAPI挖掘公眾對(duì)各主題的情感態(tài)度,分析不同關(guān)注度下主題的情感傾向,從而幫助相關(guān)企業(yè)找準(zhǔn)用戶需求與市場(chǎng)痛點(diǎn),輔助商業(yè)決策。也有研究直接采用情感與行為聯(lián)合主題模型[16](Sentiment and Behaviour Topic Model,SBTM),該模型可同時(shí)結(jié)合用戶的情感與互動(dòng)行為模式進(jìn)行復(fù)雜主題發(fā)現(xiàn),主題建模結(jié)果表現(xiàn)出更強(qiáng)的區(qū)分性。針對(duì)政府決策制定的相關(guān)研究主要體現(xiàn)在網(wǎng)絡(luò)輿情管控與政務(wù)服務(wù)平臺(tái)建設(shè)[93]中。比如在線話題情感識(shí)別模型[94](Online Topic and Sentiment Recognition Model,OTSRM),利用情感強(qiáng)度的傳遞性構(gòu)造基于時(shí)間維的話題-情感分布,使用相對(duì)熵方法計(jì)算話題焦點(diǎn)在相鄰時(shí)間片段上的最大情感值,可動(dòng)態(tài)識(shí)別文本中的主題情感趨勢(shì),提高輿情預(yù)警的精度。用戶情感在不同的情境下呈現(xiàn)不同的意義和取向,具有多維性、強(qiáng)弱性以及隱秘性等特征,如何構(gòu)建更加優(yōu)化的情感主題模型,提升主題情感識(shí)別的精度仍需進(jìn)一步探索。

      4.5 推薦研究

      推薦系統(tǒng)可以有效緩解信息超載問(wèn)題,其關(guān)鍵技術(shù)主要包括用戶建模、推薦對(duì)象建模和推薦算法三個(gè)方面。面向文本信息建模時(shí),采用TF-IDF、貝葉斯分類(lèi)器以及k最近鄰方法等難以識(shí)別文本更深層次的語(yǔ)義特征,而基于協(xié)同過(guò)濾與網(wǎng)絡(luò)結(jié)構(gòu)的推薦算法常因?yàn)閿?shù)據(jù)稀疏問(wèn)題導(dǎo)致推薦效果不理想。LDA模型在數(shù)據(jù)降維與潛在語(yǔ)義特征挖掘上性能良好,可以有效識(shí)別用戶興趣與推薦對(duì)象中的關(guān)鍵信息,被廣泛應(yīng)用于用戶與推薦對(duì)象建模,比如社交網(wǎng)絡(luò)好友推薦[95]、個(gè)性化新聞推薦[35]等研究。大數(shù)據(jù)環(huán)境下,數(shù)據(jù)的稀疏性與海量動(dòng)態(tài)性特征進(jìn)一步突出,基于LDA模型的主題挖掘與信息推薦的性能受到較大挑戰(zhàn)。崔金棟等[22]使用Hadoop平臺(tái)對(duì)微博數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理后,再利用LDA模型進(jìn)行用戶微博主題信息提取,有效提升了大數(shù)據(jù)信息推薦的效果。

      LDA模型較好地解決了傳統(tǒng)用戶與推薦對(duì)象建模過(guò)程中缺乏語(yǔ)義性的問(wèn)題,并以其良好的降維能力提高推薦的精度。但是大數(shù)據(jù)環(huán)境下信息冗余與過(guò)載等問(wèn)題使得LDA模型的推薦性能受到影響,如何融合不同方法,進(jìn)一步提高推薦效果還亟待探索。

      5 結(jié)論與展望

      LDA模型因其良好的擴(kuò)展性與數(shù)據(jù)降維能力可以滿足研究人員不同的主題建模需求,已成為近年來(lái)應(yīng)用最廣泛的文本主題挖掘技術(shù)。傳統(tǒng)主題挖掘分析通過(guò)詞頻統(tǒng)計(jì)、共詞分析、社區(qū)探測(cè)以及引文分析等方法來(lái)實(shí)現(xiàn),關(guān)注詞或者文獻(xiàn)的外部數(shù)量特征。而LDA主題模型通過(guò)“文檔-主題-詞”三層結(jié)構(gòu)來(lái)描述文檔的主題以及詞匯之間的語(yǔ)義關(guān)系,相比于傳統(tǒng)主題挖掘方法可以更好地挖掘文本中隱含的語(yǔ)義信息,在細(xì)粒度知識(shí)提取與挖掘分析中扮演著關(guān)鍵性角色。但其本身也具有一定的局限性,比如建模結(jié)果的可解釋性較差,難以確定最優(yōu)主題數(shù)等,對(duì)其模型的擴(kuò)展與優(yōu)化應(yīng)用仍是未來(lái)重要的研究方向。

      本文梳理近10年圖情領(lǐng)域相關(guān)研究文獻(xiàn),通過(guò)內(nèi)容分析,構(gòu)建了LDA模型應(yīng)用研究分析框架,基于LDA模型應(yīng)用過(guò)程視角,從文本預(yù)處理、模型構(gòu)建(主題模型選擇與最優(yōu)主題數(shù)選擇)以及模型求解三個(gè)方面系統(tǒng)歸納了LDA模型應(yīng)用的核心環(huán)節(jié)和技術(shù)難點(diǎn),全面總結(jié)了LDA模型在主題探索、知識(shí)組織、學(xué)術(shù)評(píng)價(jià)、情感分析以及推薦研究等應(yīng)用領(lǐng)域的研究現(xiàn)狀。研究發(fā)現(xiàn)圖情領(lǐng)域LDA模型已經(jīng)形成較為成熟的分析流程,研究熱度仍在持續(xù)增長(zhǎng)。國(guó)內(nèi)外研究方向整體較為相似,然而在具體的應(yīng)用環(huán)節(jié)還存在一定的差異。例如在最優(yōu)主題數(shù)選擇方面,國(guó)外學(xué)者嘗試克服傳統(tǒng)概率類(lèi)評(píng)價(jià)指標(biāo)(如困惑度)的不確定性,側(cè)重于引入新的模型評(píng)價(jià)指標(biāo),注重主題建模結(jié)果的可靠性、穩(wěn)定性以及可解釋性;國(guó)內(nèi)學(xué)者則多依賴(lài)于困惑度、經(jīng)驗(yàn)法等指標(biāo),較少?lài)L試新評(píng)價(jià)指標(biāo)。在應(yīng)用領(lǐng)域中,國(guó)外多將LDA模型用于基礎(chǔ)的信息組織研究,國(guó)內(nèi)學(xué)者在知識(shí)圖譜與主題圖譜構(gòu)建研究中有較多嘗試。從整體上來(lái)看,如下問(wèn)題值得進(jìn)一步探討:

      (1)應(yīng)對(duì)海量規(guī)模數(shù)據(jù)、多模態(tài)數(shù)據(jù)等復(fù)雜處理任務(wù)挑戰(zhàn),進(jìn)一步挖掘LDA主題模型的應(yīng)用價(jià)值。當(dāng)前LDA模型應(yīng)用主要是面向文本數(shù)據(jù)建模,缺乏在音頻、圖像以及視頻等資源類(lèi)型上的應(yīng)用探索。隨著圖情領(lǐng)域主題建模對(duì)象大數(shù)據(jù)特征愈加明顯,LDA主題建模面臨數(shù)據(jù)規(guī)模龐大和數(shù)據(jù)結(jié)構(gòu)日趨復(fù)雜的挑戰(zhàn);同時(shí)相較于單模態(tài)文本數(shù)據(jù),音頻、圖像、視頻等多模態(tài)數(shù)據(jù)的內(nèi)容豐富,主題表示能力強(qiáng),基于多模態(tài)數(shù)據(jù)的主題挖掘成為引人關(guān)注的重要發(fā)展方向[38]。未來(lái)研究可嘗試引入計(jì)算機(jī)領(lǐng)域的分布式和并行計(jì)算來(lái)減少LDA模型處理海量規(guī)模文檔的時(shí)間,提高其處理多源異構(gòu)數(shù)據(jù)的能力,同時(shí)進(jìn)一步探索結(jié)合詞向量、語(yǔ)言模型以及神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的深度學(xué)習(xí)主題模型,進(jìn)行多模態(tài)數(shù)據(jù)的主題提取研究,提高模型的主題挖掘深度與發(fā)現(xiàn)能力,提升圖情領(lǐng)域精準(zhǔn)信息服務(wù)能力。

      (2)重視文本預(yù)處理階段特征詞抽取,提升特征詞的主題表征能力,保障主題建模結(jié)果的語(yǔ)義質(zhì)量。主題建模結(jié)果的語(yǔ)義質(zhì)量直接關(guān)系到主題分析的可靠性,進(jìn)而影響其在情感分析、推薦研究等具體應(yīng)用領(lǐng)域中的實(shí)際應(yīng)用效果。高語(yǔ)義質(zhì)量的主題建模結(jié)果具備同一主題內(nèi)主題詞間關(guān)聯(lián)性高,而主題間語(yǔ)義區(qū)分性高的特征,可以清晰表征語(yǔ)料所屬領(lǐng)域的內(nèi)容主題。文本預(yù)處理是主題建模的基礎(chǔ)步驟,對(duì)于建模結(jié)果的可讀性與可解釋性具有直接影響。而現(xiàn)有研究在文本預(yù)處理階段對(duì)特征詞抽取的質(zhì)量重視不夠,多固化于已有的技術(shù)工具與語(yǔ)義資源,特征詞抽取的領(lǐng)域純度存在較大提升空間。借助相應(yīng)的自然語(yǔ)言處理技術(shù),面向不同主題挖掘任務(wù)構(gòu)建領(lǐng)域詞典、語(yǔ)義資源以及高質(zhì)量大規(guī)模的標(biāo)注數(shù)據(jù)集是未來(lái)重要的研究方向。

      (3)構(gòu)建系統(tǒng)的LDA模型質(zhì)量評(píng)價(jià)體系,優(yōu)化主題數(shù)選取方法。當(dāng)前針對(duì)主題模型質(zhì)量評(píng)價(jià)多利用困惑度與經(jīng)驗(yàn)法,然而不同評(píng)價(jià)指標(biāo)下模型性能表現(xiàn)差異較大,片面依賴(lài)一種方法難以客觀有效地評(píng)價(jià)主題模型質(zhì)量。對(duì)傳統(tǒng)評(píng)價(jià)方法改進(jìn)、引入新方法以及多指標(biāo)聯(lián)合應(yīng)用進(jìn)行模型質(zhì)量評(píng)價(jià)成為顯著發(fā)展趨勢(shì)。未來(lái)可嘗試構(gòu)建更系統(tǒng)的主題模型質(zhì)量評(píng)價(jià)體系,優(yōu)化主題數(shù)選取方法,提升主題建模結(jié)果的質(zhì)量。

      (4)豐富LDA模型的應(yīng)用方式,深化模型應(yīng)用研究。現(xiàn)有研究存在過(guò)度依賴(lài)傳統(tǒng)LDA模型的問(wèn)題,對(duì)新興擴(kuò)展模型的應(yīng)用探索較為欠缺。由于各類(lèi)擴(kuò)展模型參數(shù)較多,結(jié)構(gòu)復(fù)雜,對(duì)圖書(shū)情報(bào)研究人員計(jì)算機(jī)技術(shù)應(yīng)用能力提出更高要求。面向各類(lèi)擴(kuò)展模型,未來(lái)需進(jìn)一步優(yōu)化模型的時(shí)間或空間復(fù)雜度,可嘗試研發(fā)簡(jiǎn)易操作的開(kāi)源工具包,構(gòu)建一體化的模型應(yīng)用工具體系,以提高模型應(yīng)用效率和普適性。

      此外,從模型應(yīng)用現(xiàn)狀來(lái)看,LDA模型的建模結(jié)果常作為相關(guān)研究任務(wù)的中間環(huán)節(jié),需要根據(jù)應(yīng)用情境結(jié)合使用不同的方法工具解決具體的研究問(wèn)題。在處理大規(guī)模數(shù)據(jù)時(shí),可更多嘗試基于分布式、深度學(xué)習(xí)的LDA擴(kuò)展模型;在處理中小規(guī)模數(shù)據(jù)時(shí),可將LDA模型與傳統(tǒng)的共詞分析、聚類(lèi)分析、社區(qū)探測(cè)等主題分析方法協(xié)同應(yīng)用,保障主題挖掘的準(zhǔn)確性,達(dá)到優(yōu)勢(shì)互補(bǔ)的效果。比如共詞分析在中小規(guī)模數(shù)據(jù)集(文檔數(shù)<1000)上的主題聚類(lèi)結(jié)果的可讀性更高[96],而LDA主題模型相比共詞分析在選擇代表性主題詞方面雖缺乏靈活性,但能以最原始的狀態(tài)反映潛藏的主題結(jié)構(gòu),有助于減少偏見(jiàn)。綜上所述,進(jìn)一步探索擴(kuò)展模型在圖情領(lǐng)域應(yīng)用的有效性,將LDA模型與傳統(tǒng)主題挖掘分析方法的協(xié)同應(yīng)用,或?qū)DA模型作為基礎(chǔ)環(huán)節(jié),結(jié)合機(jī)器學(xué)習(xí)、知識(shí)圖譜、大數(shù)據(jù)以及相關(guān)領(lǐng)域特殊算法的綜合應(yīng)用,是當(dāng)前LDA模型應(yīng)用研究的重要趨勢(shì)。

      作者貢獻(xiàn)說(shuō)明

      張東鑫:數(shù)據(jù)收集,論文撰寫(xiě);

      張敏:設(shè)計(jì)論文總體思路,修改論文。

      支撐數(shù)據(jù)

      支撐數(shù)據(jù)由作者自存儲(chǔ),E-mail:zdx1996@email.swu.edu.cn。

      1.張東鑫.Literature review data.xlsx.文獻(xiàn)綜述數(shù)據(jù).

      猜你喜歡
      語(yǔ)義建模文本
      聯(lián)想等效,拓展建?!浴皫щ娦∏蛟诘刃?chǎng)中做圓周運(yùn)動(dòng)”為例
      語(yǔ)言與語(yǔ)義
      在808DA上文本顯示的改善
      基于doc2vec和TF-IDF的相似文本識(shí)別
      電子制作(2018年18期)2018-11-14 01:48:06
      基于PSS/E的風(fēng)電場(chǎng)建模與動(dòng)態(tài)分析
      電子制作(2018年17期)2018-09-28 01:56:44
      不對(duì)稱(chēng)半橋變換器的建模與仿真
      “上”與“下”語(yǔ)義的不對(duì)稱(chēng)性及其認(rèn)知闡釋
      文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
      認(rèn)知范疇模糊與語(yǔ)義模糊
      如何快速走進(jìn)文本
      讷河市| 怀来县| 灵武市| 建湖县| 泗洪县| 博客| 涡阳县| 读书| 登封市| 杭锦后旗| 秭归县| 商水县| 湘乡市| 高州市| 昭平县| 重庆市| 抚顺县| 胶州市| 金阳县| 中西区| 松桃| 海淀区| 林西县| 连城县| 长葛市| 浦城县| 乐陵市| 南通市| 和平县| 嘉兴市| 阿巴嘎旗| 成武县| 岢岚县| 鹿泉市| 云龙县| 平武县| 陆川县| 伊宁市| 凌云县| 新乐市| 临城县|