吳俊 邵丹睿 姜尚楊帆
基金項(xiàng)目:國(guó)家社會(huì)科學(xué)基金“推動(dòng)新一代信息技術(shù)與制造業(yè)深度融合研究——基于新時(shí)代和新工業(yè)革命的視角”(項(xiàng)目編號(hào):18VSJ054);國(guó)家重點(diǎn)研發(fā)計(jì)劃項(xiàng)目“基于模式創(chuàng)新的科技咨詢(xún)服務(wù)平臺(tái)研發(fā)與應(yīng)用示范”(項(xiàng)目編號(hào):2018YFB1403600);北京市社會(huì)科學(xué)基金規(guī)劃項(xiàng)目“基于大數(shù)據(jù)的北京市共享單車(chē)產(chǎn)業(yè)監(jiān)測(cè)與發(fā)展趨勢(shì)研究”(項(xiàng)目編號(hào):17YJB018)。
作者簡(jiǎn)介:吳?。?971-),男,副教授,博士,碩士生導(dǎo)師,研究方向:文本挖掘與服務(wù)創(chuàng)新。邵丹睿(1996-),女,碩士研究生,研究方向:文本挖掘。姜尚楊帆(1997-),女,碩士研究生,研究方向:文本挖掘。
摘要:[目的/意義]前沿技術(shù)孵育的新興產(chǎn)業(yè)發(fā)展演進(jìn)快,但因統(tǒng)計(jì)數(shù)據(jù)遲滯,產(chǎn)業(yè)監(jiān)測(cè)難而備受研究者關(guān)注。[方法/過(guò)程]以2014-2019年36氪網(wǎng)站互聯(lián)網(wǎng)區(qū)塊鏈新聞為數(shù)據(jù)樣本,提出納入?yún)f(xié)變量的結(jié)構(gòu)化主題模型(STM)與深度學(xué)習(xí)情感分析技術(shù)結(jié)合的新興產(chǎn)業(yè)新聞文本監(jiān)測(cè)方法,通過(guò)監(jiān)測(cè)媒體報(bào)道的產(chǎn)業(yè)新聞熱點(diǎn)強(qiáng)度變化,文本情感傾向?qū)π侣劅狳c(diǎn)強(qiáng)度的時(shí)序影響,發(fā)現(xiàn)并跟蹤新興產(chǎn)業(yè)熱點(diǎn)及趨勢(shì)。[結(jié)果/結(jié)論]2014-2019年,69%的區(qū)塊鏈新聞主題聚焦于區(qū)塊鏈的產(chǎn)業(yè)應(yīng)用和比特幣等數(shù)字代幣的發(fā)行與交易。文本的語(yǔ)義和情感分析顯示,2017年以來(lái),中國(guó)的區(qū)塊鏈產(chǎn)業(yè)發(fā)展存在一定的媒體炒作特征,但媒體對(duì)各類(lèi)數(shù)字代幣發(fā)行與交易由褒轉(zhuǎn)貶的情感傾向變化可以對(duì)區(qū)塊鏈隱含風(fēng)險(xiǎn)起到預(yù)警作用。[創(chuàng)新/價(jià)值]提出的產(chǎn)業(yè)新聞文本監(jiān)測(cè)方法具有準(zhǔn)實(shí)時(shí)性,能與傳統(tǒng)的事后統(tǒng)計(jì)指標(biāo)監(jiān)測(cè)方法互為補(bǔ)充。
關(guān)鍵詞:區(qū)塊鏈;產(chǎn)業(yè)新聞;結(jié)構(gòu)化主題模型;文本情感分析;深度學(xué)習(xí)
DOI:10.3969/j.issn.1008-0821.2020.11.003
〔中圖分類(lèi)號(hào)〕G203〔文獻(xiàn)標(biāo)識(shí)碼〕A〔文章編號(hào)〕1008-0821(2020)11-0022-12
Identifying Development Focus and Trend of Blockchain Industry Through
News Text Mining:A Topic Modeling and Sentiment Analysis Investigation
Wu JunShao DanruiJiang Shangyangfan
(School of Economics and Management,Beijing University of Posts and Telecommunications,
Beijing 100876,China)
Abstract:[Purpose/Significance] How to identify the development focus and trend of emerging technology,like blockchain,and its industry have attracted more and more attention from academics and practitioners.[Method/Process]3983 blockchain news collected from China famous TMT media—36kr.com was analyzed using structural topic modeling and deep learning enhanced sentiment analysis.[Results/Conclusions]This paper revealed that:(1)blockchain industry development in China during the period of 2014 to 2019 can be reflected by 7 key topics which focused on the domain applications of blockchain technology,initial offering and transaction of bitcoin and digital currency.(2)Although positive sentiment tendency dominated during the research period of 2014 to December 2019,the sentiment of news related to the issuance and transaction of digital currency has clearly shifted from positive to negative since January 2017,implying concerns about speculation in the encrypted digital currency market.The contribution of this paper is reflected not only by proposing a new approach to identify the development focus and trend of technology frontiers but also validating its application in the blockchain industry monitoring.
Key words:blockchain;industry news;structural topic modeling;sentiment analysis;deep learning
前沿技術(shù)是具有前瞻性、先導(dǎo)性和探索性的重大技術(shù),是培育新興產(chǎn)業(yè)的基礎(chǔ)[1]。以大數(shù)據(jù)、區(qū)塊鏈等為代表的前沿科技革命,在促進(jìn)技術(shù)、資源、產(chǎn)業(yè)和市場(chǎng)跨時(shí)空、跨領(lǐng)域融合,新業(yè)態(tài)、新模式不斷涌現(xiàn)的同時(shí),也對(duì)產(chǎn)業(yè)監(jiān)管提出了新要求、新挑戰(zhàn)。如何有效認(rèn)清新興產(chǎn)業(yè)發(fā)展前景,識(shí)別潛在風(fēng)險(xiǎn),促進(jìn)產(chǎn)業(yè)包容性發(fā)展,逐漸引起各級(jí)政府監(jiān)管部門(mén)及學(xué)術(shù)界的興趣與關(guān)注。
前沿技術(shù)孵化的新興產(chǎn)業(yè)具有發(fā)展演進(jìn)快、專(zhuān)業(yè)壁壘高、跨界融合性強(qiáng)的特點(diǎn),盡管有學(xué)者提出要各級(jí)統(tǒng)計(jì)部門(mén)加快基于企業(yè)上報(bào)數(shù)據(jù)來(lái)構(gòu)建戰(zhàn)略性新興產(chǎn)業(yè)評(píng)價(jià)指標(biāo)體系[2],但基于統(tǒng)計(jì)數(shù)據(jù)開(kāi)展新興產(chǎn)業(yè)監(jiān)測(cè)的方法或者受限于數(shù)據(jù)不可得,或者存在監(jiān)測(cè)分析的時(shí)滯,亟待監(jiān)測(cè)手段創(chuàng)新。
作為人工智能的代表性技術(shù)之一,自然語(yǔ)言處理領(lǐng)域的文本主題模型(Topic Modeling)和情感分析(Sentiment Analysis)能夠幫助產(chǎn)業(yè)經(jīng)濟(jì)研究者從海量非結(jié)構(gòu)化文本中提取潛在語(yǔ)義主題,量化文本的情感變化。文本主題模型是一種典型的非監(jiān)督機(jī)器學(xué)習(xí)(Unsupervised Machine Learning)方法,優(yōu)勢(shì)是無(wú)需數(shù)據(jù)樣本標(biāo)簽(如預(yù)先人工標(biāo)注的文本主題類(lèi)別)即可實(shí)現(xiàn)海量文本的自動(dòng)分類(lèi)。文本情感分析則能量化文本的情感傾向(如正向、中性、負(fù)向等),從而幫助研究者從海量文本中提取表征主觀特征的代理變量。應(yīng)用文本主題模型方法挖掘?qū)@谋鹃_(kāi)發(fā)專(zhuān)利知識(shí)圖譜[3],發(fā)現(xiàn)并持續(xù)跟蹤細(xì)分領(lǐng)域的前沿?zé)狳c(diǎn)技術(shù)[4]正在興起,也有學(xué)者綜合應(yīng)用機(jī)器學(xué)習(xí)(隨機(jī)森林模型)和深度學(xué)習(xí)(卷積神經(jīng)網(wǎng)絡(luò)模型)技術(shù)構(gòu)建互聯(lián)網(wǎng)新聞文本消費(fèi)情感指數(shù),捕捉消費(fèi)者信心波動(dòng)[5]。但鮮有研究者從產(chǎn)業(yè)監(jiān)測(cè)視角,通過(guò)挖掘互聯(lián)網(wǎng)科技財(cái)經(jīng)媒體新聞來(lái)追蹤前沿產(chǎn)業(yè)熱點(diǎn)與演化趨勢(shì)。為彌補(bǔ)這一缺憾,擬通過(guò)對(duì)知名科技財(cái)經(jīng)媒體新興產(chǎn)業(yè)報(bào)道的新聞文本挖掘,揭示新興產(chǎn)業(yè)領(lǐng)域的輪換熱點(diǎn)與發(fā)展趨勢(shì)。本文提出融合結(jié)構(gòu)化主題模型(Structural Topic Modeling)和深度學(xué)習(xí)情感分析(Deep Learning Based Sentiment Analysis)技術(shù)的新思路,原因有三:①針對(duì)新興產(chǎn)業(yè)的數(shù)值型統(tǒng)計(jì)數(shù)據(jù)較為稀缺,也常常滯后,而對(duì)應(yīng)的科技財(cái)經(jīng)新聞往往能及時(shí)報(bào)道最新動(dòng)態(tài),大量新聞文本蘊(yùn)含的潛在語(yǔ)義主題以及遣詞用語(yǔ)反映的文本主觀傾向?yàn)楫a(chǎn)業(yè)監(jiān)測(cè)提供了豐富的數(shù)據(jù)來(lái)源。②結(jié)構(gòu)化主題模型是傳統(tǒng)LDA主題模型的新發(fā)展,能夠量化文檔協(xié)變量(如時(shí)間、情感傾向等)對(duì)文檔隸屬主題以及主題內(nèi)容的影響,幫助研究者從更細(xì)的粒度考察媒體報(bào)道的新興產(chǎn)業(yè)熱點(diǎn)主題隨時(shí)間、隨情感傾向變化特征與趨勢(shì)。③深度學(xué)習(xí)情感分析是對(duì)傳統(tǒng)基于規(guī)則和基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)方法的新拓展,通過(guò)構(gòu)建的雙向長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(Bi-directional Long Term and Short Term Neural Network,Bi-LSTM)能夠自動(dòng)學(xué)習(xí)文本特征表示,達(dá)到較高的精確度并具備較好的文本泛化能力,輸出的文本情感傾向類(lèi)別可用作表征媒體主觀意見(jiàn)的代理變量。
本文選取區(qū)塊鏈作為新興產(chǎn)業(yè)代表的理由如下:①全球著名咨詢(xún)公司Gartner將區(qū)塊鏈技術(shù)列為2017-2018年十大前沿戰(zhàn)略科技之一,看好其從數(shù)字貨幣基礎(chǔ)到企業(yè)應(yīng)用的廣泛潛力[6]。②2017年以來(lái)區(qū)塊鏈創(chuàng)業(yè)公司風(fēng)起云涌,大量的傳統(tǒng)企業(yè)也紛紛投資區(qū)塊鏈技術(shù)與相關(guān)應(yīng)用,區(qū)塊鏈新興產(chǎn)業(yè)迅速發(fā)展起來(lái),大量的互聯(lián)網(wǎng)媒體也爭(zhēng)相造勢(shì),不斷引爆區(qū)塊鏈輿論熱點(diǎn)。③區(qū)塊鏈在中國(guó)的發(fā)展具有技術(shù)演進(jìn)快、專(zhuān)業(yè)化程度高、與眾多傳統(tǒng)產(chǎn)業(yè)交叉融合等特點(diǎn),各級(jí)政府的統(tǒng)計(jì)數(shù)據(jù)公開(kāi)少、更新慢,如何從紛繁蕪雜的互聯(lián)網(wǎng)產(chǎn)業(yè)新聞中識(shí)別區(qū)塊鏈發(fā)展熱點(diǎn)及演進(jìn)趨勢(shì),準(zhǔn)確把握區(qū)塊鏈技術(shù)與應(yīng)用創(chuàng)新節(jié)奏,成為新經(jīng)濟(jì)研究者和各級(jí)政府監(jiān)管部門(mén)關(guān)注的焦點(diǎn)。
1相關(guān)研究
11熱點(diǎn)話題發(fā)現(xiàn)與結(jié)構(gòu)化主題模型
從互聯(lián)網(wǎng)新聞中發(fā)現(xiàn)并識(shí)別新興和熱點(diǎn)話題可以使用文本挖掘中的主題建模(Topic Modeling)方法[7-8]。潛在狄利克雷分配(Latent Dirichlet Allocation,LDA)是最常見(jiàn)的主題模型[9],在實(shí)際應(yīng)用中,通過(guò)輸入經(jīng)預(yù)處理的文本語(yǔ)料,預(yù)定義的主題數(shù),即可由算法輸出文本語(yǔ)料對(duì)應(yīng)的主題概率分布以及每個(gè)主題下語(yǔ)義最相近詞項(xiàng)的概率分布。
LDA主題模型已在諸多領(lǐng)域廣泛應(yīng)用,例如,通過(guò)對(duì)區(qū)塊鏈專(zhuān)利文獻(xiàn)的挖掘,從更細(xì)粒度識(shí)別校企重點(diǎn)研究方向和技術(shù)薄弱環(huán)節(jié)[10],分析社交媒體中用戶(hù)的造謠和舉報(bào)行為是否存在性別差異[11],基于社交媒體用戶(hù)評(píng)論文本的犯罪事件挖掘及犯罪預(yù)測(cè)[12],從酒店用戶(hù)評(píng)論中提取用戶(hù)對(duì)酒店滿(mǎn)意度的多個(gè)維度[13],對(duì)科技文獻(xiàn)主題進(jìn)行劃分,將主題多個(gè)特征指標(biāo)賦權(quán)疊加構(gòu)建主題新興指標(biāo),預(yù)測(cè)新型主題未來(lái)趨勢(shì)[14]等。也有學(xué)者采用文本主題、作者與時(shí)間關(guān)聯(lián)的ATOT主題模型,分析企業(yè)技術(shù)專(zhuān)利的動(dòng)態(tài)變化和產(chǎn)業(yè)鏈各環(huán)節(jié)的技術(shù)發(fā)展?fàn)顟B(tài)[15],采用層次Dirichlet過(guò)程模型分析管理科學(xué)領(lǐng)域的前沿研究主題時(shí)序演化特征,繪制學(xué)科知識(shí)演化圖譜[16],融合主題模型與卷積神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)用戶(hù)對(duì)APP的評(píng)分,進(jìn)行推薦[17]。
LDA主題模型在文本語(yǔ)義挖掘?qū)嵺`中存在著無(wú)法揭示文檔元數(shù)據(jù)(Metadata)對(duì)文本主題和內(nèi)容影響的不足。在狄利克雷-多項(xiàng)回歸主題模型(DMR)和稀疏可加生成模型(SAGE)基礎(chǔ)上[18-19],Roberts M E等[20-21]提出了結(jié)構(gòu)化主題模型算法(Structural Topic Model,STM),可以靈活地將多個(gè)文檔協(xié)變量作為先驗(yàn)分布納入主題模型考察其對(duì)文本主題強(qiáng)度(Topic Prevalence,即文檔-主題概率分布)與主題內(nèi)容(Topic Content,即主題-詞語(yǔ)概率分布)的影響,這為探索區(qū)塊鏈新聞熱點(diǎn)主題隨時(shí)間、文本情感傾向類(lèi)別(如負(fù)向、中性和正向)等協(xié)變量的變化開(kāi)辟了新途徑。STM主題模型與LDA主題模型的比較如圖1示意:
STM中的文檔主題分布服從對(duì)數(shù)正態(tài)分布與多項(xiàng)式分布非共軛,因此采用漸進(jìn)變分EM迭代算法完成模型參數(shù)擬合與估算。作為基礎(chǔ)LDA模型的重要新拓展,STM相對(duì)LDA具有明顯的預(yù)測(cè)性能優(yōu)勢(shì)[21-22]。近年來(lái),國(guó)內(nèi)外學(xué)者將結(jié)構(gòu)化主題模型應(yīng)用于探索新興研究領(lǐng)域的熱點(diǎn)主題與演進(jìn)脈絡(luò)[23],分析航空事故報(bào)告文本來(lái)識(shí)別飛航領(lǐng)域的故障主題分布與趨勢(shì)[24]。本文也嘗試?yán)肧TM實(shí)現(xiàn):①產(chǎn)業(yè)新聞熱點(diǎn)語(yǔ)義主題提取與識(shí)別;②熱點(diǎn)主題隨時(shí)間和文本情感傾向的變化特征分析。
12基于深度學(xué)習(xí)的文本情感分析
文本的情感分析又稱(chēng)為意見(jiàn)挖掘,通過(guò)對(duì)主觀性文本的情感傾向性判斷[25],給出情感極性的識(shí)別[26](如正向、負(fù)向或中性)或者情感極性類(lèi)別概率(如某文本屬于正向類(lèi)別的概率是073)。通過(guò)對(duì)互聯(lián)網(wǎng)新聞文本的情感挖掘,可以反映網(wǎng)絡(luò)大眾對(duì)特定事物的主觀態(tài)度、意見(jiàn)傾向。文本情感分析技術(shù)已大量應(yīng)用于網(wǎng)絡(luò)輿情監(jiān)測(cè)[27]和基于用戶(hù)評(píng)論的消費(fèi)者態(tài)度、行為偏好分析[28]等。
近年來(lái),文本情感分析技術(shù)已從早期的基于情感詞典規(guī)則、基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí),發(fā)展向基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)[29]??紤]到區(qū)塊鏈領(lǐng)域?qū)I(yè)詞匯多,語(yǔ)義多元的特性,傳統(tǒng)基于通用詞典的情感分析無(wú)法根據(jù)上下文和不同的應(yīng)用領(lǐng)域遷移,淺層的機(jī)器學(xué)習(xí)分類(lèi)方法也難以適應(yīng)多場(chǎng)景海量復(fù)雜文本的處理,本研究嘗試構(gòu)建雙向長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(Bi-directional Long Term and Short Term Neural Network,Bi-LSTM),來(lái)對(duì)區(qū)塊鏈新聞文本進(jìn)行情感傾向分析。應(yīng)用Bi-LSTM神經(jīng)網(wǎng)絡(luò)做文本情感分類(lèi)的原理示意見(jiàn)圖2。
2研究設(shè)計(jì)
21研究框架
圖3展示的是融合結(jié)構(gòu)化主題模型和深度學(xué)習(xí)情感分析技術(shù)的產(chǎn)業(yè)新聞監(jiān)測(cè)模型及與傳統(tǒng)方法的比較。既有的方法大多需要新興產(chǎn)業(yè)統(tǒng)計(jì)數(shù)據(jù),存在著數(shù)據(jù)獲取難,事后監(jiān)測(cè)分析的特點(diǎn)。本文提出的方法以互聯(lián)網(wǎng)產(chǎn)業(yè)新聞文本為對(duì)象,可準(zhǔn)實(shí)時(shí)開(kāi)展事中監(jiān)測(cè)分析,尤其適用于一些快速發(fā)展的新興產(chǎn)業(yè),是對(duì)傳統(tǒng)方法的有益補(bǔ)充與增強(qiáng)。本文方法的創(chuàng)新集中在圖3虛線框部分,首先,應(yīng)用結(jié)構(gòu)化主題模型從海量產(chǎn)業(yè)新聞中提取文本主題及強(qiáng)度(主題概率分布)用以表征產(chǎn)業(yè)熱點(diǎn)。之后,應(yīng)用雙向長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)完成新聞文本情感傾向的分類(lèi)。最后,將時(shí)間和情感傾向類(lèi)別作為協(xié)變量分析其對(duì)產(chǎn)業(yè)新聞主題強(qiáng)度的影響,最終得到海量新聞文本所映射的新興產(chǎn)業(yè)熱點(diǎn)變化與發(fā)展趨勢(shì)。
注:虛線框內(nèi)部分為本文的主要?jiǎng)?chuàng)新點(diǎn)。圖3融合語(yǔ)義與情感分析的新興產(chǎn)業(yè)新聞監(jiān)測(cè)模型及與傳統(tǒng)方法比較
22數(shù)據(jù)源選定與采集
研究選取36氪網(wǎng)(36kr.com)作為數(shù)據(jù)來(lái)源,主要基于兩方面考慮:首先,該網(wǎng)站是國(guó)內(nèi)報(bào)道互聯(lián)網(wǎng)新聞熱點(diǎn)以及前沿技術(shù)的知名科技媒體,在Alexa網(wǎng)絡(luò)科技類(lèi)網(wǎng)站中排名靠前,用戶(hù)訪問(wèn)量與產(chǎn)業(yè)影響力較大;其次,與其他網(wǎng)站相比,該網(wǎng)站較早跟蹤區(qū)塊鏈的發(fā)展,相關(guān)文章持續(xù)覆蓋時(shí)間長(zhǎng),內(nèi)容質(zhì)量高,能夠較好地反映區(qū)塊鏈產(chǎn)業(yè)熱點(diǎn)發(fā)展歷程與演化動(dòng)向。
在36氪官網(wǎng)(http://36kr.com/)搜索區(qū)塊鏈關(guān)鍵字,編寫(xiě)爬蟲(chóng)程序,爬取2013年11月-2019年12月區(qū)塊鏈相關(guān)新聞,去重后發(fā)現(xiàn),2013年僅1篇,刪除后共3 983條,采集的數(shù)據(jù)集包括標(biāo)題、全文、作者、發(fā)布時(shí)間等字段。對(duì)采集的數(shù)據(jù)集進(jìn)行預(yù)處理,發(fā)現(xiàn)獲取的數(shù)據(jù)集記錄完整,無(wú)缺失或字符紊亂等異常情況,可以直接用于后續(xù)分析。
23主題建模相關(guān)參數(shù)的確定
對(duì)結(jié)構(gòu)化主題模型迭代擬合需要設(shè)置最優(yōu)主題數(shù),LDA主題模型最優(yōu)主題數(shù)的選擇通常以困惑度指標(biāo)(Perplexity)為評(píng)價(jià)指標(biāo),困惑度值越低說(shuō)明模型的泛化效果更佳[30]。STM主題模型最優(yōu)主題數(shù)的確定借鑒了領(lǐng)域較新的研究發(fā)現(xiàn),即聚類(lèi)較好的文本主題,多具有主題內(nèi)詞語(yǔ)語(yǔ)義一致性高,主題間詞語(yǔ)語(yǔ)義區(qū)隔顯著的特點(diǎn)[31]。因此,借鑒Mimno D等[32]提出的語(yǔ)義一致性(Semantic Coherence)指標(biāo)衡量主題語(yǔ)義收斂程度,公式如下:
Ck=∑Mi=2∑i-1j=2logD(vi,vj)+1D(vj)(1)
其中D(vi)和D(vj)分別表示詞vi和vj在文檔k中出現(xiàn)的次數(shù),D(vi,vj)表示vi和vj兩個(gè)詞同時(shí)在文檔k中出現(xiàn)的次數(shù)。另外,借鑒Airoldi等提出的FREX指標(biāo)度量不同主題語(yǔ)義區(qū)分程度。第v個(gè)詞項(xiàng)在第k個(gè)主題下的FREX值計(jì)算公式為:
FREXk,v=ωECDF(βk,v/∑Kj=1βj,v)+1-ωECDF(βj,v)-1(2)
其中ECDF是經(jīng)過(guò)實(shí)證的累積分布函數(shù)(Cumulative Distribution Function,CDF),F(xiàn)REX是詞項(xiàng)在該主題中獨(dú)有性和出現(xiàn)頻率的調(diào)和平均。為確保主題詞項(xiàng)語(yǔ)義獨(dú)有性,設(shè)置權(quán)重ω為07。選擇主題內(nèi)語(yǔ)義收斂程度高且主題間語(yǔ)義區(qū)分度高的主題數(shù)作為結(jié)構(gòu)化主題模型擬合的最優(yōu)主題數(shù)輸入?yún)?shù)。
24基于百度AipNlp開(kāi)放接口的文本情感傾向性分析
鑒于本文采用的基于雙向長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)的文本情感分析方法需要GPU環(huán)境來(lái)運(yùn)行分析代碼,經(jīng)調(diào)研,發(fā)現(xiàn)百度公司已將基于雙向長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)的文本情感分析方法開(kāi)源為程序接口(API),即文本情感傾向類(lèi)庫(kù)AipNlp,它是百度云自然語(yǔ)言處理開(kāi)發(fā)工具包(SDK)之一。研究人員選取2 000條新聞劃分訓(xùn)練集和測(cè)試集檢驗(yàn)百度情感分析API的性能,發(fā)現(xiàn)情感傾向性分析準(zhǔn)確率在87%以上,滿(mǎn)足研究需求。之后編寫(xiě)Python代碼調(diào)用接口,完成對(duì)每條新聞文本的情感傾向分類(lèi)(正向、負(fù)向或中性)及傾向值輸出,作為后續(xù)分析用。
3數(shù)據(jù)分析與討論
31區(qū)塊鏈文章的關(guān)鍵詞與共現(xiàn)詞演化特征
將2014年1月-2019年12月的區(qū)塊鏈文章,以年為單位進(jìn)行詞頻分析,輸出各年TOP50關(guān)鍵詞云如圖3所示。
可以看到:2014年1月-2019年12月36氪網(wǎng)區(qū)塊鏈產(chǎn)業(yè)新聞關(guān)鍵詞變動(dòng)頻繁,2014-2015年開(kāi)始涌現(xiàn)礦機(jī)企業(yè)(Bitfury等)、數(shù)字代幣(Fldc等)熱詞,2016-2019年則較多出現(xiàn)數(shù)字代幣發(fā)行(ICO)與交易、區(qū)塊鏈代幣(EOS等)、虛擬加密貨幣(Libra)、金融科技、人工智能等字眼,反映出區(qū)塊鏈技術(shù)的加速更迭和市場(chǎng)熱點(diǎn)的交替輪換。
為發(fā)現(xiàn)與“區(qū)塊鏈”共現(xiàn)頻次較高的詞語(yǔ)及其演化趨勢(shì),對(duì)2014-2019年各年的區(qū)塊鏈文章構(gòu)建共現(xiàn)詞庫(kù),圖5繪制各年區(qū)塊鏈共現(xiàn)詞網(wǎng)絡(luò)(含共現(xiàn)詞語(yǔ)及共現(xiàn)頻次)。
從圖5可看到:2014-2015年,“區(qū)塊鏈-比特幣”這一對(duì)詞語(yǔ)共現(xiàn)頻次最高,反映出大眾與互聯(lián)網(wǎng)媒體將區(qū)塊鏈與比特幣近似等同認(rèn)知的特點(diǎn)。此外,“區(qū)塊鏈-公司”“區(qū)塊鏈-技術(shù)”也成為這一期間共現(xiàn)頻率較高的詞語(yǔ)對(duì),像2013年在北京成立專(zhuān)事礦機(jī)的比特大陸科技有限公司,2014年3月,日均比特幣交易量達(dá)到10萬(wàn)的火幣網(wǎng)等都引起媒體的爭(zhēng)相報(bào)道。2016-2018年,“區(qū)塊鏈-技術(shù)”和“區(qū)塊鏈-公司”詞語(yǔ)對(duì)取代了“區(qū)塊鏈-比特幣”,成為36氪產(chǎn)業(yè)新聞中共現(xiàn)頻次最高的兩對(duì)詞語(yǔ),側(cè)面反映公眾與媒體對(duì)區(qū)塊鏈的關(guān)注逐步由比特幣轉(zhuǎn)向更具體的區(qū)塊鏈技術(shù)和相關(guān)企業(yè)。同時(shí),“區(qū)塊鏈-平臺(tái)”“區(qū)塊鏈-市場(chǎng)”的共現(xiàn)頻次也逐年上升,說(shuō)明隨著區(qū)塊鏈技術(shù)在部分領(lǐng)域的應(yīng)用落地,圍繞區(qū)塊鏈?zhǔn)袌?chǎng)運(yùn)作和商業(yè)模式的探討開(kāi)始增多。值得注意的是,2018年,36氪產(chǎn)業(yè)新聞中“區(qū)塊鏈-問(wèn)題”共現(xiàn)頻次是2016年的10倍,
反映區(qū)塊鏈快速發(fā)展引發(fā)的眾多問(wèn)題已引起新聞媒體高度關(guān)注。2019年,“區(qū)塊鏈-平臺(tái)”與“區(qū)塊鏈-應(yīng)用”共現(xiàn)頻次上升較快,體現(xiàn)產(chǎn)業(yè)界對(duì)區(qū)塊鏈技術(shù)的應(yīng)用落地甚為關(guān)注。
32文本情感傾向走勢(shì)分析
文本情感分析的目的是量化36氪報(bào)道區(qū)塊鏈新聞的主觀情感傾向,將其作為區(qū)塊鏈輿情走勢(shì)的風(fēng)向指標(biāo)之一。調(diào)用百度文本情感分析API完成的區(qū)塊鏈新聞情感傾向分析見(jiàn)表1。
可以看到,36氪網(wǎng)上的區(qū)塊鏈產(chǎn)業(yè)新聞?wù)w情
感傾向以正面為主(超過(guò)70%),圖6進(jìn)一步繪制2014年-2019年12月的文本情感傾向比例(負(fù)向文章占比與正向文章占比)走勢(shì)以及各月新聞走勢(shì)(左軸表示情感傾向比例,右軸表示新聞數(shù)量)。
圖6顯示:2014年4月-2019年12月,36氪網(wǎng)的區(qū)塊鏈新聞?wù)蚯楦幸恢备哂谪?fù)向情感比例。2017年10月開(kāi)始,區(qū)塊鏈新聞數(shù)量快速上升,反映區(qū)塊鏈熱度看漲,媒體與大眾的關(guān)注越來(lái)越高,2018年4月后,區(qū)塊鏈新聞數(shù)量急速回落,體現(xiàn)媒體關(guān)注度顯著下降,同時(shí)產(chǎn)業(yè)新聞的負(fù)向情感波動(dòng)下行。
33基于結(jié)構(gòu)化主題模型的區(qū)塊鏈熱點(diǎn)分析
文本主題建模分析的目的是量化36氪報(bào)道區(qū)塊鏈新聞的熱點(diǎn),也將其作為區(qū)塊鏈輿情走勢(shì)的風(fēng)向指標(biāo)之一。鑒于36氪網(wǎng)長(zhǎng)期跟蹤報(bào)道區(qū)塊鏈技術(shù)與產(chǎn)業(yè)的動(dòng)向,應(yīng)用結(jié)構(gòu)化主題模型方法可以自動(dòng)提取區(qū)塊鏈產(chǎn)業(yè)新聞的主題強(qiáng)度,將分布概率高的主題識(shí)別為區(qū)塊鏈技術(shù)與產(chǎn)業(yè)熱點(diǎn),為此,分兩步驟展開(kāi):
步驟1:文本最優(yōu)主題數(shù)的確定
應(yīng)用23節(jié)的算法,預(yù)設(shè)定主題數(shù)為4~30范圍,計(jì)算預(yù)處理后構(gòu)建的文本語(yǔ)料各主題數(shù)對(duì)應(yīng)的語(yǔ)義一致性和獨(dú)有性值,判斷最優(yōu)主題數(shù)如圖7所示。
圖7中顯示,主題數(shù)值越大的數(shù)據(jù)點(diǎn)多集中在左上角,在保持主題語(yǔ)義一致性和獨(dú)有性均較高的條件下(即選擇圖中右上象限區(qū)域數(shù)據(jù)點(diǎn)),主題數(shù)為7對(duì)應(yīng)的文本語(yǔ)料的語(yǔ)義一致性和語(yǔ)義獨(dú)有性值相對(duì)其他主題數(shù)表現(xiàn)更佳,選定后續(xù)模型擬合的主題數(shù)為7。
步驟2:主題模型擬合與結(jié)果輸出
在步驟1基礎(chǔ)上,對(duì)主題模型進(jìn)行擬合,表2展示了區(qū)塊鏈文章7個(gè)主題的聚類(lèi)結(jié)果,同時(shí)也包含每個(gè)主題下代表性關(guān)鍵詞及代表性文章標(biāo)題。表中前3列為程序輸出結(jié)果,第4列主題標(biāo)簽,研究者閱讀每個(gè)主題下語(yǔ)義最相近的關(guān)鍵詞和語(yǔ)義最相近的文章標(biāo)題人工概括而成。
表2可以看到:2014年1月-2019年12月期間,36kr網(wǎng)區(qū)塊鏈新聞可以聚類(lèi)為7個(gè)主題,其中,主題2-“區(qū)塊鏈產(chǎn)業(yè)應(yīng)用”(22%),主題4-“數(shù)字貨幣與交易”(18%),主題3-“比特幣與ico”(15%)占比較高,主題5:“互聯(lián)網(wǎng)投融資”(8%)占比最小,說(shuō)明36氪網(wǎng)區(qū)塊鏈新聞一方面關(guān)注區(qū)塊鏈的產(chǎn)業(yè)應(yīng)用,另一方面熱衷報(bào)道比特幣等數(shù)字代幣的發(fā)行與交易。仔細(xì)考察7個(gè)主題的語(yǔ)義標(biāo)簽,不難發(fā)現(xiàn),主題1、3、4、7主要圍繞區(qū)塊鏈與比特幣話題展開(kāi),主題2、5、6則圍繞人工智能與互聯(lián)網(wǎng)話題討論。從一個(gè)側(cè)面反映出,區(qū)塊鏈技術(shù)與應(yīng)用不是孤立的發(fā)展,而是與人工智能、互聯(lián)網(wǎng)等技術(shù)與應(yīng)用密切相關(guān)。7個(gè)主題的歸集可以總結(jié)如圖8。
為厘清主題1-“區(qū)塊鏈產(chǎn)業(yè)應(yīng)用”關(guān)注的主要內(nèi)容,對(duì)隸屬該主題的876條新聞進(jìn)一步聚類(lèi),發(fā)現(xiàn)它們可以歸屬為以下一些語(yǔ)義較為明確的主題內(nèi)容:“智能合約與區(qū)塊鏈”(占18%),“基于EOS的區(qū)塊鏈應(yīng)用”(占14%),“區(qū)塊鏈與社交媒體”(占12%),“區(qū)塊鏈與新一代加密貨幣”(占12%),“區(qū)塊鏈與通證經(jīng)濟(jì)”(占11%)等。可以看到,聚焦于金融領(lǐng)域的加密數(shù)字貨幣和智能合約是區(qū)塊鏈產(chǎn)業(yè)應(yīng)用落地的主要場(chǎng)景,更多的行業(yè)應(yīng)用還有待開(kāi)發(fā)。
34區(qū)塊鏈熱點(diǎn)主題的情感傾向演化趨勢(shì)
結(jié)構(gòu)化主題模型算法的一個(gè)獨(dú)特優(yōu)勢(shì)是可以量化文檔協(xié)變量對(duì)主題強(qiáng)度的影響,將發(fā)布時(shí)間(以月為單位)、新聞情感傾向類(lèi)別作為文檔協(xié)變量,考察兩者對(duì)2014-2019年期間7個(gè)主題強(qiáng)度的影響,從而揭示區(qū)塊鏈熱點(diǎn)主題的情感傾向演化特點(diǎn)。
與區(qū)塊鏈與比特幣相關(guān)的4個(gè)主題的情感時(shí)序變動(dòng)趨勢(shì)見(jiàn)圖9。
從圖9看到,屬于主題1-“區(qū)塊鏈產(chǎn)業(yè)應(yīng)用”的新聞從2016年3月開(kāi)始穩(wěn)步上升,且一直以正向情感為主;主題3-“比特幣”的新聞,2014年以來(lái)負(fù)向情感的文章比例一直多于正向情感的文章占比;主題4-“數(shù)字貨幣與交易”的新聞,從2017年4月開(kāi)始,負(fù)向情感占比迅速超過(guò)正向情感且不斷攀升;主題7-“區(qū)塊鏈技術(shù)與應(yīng)用”的新聞,2017年4月是分水嶺,從之前負(fù)面新聞主導(dǎo)轉(zhuǎn)為中性和正向新聞更多。綜合4個(gè)主題的情感傾向演化特點(diǎn),不難發(fā)現(xiàn),2017年以來(lái),區(qū)塊鏈新聞數(shù)量開(kāi)始不斷攀升,一方面,36氪對(duì)區(qū)塊鏈與比特幣為代表的數(shù)字代幣發(fā)行及交易的新聞基調(diào)明顯由褒轉(zhuǎn)貶,隱含對(duì)加密數(shù)字貨幣市場(chǎng)炒作的擔(dān)憂,這可以起到對(duì)區(qū)塊鏈隱含風(fēng)險(xiǎn)的提前預(yù)警作用;另一方面,對(duì)區(qū)塊鏈應(yīng)用的關(guān)注持續(xù)升溫,反映產(chǎn)業(yè)界對(duì)新興技術(shù)落地的渴望。
圍繞人工智能、互聯(lián)網(wǎng)金融發(fā)展和互聯(lián)網(wǎng)投融資展開(kāi)的3個(gè)主題情感演化狀況如圖10。
圖10展示的3個(gè)主題情感時(shí)序變化有3點(diǎn)發(fā)現(xiàn):其一,屬于3個(gè)主題的新聞,從2014年1月-2019年12月,文本的正向情感一直高于負(fù)向情感,且3個(gè)主題新聞?wù)急瘸氏陆第厔?shì),說(shuō)明早期的新聞內(nèi)容較為發(fā)散,近年來(lái)的新聞更為聚焦;其二,針對(duì)主題5-“互聯(lián)網(wǎng)投融資”的新聞,一直以正向情感為主,說(shuō)明以科技創(chuàng)投媒體著稱(chēng)的36氪對(duì)與區(qū)塊鏈相關(guān)的互聯(lián)網(wǎng)投融資持正面態(tài)度;其三,針對(duì)主題2-“互聯(lián)網(wǎng)金融發(fā)展”的新聞,在2019年1月之前,中性情感傾向占比一直高于正向和負(fù)向情感比例,說(shuō)明36氪對(duì)區(qū)塊鏈與互聯(lián)網(wǎng)金融發(fā)展的話題相對(duì)中立。
綜合前述對(duì)36氪區(qū)塊鏈新聞文本的語(yǔ)義和情感分析,可以看到,從2014-2019年,中國(guó)的區(qū)塊鏈產(chǎn)業(yè)熱點(diǎn)有兩大聚焦:一是區(qū)塊鏈技術(shù)在不同領(lǐng)域、行業(yè)的應(yīng)用落地;二是比特幣及數(shù)字代幣的發(fā)行與交易,2017年以來(lái),媒體報(bào)道對(duì)加密數(shù)字貨幣交易炒作的負(fù)面情緒明顯上升。這一現(xiàn)象可以借助IT時(shí)尚理論和Gartner集團(tuán)發(fā)布的技術(shù)成熟度曲線來(lái)解釋?zhuān)?/p>
首先,IT時(shí)尚(Information Technology Fashion)理論認(rèn)為,一些新興信息技術(shù)創(chuàng)新在被大眾廣泛接受以及制度化前常常存在短期炒作的現(xiàn)象,它們被媒體和投資者作為一種時(shí)尚而大肆宣傳,并被視為新穎且高效的前沿技術(shù),由此引發(fā)采納者和最終用戶(hù)的超高期望。一旦技術(shù)的實(shí)際應(yīng)用進(jìn)程與公眾的希冀相距甚遠(yuǎn),就會(huì)造成大眾熱情的快速消退。作為一種新興技術(shù),區(qū)塊鏈與數(shù)字加密貨幣的結(jié)合已展現(xiàn)其高風(fēng)險(xiǎn)、高預(yù)期回報(bào)的特點(diǎn),媒體與投資者對(duì)以比特幣為典型的數(shù)字代幣炒作只是看到其高回報(bào)的一面,忽視了ICO亂象隱藏的潛在風(fēng)險(xiǎn)一面,同時(shí)也不利于區(qū)塊鏈技術(shù)的漸進(jìn)式發(fā)展與成熟應(yīng)用。
其次,新興技術(shù)的發(fā)展也呈現(xiàn)階段式推進(jìn)的特征,美國(guó)著名的信息技術(shù)研究與咨詢(xún)企業(yè)Gartner公司認(rèn)為,技術(shù)成熟度曲線兼具反映某項(xiàng)前沿技術(shù)從誕生到成熟的動(dòng)態(tài)演化過(guò)程和技術(shù)發(fā)展階段評(píng)測(cè)的作用,它將技術(shù)發(fā)展周期分為技術(shù)觸發(fā)、期望膨脹、泡沫谷底、穩(wěn)步復(fù)蘇和產(chǎn)出高峰5階段。在技術(shù)發(fā)展早期,廣大民眾對(duì)技術(shù)創(chuàng)新的期望值通常大大超出技術(shù)的實(shí)際回報(bào)值,因此,這期間的技術(shù)發(fā)展具有一定的泡沫成分。Gartner的新技術(shù)成熟度曲線顯示,區(qū)塊鏈技術(shù)在2016-2018年期間恰恰處于期望膨脹階段,這與本文之前的分析相呼應(yīng)。2017年以來(lái),近20%的媒體報(bào)道集中于比特幣的交易與其他數(shù)字代幣的發(fā)行,各類(lèi)風(fēng)險(xiǎn)投資機(jī)構(gòu)跟風(fēng)炒作盛行。當(dāng)基于區(qū)塊鏈技術(shù)構(gòu)建的比特幣和其他數(shù)字代幣的實(shí)際回報(bào)低于期望回報(bào)或蘊(yùn)含風(fēng)險(xiǎn)超出民眾可承受度時(shí),就會(huì)引發(fā)大眾對(duì)區(qū)塊鏈技術(shù)興趣和關(guān)注度的快速下降。Gartner對(duì)區(qū)塊鏈技術(shù)成熟度的分析也表明,2018-2019年,區(qū)塊鏈技術(shù)發(fā)展步入期望泡沫破滅的谷底期,有鑒于此,加大區(qū)塊鏈的行業(yè)應(yīng)用創(chuàng)新力度,從嚴(yán)監(jiān)管打著區(qū)塊鏈旗號(hào),從事代幣眾籌的非法融資活動(dòng),應(yīng)該成為推動(dòng)區(qū)塊鏈產(chǎn)業(yè)包容式發(fā)展的重要手段。
4結(jié)論與啟示
近兩年來(lái),不少新興產(chǎn)業(yè)在廣大用戶(hù)的心目中經(jīng)歷了“從熱情高漲到理性預(yù)期”的變化,為揭示新興產(chǎn)業(yè)領(lǐng)域的輪換熱點(diǎn)與發(fā)展趨勢(shì),構(gòu)建了融合文本語(yǔ)義與情感分析技術(shù)的新興產(chǎn)業(yè)新聞監(jiān)測(cè)模型,通過(guò)對(duì)知名科技財(cái)經(jīng)媒體—36氪網(wǎng)站2014-2019年3 983條區(qū)塊鏈新聞文本內(nèi)容,應(yīng)用結(jié)構(gòu)化主題模型與深度學(xué)習(xí)情感分析技術(shù)發(fā)現(xiàn):①2014-2017年上半年,區(qū)塊鏈的互聯(lián)網(wǎng)媒體報(bào)道較為平穩(wěn),但2017年10月以后,相關(guān)報(bào)道與關(guān)注熱度迅速升溫;②文本主題聚類(lèi)結(jié)果顯示,36氪報(bào)道的區(qū)塊鏈產(chǎn)業(yè)熱點(diǎn)聚焦在區(qū)塊鏈的產(chǎn)業(yè)應(yīng)用和以比特幣為代表的數(shù)字代幣發(fā)行與交易等方面;③文本的情感傾向分析顯示,2017年4月之后,36氪對(duì)區(qū)塊鏈與各類(lèi)數(shù)字代幣發(fā)行與交易的新聞基調(diào)顯著由褒轉(zhuǎn)貶,側(cè)面反映出對(duì)幣圈掙快錢(qián)等區(qū)塊鏈泡沫的隱憂,可以對(duì)區(qū)塊鏈隱含風(fēng)險(xiǎn)起到提前預(yù)警作用。
既有熱點(diǎn)話題挖掘的文獻(xiàn)多應(yīng)用LDA主題模型,基于互聯(lián)網(wǎng)新聞開(kāi)展新興產(chǎn)業(yè)熱點(diǎn)演化監(jiān)測(cè)的研究尚不多見(jiàn)。本文提出以互聯(lián)網(wǎng)產(chǎn)業(yè)新聞為對(duì)象,應(yīng)用納入?yún)f(xié)變量的結(jié)構(gòu)化主題模型和基于深度學(xué)習(xí)的情感分析技術(shù),可以通過(guò)監(jiān)測(cè)媒體報(bào)道的產(chǎn)業(yè)新聞熱點(diǎn)強(qiáng)度變化,文本情感傾向?qū)π侣劅狳c(diǎn)強(qiáng)度的時(shí)序影響,發(fā)現(xiàn)并跟蹤新興產(chǎn)業(yè)熱點(diǎn)及趨勢(shì),為各級(jí)政府監(jiān)管部門(mén)、新興技術(shù)提供商或從業(yè)者了解產(chǎn)業(yè)動(dòng)態(tài),把握新興技術(shù)機(jī)會(huì)增添新手段。未來(lái)研究,可以將本文提出的方法應(yīng)用于5G、人工智能等新興產(chǎn)業(yè)的熱點(diǎn)監(jiān)測(cè),比較不同領(lǐng)域應(yīng)用成效。
參考文獻(xiàn)
[1]劉小平,冷伏海,李澤霞.國(guó)際科技前沿分析的方法和途徑[J].圖書(shū)情報(bào)工作,2012,56(12):60-65.
[2]王鵬,王麗麗,王基偉.加快建立規(guī)模以上工業(yè)戰(zhàn)略性新興產(chǎn)業(yè)統(tǒng)計(jì)監(jiān)測(cè)指標(biāo)體系[J].中國(guó)戰(zhàn)略新興產(chǎn)業(yè),2017,(29):54-57.
[3]Kim M,Park Y,Yoon J,et al.Generating Patent Development Maps for Technology Monitoring Using Semantic Patent Topic Analysis[J].Computers and Industrial Engineering,2016,98(98):289-299.
[4]Yoon J,Seo W,Coh B,et al.Identifying Product Opportunities Using Collaborative Filtering-Based Patent Analysis[J].Computers and Industrial Engineering,2017,107:376-387.
[5]劉苗,李蔚,朱述政,等.基于互聯(lián)網(wǎng)文本情感分析的消費(fèi)情感指數(shù)構(gòu)建[J].統(tǒng)計(jì)與信息論壇,2018,33(8):31-38.
[6]趙丹,王晰巍,韓潔平,等.區(qū)塊鏈環(huán)境下的網(wǎng)絡(luò)輿情信息傳播特征及規(guī)律研究[J].情報(bào)雜志,2018,37(9):127-133,105.
[7]盧超,侯海燕,Ding Ying,等.國(guó)外新興研究話題發(fā)現(xiàn)研究綜述[J].情報(bào)學(xué)報(bào),2019,38(1):97-110.
[8]岳麗欣,劉自強(qiáng),胡正銀.面向趨勢(shì)預(yù)測(cè)的熱點(diǎn)主題演化分析方法研究[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2020,4(6):22-34.
[9]Blei D M,Ng A Y,Jordan M I,et al.Latent Dirichlet Allocation[J].The Journal of Machine Learning Research,2003,(3):993-1022.
[10]冉從敬,宋凱,何夢(mèng)婷,等.校企合作背景下高校前沿科研團(tuán)隊(duì)探測(cè)模型構(gòu)建——以區(qū)塊鏈技術(shù)領(lǐng)域?yàn)槔齕J].現(xiàn)代情報(bào),2020,40(6):46-54.
[11]宗乾進(jìn),黃子風(fēng),沈洪洲.基于性別視角的社交媒體用戶(hù)造謠傳謠和舉報(bào)謠言行為研究[J].現(xiàn)代情報(bào),2017,37(7):25-29,34.
[12]Wang X,Gerber M S,Brown D E,et al.Automatic Crime Prediction Using Events Extracted From Twitter Posts[J].In International Conference on Social Computing,Behavioral-Cultural Modeling,and Prediction,2012:231-238.
[13]Guo Y,Barnes S J,Jia Q,et al.Mining Meaning From Online Ratings and Reviews:Tourist Satisfaction Analysis Using Latent Dirichlet Allocation Tourism Management[J].Tourism Management,2017,59:467-483.
[14]白敬毅,顏端武,陳瓊.基于主題模型和曲線擬合的新興主題趨勢(shì)預(yù)測(cè)研究[J].情報(bào)理論與實(shí)踐,2020,43(7):130-136,193.
[15]吳菲菲,張亞茹,黃魯成,等.基于AToT模型的技術(shù)主題多維動(dòng)態(tài)演化分析——以石墨烯技術(shù)為例[J].圖書(shū)情報(bào)工作,2017,61(5):95-102.
[16]孫曉玲,丁堃.管理科學(xué)研究主題及其演化趨勢(shì)——基于NSFC基礎(chǔ)研究知識(shí)庫(kù)的分析[J].科學(xué)學(xué)與科學(xué)技術(shù)管理,2017,38(6):3-11.
[17]王杰,唐菁薈,王昊,等.融合主題模型和卷積神經(jīng)網(wǎng)絡(luò)的APP推薦研究[J].情報(bào)理論與實(shí)踐,2019,42(4):158-165.
[18]Mimno D,Mccallum A.Topic Models Conditioned on Arbitrary Features with Dirichlet-multinomial Regression[C]//Conference on Uncertainty in Artificial Intelligence.Amherst:University of Massachusetts,2008:411-418.
[19]Eisenstein J,Ahmed A,Xing E P.Sparse Additive Generative Models of Text[C]//International Conference on Machine Learning.Washington:Digital Bibliography Library Pro,2011:1041-1048.
[20]Roberts M E,Stewart B M,Tingley D,et al.Structural Topic Models for Open-Ended Survey Responses[J].American Journal of Political Science,2014,58(4):1064-1082.
[21]Roberts M E,Stewart B M,Airoldi E M,et al.A Model of Text for Experimentation in the Social Sciences[J].Journal of the American Statistical Association,2016,111(515):988-1003.
[22]吳俊,歐陽(yáng)書(shū)凡,李曉華.基于STM和格蘭杰因果分析的網(wǎng)絡(luò)新聞媒體傾向研究[J].系統(tǒng)工程學(xué)報(bào),2020,35(4):446-458.
[23]吳俊,石宏磊.“互聯(lián)網(wǎng)+”研究的熱點(diǎn)主題、脈絡(luò)與展望——基于主題建模的內(nèi)容分析[J].電子政務(wù),2016,(12):19-29.
[24]Kuhn K.Using Structural Topic Modeling to Identify Latent Topics and Trends in Aviation Incident Reports[J].Transportation Research Part C:Emerging Technologies,2018,87:105-122.
[25]王科,夏睿.情感詞典自動(dòng)構(gòu)建方法綜述[J].自動(dòng)化學(xué)報(bào),2016,42(4):495-511.
[26]李光敏,許新山,熊旭輝.Web文本情感分析研究綜述[J].現(xiàn)代情報(bào),2014,34(5):173-176.
[27]何躍,朱燦,朱婷婷,等.微博熱點(diǎn)話題情感趨勢(shì)研究[J].情報(bào)理論與實(shí)踐,2018,41(7):155-160.
[28]周延風(fēng),張婷,陳少娜.網(wǎng)紅社交媒體傳播及消費(fèi)者情感傾向分析——以網(wǎng)紅品牌“喜茶”為例[J].商業(yè)經(jīng)濟(jì)與管理,2018,(4):70-80.
[29]陳紅琳,魏瑞斌,張瑋,等.基于共詞分析的國(guó)內(nèi)文本情感分析研究[J].現(xiàn)代情報(bào),2019,39(6):91-101.
[30]Thomas H.Probabilistic Latent Semantic Indexing[J].ACM,2017,51(2):50-57.
[31]Edoardo M A,Jonathan M B.Improving and Evaluating Topic Models and Other Models of Text[J].Journal of the American Statistical Association,2016,111(516):1381-1403.
[32]Mimno D,Blei D M.Bayesian Checking for Topic Models[C]//Empirical Methods in Natural Language Processing,2011:227-237.
(責(zé)任編輯:孫國(guó)雷)