楊波 邵婉婷
DOI:10.3969/j.issn.1008-0821.2021.09.006
[中圖分類號]G250.25 [文獻標識碼]A [文章編號]1008-0821(2021)09-0053-11
隨著中國市場經(jīng)濟的蓬勃發(fā)展,企業(yè)與企業(yè)之間的競爭愈發(fā)激烈,從而形成對競爭情報的迫切需求。其中,弱信號識別是競爭情報前瞻性研究中的重要組成部分,為企業(yè)監(jiān)控競爭對手,預(yù)測未來的機會與風險提供有益參考。弱信號與大多數(shù)信息一致,都是從大量的數(shù)據(jù)中提取而出,通過合理的推斷與聯(lián)系,形成對人類有價值的信息,但由于其具有預(yù)見性的特點,也被稱為預(yù)警信號。企業(yè)忽視弱信號就是輕視甚至壓制可能阻止錯誤決策的警示信號,如同駕車闖紅燈,定會導(dǎo)致失敗。因此,為使企業(yè)及時感知并準確識別出市場的機遇與威脅,制定利于長遠發(fā)展的管理決策,弱信號識別的研究至關(guān)重要。
目前,識別弱信號并預(yù)測未來情況已成為許多研究人員的目標,因此,許多技術(shù)用于從詞或文檔中獲得最大洞察力,但大多需要人類專家的協(xié)助檢測。如Griol-Barres Ⅰ等利用科學(xué)、新聞、社會來源的異構(gòu)和非結(jié)構(gòu)化信息對弱信號進行定量檢測,應(yīng)用多詞共現(xiàn)分析法對人工挑選的部分關(guān)鍵詞進行分析,并通過自然語言處理提取準確的結(jié)果。Yoon J提出一種在專家給定關(guān)鍵字的前提下,基于文本挖掘的弱信號主題識別方法,并通過太陽能電池相關(guān)的網(wǎng)絡(luò)新聞報道,說明了該方法的可行性。鄧勝利等通過專家給定系數(shù)下的層次分析法和隸屬度函數(shù)對弱信號進行定量識別。
與此同時,學(xué)者們也著力于運用諸如深度學(xué)習和神經(jīng)網(wǎng)絡(luò)之類的技術(shù)來充分對互聯(lián)網(wǎng)上不斷增加的文本數(shù)據(jù)進行預(yù)見性分析。自然語言處理技術(shù)(NLP)能夠很好地從文本數(shù)據(jù)中提取見解,其中單詞嵌入技術(shù)能精準地捕獲詞語之間的相似性和基于上下文預(yù)測單詞。Dieng A B等提出一種嵌入式主題模型,該模型將常規(guī)主題模型與單詞嵌入結(jié)合在一起。但是,與未標記的數(shù)據(jù)相比,這些技術(shù)在應(yīng)用于標記的數(shù)據(jù)時可提供更好的結(jié)果。而在Web文章中檢測弱信號的情況下,文本數(shù)據(jù)通常沒有標簽。因此,基于深度學(xué)習的NLP技術(shù)不能確保弱信號檢測過程的完全自動化。
但是,傳統(tǒng)的主題建模技術(shù)顯示了其完全自動化的能力,并吸引了許多使用新舊方法的研究者。因此,本研究使用一種廣為人知的主題模型,即潛在狄利克雷分布(LDA)。LDA是一種無監(jiān)督的機器學(xué)習技術(shù),可根據(jù)輸入的文檔集及指定的主題數(shù)來獨立運行,不需要手工標注的訓(xùn)練集,許多學(xué)者使用LDA檢測弱信號:Pepin L等使用動態(tài)LDA檢測弱信號,即對不同時間下的文本使用LDA算法提取主題,并使用主題演化的可視化散點圖來檢測弱信號;Gutsche T使用動態(tài)LDA來跟蹤弱信號隨時間的生命周期。
為充分地對企業(yè)弱信號進行自動化檢測,本研究構(gòu)建了一種新的弱信號識別方法,對LDA主題模型生成的主題和術(shù)語進行過濾,僅提取文本集中的預(yù)警信號,以檢測出隱藏、重要且被限定為弱信號的單詞。同時,為彌補LDA詞袋模型的不足,增強模型結(jié)果的可解釋性,運用BERT方法對每個過濾后的主題文檔進行上下文的預(yù)測,以獲得更多與弱信號語義相關(guān)的單詞。本方法實現(xiàn)了全自動地識別文本弱信號,創(chuàng)新提出主題過濾和術(shù)語過濾雙層過濾函數(shù),并引入BERT深度學(xué)習模型,彌補了單一模型在文本處理上的不足,為弱信號識別研究提供了新方法、新思路。并將模型應(yīng)用于企業(yè)社交媒體新聞數(shù)據(jù)集,以檢測一段時間內(nèi)的相關(guān)弱信號,為企業(yè)提供所處外部環(huán)境下的競爭情報信息,便于其及時捕獲市場動向,并預(yù)先制定危機管理方案與戰(zhàn)略決策目標。
1理論基礎(chǔ)
1.1弱信號
“弱信號”最早由Ansoff H在1975年提出,并將其定義為“未來可能發(fā)生變化的癥狀”。他認為弱信號是對外部或內(nèi)部的警告,這些警告具有不完整性,無法準確預(yù)估其影響,一個組織要及時應(yīng)對不確定的環(huán)境,就必須提前做好準備,對可能蘊含威脅和機會的信息跡象作出反應(yīng)。此后,Coffman B、Kamppinen、Mendonca S等學(xué)者對弱信號的概念作出了進一步的補充,他們認為弱信號具有以下特征:不易追蹤,與夾雜的噪聲難以區(qū)分;瑣碎、易被忽視,卻對未來可能造成重大影響;未來改變和趨勢的早期線索。
我國弱信號的相關(guān)研究起步較晚,但也提出了相對深刻的見解。沈固朝認為弱信號是通過對組織競爭環(huán)境中跡象的觀察、業(yè)內(nèi)人員意見的分析,對未來的趨勢波動做出早期判斷。單彬總結(jié)出弱信號“弱”的4大原因:①能被感知的弱信號量較少;②有效的信息難以被捕獲;③誤導(dǎo)或虛假信號與有效信息并存;④收集信號的成本和精力有限。趙小康指出弱信號在生長過程中表現(xiàn)漸趨明顯、確定性不斷增加、包含的有效信息量逐步豐富、作為決策依據(jù)的情報價值持續(xù)提高的4項主要特征。
通常,弱信號的檢測過程是半自動的,根據(jù)專家提供的關(guān)鍵字分析數(shù)據(jù)。如[24]在中,過程的一部分是手動執(zhí)行的,而[5]則使用了基于關(guān)鍵字的挖掘技術(shù)。一些學(xué)者試圖實現(xiàn)全自動化弱信號識別來克服這一缺點。而弱信號檢測的全自動化研究尚處于起步階段,相關(guān)的論文和項目數(shù)量較少。Gutsehe T提出了一種運用動態(tài)主題建模和時間序列分析方法對弱信號進行自動檢測和預(yù)測,并取得較好效果。因此,本研究遵循與其相同的完全自動化方法,并在其基礎(chǔ)上對主題和術(shù)語進行雙層深度過濾,以獲得更好的弱信號識別效果。
1.2 LDA主題模型
LDA主題模型又稱為隱含狄利克雷分布,是在預(yù)先規(guī)定的主題數(shù)量下通過最大化詞語共現(xiàn)的概率從文本集中查找潛在和隱藏的信息,如在一篇新聞報道中“足球”“運動”之類的詞總是同時出現(xiàn),即可把其歸為體育類。Blei D M等認為LDA能很好地對文檔主題進行抽取。
在弱信號識別領(lǐng)域,LDA被廣泛應(yīng)用于隱藏信息的檢測,但莊穆妮等指出LDA詞袋模型的不足,即在LDA中一篇文檔僅為一組單詞的集合,詞與詞沒有先后順序,無法很好地結(jié)合上下文信息。Maitre J等提出運用Word2Vec方法增強LDA主題模型。Kahvun L等在比較NLP領(lǐng)域中Word2Vec和BERT算法時,發(fā)現(xiàn)后者更能體現(xiàn)詞語在語義和語法方面的復(fù)雜性,對解決一詞多義的問題更有幫助。因此,為了彌補LDA詞袋模型的不足,增強識別弱信號的可解釋性,在本研究中將引入BERT模型對LDA的處理結(jié)果進一步處理分析,使提取出的弱信號語義信息更精準。
1.3 BERT深度學(xué)習模型
BERT(Bidirectional Encoder Representations from Transformers,雙向Transformer編碼表達)模型由谷歌2018年推出,并在NLP領(lǐng)域11個方向的精度刷新上實現(xiàn)了突破性的進展。BERT以Transformer算法為主要框架,能更好地捕獲語句中的雙向關(guān)系,并使用遮蔽語言模型MLM(Mask Language Model)和句子預(yù)測NSP(Next Sentence Prediction)的多任務(wù)訓(xùn)練目標,使模型的結(jié)果達到了全新的高度。其中BERT的模型結(jié)構(gòu)如圖2所示。
在BERT模型中僅含有Transformer編碼器的Encode部分,而其中含有的MultiHead和Attention機制使其掌握并存儲了全文檔的語義和語法關(guān)系,能夠很好地對文本進行特征提取。同時,BERT基于Google預(yù)訓(xùn)練集的Fine-tunning具有強大的遷移學(xué)習能力,在多項NLP任務(wù)中具有優(yōu)異的表現(xiàn)。因此,本研究將運用BERT模型對經(jīng)過主題過濾和術(shù)語過濾兩層過濾函數(shù)的LDA主題模型結(jié)果進行語義上的擴展,以獲取更多在語義上與提取出弱信號相近的單詞,增強模型的可解釋性。
2弱信號自動識別方法框架
2.1方法概述
目前,弱信號的識別過程缺乏自動化,大多研究依賴于手工輸入或?qū)<乙庖姟R虼?,為克服人類專家的干預(yù),設(shè)計一個全自動弱信號識別方法,本研究考慮使用與主題建模相關(guān)的無監(jiān)督文本挖掘技術(shù)。其中,LDA常用于從文本數(shù)據(jù)集中提取趨勢主題。與依賴關(guān)鍵詞進行弱信號檢測的研究相比,主題模型更多的是考慮單詞代表的意義,而不是其本身。本文運用LDA主題模型尋找可能導(dǎo)致弱信號的主題,但不接受所有主題中都含有弱信號,也不認為主題中的所有術(shù)語都為弱信號。因此,本文提出了主題過濾和術(shù)語過濾兩層過濾函數(shù),用于僅提取潛在的弱信號,并運用BERT深度學(xué)習模型對弱信號進行擴展。
其方法框架如圖3所示。第一步,收集數(shù)據(jù),本研究收集了一段時間的社交媒體新聞內(nèi)容作為弱信號識別研究的輸入。第二步,弱信號識別,包括數(shù)據(jù)預(yù)處理和弱信號過濾兩部分。數(shù)據(jù)預(yù)處理是對收集的文本集進行去停用詞、分詞操作。弱信號過濾包括運用LDA主題模型識別主題、對提取出的主題和術(shù)語過濾,以尋找潛在的主題和弱信號。第三步,弱信號輸出,運用BERT模型詞嵌入來增強識別出的弱信號并輸出。
該方法具有如下優(yōu)點:①泛化。提取出的弱信號不針對某一特定領(lǐng)域或主題,而是在指定的某段時間內(nèi)應(yīng)引起重視的預(yù)警信息,決策者可以根據(jù)自己的需求選擇相關(guān)的弱信號;②自動化。弱信號的提取過程中沒有人工干預(yù),也不需要關(guān)鍵詞的幫助,全自動地對文本進行弱信號檢測。
2.2數(shù)據(jù)收集和預(yù)處理
弱信號識別任務(wù)中,文本數(shù)據(jù)集的質(zhì)量與弱信號檢測結(jié)果的準確性、預(yù)見性有直接的關(guān)聯(lián),本研究運用Python工具進行數(shù)據(jù)收集和預(yù)處理工作,基本步驟如下。
1)文本數(shù)據(jù)收集。運用網(wǎng)絡(luò)爬蟲技術(shù),從互聯(lián)網(wǎng)中收集一段時間的新聞數(shù)據(jù)。本研究以社交媒體新聞為研究對象,因其具有傳播范圍廣、傳播及時性強、傳播速度快等特點,對弱信號識別而言是較優(yōu)的數(shù)據(jù)源。
2)文本集清洗與分詞。對收集的新聞數(shù)據(jù)集進行基于中文停用詞表的清洗,目的是過濾其中不相關(guān)、無意義以及非文本的信息。并運用Jieba對清洗后的數(shù)據(jù)進行分詞,最終得到可用于系統(tǒng)輸入的數(shù)據(jù)集。
2.3基于LDA-BERT融合模型的弱信號自動識別
2.3.1 LDA主題模型訓(xùn)練
LDA主題模型的主要挑戰(zhàn)之一是確定最優(yōu)的主題數(shù)k。超參數(shù)α和β的值分別表示文檔主題密度和單詞主題密度,它們在建立主題和術(shù)語之間的一致性上發(fā)揮著重要作用。
目前,研究人員提出確定最佳主題數(shù)k的主流方法有困惑度法和一致性法。困惑度值越小,則主題分類的結(jié)果越優(yōu),但趙凱等學(xué)者在進行主題分類時發(fā)現(xiàn)隨著主題數(shù)量的增加,其模型困惑度值逐漸遞減,難以確認最佳主題數(shù)k。與此同時,黃佳佳等學(xué)者提出一致性法來權(quán)衡主題質(zhì)量,并發(fā)現(xiàn)基于此提取出的主題具有較高的可解釋性,因此本研究遵循這種方法,并應(yīng)用[34]提出的主題相關(guān)性度量值c_v確定最佳主題數(shù)。
為了找到一致性最高的模型,本研究采用控制變量法進行測試,每次運行僅改變主題數(shù)k的值,并保持其他參數(shù)值不變。使用c_v值作為一致性度量,并基于滑動窗口、標準化點互信息(NPMI)和余弦相似度確定其值,然后返回一致性度量最高的主題數(shù)k作為模型的最優(yōu)結(jié)果。
2.3.2主題過濾
本節(jié)中提出的主題過濾函數(shù),有助于評估主題含有弱信號的可能性,并用于對LDA主題模型提取出的主題進行過濾,該方法由Logistic函數(shù)推導(dǎo)而出。Logistic函數(shù)常用于說明人口的進步和增長,但在語言學(xué)中被用來模擬語言變化,一個邊緣的術(shù)語隨著時間的推移其傳播速度會增加,但如果它是弱信號,傳播速度增加后將仍處于邊緣狀態(tài)。
本研究定義如下3個度量函數(shù)以確定主題的弱性:緊密中心度、主題權(quán)重以及主題自相關(guān)函數(shù)。
第一個度量,緊密中心度。通過主題與主題之間的距離表示其相似性。許多距離度量可以用來計算相似性,如Jaccard距離、余弦距離和Hellinger距離。Pepin L等學(xué)者發(fā)現(xiàn)當距離測量呈現(xiàn)出S形變化時,能最有效地表示文本之間的相似度?;诖嗽瓌t,本文選用Hellinger距離計算主題的緊密中心度。其中,h表示Hellinger距離。
第二個度量,主題權(quán)重。模型內(nèi)相關(guān)主題的一致性代表著主題的意義分配。因此,本文基于主題z的一致性和所有主題一致性的總和來定義主題z的權(quán)重值W。其中,Coh(z)表示主題z的一致性大小。
第三個度量,自相關(guān)。自相關(guān)性是目前盛行的數(shù)據(jù)趨勢分析工具,趨勢分析是基于以往數(shù)據(jù)對未來可能發(fā)生情況的推測,它量化并解釋了隨著時間的推移混亂數(shù)據(jù)中的趨勢和模式。自相關(guān)描述了同一變量在不同時期之間的關(guān)系,即變量對應(yīng)值與其滯后變量對應(yīng)值線性相關(guān)。而在新聞數(shù)據(jù)集中,與某個主題相關(guān)的文檔頻率會隨著時間而改變,因此,每個主題在幾天內(nèi)的自相關(guān)性可幫助過濾出可能不包含弱信號的主題。自相關(guān)函數(shù)AC定義如下,其中Coy(z)k是主題z滯后k期的協(xié)方差。
利用上述3個度量函數(shù)組成評判主題弱性的函數(shù)WK,其函數(shù)值越低,主題內(nèi)含有的術(shù)語越弱,但其當足夠低時也可定義為噪聲。定義主題z的弱函數(shù)WK(z)如下。
根據(jù)弱信號的定義,稀有是其主要特征,且隨著時間的推移,它們的運動是緩慢的。因此只有WK函數(shù)低值對應(yīng)的主題才被認定為弱主題。根據(jù)帕累托原則,弱信號形成的信息不超過20%,且在[24]中人類專家定義噪聲的閾值范圍為0%~2%,表示文本中攜帶無意義信息單詞的概率?;诖耍疚臎Q定忽略WK函數(shù)的低值情況,并定義新的篩選閾值:噪聲低于1%,弱信號低于15%。下圖表示文本中的信號分布情況。
2.3.3術(shù)語過濾
基于定義的主題過濾函數(shù)能提取出可能包含弱信號的主題,但這些主題內(nèi)的術(shù)語不一定都為弱信號,因此,本節(jié)將探討如何從這些術(shù)語中有效地提取弱信號。
Chuang J等提出獨特性和顯著性兩種術(shù)語衡量標準來判斷某一主題中術(shù)語所傳達的信息,以獲得可理解的主題。其研究發(fā)現(xiàn),單詞由潛在主題生成的可能性與主題的邊際概率之間的差異產(chǎn)生了顯著性,而該顯著性是屬于總體頻率和獨特性的產(chǎn)物。同時,Sievert C等通過主題內(nèi)不同術(shù)語的相關(guān)性以尋求該主題內(nèi)最相關(guān)的術(shù)語,并取得相比于概率指標更優(yōu)的結(jié)果。
綜合上述,基于術(shù)語在主題中的概率和術(shù)語與主題之間的相關(guān)性,本研究提出一種新的術(shù)語過濾函數(shù)PW(w),其中,NF(w)是主題z中術(shù)語w的歸一化頻率,φ(w)表示主題z中術(shù)語w的概率。
同時,基于2.3.2主題過濾中所述,弱信號具有稀有性,因此本文僅提取PW函數(shù)值在1%~15%的項。
2.3.4弱信號輸出
在主題過濾和術(shù)語過濾兩層過濾函數(shù)下,能很好地對弱信號進行識別與提取,此外,對結(jié)果的分析與理解也至關(guān)重要。而弱信號稀有、微量的特點導(dǎo)致提取出的弱信號較少,為進一步獲得與所提取弱信號相關(guān)的單詞,提高模型結(jié)果的可解釋性,本文使用BERT深度學(xué)習模型,將每個單詞看作一個向量,重建單詞上下文,使語料庫中共享公共上下文的單詞在語義空間上相互接近,并擴展與提取結(jié)果相似的弱信號。
本文遵循以往學(xué)者的研究,運用Google預(yù)訓(xùn)練的BERT模型,將每個過濾的主題文檔作為模型輸入,在經(jīng)過訓(xùn)練后輸出與提取弱信號高度相似的單詞列表,以突出基于新聞數(shù)據(jù)集提取的弱信號,獲得更強的模型可解釋性。
3弱信號自動識別方法應(yīng)用研究
弱信號在競爭情報中占有重要地位,多數(shù)企業(yè)也將弱信號識別作為其發(fā)展的重要目標。本研究將提出的基于LDA-BERT融合模型的弱信號自動識別方法應(yīng)用于企業(yè)社交媒體發(fā)表的網(wǎng)絡(luò)新聞,以檢測一段時間內(nèi)企業(yè)所處外部環(huán)境下的競爭情報早期預(yù)警信息。通過網(wǎng)絡(luò)爬蟲工具收集2020年11月1日—2021年1月的企業(yè)社交媒體新聞數(shù)據(jù)共計14486篇,并運用Python開源庫Jieba、Gensim等對其進行分詞、主題建模和自然語言處理等操作。
3.1 LDA主題模型訓(xùn)練結(jié)果分析
為找到最優(yōu)主題模型對應(yīng)的主題數(shù)k,本研究運用Gensim庫中的LdaModel模塊和pyLDAvis可視化工具,通過計算不同主題數(shù)下的一致性度量c_v值及其主題分布情況進行綜合評判。
首先,本文對已進行清洗、分詞等預(yù)處理操作的2020年11月1日—2021年1月的企業(yè)社交媒體新聞數(shù)據(jù)集進行LDA主題建模。其次,運用控制變量法測量不同主題數(shù)k下的一致性度量c_v值,并設(shè)定k值的范圍為1~50。最后,綜合不同主題數(shù)k的一致性度量c_v值及其主題分布情況選出LDA主題模型對應(yīng)的最優(yōu)主題數(shù)。模型結(jié)果如圖5所示。
主題模型的一致性指數(shù)越高,其分類結(jié)果越優(yōu)。在圖5中,當主題數(shù)量k值為5或9時,模型的一致性指數(shù)取得較高值,同時,通過比對不同k值下的主題分布情況,發(fā)現(xiàn)當一致性指數(shù)較低時(如k=20、34、50),其主題分布呈現(xiàn)出不均勻且主題大小差異性較大的特點。因此,通過綜合分析一致性度量c_v值及主題分布情況,本文認為企業(yè)社交媒體新聞數(shù)據(jù)集下的LDA主題模型最優(yōu)主題數(shù)k值為9。
3.2主題過濾結(jié)果分析
對基于LDA主題模型提取出的9大主題,通過計算緊密中心度、主題權(quán)重以及主題自相關(guān)函數(shù)3大度量評判主題的弱性,過濾出可能包含弱信號的主題。
在本節(jié)中,首先計算每個主題與其他主題之間的Hellinger距離,得到一個9*9的距離矩陣以測量主題的緊密中心度。其次,運用Gensim庫衡量每個主題的一致性,并代人權(quán)重函數(shù)W(T)以確定主題的權(quán)重。最后,基于所有主題每天的文檔頻率計算主題的自相關(guān)函數(shù),其中函數(shù)滯后期的確定較為關(guān)鍵。通常,非重疊時間序列的自相關(guān)性低于重疊序列的自相關(guān)性,且數(shù)據(jù)越不重疊,其自相關(guān)性越低,而大多用于趨勢分析的樣本之間沒有重疊,因此,觀測較長滯后期的變化是有益的。
在弱信號檢測中,本研究希望最小化主題過濾函數(shù)值,即IVK函數(shù)分母部分盡可能大,因此,擬通過設(shè)置較高的滯后期以減少時間序列之間的重疊周期,使得自相關(guān)函數(shù)AC最小化。因此,選擇所觀察數(shù)據(jù)周期的一半作為自相關(guān)函數(shù)的最佳時滯,即將滯后期定為15。
圖6~圖8分別顯示了2020年11月、2020年12月和2021年1月的主題過濾結(jié)果。圖中紅色標記的是可能包含弱信號的主題過濾結(jié)果,這些主題的IVK函數(shù)值高于結(jié)果集的1%,而低于結(jié)果集的15%。
以月為觀測周期,通過主題過濾函數(shù)從每月的9大主題中分別提取出T3、T7、T9 3個可能包含弱信號的主題,但這些主題內(nèi)的術(shù)語并不都為弱信號,因此,本文還將通過術(shù)語過濾函數(shù)從其中抽取弱信號。
3.3術(shù)語過濾結(jié)果分析
LDA主題模型根據(jù)每個主題中術(shù)語出現(xiàn)的概率對其進行分組和排序。為盡可能地捕獲主題內(nèi)的弱信號,需要從主題中獲取足夠多的術(shù)語。因此,基于主題過濾結(jié)果,本文分別從2020年11月主題T7、2020年12月主題T3和2021年1月主題T9中提取500個術(shù)語,并統(tǒng)計每個術(shù)語對應(yīng)的文檔頻率.運用術(shù)語過濾函數(shù)從其中提取出弱信號。表1~表3分別列出主題T7、主題T3和主題T9的弱信號提取結(jié)果。
表中部分單詞已表現(xiàn)出與企業(yè)日?;顒踊蛩幁h(huán)境的經(jīng)濟態(tài)勢相關(guān)(已加粗),為增強模型的可解釋性,運用BERT算法對過濾出的術(shù)語進行上下文預(yù)測,最大化目標單詞的概率。
3.4弱信號提取結(jié)果分析
本文預(yù)挖掘某段時間內(nèi)企業(yè)競爭情報相關(guān)的弱信號,盡可能地從社交媒體新聞數(shù)據(jù)集中獲得更大的洞察力。因此,為彌補LDA詞袋模型的不足,增強模型結(jié)果的準確性、可解釋性,使用BERT深度學(xué)習方法在語義上擴展過濾出的術(shù)語,賦予弱信號更多的情景信息與類似的單詞。表1中“協(xié)作”一詞與本文研究的內(nèi)容略相關(guān),對其進行擴展后,發(fā)現(xiàn)一些重要的弱信號,如“團結(jié)”“合營”“資源”“共享”等。
同時,信號的演變在提取結(jié)果中也得以顯現(xiàn),如在2020年12月主題T3過濾的術(shù)語中,“持續(xù)”“惡化”“增加”之類的弱信號開始向“爆發(fā)”“感染”“復(fù)蘇”等詞轉(zhuǎn)變,而在2021年1月初主題T9過濾出的弱信號中已變?yōu)椤熬o急”“嚴重”“威脅”等詞,結(jié)合年初疫情暴發(fā)的背景.可挖掘出弱信號隨時間增強的特性。
此外,提取出的弱信號也為企業(yè)提供了相關(guān)競爭情報信息,本文將從企業(yè)外部環(huán)境經(jīng)濟態(tài)勢和企業(yè)日?;顒娱_展兩方面進行具體分析。
1)企業(yè)外部環(huán)境經(jīng)濟態(tài)勢相關(guān)。如,2020年11月T7中提取出的“國際”,2020年12月T3中提取的“自貿(mào)區(qū)”“全球性”等都表現(xiàn)出我國經(jīng)濟向著國際化方向發(fā)展的態(tài)勢。其中,“自貿(mào)區(qū)”源于東盟十國和中國、新西蘭、日本、澳大利亞、韓國共15個國家共同簽署的《區(qū)域全面經(jīng)濟伙伴關(guān)系協(xié)定》,是當前世界經(jīng)貿(mào)規(guī)模最大、人口最多、最具潛力的自由貿(mào)易區(qū)。與此同時,在2020年11月,中國上海舉辦的第三屆中國國際進口博覽會中,食品及農(nóng)產(chǎn)品、汽車、技術(shù)裝備等6大展區(qū)中累計意向成交達726.2億美元。在此態(tài)勢下,企業(yè)應(yīng)把握時代的契機,加強與其他國際企業(yè)之間的合作,尋求自貿(mào)區(qū)中可協(xié)同穩(wěn)定發(fā)展的商業(yè)伙伴,并緊跟國家經(jīng)濟政策,及時制定企業(yè)國際化發(fā)展戰(zhàn)略,向成為國際化優(yōu)質(zhì)企業(yè)進軍。
2)企業(yè)日?;顒诱归_相關(guān)。如,2020年11月T7中提取出的“協(xié)作”一詞,運用BERT模型豐富其語義信息后,得到如“互助”“共贏”“資源共享”等詞。而在當月,蘋果、谷歌繼諾基亞、高通、三星、英特爾、LG電子等多家信息公司后也加入美國NeXt G AHiance 6G聯(lián)盟,表現(xiàn)出企業(yè)與企業(yè)之間加強合作、互惠互利更利于彼此的發(fā)展。此外,2020年12月T3中提取出的“媒體”一詞結(jié)合2021年1月中的“推廣”一詞,表示企業(yè)在互聯(lián)網(wǎng)時代下應(yīng)注重其媒體推廣,結(jié)合其目標客戶媒體及推廣方式的偏好,有針對性地展開定向推廣活動。
綜合上述,本研究提出的基于LDA-BERT融合模型的弱信號識別方法很好地基于企業(yè)社交媒體新聞數(shù)據(jù)集檢測出企業(yè)外部環(huán)境經(jīng)濟態(tài)勢和企業(yè)日常活動開展相關(guān)的弱信號,同時對其綜合進行分析與理解,發(fā)掘出弱信號隨著時間的推移,部分在語義上會逐漸增強的演化特性,為企業(yè)決策者進行危機預(yù)警和戰(zhàn)略決策管理提供有益參考。
4結(jié)語
本研究提出一種基于LDA-BERT融合模型的弱信號自動識別系統(tǒng)。運用無監(jiān)督學(xué)習算法LDA對預(yù)處理后的企業(yè)社交媒體新聞數(shù)據(jù)集進行主題分類,并提出主題過濾和術(shù)語過濾雙層過濾函數(shù)分別用于從LDA主題模型結(jié)果中過濾出可能包含弱信號的主題,以及僅從主題中提取可能為弱信號的術(shù)語。其中,主題過濾基于3大度量函數(shù)評判主題的弱性:緊密中心度用Hellinger距離衡量主題與主題之間的相似性,主題權(quán)重以一致性大小衡量主題的重要性,自相關(guān)性在設(shè)定的滯后期下觀測主題隨時間的演變。本研究不接受主題過濾結(jié)果中的術(shù)語皆為弱信號,因此運用術(shù)語過濾函數(shù),以主題內(nèi)術(shù)語的歸一化概率和術(shù)語對應(yīng)的文檔頻率構(gòu)建模型,僅保留其中潛在的弱信號。最后,為彌補LDA詞袋模型的不足,增強模型的可解釋性,將雙層過濾函數(shù)的結(jié)果輸入BERT深度學(xué)習模型,并輸出一系列早期預(yù)警信號,可在語義上擴展單詞,豐富提取出的弱信號,從上下文中賦予其更多含義。
對該模型進行測試,以識別一段時間內(nèi)企業(yè)競爭情報相關(guān)的弱信號。利用2020年11月—2021年1月的企業(yè)社交媒體新聞數(shù)據(jù)集,本文成功檢測出如“自貿(mào)區(qū)”“國際”“協(xié)作”“推廣”等與企業(yè)外部環(huán)境經(jīng)濟態(tài)勢和企業(yè)日常活動開展相關(guān)的弱信號,并以月為周期對提取出的弱信號進行綜合分析,發(fā)現(xiàn)其隨著時間的推移,部分在語義上會逐漸增強的演化特性。本模型解決了當前弱信號識別領(lǐng)域研究人工參與較多、主觀性較強的問題,實現(xiàn)了全自動化的弱信號檢測過程,大大減少了人類專家的時間和成本。同時提出LDA-BERT融合模型及雙層過濾函數(shù),在既保障僅提取相關(guān)弱信號的前提下,又充分合理地對弱信號在語義上進行擴展,使模型結(jié)果具有較高的解釋能力,為情報搜集工作中的弱信號檢測提供了新方法、新思路。
此外,本研究仍存在些許不足,由于弱信號與噪聲都具有微量、當前意義不明確、運動緩慢的特點,導(dǎo)致文本去噪工作開展得不夠完全。本研究通過設(shè)定較長的滯后期,運用其自相關(guān)性能有效的過濾出部分文本噪聲,同時也可能過濾出少許有一定價值的弱信號,不能完全無損的從文本集中對其進行提取。因此,未來將著重研究弱信號識別領(lǐng)域的文本去噪工作,為決策者提供更精準的預(yù)警信息。