黃曉斌 張明鑫
作者簡介:黃曉斌(1961-),男,教授,博士,研究方向:信息分析與情報研究、競爭情報。張明鑫(1996-),男,碩士研究生,研究方向:信息分析與信息行為。
摘要:[目的/意義]融合多源數(shù)據(jù),從大量真實具體的企業(yè)競爭對手中抽取出競爭對手的畫像,為解決海量競爭對手無限性和企業(yè)競爭情報資源有限性之間的矛盾提供啟發(fā)。[方法/過程]從畫像指標體系、數(shù)據(jù)采集、數(shù)據(jù)融合、數(shù)據(jù)分析、畫像構建和畫像應用等環(huán)節(jié)出發(fā),提出了一套融合多源數(shù)據(jù)的企業(yè)競爭對手畫像構建模式,然后以H公司為例開展了實證研究。[結果/結論]基于所提出的競爭對手畫像構建模式,構建了H公司的主要競爭對手畫像,從而為企業(yè)的競爭對手畫像構建實踐以及為后續(xù)相關理論研究和實證研究提供參考。
關鍵詞:企業(yè)競爭對手;多源數(shù)據(jù);多源信息;數(shù)據(jù)融合;畫像研究
DOI:10.3969/j.issn.1008-0821.2020.11.002
〔中圖分類號〕G25225〔文獻標識碼〕A〔文章編號〕1008-0821(2020)11-0013-09
Construction of Enterprise Competitor Portrait Based on Multi-source Data
Huang XiaobinZhang Mingxin
(School of Information Management,Sun-Yat-Sen University,Guangzhou 510006,China)
Abstract:[Purpose/Significance]This paper integrates multi-source data and extracts the portraits of competitors from a large number of real and specific enterprise competitors,which provides inspiration for solving the contradiction between massive competitors and the limitation of competitive intelligence resources.[Method/Process]From the aspects of portrait index system,data collection,data fusion,data analysis,portrait construction and portrait application,this paper put forward a set of competitor portrait construction model with the integration of multi-source data.Furthermore,an empirical study with H company as an example was carried out.[Results/Conclusions]Based on the proposed construction model of competitor portraits,this paper constructed the portraits of major competitors of H company,so as to provide reference for the practice of the construction of competitor portraits and the subsequent theoretical and empirical research.
Key words:enterprise competitors;multi-source data;multi-source information;data fusion;portrait research
“知己知彼,百戰(zhàn)不殆”,在激烈的市場競爭中,企業(yè)為了保持競爭優(yōu)勢,需要不斷監(jiān)測和分析競爭對手的動向,及時調(diào)整自身的經(jīng)營策略和戰(zhàn)略規(guī)劃。傳統(tǒng)的企業(yè)競爭對手監(jiān)測,重點關注對某一個或某幾個具體的企業(yè)競爭對手進行分析;然而,伴隨著大數(shù)據(jù)和互聯(lián)網(wǎng)的不斷發(fā)展,企業(yè)面臨的競爭環(huán)境和競爭格局日趨復雜,來自不同行業(yè)和不同領域的海量競爭對手均有可能對企業(yè)造成威脅。在實踐中,囿于企業(yè)競爭情報資源有限性的制約,單一地對某一個或某幾個具體的競爭對手進行跟蹤監(jiān)測或會造成一定的認知偏差,進而不利于企業(yè)了解海量競爭對手的一般情況。因此,企業(yè)需要在真實競爭對手的基礎之上,從具體的競爭對手中抽象出能夠反映海量競爭對手的一般畫像特征。從大量真實具體的競爭對手中抽象出企業(yè)競爭對手的畫像,不僅有助于企業(yè)快速識別和了解潛在競爭對手的一般情況,樹立學習標桿和趕超對象,同時也有助于企業(yè)通過對競爭對手畫像的分析,來實現(xiàn)對畫像背后所代表的大量競爭對手的監(jiān)測和預警,從而提升企業(yè)競爭情報活動的效率。可見,建立企業(yè)競爭對手畫像,是解決海量競爭對手的無限性和企業(yè)競爭情報資源有限性之間矛盾的重要途徑。尤其在多源數(shù)據(jù)環(huán)境下,如何從不同來源搜集不同類型的數(shù)據(jù),采用多種方法構建企業(yè)競爭對手的畫像,從而為企業(yè)的標桿學習、競爭對手監(jiān)測和預警等提供支撐,成為企業(yè)競爭對手情報分析的重要問題。
為了解決以上問題,本研究首先回顧了多源數(shù)據(jù)融合、畫像研究和企業(yè)競爭對手研究等國內(nèi)外相關文獻,然后基于已有成果,提出了一套融合多源數(shù)據(jù)和方法的企業(yè)競爭對手畫像構建模式,指出了融合多源數(shù)據(jù)和方法的企業(yè)競爭對手畫像構建的要素、流程、方法和應用等關鍵問題,最后以H公司為例,搜集數(shù)據(jù)開展了實證研究,以期為企業(yè)的競爭對手畫像構建實踐以及為后續(xù)相關理論研究和實證研究提供啟發(fā)。
1相關研究述評
多源數(shù)據(jù)融合是指將利用多種方式采集的、不同來源和不同呈現(xiàn)形式(如文本、數(shù)值和圖片等)的數(shù)據(jù)融合到一起,使其形成統(tǒng)一格式并面向多種應用的數(shù)據(jù)集合的過程;多源數(shù)據(jù)融合可以劃分為多傳感器數(shù)據(jù)融合和社會數(shù)據(jù)融合[1-2]。首先,多源數(shù)據(jù)融合最早起源于軍事遙感領域[2]。由于在遙感領域?qū)嵺`中,不同類型的傳感器采集的數(shù)據(jù)等存在著多源異構的特點,因此如何對多源異構的數(shù)據(jù)進行融合處理,成為遙感領域關注的重點。因此,早期的多源數(shù)據(jù)融合又被稱為多傳感器數(shù)據(jù)融合[3]。同時,多源數(shù)據(jù)融合在社會科學領域也逐漸受到了重視。不同社會科學領域的學者結合本學科領域的問題,對搜集的多種來源和多種形式的社會數(shù)據(jù)進行融合,并開展了相關研究。例如,魯奇[4]對旅游客戶多源數(shù)據(jù)進行融合,實現(xiàn)了對旅客用戶群體的細分研究;張大勇等[5]融合微信多源數(shù)據(jù),探討了微信用戶信息分享行為的發(fā)生機理。
與此同時,如何融合不同來源的數(shù)據(jù)開展企業(yè)競爭對手相關研究,也成為情報學領域關注的重要方向。首先,企業(yè)競爭對手評價指標體系是開展企業(yè)競爭對手評價的核心,而指標體系所指向的指標數(shù)據(jù)往往具有非結構化、異質(zhì)性和分散性等特點,因此,企業(yè)競爭對手評價應當包括指標信息融合環(huán)節(jié)[6]。具體而言,所建立的企業(yè)競爭對手評價指標可以包括定性指標和定量指標[7]。在定量指標的融合轉換方面,采用數(shù)據(jù)歸一化方法實現(xiàn)不同類型定量數(shù)據(jù)之間的無量綱化;在定量-定性指標之間的融合轉換方面,一般的數(shù)據(jù)融合思路是將定性指標統(tǒng)一轉換為定量指標,計算定性文本的主題隸屬度或情感傾向值(取值范圍[0,1]),將隸屬度或情感傾向值作為數(shù)據(jù)轉換結果[8]。然而,競爭對手評價指標體系側重于從競爭對手的資源、能力和技術等角度評價競爭對手的威脅力和競爭力[7],而競爭對手畫像的目標在于從若干具體的競爭對手中抽取競爭對手的畫像特征,用更加生動、直觀和形象的“擬人化”方式理解和描述競爭對手。
而用戶畫像研究相關的成果,為企業(yè)競爭對手畫像的構建提供了有益的思路。用戶畫像是現(xiàn)實中典型目標用戶的抽象,是基于大量真實用戶的人口特征、認知特征和行為特征的刻畫結果[9]。例如,在構建視頻用戶畫像的過程中,吳劍云等[9]學者將用戶的自然屬性(ID、昵稱和性別等)和活動屬性(活動興趣屬性和視頻興趣屬性等)作為用戶畫像屬性特征,利用K均值算法等模型對用戶聚類,構建了視頻用戶畫像。袁潤等[10]學者將用戶基本屬性數(shù)據(jù)和行為數(shù)據(jù)作為用戶畫像特征數(shù)據(jù),采用數(shù)理統(tǒng)計等方法構建了學術博客用戶畫像。王益成等[11]學者將用戶的期望偏好數(shù)據(jù)和用戶行為日志數(shù)據(jù)作為描述科技情報用戶畫像的重要數(shù)據(jù)來源??梢?,基本人口統(tǒng)計特征、認知特征和行為特征是構建用戶畫像的3個重要維度。
已有的多源數(shù)據(jù)融合、企業(yè)競爭對手和用戶畫像等相關研究為本研究開展企業(yè)競爭對手畫像構建提供了理論基礎和方法基礎。然而,已有研究主要關注多源數(shù)據(jù)融合視角下的科研團隊畫像和用戶畫像等,較少有學者關注企業(yè)競爭對手畫像構建研究。融合多源數(shù)據(jù)與方法開展企業(yè)競爭對手畫像構建研究,有助于為企業(yè)的競爭對手監(jiān)測預警和標桿學習等提供啟發(fā),解決企業(yè)競爭情報資源有限性和海量競爭對手無限性之間的矛盾。因此,本研究借鑒用戶畫像構建的思路和方法,提出了一套適合企業(yè)競爭對手畫像構建的模式,并結合該模式以H公司為例開展了實證研究。
2融合多源數(shù)據(jù)的企業(yè)競爭對手畫像構建模式
本研究從畫像指標體系構建、指標數(shù)據(jù)采集、多源異構數(shù)據(jù)融合、畫像構建和畫像應用5個環(huán)節(jié)出發(fā),提出了企業(yè)競爭對手畫像構建模式的流程、數(shù)據(jù)來源、數(shù)據(jù)融合方法、畫像構建方法和畫像應用場景等關鍵問題,如圖1所示。
21企業(yè)競爭對手畫像維度及指標體系
借鑒用戶畫像的定義,本研究將企業(yè)競爭對手畫像理解為建立在企業(yè)真實競爭對手的基礎之上,從具體的競爭對手中所抽象出來的,能夠反映潛在競爭對手普遍典型特征的虛擬代表;其重要意義在于通過對畫像的跟蹤監(jiān)測,實現(xiàn)對畫像背后所代表的大量真實競爭對手的分析。借鑒用戶畫像的基本思想,從基本屬性層、認知屬性層和行為屬性層3個維度出發(fā)明確企業(yè)競爭對手畫像的維度,從而實現(xiàn)了用戶畫像三維度與企業(yè)競爭對手畫像三維度的一一映射,最終實現(xiàn)了對企業(yè)競爭對手的“擬人化”描述,如圖2所示。
在明確了企業(yè)競爭對手畫像的3個維度之后,分別從基本屬性層、認知層和行為層出發(fā)建立畫像指標體系。其中,基本屬性層指標側重于各類型的客觀特征(如用戶畫像中的性別年齡和競爭對手的
企業(yè)規(guī)模等),認知層關注各類型的主觀認知層面的指標(如用戶畫像中的性格以及競爭對手的品牌形象等),而行為層關注具體的行為指標(如用戶畫像中的用戶瀏覽檢索行為和企業(yè)競爭對手的兼并購行為)。
22指標數(shù)據(jù)來源及采集
明確了畫像指標體系之后,進一步采用網(wǎng)絡爬蟲采集或手工采集等方法搜集競爭對手各個指標的數(shù)據(jù)。例如,采用網(wǎng)絡爬蟲或手工采集等方式從對手網(wǎng)站中獲取競爭對手的企業(yè)基本信息、產(chǎn)品信息、企業(yè)戰(zhàn)略、愿景使命和企業(yè)最新動態(tài)等涉及基本屬性層、認知層和行為層3個維度的畫像指標數(shù)據(jù)。
23多源異構數(shù)據(jù)融合
然而,不同類型的指標數(shù)據(jù)來源不同,在數(shù)據(jù)類型和數(shù)據(jù)格式上也存在較大差異;因此需要對多源異構指標數(shù)據(jù)進行融合預處理。多源數(shù)據(jù)融合主要涉及同名消歧、別名識別、字段映射和數(shù)據(jù)加權等問題[12-13],而結合本研究的實際,本研究的多源數(shù)據(jù)融合主要涉及的是不同類型指標數(shù)據(jù)的數(shù)據(jù)類型融合轉換和數(shù)據(jù)加權問題。
1)數(shù)據(jù)類型融合問題。首先,在定量-定量指標數(shù)據(jù)融合方面,定量指標之間存在著量綱差異,而為了消除定量指標之間的量綱差異,需要采用一定的算法實現(xiàn)無量綱化。離差標準化、對數(shù)標準化和Z-score算法等方法是較為常見的實現(xiàn)定量數(shù)據(jù)無量綱化的方法。其次,在定性-定量指標數(shù)
據(jù)融合方面,以企業(yè)產(chǎn)品口碑等為代表的指標以定性指標為主,為了實現(xiàn)定性-定量指標數(shù)據(jù)的融合轉換,需要綜合采用文本分類算法、TF-IDF算法或LDA主題模型等計算某文本隸屬于某主題的傾向值(取值范圍[0,1]),將其情感傾向值作為融合轉換的結果并用于后續(xù)研究。其主要流程包括文本清洗預處理、分詞與詞性標注、關鍵詞抽取、競爭對手關鍵詞向量構建和向量相似度或情感傾向值計算等。
2)數(shù)據(jù)加權問題。最后,在指標數(shù)據(jù)加權方面,實現(xiàn)了不同類型指標數(shù)據(jù)的融合之后,還需要確定不同指標之間的權重大小,其主要方法包括模糊綜合評價方法、BP神經(jīng)網(wǎng)絡法和層次分析法等。其中,層次分析法要求參考決策者和領域?qū)<业拇蚍忠庖?,兼具定性和定量的特點,是一種計算指標權重較為重要的方法。具體流程包括:確定指標、指標判別比較、構造判斷矩陣、計算矩陣特征向量、計算矩陣權重向量和一致性檢驗?;趯哟畏治龇ㄋ_立的指標權重,計算出加權之后的競爭對手各個維度的指標值,為后續(xù)的競爭對手特征向量構建提供基礎。
24數(shù)據(jù)分析及畫像構建
對企業(yè)競爭對手的各個維度的指標進行了融合轉換處理和指標加權處理后,進一步開展數(shù)據(jù)分析并構建畫像。企業(yè)競爭對手畫像構建的核心在于對海量競爭對手的歸納,抽取出具有一般性和代表性的“虛擬對手”;而聚類分析能夠?qū)崿F(xiàn)對具有相似特征的單位的聚集和分類,通過聚類結果來抽取畫像。因此,聚類分析方法在畫像研究的方法體系中占據(jù)著十分重要的位置。主要流程包括:
1)構建競爭對手的特征向量。設企業(yè)競爭對手集為M={A1,A2,A3,…,An},其中An表示第n個競爭對手;第n個競爭對手的特征向量為An=(b1,b2,b3,…,bi),其中bi表示第i個指標(取值[0,1])。
2)特征向量兩兩間相似度計算。采用余弦夾角算法,計算競爭對手特征向量兩兩之間的相似度。
3)構造競爭對手特征向量距離矩陣?;诟偁帉κ痔卣飨蛄績蓛芍g的相似度,構造特征向量相似度矩陣,如表2所示。
4)基于相似度矩陣,采用K均值聚類和層次聚類等算法進行聚類分析。以層次聚類算法為例,利用簡單連接法、完全連接法、平均連接法、質(zhì)心法或Ward法等對矩陣進行聚類。
5)提取并描述聚類結果。由研究者提取出聚類結果并對聚類分析結果進行解讀和描述,采用可視化圖表或故事化面板等形式展現(xiàn)企業(yè)競爭對手畫像,并將其提交至決策者。
25畫像應用
最后,將可視化呈現(xiàn)的競爭對手畫像用于企業(yè)的管理和決策活動之中,實現(xiàn)競爭對手畫像的應用價值,包括:
1)對手監(jiān)測。競爭對手畫像用于企業(yè)競爭對手的動態(tài)監(jiān)測過程中,能夠通過對畫像監(jiān)測的方式實現(xiàn)對海量競爭對手的檢測,包括了解競爭對手近期的成長變化情況(如市場占有率和市場規(guī)模的變化等)以及了解競爭對手近期的行為軌跡(如招聘和海外并購等)。
2)對手評估。用擬人畫像的方式評估競爭對手的威脅力和實力等,為企業(yè)競爭對手評價提供重要依據(jù),從而為企業(yè)管理層的決策提供支撐。
3)對手預警。與此同時,監(jiān)測競爭對手畫像,了解競爭對手近期的主要動向,從而挖掘出競爭對手背后的戰(zhàn)略意圖,為企業(yè)開展競爭對手預警活動提供參考。
4)標桿學習。最后,競爭對手畫像對企業(yè)而言也具有標桿學習和定標比超的作用。借助企業(yè)競爭對手畫像,企業(yè)可以了解競爭對手的主要優(yōu)勢,確定趕超目標,明確競爭方向,為企業(yè)的標桿學習活動提供啟發(fā)。
3實證研究
31研究對象
H公司是我國知名的家電企業(yè),成立于20世紀50年代末,經(jīng)過幾十年的發(fā)展已成為我國家電行業(yè)的綜合型跨國企業(yè)。在H公司競爭對手的選擇上,結合本研究的實際情況(如物力和人力限制,示范過程為主要目的等),采用簡單隨機抽樣方法從目前國內(nèi)家電行業(yè)領域的上市公司名單中隨機抽取15個企業(yè)作為競爭對手,分別將其標記為V1、V2、V3、…、V15。通過構建以上競爭對手的畫像,一方面為H公司的競爭策略提供啟發(fā);另一方面也為融合多源數(shù)據(jù)構建企業(yè)競爭對手畫像提供示范和參考。
32畫像指標體系
結合H公司所屬家電行業(yè)的特點,分別從基本屬性層、認知層和行為層3個維度構建了競爭對手畫像指標體系。
33指標數(shù)據(jù)搜集
在指標數(shù)據(jù)采集方法上,采用人工采集和八爪魚爬蟲軟件爬取方式,對隨機選取的15個企業(yè)的指標數(shù)據(jù)進行了采集。在指標數(shù)據(jù)來源方面,基本屬性層的企業(yè)規(guī)模、盈利能力和科研投入3個指標數(shù)據(jù)主要來源于上市公司的招股說明書和企業(yè)官網(wǎng);認知屬性層的企業(yè)文化指標來源于百度百科和企業(yè)官網(wǎng),產(chǎn)品口碑指標來源于官方商城平臺中的消費者評論;行為屬性層的產(chǎn)品研發(fā)和產(chǎn)品促銷指標均來自企業(yè)官網(wǎng)和官方商城。
34多源異構數(shù)據(jù)融合
341數(shù)據(jù)類型融合
1)定量-定量指標數(shù)據(jù)融合。首先使用離差標準化方法對全部定量指標數(shù)據(jù)進行歸一化處理:
X*=X-MinMax-Min
其中,X*表示經(jīng)過標準化處理的指標值(取值范圍[0,1]),X表示實際值,Min和Max分別表示該指標的最小值和最大值。
2)定性-定量指標數(shù)據(jù)融合。首先,采用TF-IDF算法和人工合并的方式,從文本中提煉出企業(yè)文化和產(chǎn)品口碑下的二級指標。采用Python的Jieba分詞工具對全部文本進行分詞和詞性標注,去除停用詞和無實際意義的詞之后,使用TF-IDF算法從文本中抽取出關鍵詞,然后由人工對關鍵詞進行篩選和合并,最終確定了企業(yè)文化和產(chǎn)品口碑兩個定性一級指標下的6個二級指標,如表4所示。
然后,借鑒宋新平等[8]的思路,使用Python的SnowNLP庫,計算每一位企業(yè)競爭對手的各個二級指標所對應的多個關鍵詞所在句子的情感傾向值,將多個關鍵詞所在句子的情感傾向值的均值作為對應二級指標的最終情感傾向值;其取值范圍處于[0,1]之間,值越接近1,則表明該二級指標在某競爭對手的特征中越正向明顯。進一步地,采用離差標準化方法對指標情感傾向值進行無量綱化處理,最終實現(xiàn)了對企業(yè)文化和產(chǎn)品口碑下的6個定性指標的量化融合轉換處理。
342數(shù)據(jù)加權
然而,不同類型和不同來源數(shù)據(jù)的重要性或存在一定差異;因此,多源異構數(shù)據(jù)融合的另一個關鍵問題在于數(shù)據(jù)加權問題。進一步采用層次分析法,計算并賦予不同指標權重系數(shù),主要流程如下:
1)判別打分,構造判斷矩陣。對一級指標和二級指標兩兩之間進行判別打分,構造出判別矩陣。
2)計算矩陣特征向量。在構造了判斷矩陣之后,采用方根法計算每一個指標的特征向量。其中,Mn表示矩陣每一行中的第n個元素,n表示每一行的元素個數(shù),W為計算出來的該行的特征向量。以一級指標判斷矩陣為例,其特征向量為(313,050,073,187,059,074,104)。
W=nM1×M2×M3…×Mn
3)計算矩陣權重向量。進一步計算出判斷矩陣的權重向量,權重向量中的值即代表該矩陣中的對應指標的權重。其中,R代表特征向量中對應指標的權重值,n代表特征向量中的向量個數(shù),Ki表示第i個特征向量。以一級指標為例,7個一級指標權重分別為(036,007,008,021,006,010,012)。
R=Ki∑ni=1Ki
4)一致性檢驗。最后,計算全部判別矩陣的CR和CI值,發(fā)現(xiàn)CR和CI均小于01,表明計算判斷矩陣得到的權重結果具有較高的可靠性。
5)指標權重總排序。匯總得到全部指標的權重結果,如表6所示。
6)指標數(shù)據(jù)加權。獲得指標權重之后,將15位競爭對手的各個指標數(shù)據(jù)進行加權處理,賦予其指標權重系數(shù),進而實現(xiàn)了對不同來源指標的數(shù)據(jù)加權處理。
35聚類分析
1)構建競爭對手特征向量?;跀?shù)據(jù)類型融合和數(shù)據(jù)加權處理結果,構造出15位競爭對手的特征向量。以V1為例,其特征向量V1=(018,018,005,002,003,003,004,007,007,001,0005,0014,008,011)。
2)向量余弦相似度計算。對15位競爭對手特征向量進行兩兩之間的余弦相似度計算。
COSθ=An·AmAnAm
3)構建競爭對手相似度矩陣。基于競爭對手特征向量兩兩之間的余弦相似度,構建競爭對手相似度矩陣,如表7所示。
4)層次聚類分析。然后使用層次聚類分析,采用質(zhì)心連接法對矩陣進行聚類,結果如圖3所示。按照“簇間差異大,簇內(nèi)差異小”的原則,將15位競爭對手劃分為3個類別:競爭對手一號(V4、V5,V6,V8,V9,V11,V12,V13,V14,V15)、競爭對手二號(V2,V7)、競爭對手三號(V1、V3、V10)。
36畫像構建
聚類結果表明,15位真實具體的競爭對手可以抽象為3個不同類型的競爭對手畫像。因此,進一步對不同類別中所包含的競爭對手的指標數(shù)據(jù)進行描述性分析,并采用可視化圖形等方式構建競爭對手畫像,描述3種競爭對手畫像的不同特點。
4結語與展望
本研究首先回顧了多源數(shù)據(jù)融合、企業(yè)競爭對手評價和用戶畫像研究等相關成果,然后從競爭對手畫像指標體系、指標數(shù)據(jù)采集、多源異構數(shù)據(jù)融合、聚類分析、畫像構建和畫像應用等環(huán)節(jié)出發(fā)構建了一套融合多源數(shù)據(jù)的企業(yè)競爭對手畫像構建模式,并以H公司為例,搜集指標數(shù)據(jù)展開實證研究,最終從H公司的主要競爭對手中抽取出了3個對手畫像。
本研究具有一定的創(chuàng)新性和應用價值。首先,已有研究主要關注科研團隊畫像和用戶畫像研究,而本研究關注如何融合多源數(shù)據(jù)構建企業(yè)競爭對手畫像;其次,本研究指出企業(yè)競爭對手畫像應當借鑒用戶畫像的基本思想,從基本屬性層、認知屬性層和行為層3個維度出發(fā)構建“擬人化”的畫像指標體系;最后,本研究提出了一套融合多源數(shù)據(jù)
的企業(yè)競爭對手畫像構建模式,為后續(xù)理論研究和實踐研究提供了借鑒。本研究也存在一定局限性,例如,受研究的人力物力等因素的影響,實證研究部分中所選擇的企業(yè)競爭對手數(shù)量較少,未開展用戶虛假評論的識別工作,畫像指標體系和指標權重的確定過程較為粗糙。然而,鑒于實證研究部分的主要目的在于演示和示范本研究所提出的模式體系的有效性,因此從示范和參考的角度來看,實證過程依然具有一定的借鑒價值。
未來相關研究可以關注以下幾個方面的內(nèi)容:
1)構建企業(yè)競爭對手畫像實時監(jiān)測系統(tǒng),實現(xiàn)競爭對手畫像的自動監(jiān)測和可視化呈現(xiàn)。對于企業(yè)而言,依賴人工開展指標數(shù)據(jù)的采集、數(shù)據(jù)融合、聚類分析和畫像構建等,不僅需要耗費大量的人力物力,同時也會嚴重影響畫像構建的效率和時效性。因此,企業(yè)可以建立競爭對手畫像監(jiān)測系統(tǒng),將專家和決策者構建出的畫像指標體系提交至系統(tǒng),由系統(tǒng)自動采集和爬取各類型指標數(shù)據(jù),基于數(shù)據(jù)融合算法實現(xiàn)不同類型數(shù)據(jù)的融合和加權處理,并自動開展聚類分析,形成聚類結果和可視化圖表等。
2)注重采集指標的時間序列數(shù)據(jù)而非靜態(tài)截面數(shù)據(jù)。此外,對于競爭對手畫像的構建過程而言,關注競爭對手畫像的演變和動態(tài)發(fā)展過程,也是競爭對手畫像研究的重要內(nèi)容。傳統(tǒng)的靜態(tài)截面數(shù)據(jù)只能反映某時某刻競爭對手的畫像,其作用類似于給競爭對手“拍照”;而采用指標的時間序列數(shù)據(jù)開展競爭對手畫像研究,有利于探析競爭對手畫像的動態(tài)演變過程,其作用類似于給競爭對手“拍視頻”,從而能更好實現(xiàn)競爭對手畫像的追蹤和實時監(jiān)測。
3)區(qū)分多源數(shù)據(jù)融合、多源信息融合和多源情報融合,針對不同的融合層次選擇恰當?shù)娜诤戏椒?。?shù)據(jù)融合面向數(shù)據(jù)底層,信息融合面向中層而情報融合面向頂層;從底層到頂層,數(shù)據(jù)的有序性、知識性以及人的介入性越明顯。遙感和物聯(lián)網(wǎng)領域所談及的多源數(shù)據(jù)融合主要面向數(shù)據(jù)底層,在融合方法上包括卡爾曼濾波法、多貝葉斯估計法、產(chǎn)生式規(guī)則和模糊邏輯理論等面向數(shù)據(jù)底層的融合算法[1,3]。而企業(yè)競爭對手畫像研究面向社會數(shù)據(jù)融合,其融合層次更高,更多涉及的是中層融合,即信息融合。在融合多源數(shù)據(jù)的競爭對手畫像研究過程中,除了定量-定量融合的離差標準化和定性-定量融合的LDA主題模型等方法,未來相關研究可以結合多源社會數(shù)據(jù)融合的特點開發(fā)出更多的融合方法。
4)關注多源社會數(shù)據(jù)融合中的信息失真現(xiàn)象,把握數(shù)據(jù)融合與信息失真之間的平衡。企業(yè)競爭對手的多源數(shù)據(jù)融合面向中層的信息融合,因此競爭對手的多源指標數(shù)據(jù)本身攜帶了大量的信息。然而,數(shù)據(jù)融合過程中或存在一定的信息失真現(xiàn)象,即采用數(shù)據(jù)融合方法對不同類型和不同來源的指標數(shù)據(jù)進行融合處理時,一部分數(shù)據(jù)或在融合過程中丟失其原本形態(tài)所攜帶的信息。
數(shù)據(jù)融合程度越深,其信息失真現(xiàn)象或越嚴重。因此,如何選擇合適的融合方法和融合層次,把握數(shù)據(jù)融合與信息失真之間的平衡,也是未來相關研究需要關注的重點。
參考文獻
[1]化柏林,李廣建.大數(shù)據(jù)環(huán)境下多源信息融合的理論與應用探討[J].圖書情報工作,2015,59(16):5-10.
[2]周群,化柏林.基于多源數(shù)據(jù)融合的科技決策需求主題識別研究[J].情報理論與實踐,2019,42(3):107-113.
[3]徐緒堪,吳慧中,張吉成,等.基于多源數(shù)據(jù)融合的突發(fā)事件決策需求研究[J].情報理論與實踐,2017,40(11):40-44,51.
[4]魯奇.基于多源數(shù)據(jù)挖掘的旅游客戶細分研究[D].哈爾濱:哈爾濱工業(yè)大學,2008.
[5]張大勇,景東,卜巍.融合多源數(shù)據(jù)的微信用戶信息分享行為特征研究[J].情報科學,2019,37(2):83-88.
[6]李賀,毛剛.基于競爭情報分析的企業(yè)競爭對手評價系統(tǒng)構建研究[J].情報科學,2009,27(2):249-253.
[7]徐海寧,孫忠林.企業(yè)競爭對手威脅力評估指標體系研究[J].圖書館學研究,2016,(2):93-97.
[8]宋新平,陳夢夢,申彥,等.大數(shù)據(jù)下基于多源信息融合的企業(yè)競爭對手評價模型研究[J/OL].情報理論與實踐,http://kns.cnki.net/kcms/detail/11.1762.G3.20190919.1333.010.html,2019-09-19.
[9]吳劍云,胥明珠.基于用戶畫像和視頻興趣標簽的個性化推薦[J/OL].情報科學,http://kns.cnki.net/kcms/detail/22.1264.g2.20200430.1545.017.html,2020-05-06.
[10]袁潤,王琦.學術博客用戶畫像模型構建與實證——以科學網(wǎng)博客為例[J].圖書情報工作,2019,63(22):13-20.
[11]王益成,王萍,張禹.基于向量空間模型的科技情報用戶畫像及場景化服務推送研究[J].現(xiàn)代情報,2020,40(2):3-10,25.
[12]莫君蘭,竇永香,開慶.基于多源異構數(shù)據(jù)的科研團隊畫像的構建[J/OL].情報理論與實踐,http://kns.cnki.net/kcms/detail/11.1762.G3.20200502.0936.002.html,2020-05-06.
[13]化柏林.多源信息融合方法研究[J].情報理論與實踐,2013,36(11):16-19.
(責任編輯:孫國雷)