李力
隨著計算機網(wǎng)絡(luò)的發(fā)展和大數(shù)據(jù)的興起,全世界的信息量呈爆炸性增長,網(wǎng)絡(luò)上浩如煙海的信息中人工搜索不僅耗費大量時間和精力,而且也很難確保精準(zhǔn)。因此,對桂林市產(chǎn)業(yè)競爭情報服務(wù)平臺的理論基礎(chǔ)、體系建設(shè)、系統(tǒng)開發(fā)、系統(tǒng)構(gòu)成進行研究,建設(shè)高度智能化的各種子系統(tǒng),實現(xiàn)桂林產(chǎn)業(yè)情報的共享,不僅可以為政府的科學(xué)決策提供選擇的依據(jù),而且對于企業(yè)開展技術(shù)創(chuàng)新、應(yīng)對外界變化及提升產(chǎn)業(yè)競爭力具有十分重要的意義。
(一)平臺的整體框架
產(chǎn)業(yè)競爭情報的體系建設(shè)主要以協(xié)同原則和易推廣原則為主。為了適應(yīng)桂林市產(chǎn)業(yè)情報的特征,該平臺以基礎(chǔ)網(wǎng)絡(luò)為紐帶,利用互聯(lián)網(wǎng)信息為服務(wù)模式,實現(xiàn)數(shù)據(jù)自動采集、產(chǎn)業(yè)數(shù)據(jù)智能分析、產(chǎn)業(yè)研究、競爭戰(zhàn)略分析、競爭情報服務(wù)等模塊的前臺實時展示;按照建立的不同產(chǎn)業(yè)鏈,實現(xiàn)資源的深度整合、智能歸類為核心的數(shù)據(jù)劃分,以及數(shù)據(jù)加工、分析和發(fā)布的完整處理流程,最終完整構(gòu)建了產(chǎn)業(yè)競爭情報服務(wù)體系。如圖1所示。
(二)平臺的功能定位
企業(yè)、產(chǎn)業(yè)、政府作為產(chǎn)業(yè)競爭情報的三種基本主體,結(jié)合產(chǎn)業(yè)實際情況,在構(gòu)建競爭情報服務(wù)平臺時,充分考慮政府和企業(yè)兩方面用戶,提供一站式、零距離的服務(wù)模式;用戶不僅能夠獲得情報信息產(chǎn)品,還能夠接受高層次、個性化的專題咨詢研究成果,實現(xiàn)資訊實時發(fā)布、產(chǎn)業(yè)數(shù)據(jù)統(tǒng)計、趨勢分析圖表展示、專題咨詢研究成果推送、情報互動交流等功能,實現(xiàn)全面高效的服務(wù)內(nèi)容。
(三)平臺的系統(tǒng)構(gòu)建
1.互聯(lián)網(wǎng)信息自動采集子系統(tǒng)的構(gòu)建
采集子系統(tǒng)根據(jù)互聯(lián)網(wǎng)的多種來源且不同類型的數(shù)據(jù),構(gòu)建了整站下載、欄目采集、元搜索、論壇采集、定向采集等引擎,對不同來源進行自動化的跟蹤、下載、數(shù)據(jù)解析,具備全面的信息采集能力。運行原理如圖2所示。
整站下載引擎和欄目采集引擎應(yīng)用于行業(yè)新聞類網(wǎng)站、企業(yè)網(wǎng)站、博客類網(wǎng)站的自動化信息采集,這類采集頁面比較規(guī)范,不需要人為手工配置數(shù)據(jù)解析模板,引擎就能自動分析網(wǎng)站結(jié)構(gòu)和頁面信息,比較易于實現(xiàn)采集的完成。
元搜索引擎應(yīng)用于各種公開的搜索引擎檢索結(jié)果的數(shù)據(jù)采集,采集后系統(tǒng)自動對多種搜索引擎的結(jié)果進行合并和查重,并自動完成信息結(jié)果的分析,得出較為完整的數(shù)據(jù)。
論壇采集引擎對于各種論壇的主帖和跟帖進行采集,用戶設(shè)置需要采集的內(nèi)容后,系統(tǒng)就能通過向?qū)降膶W(xué)習(xí)模型并依托向?qū)降淖詣臃治?,實現(xiàn)論壇數(shù)據(jù)的全面采集。
定向采集引擎能夠采集各種B2B和B2C電子商務(wù)網(wǎng)站的格式化數(shù)據(jù),包括廠商的供需信息、產(chǎn)品的價格及銷量數(shù)據(jù)、物流信息等,采集的信息經(jīng)過自動處理,儲存于產(chǎn)業(yè)研究平臺之中,可以直接進行圖表化分析、統(tǒng)計分析、趨勢分析的研究。
2.產(chǎn)業(yè)數(shù)據(jù)智能分析工具集的構(gòu)建
產(chǎn)業(yè)數(shù)據(jù)分析工具集包含兩類分析工具:智能語義分析工具和結(jié)構(gòu)化數(shù)據(jù)統(tǒng)計分析工具,主要用于對海量數(shù)據(jù)的自動處理和圖表統(tǒng)計,可以極大的減輕情報數(shù)據(jù)的管理和統(tǒng)計工作,使研究人員從繁重的情報加工和數(shù)據(jù)整理工作中解放出來,將更多的精力投入到面向重點支撐的專題研究課題中。
智能語義分析工具利用采集的數(shù)據(jù),經(jīng)過一系列的標(biāo)引、關(guān)鍵詞、摘要、自動分類、聚類、正負(fù)面信息識別、主體識別等服務(wù)后,為信息建立起了全文索引,經(jīng)過規(guī)范化處理的信息統(tǒng)一保存入庫,最終為用戶進行信息瀏覽、輿情分析、內(nèi)容分析、統(tǒng)計分析之用,可以大大提升情報分析人員的海量數(shù)據(jù)處理能力,極大的降低服務(wù)體系對信息維護人員的數(shù)量要求。如圖3所示。
結(jié)構(gòu)化數(shù)據(jù)統(tǒng)計分析工具主要對采集子系統(tǒng)和人為手工發(fā)布的信息進行全自動化處理,無需用戶的干預(yù),信息就能依次經(jīng)過查重查新、自動標(biāo)引、計算文章關(guān)鍵詞、計算文章摘要、自動歸類文章、聚類分析、文章負(fù)面識別、主體識別等處理過程,最終進入產(chǎn)業(yè)研究平臺文獻庫中保存,并在競爭情報服務(wù)網(wǎng)站中發(fā)布,供政府和企業(yè)的用戶進行瀏覽與檢索。如圖4所示。
3.產(chǎn)業(yè)研究平臺的構(gòu)建
平臺的主要用戶是情報采編人員和課題研究人員,根據(jù)用戶設(shè)置的產(chǎn)業(yè)鏈結(jié)構(gòu),分成多個產(chǎn)業(yè)研究子平臺,不同平臺用于各自的競爭情報子庫,也在不同產(chǎn)業(yè)鏈之間提供可以交換統(tǒng)計分析的數(shù)據(jù)。平臺構(gòu)建的模塊包括人工數(shù)據(jù)采集與加工、簡報制作、產(chǎn)業(yè)數(shù)據(jù)統(tǒng)計分析、情報服務(wù)內(nèi)容推送、系統(tǒng)安全管理等,具體如表1所示。
4.競爭戰(zhàn)略分析子系統(tǒng)的構(gòu)建
競爭戰(zhàn)略分析子系統(tǒng)主要功能是在情報研究和產(chǎn)業(yè)研究的理論與方法指導(dǎo)下,通過使用計算機輔助分析模型和流程,對定性定量情報數(shù)據(jù)進行量化分析、對比分析、綜合計算評估,形成各種情報決策支持報告。