楊健 云南省中小企業(yè)服務(wù)中心
當(dāng)前,將大數(shù)據(jù)用于經(jīng)濟(jì)監(jiān)測和預(yù)測已引起了廣泛的關(guān)注,并且由于其在研究中的及時性,準(zhǔn)確性,相對較低的成本,較高的粒度和較大的樣本量等優(yōu)點(diǎn),其應(yīng)用已變得越來越廣泛。大。傳統(tǒng)的監(jiān)測主要依賴于統(tǒng)計報告數(shù)據(jù),這些問題包括延遲發(fā)布,采樣準(zhǔn)確性不足以及許多新興行業(yè),它們不屬于統(tǒng)計范圍,這直接或間接影響宏觀決策的及時性和科學(xué)性[1]。大數(shù)據(jù)概念和技術(shù)的科學(xué)應(yīng)用,Internet 數(shù)據(jù)資源的挖掘和使用,豐富的統(tǒng)計數(shù)據(jù)源以及更準(zhǔn)確地監(jiān)視和預(yù)測經(jīng)濟(jì)運(yùn)行,對于提高宏觀經(jīng)濟(jì)控制中的科學(xué)決策水平非常重要。
Web 爬網(wǎng)技術(shù),也稱為Web 機(jī)器人或WebSpider,這是一種可以依照相應(yīng)的規(guī)則進(jìn)行信息的收集的相關(guān)程序或者相符的腳步。如果您將Internet 比作蜘蛛網(wǎng),則網(wǎng)絡(luò)爬蟲是一種蜘蛛,它可以瀏覽Internet,對于Internet 上一些網(wǎng)頁或者相關(guān)的鏈接依照既定的目標(biāo)進(jìn)行有選擇的訪問,同時對于Web 內(nèi)容也可以實現(xiàn)定時的讀取,并將讀取過程中的相關(guān)內(nèi)容進(jìn)行儲存。經(jīng)濟(jì)運(yùn)行數(shù)據(jù)的收集和開發(fā)是經(jīng)濟(jì)運(yùn)行監(jiān)控和分析的核心。在如今時代不斷發(fā)展的背景之下,對于大數(shù)據(jù)的應(yīng)用越來越廣泛,因此,在經(jīng)濟(jì)運(yùn)行監(jiān)測分析工作的過程中,不但要充分的了解相關(guān)部門的數(shù)據(jù)統(tǒng)計情況,還要在互聯(lián)網(wǎng)的公共數(shù)據(jù)中不斷的獲得,與經(jīng)濟(jì)運(yùn)行相關(guān)的更多 信息,例如:批量產(chǎn)品價格信息。上市公司的土地市場供應(yīng)信息,整體的運(yùn)行模式的相關(guān)情況中體現(xiàn)的數(shù)據(jù),以及清楚了解相關(guān)的財務(wù)報表數(shù)據(jù)情況。
但是,大多數(shù)此類信息以網(wǎng)頁形式存在,因此很難直接下載和下載。在遵守適用法律的前提下,網(wǎng)絡(luò)上的大量信息也可以通過網(wǎng)絡(luò)爬蟲進(jìn)行收集,以形成可用于分析和擴(kuò)展經(jīng)濟(jì)運(yùn)營信息的數(shù)據(jù)集。集合的寬度和深度。
文本挖掘(TM)是指從大型文本數(shù)據(jù)庫中提取隱藏信息,先前未知或潛在有用的信息和知識,在線民意分析,產(chǎn)品評估分析,微博熱點(diǎn)分析,主題前沿分析的過程。以及相關(guān)政策文本分析。在相關(guān)部委的盡職調(diào)查過程中,大量的文本數(shù)據(jù)反映了公司的生產(chǎn)和經(jīng)營情況,并反映了公司的相關(guān)政策要求和建議,這些數(shù)據(jù)以公司為主要用戶或服務(wù)的目的在相關(guān)部委的工作系統(tǒng)中積累了下來。與數(shù)字?jǐn)?shù)據(jù)相比,文本數(shù)據(jù)是企業(yè)響應(yīng)的主要形式,它包含更多信息,但是由于數(shù)據(jù)量大,記錄粗糙且處理信息的能力不足,因此挖掘了文本數(shù)據(jù)系統(tǒng)。相對短缺限制了對公司反饋信息的深入審查和使用。就經(jīng)濟(jì)運(yùn)行監(jiān)控和分析而言,引入了文本挖掘技術(shù),例如基于LDA 主題模型的文本主題提取和基于樸素貝葉斯算法的文本情感分析,以識別跡象,趨勢,潛在問題和企業(yè)吸引力。通過研究和判斷分析,定期發(fā)現(xiàn)和分析政府部門的公司監(jiān)控系統(tǒng),調(diào)查系統(tǒng)以及公司對業(yè)務(wù)研究的反饋的文本信息,以準(zhǔn)確反映各種類型和特定于行業(yè)的困難,上訴主體的變化和情感傾向。我在作為您的研究提供依據(jù)并提出相關(guān)政策建議,以從您的企業(yè)中獲取真誠和準(zhǔn)確的意見。
將計算機(jī)在大量的數(shù)據(jù)中學(xué)習(xí)特定定律的過程稱之為機(jī)器學(xué)習(xí)。這些定律包括決策樹,隨機(jī)森林,邏輯回歸,支持向量機(jī),樸素貝葉斯相關(guān)分類,關(guān)聯(lián)分析,回歸,聚類等。超過12 種算法,例如K 近鄰算法,K-means 算法,AdaBoost,神經(jīng)網(wǎng)絡(luò)和Markov。如果政府的治理模式可以通過應(yīng)用大數(shù)據(jù)來充分的得到改善,在各個領(lǐng)域中對于數(shù)據(jù)的挖掘可以通過機(jī)器學(xué)習(xí)算法技術(shù)來更好的獲得有效的信息。因此對于預(yù)警企業(yè)的生產(chǎn)風(fēng)險的評估已經(jīng)很好的應(yīng)用了機(jī)器學(xué)習(xí)算法這一技術(shù),并且發(fā)現(xiàn)泛化是有規(guī)律的。存在共同的問題和趨勢,并提取有價值的數(shù)據(jù),信息和建議,以更好地服務(wù)于政府決策。例如,LM 神經(jīng)網(wǎng)絡(luò)算法和CART醫(yī)生,用于監(jiān)視和預(yù)警企業(yè)生產(chǎn)和運(yùn)營風(fēng)險,以保護(hù)員工的注冊,稅務(wù)備案和銷售,納稅,市場監(jiān)督,稅務(wù),人類社會,電力供應(yīng)等部門。
在科學(xué)不斷發(fā)展的背景之下,在經(jīng)濟(jì)的運(yùn)行監(jiān)測分析中應(yīng)用大數(shù)據(jù)技術(shù)還是存在許多的問題以及困難,但是只要結(jié)合科學(xué),對于這一技術(shù)不斷的提高創(chuàng)新,在分析技術(shù)與分析業(yè)務(wù)之間找到更多的融合點(diǎn),使得經(jīng)濟(jì)運(yùn)行的工作可以和大數(shù)據(jù)技術(shù)完美的結(jié)合起來,為改進(jìn)監(jiān)視和分析經(jīng)濟(jì)運(yùn)行水平提供有力的支持。