□曹海波
統(tǒng)計數據是統(tǒng)計工作活動過程中所取得的反映國民經濟和社會現(xiàn)象的數字資料及與之相聯(lián)系的其他資料的總稱,除了最直觀的統(tǒng)計數字、統(tǒng)計圖表之外,與各類文字、說明情況等也直接相關。以筆者從事的工業(yè)生產者價格調查為例,月度報表中企業(yè)填寫的出廠、購進產品規(guī)格價格超限(波動超過5%)說明,信息量就在200 條左右,如何充分發(fā)掘這些文字信息的效用是本文嘗試研究的內容。
量化一切,是數據化的核心,也是大數據時代的基石。統(tǒng)計工作中接觸的各類文字說明,由于文字表述的復雜性、表達方式的不統(tǒng)一,記錄方式的多樣化、多次記錄甚至是重復記錄等因素,會給統(tǒng)計人員在運用這些信息時增加明顯工作量,在準確關聯(lián)這些信息時把握前后邏輯的一致上造成困擾。將文字化為數據,本質上是剔除文字說明中的主觀因素,提取核心客觀因素的過程,如同已經存在的企業(yè)名稱對應統(tǒng)一社會信用識別碼、企業(yè)所處的地址對應的行政區(qū)劃代碼、企業(yè)所處行業(yè)對應的統(tǒng)計行業(yè)代碼等,可視為統(tǒng)計工作與大數據時代進一步接軌的嘗試,可更好地履行統(tǒng)計監(jiān)測職能,提供更為優(yōu)質統(tǒng)計服務。
一是可歸類、可比較。文字數據化可以直觀地歸類匯總問題、監(jiān)測趨勢,通過統(tǒng)一分類和編碼尋找同地區(qū)、同行業(yè)之間共性問題和趨勢,推動不同行業(yè)間共性問題和趨勢的歸類互認;通過統(tǒng)一分類和編碼尋找跨地區(qū)、跨行業(yè)之間的個性問題、不同趨勢,推動個性問題、不同趨勢在跨地區(qū)間、跨行業(yè)間的比較。
二是可監(jiān)測、可回溯。文字數據化可以強化數據核查力度,綜合了解企業(yè)生產經營狀況、原材料購進價格與出廠價格波動之間的聯(lián)系、市場需求等方面存在的新情況和新問題,以及產品價格變動趨勢、政策變化對企業(yè)的影響等情況,準確掌握規(guī)格品的價格變化動向及真實原因。對同企業(yè)、同行業(yè)的產品價格波動原因進行長期監(jiān)測,進行深入研究,進而摸索產業(yè)鏈上價格傳導機制。
三是可拓展、可創(chuàng)新。文字數據化有利于開展大數據分析運用,發(fā)掘統(tǒng)計調查中各種文字說明的更大作用。在大數據環(huán)境下,數據的價值不僅僅是特定目的的使用,更大的價值在于數據創(chuàng)新,在于這些數據的再利用、重組、擴展創(chuàng)新出的新用途。例如商店里的監(jiān)控器,最開始的初衷是監(jiān)視扒手。但是后來可以通過跟蹤客戶流和他們停留的信息,設計店面的最佳布局并判斷營銷活動的有效性。
整理匯總近幾年月度報表說明,通過TF-IDF 算法進行關鍵詞提取。TF-IDF 算法:用于反映一個詞對于某篇文檔的重要性。濾掉常見的詞語,保留重要的詞語。如果某個詞在一篇文檔中出現(xiàn)的頻率高,則TF 高;并且在其他文檔中很少出現(xiàn),則IDF高。TF-IDF 就是將二者相乘為TF*IDF,這樣這個詞具有很好的類別區(qū)分能力。在jieba 用以下代碼實現(xiàn)(圖1):
將通過算法提取的關鍵詞進行進一步篩選。并按照性質進行分類。我們暫且把企業(yè)的說明情況(Ni,i 為從1 開始的自然數,下同)假設為三維模式,即造成價格波動的原因(bi)、原因的存續(xù)時間(ti)和造成價格波動的結果(ri)。價格波動原因類的“訂 單”“上 游”“需 求”“市 場”“終端”等,原因的前序時間“上月”“今年以來”“上季度”等,價格波動結果的“上漲”“上升”“下跌”“下降”等。當然,也可以進一步增設維度,比如價格波總結果的影響范圍、影響預期時間等等。
圖1 代碼
FIND (find_text,within_text,start_num),其中括號內的“find_text”表示我們要查找的字符串?!皐ithin_text”表示要超找的區(qū)域,也就是需要在哪個單元格內查找“find_text”;“start_num”指定開始進行查找的字符數。比如“start_num”為1,則從單元格內第一個字符開始查找關鍵字。如果忽略“Start_num”,則假設其為1。具體結果(見圖2):
圖片中,數字“1”、“20”、“50”分別代表在文本中第1 個字符開始出現(xiàn)“今年以來”、第20 個字符開始顯示“需求”、第“50”個字符顯示“下降”。
每一條情況說明對應的數字化編碼為Ni,Ni=bitiri,(見圖3)
圖片中,序號1 的文字說明對應編碼為t1b1(b4)r2,解讀成“今年以來的需求(終端)原因導致價格下降”;序號2 的文字說明對應編碼為t1b1(b5)r2,解讀為“今年以來的需求(市場)原因導致價格下降”。
一是同報表跨期限的文字說明整理。由于文字表述的復雜性,同樣的問題說明由不同的人員來提供會出現(xiàn)不同的表述,有效的核心信息往往隱藏在較長篇幅的大段文字中,轉化成數據的形式可以有效地剔除無用的信息,以最高效的方式提供核心信息。拉長時間跨度來看,以標準的數據化形式出現(xiàn)的每月報表說明中的核心信息,有利于統(tǒng)計人員匯總、比較,發(fā)現(xiàn)運行趨勢。
二是跨報表運用。通過統(tǒng)一的編碼將同一企業(yè)不同報表之間的文字情況進行標準化關聯(lián),更加容易審核、把握、厘清其中的邏輯關系,把握好企業(yè)、行業(yè)的運行態(tài)勢。工業(yè)生產者價格調查中,與企業(yè)相關的文字說明除了月度的超限說明以外,還有很多其他渠道,比如日常與企業(yè)的數據核實記錄等等,通過將文字編碼化處理,將同一企業(yè)不同來源、不同表述的文字進行標準化,可以起到印證參考的作用,也更便于發(fā)現(xiàn)前后邏輯不一致的情況。
一是文字說明源頭的精確性把握。本文所討論的文字說明的主要來源為企業(yè)人員提供的素材,精確性目前依然有所欠缺。一方面在于統(tǒng)計人員對市場情況不夠了解;另一方面在于企業(yè)統(tǒng)計負責人沒有對每期報表進行過問審核,價格變動趨勢是否符合市場規(guī)律及市場行情,報表數據審核工作有所欠缺。企業(yè)對統(tǒng)計工作重視不足,審核工作僅限于程序中簡單提示審核,對價格數據超限的說明,描述簡單沒有深入挖掘,不能做到對于每個審核背后存在的問題進行審核,不能詳細說明價格變動的原因。
二是代表性和推廣使用問題。從蘇州的工業(yè)生產者價格調查來看,月度需要填寫超限說明的產品數量占全部調查產品的比重10%左右。對此類文字說明進行數據化編碼雖然可以更為直觀地對同企業(yè)、同行業(yè)的產品價格波動原因進行監(jiān)測,但是無論從樣本的代表性和當前的技術手段來看,所起到的作用僅停留在與指數中的行業(yè)趨勢、與行業(yè)所處的市場趨勢相互印證。實效性有待更多跨報表關聯(lián)使用甚至是跨專業(yè)使用后的結果檢驗,這就需要大數據技術在統(tǒng)計部門的進一步推廣應用。
圖2 關鍵詞
圖3 編碼組合
一是夯實業(yè)務基礎。將統(tǒng)計調查信息、企業(yè)報表與價格數據質量聯(lián)動研究,發(fā)現(xiàn)苗頭性問題及時開展有針對性的專題調研,帶著問題訪問企業(yè),同時搜集鮮活資料,對有關經濟數據進行深入解讀,揭示經濟運行中的矛盾和潛在問題,不斷提高對宏觀經濟形勢的分析研究和預測預判能力。
二是增加統(tǒng)計調查服務供給。統(tǒng)計調查的原始資料是大量的數據和素材,要反映出潛在的問題,解釋出問題的實質,就要將專業(yè)知識與工作實踐進行有機結合,從全局出發(fā),抓住重點、熱點、難點,運用專業(yè)統(tǒng)計分析方法,進行“去粗存精,去偽存真,由此及彼,由表及里”的統(tǒng)計分析過程,從中發(fā)現(xiàn)問題,找出規(guī)律。積極主動向黨政領導匯報情況和問題,提出解決問題的合理化建議或措施,從而使統(tǒng)計調查由事后反映變?yōu)槭虑邦A測分析,提供常態(tài)化決策參考。
三是拓展大數據技術、大數據思維的應用范圍。“統(tǒng)計大數據就是統(tǒng)計,是新時代、新時期和新的技術條件下的統(tǒng)計。”大數據時代就在當下,統(tǒng)計系統(tǒng)要推進以大數據運用為核心的統(tǒng)計信息化體系融合,加強對現(xiàn)有統(tǒng)計數據資源資產化管理和大數據挖掘分析應用,強化系統(tǒng)整合、數據融合、服務集合,推進數據采集整合、綜合應用、關聯(lián)分析和安全管理,促進政府統(tǒng)計數字化轉型,為建立統(tǒng)計大數據奠定基礎。