• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      讓文字化為數據讓數據助推監(jiān)測
      ——統(tǒng)計調查文字數據化路徑初探

      2020-11-16 13:06:52曹海波
      統(tǒng)計科學與實踐 2020年8期
      關鍵詞:報表編碼文字

      □曹海波

      統(tǒng)計數據是統(tǒng)計工作活動過程中所取得的反映國民經濟和社會現(xiàn)象的數字資料及與之相聯(lián)系的其他資料的總稱,除了最直觀的統(tǒng)計數字、統(tǒng)計圖表之外,與各類文字、說明情況等也直接相關。以筆者從事的工業(yè)生產者價格調查為例,月度報表中企業(yè)填寫的出廠、購進產品規(guī)格價格超限(波動超過5%)說明,信息量就在200 條左右,如何充分發(fā)掘這些文字信息的效用是本文嘗試研究的內容。

      文字化為數據的意義

      量化一切,是數據化的核心,也是大數據時代的基石。統(tǒng)計工作中接觸的各類文字說明,由于文字表述的復雜性、表達方式的不統(tǒng)一,記錄方式的多樣化、多次記錄甚至是重復記錄等因素,會給統(tǒng)計人員在運用這些信息時增加明顯工作量,在準確關聯(lián)這些信息時把握前后邏輯的一致上造成困擾。將文字化為數據,本質上是剔除文字說明中的主觀因素,提取核心客觀因素的過程,如同已經存在的企業(yè)名稱對應統(tǒng)一社會信用識別碼、企業(yè)所處的地址對應的行政區(qū)劃代碼、企業(yè)所處行業(yè)對應的統(tǒng)計行業(yè)代碼等,可視為統(tǒng)計工作與大數據時代進一步接軌的嘗試,可更好地履行統(tǒng)計監(jiān)測職能,提供更為優(yōu)質統(tǒng)計服務。

      一是可歸類、可比較。文字數據化可以直觀地歸類匯總問題、監(jiān)測趨勢,通過統(tǒng)一分類和編碼尋找同地區(qū)、同行業(yè)之間共性問題和趨勢,推動不同行業(yè)間共性問題和趨勢的歸類互認;通過統(tǒng)一分類和編碼尋找跨地區(qū)、跨行業(yè)之間的個性問題、不同趨勢,推動個性問題、不同趨勢在跨地區(qū)間、跨行業(yè)間的比較。

      二是可監(jiān)測、可回溯。文字數據化可以強化數據核查力度,綜合了解企業(yè)生產經營狀況、原材料購進價格與出廠價格波動之間的聯(lián)系、市場需求等方面存在的新情況和新問題,以及產品價格變動趨勢、政策變化對企業(yè)的影響等情況,準確掌握規(guī)格品的價格變化動向及真實原因。對同企業(yè)、同行業(yè)的產品價格波動原因進行長期監(jiān)測,進行深入研究,進而摸索產業(yè)鏈上價格傳導機制。

      三是可拓展、可創(chuàng)新。文字數據化有利于開展大數據分析運用,發(fā)掘統(tǒng)計調查中各種文字說明的更大作用。在大數據環(huán)境下,數據的價值不僅僅是特定目的的使用,更大的價值在于數據創(chuàng)新,在于這些數據的再利用、重組、擴展創(chuàng)新出的新用途。例如商店里的監(jiān)控器,最開始的初衷是監(jiān)視扒手。但是后來可以通過跟蹤客戶流和他們停留的信息,設計店面的最佳布局并判斷營銷活動的有效性。

      文字化為數據的初步嘗試

      (一)TF-IDF 算法提取確定關鍵詞,并給核心詞編碼

      整理匯總近幾年月度報表說明,通過TF-IDF 算法進行關鍵詞提取。TF-IDF 算法:用于反映一個詞對于某篇文檔的重要性。濾掉常見的詞語,保留重要的詞語。如果某個詞在一篇文檔中出現(xiàn)的頻率高,則TF 高;并且在其他文檔中很少出現(xiàn),則IDF高。TF-IDF 就是將二者相乘為TF*IDF,這樣這個詞具有很好的類別區(qū)分能力。在jieba 用以下代碼實現(xiàn)(圖1):

      將通過算法提取的關鍵詞進行進一步篩選。并按照性質進行分類。我們暫且把企業(yè)的說明情況(Ni,i 為從1 開始的自然數,下同)假設為三維模式,即造成價格波動的原因(bi)、原因的存續(xù)時間(ti)和造成價格波動的結果(ri)。價格波動原因類的“訂 單”“上 游”“需 求”“市 場”“終端”等,原因的前序時間“上月”“今年以來”“上季度”等,價格波動結果的“上漲”“上升”“下跌”“下降”等。當然,也可以進一步增設維度,比如價格波總結果的影響范圍、影響預期時間等等。

      圖1 代碼

      (二)find函數提取關鍵詞

      FIND (find_text,within_text,start_num),其中括號內的“find_text”表示我們要查找的字符串?!皐ithin_text”表示要超找的區(qū)域,也就是需要在哪個單元格內查找“find_text”;“start_num”指定開始進行查找的字符數。比如“start_num”為1,則從單元格內第一個字符開始查找關鍵字。如果忽略“Start_num”,則假設其為1。具體結果(見圖2):

      圖片中,數字“1”、“20”、“50”分別代表在文本中第1 個字符開始出現(xiàn)“今年以來”、第20 個字符開始顯示“需求”、第“50”個字符顯示“下降”。

      (三)進行編碼組合

      每一條情況說明對應的數字化編碼為Ni,Ni=bitiri,(見圖3)

      圖片中,序號1 的文字說明對應編碼為t1b1(b4)r2,解讀成“今年以來的需求(終端)原因導致價格下降”;序號2 的文字說明對應編碼為t1b1(b5)r2,解讀為“今年以來的需求(市場)原因導致價格下降”。

      以工價專業(yè)為例的當前可應用范圍和局限性

      (一)當前可應用范圍。

      一是同報表跨期限的文字說明整理。由于文字表述的復雜性,同樣的問題說明由不同的人員來提供會出現(xiàn)不同的表述,有效的核心信息往往隱藏在較長篇幅的大段文字中,轉化成數據的形式可以有效地剔除無用的信息,以最高效的方式提供核心信息。拉長時間跨度來看,以標準的數據化形式出現(xiàn)的每月報表說明中的核心信息,有利于統(tǒng)計人員匯總、比較,發(fā)現(xiàn)運行趨勢。

      二是跨報表運用。通過統(tǒng)一的編碼將同一企業(yè)不同報表之間的文字情況進行標準化關聯(lián),更加容易審核、把握、厘清其中的邏輯關系,把握好企業(yè)、行業(yè)的運行態(tài)勢。工業(yè)生產者價格調查中,與企業(yè)相關的文字說明除了月度的超限說明以外,還有很多其他渠道,比如日常與企業(yè)的數據核實記錄等等,通過將文字編碼化處理,將同一企業(yè)不同來源、不同表述的文字進行標準化,可以起到印證參考的作用,也更便于發(fā)現(xiàn)前后邏輯不一致的情況。

      (二)局限性。

      一是文字說明源頭的精確性把握。本文所討論的文字說明的主要來源為企業(yè)人員提供的素材,精確性目前依然有所欠缺。一方面在于統(tǒng)計人員對市場情況不夠了解;另一方面在于企業(yè)統(tǒng)計負責人沒有對每期報表進行過問審核,價格變動趨勢是否符合市場規(guī)律及市場行情,報表數據審核工作有所欠缺。企業(yè)對統(tǒng)計工作重視不足,審核工作僅限于程序中簡單提示審核,對價格數據超限的說明,描述簡單沒有深入挖掘,不能做到對于每個審核背后存在的問題進行審核,不能詳細說明價格變動的原因。

      二是代表性和推廣使用問題。從蘇州的工業(yè)生產者價格調查來看,月度需要填寫超限說明的產品數量占全部調查產品的比重10%左右。對此類文字說明進行數據化編碼雖然可以更為直觀地對同企業(yè)、同行業(yè)的產品價格波動原因進行監(jiān)測,但是無論從樣本的代表性和當前的技術手段來看,所起到的作用僅停留在與指數中的行業(yè)趨勢、與行業(yè)所處的市場趨勢相互印證。實效性有待更多跨報表關聯(lián)使用甚至是跨專業(yè)使用后的結果檢驗,這就需要大數據技術在統(tǒng)計部門的進一步推廣應用。

      圖2 關鍵詞

      圖3 編碼組合

      拓展運用的一些想法

      一是夯實業(yè)務基礎。將統(tǒng)計調查信息、企業(yè)報表與價格數據質量聯(lián)動研究,發(fā)現(xiàn)苗頭性問題及時開展有針對性的專題調研,帶著問題訪問企業(yè),同時搜集鮮活資料,對有關經濟數據進行深入解讀,揭示經濟運行中的矛盾和潛在問題,不斷提高對宏觀經濟形勢的分析研究和預測預判能力。

      二是增加統(tǒng)計調查服務供給。統(tǒng)計調查的原始資料是大量的數據和素材,要反映出潛在的問題,解釋出問題的實質,就要將專業(yè)知識與工作實踐進行有機結合,從全局出發(fā),抓住重點、熱點、難點,運用專業(yè)統(tǒng)計分析方法,進行“去粗存精,去偽存真,由此及彼,由表及里”的統(tǒng)計分析過程,從中發(fā)現(xiàn)問題,找出規(guī)律。積極主動向黨政領導匯報情況和問題,提出解決問題的合理化建議或措施,從而使統(tǒng)計調查由事后反映變?yōu)槭虑邦A測分析,提供常態(tài)化決策參考。

      三是拓展大數據技術、大數據思維的應用范圍。“統(tǒng)計大數據就是統(tǒng)計,是新時代、新時期和新的技術條件下的統(tǒng)計。”大數據時代就在當下,統(tǒng)計系統(tǒng)要推進以大數據運用為核心的統(tǒng)計信息化體系融合,加強對現(xiàn)有統(tǒng)計數據資源資產化管理和大數據挖掘分析應用,強化系統(tǒng)整合、數據融合、服務集合,推進數據采集整合、綜合應用、關聯(lián)分析和安全管理,促進政府統(tǒng)計數字化轉型,為建立統(tǒng)計大數據奠定基礎。

      猜你喜歡
      報表編碼文字
      文字的前世今生
      基于SAR-SIFT和快速稀疏編碼的合成孔徑雷達圖像配準
      熱愛與堅持
      《全元詩》未編碼疑難字考辨十五則
      當我在文字中投宿
      文苑(2020年12期)2020-04-13 00:55:10
      子帶編碼在圖像壓縮編碼中的應用
      電子制作(2019年22期)2020-01-14 03:16:24
      Genome and healthcare
      LabWindows/CVI中Excel報表技術研究
      測控技術(2018年8期)2018-11-25 07:42:28
      從三大報表讀懂養(yǎng)豬人的成績單
      月度報表
      中國紡織(2009年7期)2009-08-07 06:56:16
      永春县| 马公市| 南宫市| 新疆| 集贤县| 陇川县| 儋州市| 黔东| 平南县| 盖州市| 盐亭县| 仁布县| 尉犁县| 宜川县| 澄江县| 信阳市| 紫阳县| 鹤山市| 贵港市| 石楼县| 花莲县| 昭通市| 金乡县| 五家渠市| 奉节县| 龙口市| 兴业县| 辰溪县| 晴隆县| 天台县| 云安县| 荔波县| 津南区| 阿图什市| 九龙城区| 隆安县| 紫金县| 台北县| 吉隆县| 千阳县| 留坝县|