• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于大數據的檢察院新媒體平臺稿件優(yōu)化方法

      2018-11-17 01:31:40陳立華劉盼盼
      軟件 2018年10期
      關鍵詞:閱讀數檢察院公眾

      季 芳,陳立華,孫 浩,劉盼盼

      ?

      基于大數據的檢察院新媒體平臺稿件優(yōu)化方法

      季 芳1,陳立華2,孫 浩2,劉盼盼2

      (1. 最高人民檢察院檢察技術信息研究中心,北京;2. 山東大眾信息產業(yè)有限公司,山東 濟南)

      本文提出一種基于大數據與語義分析技術的稿件優(yōu)化系統(tǒng)實現(xiàn)方法,該方法依據各級檢察院以往文章的傳播數據,對原創(chuàng)稿件和網絡采集稿件進行評級和傳播效果預測,篩選出符合檢察機關官方新媒體賬號屬性的優(yōu)秀稿件。以信息技術手段輔助創(chuàng)作,為提升檢察院新媒體平臺的內容質量和傳播效果提供了技術支撐。統(tǒng)計數據表明,該方法可有效的提升檢察機關新媒體平臺的輿論影響力和宣傳力度。

      大數據;機器學習;自然語言處理;新媒體創(chuàng)作

      0 引言

      隨著移動通訊網絡環(huán)境的不斷完善以及智能手機的進一步普及,移動互聯(lián)網應用向用戶各類生活場景深入滲透,促進手機上網使用率增長。互聯(lián)網及移動化的普及,也使得新媒體以互聯(lián)網為依托得到了迅速發(fā)展。國務院辦公廳發(fā)布的《2017年政務公開工作要點》中對信息公開、政策解讀、回應關切、制度機制建設、公眾參與等方面提出了新思路,新要求。檢察院積極貫徹黨中央的重要戰(zhàn)略部署,主動順應“互聯(lián)網+”的發(fā)展趨勢,在職能范圍內靈活運用互聯(lián)網思維,充分利用大數據、云計算、物聯(lián)網等現(xiàn)代信息技術,激發(fā)創(chuàng)新智慧與創(chuàng)造活力,推動檢察工作創(chuàng)新發(fā)展,成為“互聯(lián)網十檢察工作”的主要內容。如何充分利用官方微博、微信等自媒體平臺聚攏人氣,擴大影響力,如何提高內容質量提出了更高的要求。

      曹建明檢察長在全國檢察機關新聞宣傳工作會議上要求統(tǒng)籌運用傳統(tǒng)媒體和新興媒體,著力提升新媒體時代社會溝通能力,弘揚檢察“主旋律”,唱響檢察“好聲音”,傳播檢察“正能量”,為促進人民檢察事業(yè)創(chuàng)新發(fā)展、全面推進依法治國作出更大貢獻。

      1 研究概述

      本研究以檢察院微信公眾號歷史文章的相關數據為基礎,結合大數據與自然語言(NLP)分析技術,根據自媒體平臺歷史文章的傳播情況為參照,采用機器學習的方式,建立文章傳播預測模型,對網絡上采集的內容及原創(chuàng)內容進行評級和預測,篩選出符合檢察機關官方新媒體賬號性質的文章,從而達到輔助運營人員進行文章創(chuàng)作的目的。本研究主要從數據抓取、自然語言處理、公眾號畫像和傳播預測模型四個方面進行了探索。

      數據抓取:對檢察院微信公眾號歷史文章的相關數據進行抓取,包含文章標題、正文、發(fā)布時間、閱讀量、點贊量等數據,考慮該研究的主要內容與數據獲取方式的優(yōu)缺點,本研究選用從數據公司購買數據進行研究,在本文中不再贅述。

      自然語言處理:對檢察院微信公眾號歷史文章進行處理,分析文章關鍵詞及其詞頻。

      公眾號畫像:公眾號畫像數據包括公眾號粉絲數據,包括粉絲數、粉絲分布、性別、時長、來源等,還有公眾號文章數據,包括推送頻率、推送順序、標題長度、主題情況等。本研究從已授權的微信公眾號接口獲取公眾號畫像數據,在本文中不再贅述。

      傳播預測模型:針對前面步驟獲取的數據,利用機器學習算法,建立文章預測模型對準備發(fā)表文章的傳播情況進行預測。

      2 自然語言處理

      自然語言處理是研究能實現(xiàn)人與計算機之間用自然語言進行有效通信的各種理論方法,目標是使用機器能夠理解和產生自然語言,而自然語言理解和產生的前提是對語言能夠做出全面的解析。

      漢語詞匯是語言中能夠獨立運用的最小的語言單位,是語言中的原子結構。漢語的研究可分為語法層面和語義層面的研究。語法層面包括中文分詞、詞性標注以及句法解析;語義層面包括命名實體識別、語義組塊以及語義角色標注[9]。基于自然語言處理,可以進行關鍵詞提取、情感分析以及自動問答等。

      因此對中文進行分析就顯得至關重要。

      本文基于自然語言處理的基本技術,實現(xiàn)了對歷史文章關的鍵詞提取,首先采用分詞技術處理文章,過濾停用詞,保留有效的詞;然后采用tf-idf(term frequency–inverse document frequency)算法計算出每個詞語的權重;最后結合詞語出現(xiàn)在標題中的重要性實現(xiàn)了關鍵詞的提取[9]。在上述基礎之上,根據每篇公眾號文章的閱讀數綜合考慮得到公眾號的關鍵詞云。

      串補技術最早應用在中國的輸電線路中[10-12],該技術能顯著提高大容量、遠距離輸電線路的利用效率,促進電網的穩(wěn)定運行水平,降低輸電損耗。將串補技術引用到配電線路中,同樣可以解決配電網電壓問題[11-12],不僅可以調節(jié)過電壓或低電壓至合格電壓水平內,同時可以提高線路的功率因素降低線路損耗。

      首先根據tf-idf(term frequency-inverse document frequency)計算公式并結合公眾號文章標題的重要性,得到每篇文章中的關鍵詞。然后根據每篇文章的閱讀數綜合考慮得到公眾號的關鍵詞云。

      每篇文章中詞語權重的計算公式如下:

      每篇文章中關鍵詞最終權重的計算公式:

      多篇文章中同時出現(xiàn)該關鍵詞時,取權重最大的作為該關鍵詞的最終權重。計算出權重后,排序,顯示,得到最終的關鍵詞云。

      3 預測模型

      3.1 數據劃分

      將微信號文章數據隨機取三分之二作為訓練語料,取三分之一作為測試語料。

      3.2 算法選取

      公眾號下文章的傳播效果可以用文章的閱讀數或者點贊數表示,暫時以閱讀數代表文章的傳播效果。可以采用機器學習中的分類或者回歸模型實現(xiàn)閱讀數的預測?;诜诸惸P偷姆椒ㄍǔJ菍⑽恼掳撮喿x數劃分為幾個等級,然后進行多元分類,目前沒有統(tǒng)一的分類標準。基于回歸模型的方法試圖找到影響因素與閱讀數之間的相關關系,進而使用線性回歸或非線性回歸模型進行[1]。研究目的是預測出文章閱讀數的具體值,屬于連續(xù)型數據的預測,因此應采用機器學習算法中的回歸分析算法實現(xiàn)。具體可采用多元線性回歸的方法實現(xiàn)。該方法通過已有的大量歷史數據,找到一條最佳擬合直線,作為自變量和因變量的函數直線,最終實現(xiàn)預測。[7]

      3.3 影響因素(自變量)的選取

      公眾號推送新文章時,該文章未來的閱讀數,受多方因素影響,主要從兩個角度考慮。一是從公眾號特性的角度,包括公眾號的粉絲數量、公眾號男女粉絲比例、公眾號推送文章的頻率以及公眾號粉絲的地域分布等;二是從文章的角度,包括文章推送的時間段、文章推送的順序、文章標題的長度、文章的情感傾向以及文章的主題等。

      3.4 線性回歸算法

      線性回歸(Linear Regression),數理統(tǒng)計中回歸分析,用來確定兩種或兩種以上變量間相互依賴的定量關系的一種統(tǒng)計分析方法,其表達形式為y = w'x+e,e為誤差服從均值為0的正態(tài)分布,其中只有一個自變量的情況稱為簡單回歸,多個自變量的情況叫多元回歸[11]。

      n組觀測值時,

      其矩陣形式為

      最終計算出線性方程的所有參數的值。當有新的數據需要預測時,只需要將新數據的各個影響因素的值輸入即可得到相應的預測閱讀數。

      按照該方法建立模型后輸入文章標題、發(fā)布時間和正文內容后即可對文章的閱讀量和傳播效果進行預測,如下圖所示。

      圖1 文章預測示例

      4 結語

      選取“最高人民檢察院”微信公眾號發(fā)布的歷史文章,對預測模型的預測數據和實際的傳播數據進行比對,結果如下。

      由以上對比圖可看出,該研究對文章的傳播預測與實際情況相差不大,該項研究已經應用到最高人民檢察院的微信管理系統(tǒng)中,有效提升了檢察院新媒體文章的閱讀量和傳播,得到了檢察院新媒體工作人員的一致肯定。

      表1 文章閱讀數預測值與實際值對比

      Tab.1 Comparison of predicted and actual values of article readings

      表2 文章點贊數預測值與實際值對比

      Tab.2 The article compares the predicted value with the actual value

      [1] 范淼, 李超. Python 機器學習及實踐-從零開始通往Kaggle競賽之路. 清華大學出版社. 2016: 64-81.

      [2] 周志華. 機器學習. 清華大學出版社. 2016.

      [3] Pedro Domingos. The Master Algorithm: How the Quest for the Ultimate Learning Machine Will Remake Our World[M]. Basic Books, 2015.

      [4] Daniel T. Larose, Chantal D. Larose. 王念濱, 宋敏, 裴大茗, 譯. 數據挖掘與預測分析(第2版). 清華大學出版社. 2017.

      [5] Maja R. Rudolph, Francisco J. R. Ruiz, Stephan Mandt, David M. Blei. Exponential Family Embeddings. 2016.

      [6] Alexander Ratner, Christopher De Sa, Sen Wu, Daniel Selsam, Christopher Ré.Data Programming: Creating Large Training Sets, Quickly. 2017.

      [7] Jake VanderPlas著陶俊杰, 陳小莉, 譯Python. 人民郵電出版社. 2018.

      [8] Lapedriza, à., Oliva, A., Torralba, A., Xiao, J., & Zhou, B. NIPS. Learning deep features for scene recognition using places database. 2014.

      [9] 鄭捷. NLP漢語自然語言處理原理與實踐. 電子工業(yè)出版社. 2017: 16-21.

      [10] Zhang, M., & Zhou, Z. A Review on Multi-Label Learning Algorithms. 2014.

      [11] Styart J. Russell, Peter Norvig 著殷建平, 祝恩, 劉越, 陳躍新, 王挺, 譯. 清華大學出版社. 2013.

      [12] Chang Liu, Jun Zhu.Riemannian Stein Variational Gradient Descent for Bayesian Inference. 2017.

      Research on Content Creation Optimization of New Media Platform of Procuratorate Based on Big Data

      JI Fang1, CHEN Li-hua2, SUN Hao2, LIU Pan-pan2

      (1. Supreme People's Procuratorate Inspection Technology Information Research Center, Beijing, China; 2. Shandong Dazhong Infomation Industry Co., Ltd, Jinan City, Shandong Province, China)

      By big data and Chinese semantic analysis, according to the dissemination of previous articles of the procuratorate at all levels, the content and original manuscripts collected on the network are predicted and disseminated, and the characteristics of the official new media account of the procuratorate are selected. Excellent manuscripts were published, and information technology was used to assist in the creation. Data support was provided to improve the quality of content and communication effects, and the public opinion of the new media of the procuratorate was enhanced and the publicity was enhanced

      Big data; Machine learning; Natural language processing; New eedia creation

      TP391.1

      A

      10.3969/j.issn.1003-6970.2018.10.048

      季芳(1981-),女,高級工程師,研究方向為檢察信息化、電子政務;陳立華(1980-),男,高級工程師,研究方向為自然語言分析、大數據、人工智能;孫浩(1983-),男,開發(fā)工程師,輿情與大數據系統(tǒng)研究;劉盼盼(1990-),女,研究生,研究方向為自然語言處理。

      季芳,陳立華,孫浩,等. 基于大數據的檢察院新媒體平臺稿件優(yōu)化方法[J]. 軟件,2018,39(10):250-253

      猜你喜歡
      閱讀數檢察院公眾
      科技政務微信傳播方式與效果研究
      ——以某省科技微信公眾號為例
      公眾號3月熱榜
      公眾號9月熱榜
      公眾號8月熱榜
      扶貧隊“砸鍋”——記山西省檢察院扶貧隊員武海龍
      公眾號5月熱榜
      西安市檢察院依法對白雪山案提起公訴
      方圓(2017年6期)2017-04-07 21:06:42
      基層檢察院檢務督察工作之完善
      未檢工作與檢察院組織法修改
      編讀往來
      隆尧县| 长乐市| 大港区| 高州市| 怀集县| 兴化市| 应城市| 神池县| 施甸县| 琼海市| 砀山县| 连江县| 县级市| 康乐县| 新建县| 北票市| 榕江县| 瑞丽市| 镇康县| 林芝县| 松潘县| 丰城市| 杨浦区| 鄂伦春自治旗| 湖南省| 崇义县| 武强县| 北川| 西和县| 松潘县| 宁武县| 武山县| 长岭县| 麟游县| 舒城县| 礼泉县| 吉木乃县| 连南| 周口市| 油尖旺区| 宜章县|