• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于質(zhì)量安全信息的輿情監(jiān)測(cè)系統(tǒng)研究

      2017-01-23 01:54:32鄭兢
      中國(guó)科技博覽 2016年27期
      關(guān)鍵詞:風(fēng)險(xiǎn)監(jiān)測(cè)質(zhì)量安全輿情

      鄭兢

      [摘 ?要]近年來(lái)我國(guó)產(chǎn)品質(zhì)量安全問(wèn)題頻繁發(fā)生,不僅引起了社會(huì)恐慌而且造成了國(guó)家巨大的經(jīng)濟(jì)損失,甚至在一定程度上會(huì)影響我國(guó)在國(guó)際貿(mào)易中的信譽(yù)。產(chǎn)品質(zhì)量危機(jī)是公共危機(jī)的一種形式,但是其安全問(wèn)題是涉及范圍最廣、影響公眾生命健康最直接的一種公共危機(jī)。由于網(wǎng)上的信息量十分巨大,僅依靠人工的方法難以應(yīng)對(duì)網(wǎng)上海量信息的收集和處理,需要加強(qiáng)相關(guān)信息技術(shù)的研究,形成一套自動(dòng)化的網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng),及時(shí)應(yīng)對(duì)網(wǎng)絡(luò)輿情,由被動(dòng)防堵,化為主動(dòng)梳理、引導(dǎo)。

      [關(guān)鍵詞]輿情、風(fēng)險(xiǎn)監(jiān)測(cè)、質(zhì)量安全

      中圖分類(lèi)號(hào):TP391.1 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-914X(2016)27-0147-01

      1、引言

      近年來(lái),隨著新媒體的迅猛發(fā)展, 我國(guó)網(wǎng)絡(luò)輿情的影響日益巨大。自2008年以來(lái),“三聚氰胺”,“一滴香”、“瘦肉精”事件以及近期出現(xiàn)的“搖搖車(chē)”、“電梯事故”等一系列質(zhì)量安全問(wèn)題的出現(xiàn),都在社會(huì)中產(chǎn)生了巨大的負(fù)面影響,產(chǎn)品質(zhì)量安全的網(wǎng)絡(luò)輿情的數(shù)量和影響持續(xù)上升,對(duì)政府輿論應(yīng)對(duì)能力提出新的挑戰(zhàn),加強(qiáng)產(chǎn)品質(zhì)量安全網(wǎng)絡(luò)輿情監(jiān)控管理研究的現(xiàn)實(shí)需求十分迫切。

      2、輿情檢索技術(shù)

      網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)是一項(xiàng)復(fù)雜而龐大工程,它涵蓋了幾乎所有的互聯(lián)網(wǎng)領(lǐng)域的基本技術(shù),但從系統(tǒng)的功能實(shí)現(xiàn)上看,輿情監(jiān)測(cè)系統(tǒng)的關(guān)鍵技術(shù)是由數(shù)據(jù)采集和關(guān)鍵信息提取技術(shù)構(gòu)成的。

      2.1 數(shù)據(jù)采集

      網(wǎng)絡(luò)爬蟲(chóng)是當(dāng)前主流網(wǎng)絡(luò)搜索引擎使用的技術(shù),也是輿情監(jiān)測(cè)工具中處理網(wǎng)頁(yè)獲取、網(wǎng)頁(yè)跟蹤、網(wǎng)頁(yè)分析、網(wǎng)頁(yè)搜索、網(wǎng)頁(yè)評(píng)級(jí)和結(jié)構(gòu)/非結(jié)構(gòu)化數(shù)據(jù)抽取以及后期更細(xì)粒度的數(shù)據(jù)挖掘等方方面面的主要工具。

      網(wǎng)絡(luò)爬蟲(chóng)的實(shí)現(xiàn)方式是通過(guò)訪問(wèn)網(wǎng)頁(yè)中的超文本鏈接,自動(dòng)抓取互聯(lián)網(wǎng)內(nèi)部的程序或者腳本。

      2.2 通用型爬蟲(chóng)與主題性爬蟲(chóng)介紹

      當(dāng)前主流的網(wǎng)絡(luò)爬蟲(chóng)技術(shù)主要分為通用型網(wǎng)絡(luò)爬蟲(chóng)技術(shù)和主題性網(wǎng)絡(luò)爬蟲(chóng)技術(shù)。通用型網(wǎng)絡(luò)爬蟲(chóng)的主要目標(biāo)是大量采集信息頁(yè)面[1],有較高的網(wǎng)絡(luò)覆蓋率,但其盲目的抓取會(huì)下載大量的垃圾頁(yè)面,浪費(fèi)網(wǎng)絡(luò)資源。

      主題型爬蟲(chóng)以自定義的主題信息為出發(fā)點(diǎn)抓取信息,基于此假設(shè):如果網(wǎng)頁(yè)U與主題相關(guān),并且頁(yè)面V到網(wǎng)頁(yè)U通過(guò)一個(gè)超鏈接進(jìn)行連接,那么抓取頁(yè)面V的主題相關(guān)度比從網(wǎng)頁(yè)中隨機(jī)抓取的頁(yè)面相關(guān)度要高。與通用型爬蟲(chóng)不同之處在于主題型爬蟲(chóng)可專(zhuān)門(mén)面向某一特定主題進(jìn)行搜索,對(duì)于質(zhì)檢行業(yè)所關(guān)注的產(chǎn)品、標(biāo)準(zhǔn)、項(xiàng)目有更好的適應(yīng)性。

      2.3 主題型爬蟲(chóng)的工作方式

      主題型爬蟲(chóng)的運(yùn)行過(guò)程大致為:

      1.將搜索到的頁(yè)面和各種信息項(xiàng)放到一個(gè)信息集合項(xiàng)中;

      2.分析每個(gè)信息項(xiàng),將其中的基本信息單元作為索引,并形成索引庫(kù)。同時(shí)建立一個(gè)存儲(chǔ)Web頁(yè)面的metadata數(shù)據(jù)庫(kù)。

      3.Web瀏覽器將用戶通過(guò)瀏覽器的查詢請(qǐng)求通過(guò)HTTP協(xié)議傳到搜索引擎,搜索引擎利用索引庫(kù)找到相關(guān)文檔并返回Web頁(yè)面,或者將URL列表以及相應(yīng)的摘要反饋給Web瀏覽器的用戶查詢界面。

      4.用戶獲得Web頁(yè)面摘要信息或者信息項(xiàng)的列表,若想查看其中具體的內(nèi)容,則點(diǎn)擊標(biāo)題訪問(wèn),瀏覽器在matadata數(shù)據(jù)庫(kù)的支持下通過(guò)HTTP協(xié)議從信息的原始位置取回Web頁(yè)面或其他信息。

      2.4 主題型爬蟲(chóng)的爬行策略

      實(shí)現(xiàn)主題型爬蟲(chóng)最常用的策略是PageRank和HITS算法,其共同點(diǎn)是根據(jù)頁(yè)面與主題的相似程度來(lái)確定主題的相關(guān)度,并根據(jù)主題的相關(guān)度來(lái)評(píng)估子網(wǎng)頁(yè)的重要性。[2]

      RageRank算法可以得出網(wǎng)頁(yè)的重要程度,進(jìn)而對(duì)其權(quán)威性進(jìn)行評(píng)價(jià)。

      HITS算法也是一種通過(guò)網(wǎng)頁(yè)鏈接來(lái)評(píng)估網(wǎng)頁(yè)重要性的算法。相較于PageRank算法,HITS算法在網(wǎng)頁(yè)鏈接與用戶需求主體的關(guān)聯(lián)性上有所改進(jìn)。

      3 質(zhì)量輿情系統(tǒng)架構(gòu)設(shè)計(jì)研究

      3.1 數(shù)據(jù)預(yù)處理

      預(yù)處理包括網(wǎng)頁(yè)噪音去除和語(yǔ)義分析。

      噪音去除:

      對(duì)抓取到的數(shù)據(jù)進(jìn)行噪音去除,包括網(wǎng)頁(yè)周邊廣告和版權(quán)聲明。對(duì)保留的有效內(nèi)容,逐句做正負(fù)面判定,以及品牌、屬性詞條的露出標(biāo)注。并將預(yù)處理后的信息入庫(kù)保存。

      語(yǔ)義分析:

      1,智能語(yǔ)義分析:基于基礎(chǔ)的分詞詞典、正負(fù)面詞典、15個(gè)領(lǐng)域的知識(shí)庫(kù)和句法分析算法,可以自動(dòng)的對(duì)網(wǎng)絡(luò)信息進(jìn)行實(shí)體、屬性識(shí)別以及正負(fù)面判定,從而實(shí)現(xiàn)了海量信息下的口碑分類(lèi)與危機(jī)識(shí)別。

      2,半結(jié)構(gòu)化信息的自動(dòng)提?。嚎梢宰詣?dòng)提取互聯(lián)網(wǎng)網(wǎng)頁(yè)中的有用信息,保存到結(jié)構(gòu)化的數(shù)據(jù)庫(kù)中實(shí)現(xiàn)方便的查詢,如網(wǎng)絡(luò)論壇中的分樓、帖子作者、時(shí)間、點(diǎn)擊數(shù)、回復(fù)數(shù)等。

      3,海量文本的分類(lèi)與聚類(lèi):可靈活的為各種分類(lèi)體系訓(xùn)練相應(yīng)的分類(lèi)器,適應(yīng)應(yīng)用場(chǎng)景中多變的分類(lèi)需求。基于LDA改進(jìn)算法的聚類(lèi)結(jié)果,可以充分挖掘語(yǔ)義層的關(guān)聯(lián),進(jìn)行大規(guī)模的文本聚類(lèi),并進(jìn)一步應(yīng)用到互聯(lián)網(wǎng)內(nèi)容傳播中的話題管理與新話題發(fā)現(xiàn)。

      4,內(nèi)容關(guān)聯(lián)性分析:基于FSP、卡方、Word2Vec等各種算法開(kāi)發(fā)的內(nèi)容關(guān)聯(lián)性分析,適合各種不同應(yīng)用場(chǎng)景中的關(guān)聯(lián)發(fā)現(xiàn)需求,產(chǎn)品-屬性、產(chǎn)品-競(jìng)品、產(chǎn)品-廣告匹配,等等。

      5,分詞與領(lǐng)域內(nèi)命名實(shí)體識(shí)別:常規(guī)自動(dòng)發(fā)現(xiàn)互聯(lián)網(wǎng)新詞、領(lǐng)域內(nèi)新詞、以及領(lǐng)域內(nèi)的命名實(shí)體識(shí)別,從而在應(yīng)用中更為準(zhǔn)確的定位目標(biāo)實(shí)體。

      3.2 數(shù)據(jù)提取

      提取出網(wǎng)頁(yè)中內(nèi)容的結(jié)構(gòu)化數(shù)據(jù)并入庫(kù)保存,供報(bào)告統(tǒng)計(jì)和前臺(tái)查詢時(shí)使用。結(jié)構(gòu)化數(shù)據(jù)包括文章的作者、時(shí)間、發(fā)布站點(diǎn)、點(diǎn)擊、回復(fù)、閱讀、評(píng)論、點(diǎn)贊等。動(dòng)態(tài)指標(biāo)數(shù)據(jù)可以根據(jù)需求做定期更新。對(duì)于頁(yè)面中的互動(dòng)內(nèi)容,如論壇的分樓回復(fù)、新聞下評(píng)論、可以做精細(xì)化提取為作者、時(shí)間、回復(fù)內(nèi)容?;?dòng)內(nèi)容需要根據(jù)站點(diǎn)做定制開(kāi)發(fā),目前覆蓋熱門(mén)100個(gè)論壇,以及4大門(mén)戶的新聞評(píng)論。

      3.3 數(shù)據(jù)索引

      為了提供快速的關(guān)鍵詞檢索,系統(tǒng)采用倒排表作為文本內(nèi)容的索引。為提高效率,系統(tǒng)索引分為三級(jí)。當(dāng)日內(nèi)的數(shù)據(jù)放在一級(jí)索引里,本周數(shù)據(jù)放在二級(jí)索引里,本周前的數(shù)據(jù)放在三級(jí)索引里。每日抓取回的數(shù)據(jù)每小時(shí)都會(huì)更新到一級(jí)索引里。當(dāng)抓取內(nèi)容進(jìn)入索引后,就可以提供對(duì)外的查詢。

      3.4 數(shù)據(jù)檢索

      用戶在平臺(tái)上做監(jiān)測(cè)關(guān)鍵詞配置后,系統(tǒng)的數(shù)據(jù)檢索模塊會(huì)定期對(duì)后臺(tái)的索引進(jìn)行檢索,篩選出來(lái)符合平臺(tái)配置的文章,放到平臺(tái)上提供展示和統(tǒng)計(jì)篩選。對(duì)于有特殊需求的客戶,比如危機(jī)預(yù)警客戶,可以定制平臺(tái)數(shù)據(jù)更新頻次和時(shí)間點(diǎn),從而實(shí)現(xiàn)平臺(tái)更頻繁更新。

      3.5 平臺(tái)信息展示與API數(shù)據(jù)接口

      系統(tǒng)通過(guò)Web 服務(wù)的方式,呈現(xiàn)監(jiān)測(cè)對(duì)象的相關(guān)數(shù)據(jù),并按照時(shí)間、站點(diǎn)、正負(fù)面、作者等維度進(jìn)行數(shù)據(jù)篩選。并在數(shù)據(jù)基礎(chǔ)上統(tǒng)計(jì)出熱門(mén)話題、負(fù)面話題、熱詞云圖等數(shù)據(jù)統(tǒng)計(jì)結(jié)果。

      4、結(jié)束語(yǔ)

      我國(guó)的質(zhì)檢行業(yè)面臨的市場(chǎng)化的挑戰(zhàn),而當(dāng)前質(zhì)檢行業(yè)對(duì)信息技術(shù)手段的利用離現(xiàn)代企業(yè)管理還有差距。輿情監(jiān)測(cè)系統(tǒng)能夠幫助質(zhì)量監(jiān)管部門(mén)獲取當(dāng)前市場(chǎng)上最關(guān)注的的質(zhì)量問(wèn)題。我國(guó)的質(zhì)檢行業(yè)面臨的市場(chǎng)化的挑戰(zhàn),而當(dāng)前質(zhì)檢行業(yè)對(duì)信息技術(shù)手段的利用離現(xiàn)代企業(yè)管理還有差距。輿情監(jiān)測(cè)系統(tǒng)能夠幫助質(zhì)量監(jiān)管部門(mén)獲取當(dāng)前市場(chǎng)上最關(guān)注的的質(zhì)量問(wèn)題。通過(guò)網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng),利用計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)的優(yōu)勢(shì),系統(tǒng)、科學(xué)、高效的分析和預(yù)警質(zhì)量信息,是質(zhì)量監(jiān)管部門(mén)維護(hù)社會(huì)穩(wěn)定,保護(hù)企業(yè)形象的基礎(chǔ)保障。但是對(duì)于怎樣挖掘更深入的信息,怎樣對(duì)挖掘的信息進(jìn)行風(fēng)險(xiǎn)等級(jí)評(píng)價(jià),依然需要深入研究。

      參考文獻(xiàn)

      [1] 王桂梅.主題網(wǎng)絡(luò)爬蟲(chóng)關(guān)鍵技術(shù)研究[D].哈爾濱工業(yè)大學(xué),2009.

      [2] 劉毅, 網(wǎng)絡(luò)輿情研究概論[M],天津;天津出版社,2007.

      猜你喜歡
      風(fēng)險(xiǎn)監(jiān)測(cè)質(zhì)量安全輿情
      肇慶市食品安全風(fēng)險(xiǎn)監(jiān)測(cè)信息平臺(tái)建設(shè)
      肇慶市食品安全風(fēng)險(xiǎn)監(jiān)測(cè)信息平臺(tái)建設(shè)
      民航機(jī)務(wù)維修系統(tǒng)安全風(fēng)險(xiǎn)產(chǎn)生的原因及監(jiān)測(cè)措施探討
      農(nóng)產(chǎn)品質(zhì)量安全追溯系統(tǒng)的混合模式研究
      農(nóng)產(chǎn)品質(zhì)量安全檢驗(yàn)檢測(cè)體系建設(shè)的創(chuàng)新策略分析
      科技資訊(2016年18期)2016-11-15 20:45:23
      我國(guó)農(nóng)產(chǎn)品農(nóng)藥殘留的困境
      輿情
      輿情
      證券公司財(cái)務(wù)管理風(fēng)險(xiǎn)監(jiān)測(cè)與防范措施分析
      輿情
      永安市| 济南市| 嘉兴市| 库尔勒市| 日喀则市| 永登县| 启东市| 璧山县| 融水| 松溪县| 克拉玛依市| 南阳市| 浠水县| 伊通| 峨边| 原阳县| 平武县| 措勤县| 深水埗区| 榆社县| 临潭县| 阳原县| 兰西县| 奉贤区| 政和县| 杨浦区| 多伦县| 灯塔市| 蛟河市| 柏乡县| 宜兰市| 特克斯县| 大庆市| 西城区| 武山县| 六枝特区| 防城港市| 太康县| 南汇区| 响水县| 潜山县|