• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      互聯(lián)網(wǎng)時(shí)代輿情信息的搜集與分類管理研究

      2020-12-08 09:30:18劉羽
      魅力中國(guó) 2020年21期
      關(guān)鍵詞:分詞搜索引擎輿情

      劉羽

      (鄭州升達(dá)經(jīng)貿(mào)管理學(xué)院,河南 鄭州 450000)

      一、輿情數(shù)據(jù)收集是檔案信息收集的基礎(chǔ)

      當(dāng)前,互聯(lián)網(wǎng)輿情數(shù)據(jù)收集系統(tǒng)主要包含三種數(shù)據(jù)收集技術(shù):人工收集、搜索引擎收集和第三方互聯(lián)網(wǎng)機(jī)構(gòu)定向收集。人工收集是指通過(guò)人工瀏覽網(wǎng)絡(luò)平臺(tái),通過(guò)人工監(jiān)測(cè)獲取有價(jià)值的數(shù)據(jù)和信息,經(jīng)匯總、分析后觀察社會(huì)輿論走勢(shì)。人工收集是當(dāng)前檔案管理人員較常用的輿情數(shù)據(jù)檔案信息收集方式之一。

      搜索引擎收集按其工作方式主要可分為三種,分別是全文搜索引擎收集、目錄索引類搜索引擎收集和元搜索引擎收集。搜索引擎收集的代表是360 搜索、谷歌搜索和百度搜索。以百度搜索為例,據(jù)CNNIC 發(fā)布的《2018 年中國(guó)網(wǎng)民搜索行為研究報(bào)告》顯示:百度日均搜索量超過(guò)50 億人次,截至2018 年12 月,搜索引擎是中國(guó)網(wǎng)民的最基礎(chǔ)應(yīng)用,百度搜索滲透率為97.4%,使用率略遜于即時(shí)通信。人工收集和搜索引擎收集是當(dāng)前比較常用的互聯(lián)網(wǎng)輿情收集技術(shù),但是這兩種收集方式的缺點(diǎn)是可提取關(guān)鍵信息的文本內(nèi)容都比較短,容易因?yàn)閿?shù)據(jù)稀疏導(dǎo)致在做相關(guān)運(yùn)算時(shí)出現(xiàn)準(zhǔn)確率和推薦召回率不高的狀況??朔@一技術(shù)難題的方法借助第三方互聯(lián)網(wǎng)輿情機(jī)構(gòu)定向采集,通過(guò)對(duì)核心詞的外拓實(shí)現(xiàn)了準(zhǔn)確率和推薦召回率的同步提升。

      二、輿情數(shù)據(jù)預(yù)處理是檔案信息收集的前提。

      第一,對(duì)文本進(jìn)行預(yù)處理。文本預(yù)處理是對(duì)通過(guò)輿情采集器收集的未加工的Web 網(wǎng)頁(yè)進(jìn)行初步處理,再對(duì)經(jīng)初步處理過(guò)的網(wǎng)頁(yè)文本進(jìn)行發(fā)現(xiàn)話題和數(shù)字建模,文本預(yù)處理最重要的環(huán)節(jié)是進(jìn)行特征選擇和中文分詞。中文分詞對(duì)命名實(shí)體進(jìn)行識(shí)別,采用 ICTCLAS 系統(tǒng)對(duì)所獲語(yǔ)料標(biāo)注詞性和進(jìn)行中文分詞,基于詞頻提煉出web模型的特征向量對(duì)中文分詞后的文本語(yǔ)料庫(kù)進(jìn)行向量化分析。分詞技術(shù)是針對(duì)提交查詢的關(guān)鍵詞串進(jìn)行處理,將收集到的網(wǎng)頁(yè)文本內(nèi)容轉(zhuǎn)化為結(jié)構(gòu)化向量。

      第二,對(duì)話題進(jìn)行檢測(cè)。對(duì)文本經(jīng)過(guò)預(yù)處理后的文本語(yǔ)料庫(kù)形成了擴(kuò)展空間向量模型VSM 向量集。利用 VSM 各向量間的相似度,對(duì)文本進(jìn)行話題檢測(cè)和聚類,對(duì)文本內(nèi)容分析的深度決定了聚類技術(shù)的效果,聚類技術(shù)的功能在于挖掘熱點(diǎn)話題。一般情況下,可提取關(guān)鍵信息的文本內(nèi)容都比較短,容易因?yàn)閿?shù)據(jù)稀疏導(dǎo)致在做相關(guān)運(yùn)算時(shí)出現(xiàn)準(zhǔn)確率和推薦召回率難以權(quán)衡的狀況??朔@一技術(shù)難題的方法就是引入詞擴(kuò)展技術(shù),通過(guò)對(duì)核心詞的外拓實(shí)現(xiàn)了準(zhǔn)確率和推薦召回率的同步提升。詞擴(kuò)展技術(shù)是指利用特定算法對(duì)原始文本向量進(jìn)行處理,使原始數(shù)據(jù)中的鄰近對(duì)象形成核心明確、分布較為離散且粒度小的話題集合,將話題集合進(jìn)一步劃分為多個(gè)“微簇”,利用特定算法,對(duì)“微簇”進(jìn)行二次聚類,用滿足一定的閾值要求、質(zhì)量較高的核心對(duì)象代表“微簇”。

      第三,利用話題綜合評(píng)價(jià)標(biāo)準(zhǔn)對(duì)話題進(jìn)行過(guò)濾。運(yùn)用語(yǔ)義識(shí)別技術(shù),對(duì)之前采集的數(shù)據(jù)信息進(jìn)行更深一步的過(guò)濾識(shí)別,通過(guò)對(duì)數(shù)據(jù)信息中句子的結(jié)構(gòu)、語(yǔ)法及部分關(guān)鍵詞的詞義進(jìn)行過(guò)濾處理,從而將信息轉(zhuǎn)化為人們常用的語(yǔ)言,將大量復(fù)雜的信息簡(jiǎn)單化。從進(jìn)行過(guò)聚類、過(guò)濾處理后的文本中提取中心詞,將分析后的中心詞進(jìn)行組合,通過(guò)結(jié)構(gòu)化分析獲取中心詞組,計(jì)算中心詞組所涉及的文本數(shù)量,運(yùn)算模塊根據(jù)文本參數(shù)進(jìn)行加權(quán)計(jì)算,統(tǒng)計(jì)熱門關(guān)鍵詞組的文本數(shù)量,獲取熱門關(guān)鍵詞組的熱度值。

      三、加強(qiáng)互聯(lián)網(wǎng)輿情數(shù)據(jù)檔案信息跨維度動(dòng)態(tài)管理

      (一)構(gòu)建互聯(lián)網(wǎng)輿情數(shù)據(jù)檔案信息管理跨維度互動(dòng)模式。

      “趨勢(shì)與定向判斷是網(wǎng)絡(luò)輿情分析與分類的核心,是應(yīng)對(duì)與引導(dǎo)的依據(jù),根據(jù)匯總到的輿情信息,通過(guò)系統(tǒng)的分析,做出關(guān)于輿情發(fā)展趨勢(shì)與走向的基本判斷,這一判斷主要是在定量基礎(chǔ)上得出的定向判斷?!睓n案管理人員應(yīng)將互聯(lián)網(wǎng)輿情大數(shù)據(jù)檔案管理與互聯(lián)網(wǎng)內(nèi)容治理相結(jié)合,讓數(shù)據(jù)流顯現(xiàn)關(guān)聯(lián);將互聯(lián)網(wǎng)輿情大數(shù)據(jù)檔案管理與政府科學(xué)決策相結(jié)合,讓信息流暢通無(wú)阻;將互聯(lián)網(wǎng)輿情大數(shù)據(jù)檔案管理和輿情日常管理相結(jié)合,讓輿情流和諧運(yùn)轉(zhuǎn)。

      (二)構(gòu)建互聯(lián)網(wǎng)輿情數(shù)據(jù)檔案信息多元管理模式

      傳統(tǒng)檔案管理結(jié)構(gòu)模式中公眾的參與度比較低。大數(shù)據(jù)時(shí)代為輿論的快速形成和公眾對(duì)公共事務(wù)話語(yǔ)權(quán)的表達(dá)提供了討論空間,由單一主體治理變?yōu)槎嘣黧w治理,多元主體治理的基本結(jié)構(gòu)體現(xiàn)了混合的特點(diǎn),多元主體治理的邊界與范圍不是簡(jiǎn)單的信息關(guān)聯(lián)和多元混合?;ヂ?lián)網(wǎng)和大數(shù)據(jù)技術(shù)拓寬了檔案管理的內(nèi)容,改變了檔案管理人員和民眾的連接與互動(dòng)方式,因此需要尋求一種新的檔案管理模型和良性互動(dòng)的連接機(jī)制來(lái)消解傳統(tǒng)檔案管理成長(zhǎng)的困境。

      (三)構(gòu)建互聯(lián)網(wǎng)輿情數(shù)據(jù)檔案信息管理回應(yīng)指標(biāo)體系

      警惕輿情動(dòng)態(tài)在復(fù)雜的演進(jìn)過(guò)程中出現(xiàn)的不和諧因素,準(zhǔn)確界定輿情等級(jí),通過(guò)級(jí)別劃分、輿情聚類、有效處置和事后評(píng)估構(gòu)建輿情回應(yīng)的指標(biāo)體系,通過(guò)行為干預(yù)及早進(jìn)行有效處置,匯編典型事件檔案庫(kù)。檔案管理人員應(yīng)從追問(wèn)事實(shí)到反思制度,從線上輿論和線下互動(dòng)的有效對(duì)接到挖掘方法和社會(huì)洞察的有效結(jié)合,構(gòu)建互聯(lián)網(wǎng)輿情檔案管理回應(yīng)指標(biāo)體系,改進(jìn)和完善檔案管理中的制度性、結(jié)構(gòu)性問(wèn)題。

      猜你喜歡
      分詞搜索引擎輿情
      結(jié)巴分詞在詞云中的應(yīng)用
      值得重視的分詞的特殊用法
      輿情
      輿情
      輿情
      網(wǎng)絡(luò)搜索引擎亟待規(guī)范
      基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
      廣告主與搜索引擎的雙向博弈分析
      微博的輿情控制與言論自由
      高考分詞作狀語(yǔ)考點(diǎn)歸納與疑難解析
      屏边| 金堂县| 怀仁县| 涞水县| 合川市| 内乡县| 临西县| 屏东市| 洪湖市| 梅州市| 隆化县| 沙洋县| 增城市| 旌德县| 磴口县| 调兵山市| 金堂县| 神木县| 海宁市| 探索| 宁明县| 闽清县| 大足县| 伊川县| 凉城县| 嘉义县| 双辽市| 招远市| 边坝县| 鄂尔多斯市| 库车县| 文安县| 同心县| 内江市| 武川县| 疏勒县| 庆元县| 潼南县| 定西市| 双辽市| 诏安县|