• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      新聞媒體領(lǐng)域中文語義分析技術(shù)智能化、知識(shí)化之路的研究與探索

      2018-10-21 11:04:54李澤魁孫霏陳珺
      中國傳媒科技 2018年8期
      關(guān)鍵詞:智能分析

      李澤魁 孫霏 陳珺

      摘 要:媒體融合發(fā)展是一項(xiàng)復(fù)雜的系統(tǒng)工程,離不開技術(shù)系統(tǒng)的變革與創(chuàng)新。在新聞媒體領(lǐng)域數(shù)據(jù)爆炸,同時(shí)人工智能領(lǐng)域飛速發(fā)展的大背景下,本文針對國內(nèi)新聞媒體領(lǐng)域中文文本語義分析過程中存在的諸多難題和現(xiàn)狀,對中文文本語義分析在新華社業(yè)務(wù)系統(tǒng)中的智能化、知識(shí)化的探索之路進(jìn)行闡述與展望。

      關(guān)鍵詞:中文語義分析;新聞媒體領(lǐng)域;智能分析;知識(shí)分析

      中圖分類號:TP391 文獻(xiàn)標(biāo)識(shí)碼:A

      文章編號:1671-0134(2018)08-035-03 DOI:10.19483/j.cnki.11-4653/n.2018.08.009

      引言

      在媒體格局、輿論生態(tài)、受眾對象、傳播技術(shù)都在發(fā)生深刻變化的今天,數(shù)據(jù)在新聞媒體轉(zhuǎn)型發(fā)展過程中已成為全新的富礦。以新華社為例,一條新聞從生產(chǎn)源頭的“采編發(fā)供”到用戶讀者端的傳播與反饋,都離不開文本作為文學(xué)的載體和傳播的媒介。這些蘊(yùn)含著巨大潛力的文本大數(shù)據(jù),合理、充分地挖掘其價(jià)值很有必要。

      另一方面,伴隨著自然語言處理技術(shù)的飛速發(fā)展,文本語義分析已經(jīng)從20世紀(jì)基礎(chǔ)的詞典規(guī)則匹配、統(tǒng)計(jì)學(xué)概率計(jì)算的方法,漸漸轉(zhuǎn)變?yōu)楫?dāng)前主流的機(jī)器學(xué)習(xí)、深度學(xué)習(xí)的智能分析算法。同時(shí),分析對象與應(yīng)用場景也越來越廣泛,涵蓋了包括新聞、評論、社交媒體等領(lǐng)域的各個(gè)方面。

      黨的十八大以來,以習(xí)近平同志為總書記的黨中央高度重視傳統(tǒng)媒體和新興媒體融合發(fā)展。新華社作為媒體融合發(fā)展的排頭兵、先行者,每天都需要對社內(nèi)數(shù)萬條稿件及海量的互聯(lián)網(wǎng)文本進(jìn)行實(shí)時(shí)準(zhǔn)確的分析,中文語義分析作為基礎(chǔ)技術(shù),不可或缺。

      1.新聞媒體領(lǐng)域智能化的中文語義分析技術(shù)

      1.1結(jié)合新聞稿件特性的智能化詞語切分

      新華社日均有數(shù)以萬條的稿件需要進(jìn)行文本語義分析,而種類繁多的智能分析的背后,都離不開對文本進(jìn)行詞語的切分,即自然語言處理中的分詞算法。眾所周知,英文文本以空格切分單詞,而中文文本需要根據(jù)語義切分詞語,對連續(xù)字符按照語義規(guī)范進(jìn)行重新組合,切分難度更大。針對新聞媒體領(lǐng)域的歧義識(shí)別與新詞挖掘等中文語義分析難點(diǎn),著力從三個(gè)方面對其進(jìn)行智能化探索。

      1.1.1新聞媒體分詞詞庫的自動(dòng)化挖掘

      實(shí)際應(yīng)用的分詞系統(tǒng)往往是多種算法的融合,但一般都依賴一套高精度的新聞媒體行業(yè)詞庫。為此,結(jié)合我社稿件文本特點(diǎn),提出了基于共現(xiàn)詞頻過濾的新詞發(fā)現(xiàn)、少量人工校驗(yàn)輔助的分詞詞庫挖掘算法,一定程度上提升了分詞準(zhǔn)確率。

      1.1.2構(gòu)建大而全的新聞媒體領(lǐng)域語料庫

      除了基于詞庫規(guī)則的分詞算法,還有一種是基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法。這種方法依賴一定數(shù)量的“機(jī)器學(xué)習(xí)的教材”,即標(biāo)注好正確切分結(jié)果的訓(xùn)練數(shù)據(jù)(語料)。為使分詞模型更適合我社業(yè)務(wù)需求,我們收集了人民日報(bào)、國家語委、各大評測等高質(zhì)量標(biāo)注的訓(xùn)練數(shù)據(jù)集,充分利用新聞媒體領(lǐng)域的漢語組詞的規(guī)律切分詞組。

      1.1.3針對實(shí)體短語進(jìn)行優(yōu)化加強(qiáng)

      作為國家通訊社,新華社從誕生起就在黨中央的直接領(lǐng)導(dǎo)下開展工作,肩負(fù)黨和人民賦予的神圣使命,發(fā)揮喉舌、耳目、智庫和信息總匯作用。當(dāng)然,稿件也以正確輿論導(dǎo)向與時(shí)代主旋律為主。為此,我們針對部分時(shí)事政策類的實(shí)體詞組進(jìn)行了大力優(yōu)化,例如“一帶一路”,“供給側(cè)改革”等,提高了相關(guān)詞組的切分能力。具體效果如圖1。

      1.2基于知識(shí)屬性的智能化主題分類

      文字新聞報(bào)道是新華社的傳統(tǒng)報(bào)道形式,也是核心報(bào)道形式之一。它及時(shí)、準(zhǔn)確、權(quán)威地報(bào)道黨和國家的方針政策及國內(nèi)外時(shí)政、經(jīng)濟(jì)、軍事、外交、文化等領(lǐng)域的重要新聞。為了更好地對我社文字稿件進(jìn)行智能分析、智能檢索與推薦,一套新聞稿件智能主題分類算法很有必要。

      當(dāng)前,新華社知識(shí)屬性為多類、多級體系(13種一級知識(shí)屬性分類、千余種多級指數(shù)屬性分類)。結(jié)合這套知識(shí)屬性,我們建立了多級主題分類體系(為了保證智能分類的準(zhǔn)確性,最深可達(dá)二級分類,詳見表1),同時(shí)結(jié)合當(dāng)前流行的深度神經(jīng)網(wǎng)絡(luò)算法,訓(xùn)練出一套可靠、高效的智能主題分類算法。

      1.3多個(gè)角度智能化情感分析

      新華社在重大新聞報(bào)道上,除了要打贏新聞首發(fā)權(quán)搶奪戰(zhàn),同時(shí)也要兼顧熱點(diǎn)事件的全方位、多維度的精準(zhǔn)統(tǒng)計(jì)與分析,這樣才可以始終保持輿論導(dǎo)向的正確性。

      情感分析作為中文語義分析的一項(xiàng)基礎(chǔ)任務(wù),又稱傾向性分析或意見挖掘。新聞?lì)I(lǐng)域的情感分析是對帶有情感色彩的主觀性文本進(jìn)行分析、處理、歸納和推理的過程。

      對熱點(diǎn)事件新聞及評論進(jìn)行情感分析,有助于對互聯(lián)網(wǎng)輿論的全面監(jiān)測與管理。在提升負(fù)面信息發(fā)現(xiàn)處置、情報(bào)預(yù)警和輿情導(dǎo)控能力的同時(shí),又充分利用互聯(lián)網(wǎng)數(shù)據(jù)服務(wù)于新聞生產(chǎn)全流程。為此,我們提出了從同一熱點(diǎn)事件的不同角度進(jìn)行深度情感挖掘的算法,各個(gè)話題的情感立場在界面中會(huì)一目了然地展現(xiàn)。如圖2所示。

      1.4文本主旨的智能化自動(dòng)摘要

      自動(dòng)文本摘要是利用智能化算法自動(dòng)編寫和生成摘要。面向新聞文本的自動(dòng)摘要技術(shù)是解決當(dāng)前我社大量稿件素材信息過載問題的一種輔助手段,有助于“采編發(fā)供”流程中各類用戶更加快速、準(zhǔn)確、全面地獲取新聞文本信息。如何對這些新聞文本進(jìn)行高效存儲(chǔ)、信息檢索與挖掘成為一個(gè)迫切需要解決的重要問題。

      針對新聞?lì)I(lǐng)域智能化自動(dòng)摘要的應(yīng)用場景,結(jié)合新聞文本結(jié)構(gòu)、句法及語義相關(guān)的知識(shí)特征,通過大量的迭代優(yōu)化與試驗(yàn),提出了面向新聞文本主旨的智能化自動(dòng)摘要方法。

      2.新聞媒體領(lǐng)域知識(shí)化的中文語義分析技術(shù)

      2.1結(jié)合新聞要素和特性的知識(shí)標(biāo)簽體系

      眾所周知,西方新聞界首先提出新聞要素的概念,即何時(shí)、何地、何人、何事、何故、如何。

      為了使新聞文本要素與新聞知識(shí)標(biāo)簽抽取相銜接,讓機(jī)器更加規(guī)范、智能地自動(dòng)提取新聞標(biāo)簽,我們提出了新聞的標(biāo)簽體系,包括時(shí)間、地點(diǎn)、人物、概念、事件五類。其中,概念標(biāo)簽和事件標(biāo)簽的定義本文擬定如下:

      概念標(biāo)簽: 可概括為語義概念的文本詞條實(shí)體。

      事件標(biāo)簽: 可表征事件的文本詞條,直接引發(fā)事件的產(chǎn)生,是決定事件類別的關(guān)鍵特征。

      其分類與舉例詳見表2。

      本文涉及的新聞體系結(jié)構(gòu)圖如3:

      2.2基于標(biāo)簽類別與權(quán)重的知識(shí)自動(dòng)提取

      面對鋪天蓋地的各類型新聞與素材數(shù)據(jù),如何從中挖掘出真正有用的信息,是大數(shù)據(jù)應(yīng)用的一道門檻。以我社稿件文本為例,在大量數(shù)據(jù)面前,本文首先提出了知識(shí)標(biāo)簽體系規(guī)范,再根據(jù)規(guī)范將稿件按時(shí)間、地點(diǎn)、人物、概念、事件等要素進(jìn)行標(biāo)注。具體算法分為基礎(chǔ)中文語義智能分析、基于語義緊密度挖掘的短語合并、標(biāo)簽候選集的生成與過濾和依據(jù)語義關(guān)鍵度的排序輸出等步驟,如圖4所示。

      伴隨富標(biāo)簽體系的建立與智能抽取算法的設(shè)計(jì),新華社現(xiàn)有稿件分類與檢索存在的諸多問題將進(jìn)一步緩解。同時(shí),下一步我們會(huì)繼續(xù)提升系統(tǒng),以滿足數(shù)字網(wǎng)絡(luò)時(shí)代用戶對稿件精細(xì)搜索、智能檢索及個(gè)性化定制的需求,提高稿件存儲(chǔ)和檢索的高效性與準(zhǔn)確率,深度挖掘稿件在不同領(lǐng)域的應(yīng)用價(jià)值。

      2.3面向業(yè)務(wù)系統(tǒng)的知識(shí)圖譜初探

      知識(shí)圖譜作為知識(shí)工程的一個(gè)重要分支,以語義網(wǎng)絡(luò)作為理論基礎(chǔ),并且結(jié)合了自然語言處理和知識(shí)表示和推理等優(yōu)秀算法,在大數(shù)據(jù)的推動(dòng)下受到了業(yè)界和學(xué)術(shù)界的廣泛關(guān)注。

      構(gòu)建知識(shí)圖譜的主要目的是獲取大量有關(guān)聯(lián)的、計(jì)算機(jī)可理解的知識(shí)網(wǎng)絡(luò)。新華社建社之日起,八十余年的歷史中,海量非結(jié)構(gòu)化的稿件文本、半結(jié)構(gòu)化的表格和網(wǎng)頁以及生產(chǎn)系統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)中蘊(yùn)含了大量待挖掘的新聞知識(shí)與關(guān)系(如圖5所示),這部分資源猶如待開發(fā)的金礦,非常寶貴。

      知識(shí)圖譜構(gòu)建,包含了許多關(guān)鍵性技術(shù)。從較為基礎(chǔ)的自然語言處理技術(shù),對稿件文本進(jìn)行較為精確的分詞、實(shí)體提取、句法識(shí)別等工作,到進(jìn)階的實(shí)體關(guān)系識(shí)別、知識(shí)融合、實(shí)體鏈接和知識(shí)推理技術(shù)等。

      鑒于垂直領(lǐng)域詞典匱乏、知識(shí)人力標(biāo)注成本高等現(xiàn)狀,當(dāng)前新聞?lì)I(lǐng)域缺乏一套規(guī)范性強(qiáng)、可用性高的成型知識(shí)圖譜構(gòu)建技術(shù)。針對上述兩項(xiàng)研究困境,各大研究機(jī)構(gòu)可與我社資源互補(bǔ),真正提出一套面向新華社實(shí)際業(yè)務(wù)系統(tǒng)的知識(shí)圖譜技術(shù),相信對于解決新聞稿件文本智能分析問題上將發(fā)揮重要作用。

      結(jié)論

      本文介紹了在媒體融合發(fā)展的大趨勢下,新聞媒體領(lǐng)域中文語義分析技術(shù)的智能化、知識(shí)化之路的研究與探索。

      在智能化的中文語義分析技術(shù)部分,本文首先介紹了結(jié)合新聞稿件特性的智能化詞語切分方面的研究,使分詞效果更符合新聞媒體業(yè)務(wù)要求;其次,分別從應(yīng)用場景出發(fā),簡要說明了語義分析算法,介紹了智能化主題分類、情感分類和自動(dòng)摘要技術(shù)。

      在知識(shí)化的中文語義分析技術(shù)部分,本文提出了結(jié)合新聞要素和特性的知識(shí)標(biāo)簽體系,并結(jié)合五類標(biāo)簽的實(shí)際特征,設(shè)計(jì)了基于語義緊密度挖掘與關(guān)鍵度排序的標(biāo)簽自動(dòng)抽取算法;同時(shí),面向新華社業(yè)務(wù)系統(tǒng),對新聞媒體領(lǐng)域規(guī)范性強(qiáng)、可用性高的知識(shí)圖譜技術(shù)進(jìn)行了探索與展望。

      參考文獻(xiàn)

      [1]宗成慶.統(tǒng)計(jì)自然語言處理[M].北京:清華大學(xué)出版社,2008.

      [2]李航.統(tǒng)計(jì)學(xué)習(xí)方法[J].北京:清華大學(xué)出版社,2012.

      [3]俞士汶等.現(xiàn)代漢語語法信息詞典詳解[M].北京:清華大學(xué)出版社,2003.

      猜你喜歡
      智能分析
      基于軟測量的圖譜變化檢測技術(shù)在變電站狀態(tài)智能分析中的研究與應(yīng)用
      TS3000控制系統(tǒng)在油田產(chǎn)能裝置中的使用研究
      淺析校園視頻監(jiān)控系統(tǒng)中智能分析技術(shù)的應(yīng)用
      數(shù)據(jù)監(jiān)測與智能分析在神東機(jī)電調(diào)度中的應(yīng)用與研究
      云計(jì)算在電信數(shù)據(jù)與商業(yè)智能分析中的應(yīng)用
      智能商超系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
      新安全形式下的智能視頻監(jiān)控系統(tǒng)
      工業(yè)控制系統(tǒng)行為審計(jì)方案設(shè)計(jì)與部署
      鐵路信號集中監(jiān)測智能分析系統(tǒng)實(shí)現(xiàn)方案探討
      運(yùn)維系統(tǒng)告警數(shù)據(jù)的分布式存儲(chǔ)方法
      星座| 南川市| 华亭县| 招远市| 调兵山市| 集贤县| 瓦房店市| 文山县| 望奎县| 衡阳县| 平乐县| 曲靖市| 英超| 宁远县| 扶风县| 天长市| 车致| 磐安县| 鱼台县| 涪陵区| 蒙山县| 砀山县| 晋中市| 台北县| 乌拉特前旗| 肥西县| 凭祥市| 冷水江市| 无极县| 玛曲县| 大英县| 长垣县| 乌兰浩特市| 柏乡县| 江达县| 崇仁县| 博客| 汾西县| 兴安县| 宝兴县| 东乌珠穆沁旗|