• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      NLPIR-Parser:大數(shù)據(jù)語義智能分析平臺*

      2019-08-22 00:49:46北京理工大學(xué)張華平商建云
      語料庫語言學(xué) 2019年1期
      關(guān)鍵詞:詞頻分詞文檔

      北京理工大學(xué) 張華平 商建云

      1.引言

      在大數(shù)據(jù)背景下,2017年7月8日,國務(wù)院印發(fā)《新一代人工智能發(fā)展規(guī)劃》,明確了我國發(fā)展人工智能的戰(zhàn)略目標(biāo),到2030年,人工智能核心產(chǎn)業(yè)規(guī)模超過1萬億元,帶動相關(guān)產(chǎn)業(yè)規(guī)模超過10萬億元。人工智能已經(jīng)成為現(xiàn)代科學(xué)皇冠上的明珠,而自然語言處理直接面對數(shù)據(jù)中的語義內(nèi)容,號稱是“人工智能皇冠上的明珠”,直接決定大數(shù)據(jù)智能的廣度與深度。自然語言處理是計(jì)算機(jī)對自然語言所包含的字形、讀音和含義等信息進(jìn)行處理,包括對字、詞、句和篇章的輸入輸出、識別分析、理解生成等操作和加工,是當(dāng)前人工智能研究的核心課題之一,自然語言處理的關(guān)鍵是讓計(jì)算機(jī)“理解”自然語言。

      在語料庫加工處理過程中,一般都是大量的人工標(biāo)引,急需快捷簡便的自然語言處理工具。但對于一般研究人員來說,具體操作過程中有如下挑戰(zhàn):

      1.1 需要技術(shù)人員參與開發(fā),文科背景的研究人員學(xué)習(xí)代價(jià)過高

      對語料處理的項(xiàng)目,在時間要求不太緊急時,讓有知識背景的人做人工標(biāo)記,如檔案局歷史材料、專利局的專利申請材料等,但成本高、耗時長,標(biāo)記后的內(nèi)容處理,如聚類、分類、可視化等人工無法完成,需要計(jì)算機(jī)軟件來處理,雖然可以用現(xiàn)成的商業(yè)或開源工具,效果也不一定好,對工具的使用又有學(xué)習(xí)成本,尤其對于文字處理需求多的文科類人員比較困難。有些項(xiàng)目時間要求緊急,如網(wǎng)上應(yīng)急事件的處理,再用人工逐一篩選,既不全面也不能滿足快速應(yīng)急處理的需要。

      1.2 待處理的語料庫知識資源存在數(shù)據(jù)泄漏的隱患

      大部分研究者的語料庫都是耗費(fèi)了大量人力物力收集整理的,價(jià)值密度極高,甚至是畢生的心血積累。而目前自然語言處理的機(jī)構(gòu)大部分提供的都是自然語言處理云服務(wù)平臺,要求使用者上傳待處理的語料庫,如騰訊NLP云服務(wù)、百度NLP云服務(wù)。云端存儲的數(shù)據(jù)資源脫離了上傳者后,數(shù)據(jù)確權(quán)上沒有法律保障,存在數(shù)據(jù)泄露并被竊取濫用的巨大隱患,導(dǎo)致大部分使用者望而卻步。

      1.3 大部分工具功能單一,缺乏一站式全鏈條的語義分析工具

      目前已經(jīng)有大量的研究者分別對自然語言處理中的各個關(guān)鍵點(diǎn)上問題進(jìn)行研究開發(fā)出了一些開源的工具,有的只是單一功能,有的具有多個功能,但不是全鏈條。如urllib2、Scrapy、Pyspider等提供信息抓取工具;jieba提供分詞工具;SnowNLP提供分詞、情感分析、文本分類、轉(zhuǎn)換成拼音、繁簡轉(zhuǎn)換、文本關(guān)鍵詞和文本摘要提取、計(jì)算文檔詞頻和文本相似度計(jì)算等工具;sklearn提供分類、聚類、回歸、預(yù)處理、模型選擇等工具;HanNLP提供中文分詞,命名實(shí)體識別,關(guān)鍵詞提取,自動摘要,短語提取,拼音轉(zhuǎn)換,簡繁轉(zhuǎn)換,文本推薦,依存句法分析工具,但只有在java上可以用,而且配置、安裝復(fù)雜;哈爾濱工業(yè)大學(xué)語言技術(shù)平臺LTP提供中文分詞、詞性標(biāo)注、命名實(shí)體識別、依存句法分析、語義角色標(biāo)注等工具,但需要根據(jù)API參數(shù)構(gòu)造HTTP請求在線獲得分析結(jié)果;

      針對眾多研究者對自然語言處理的迫切需求與實(shí)際挑戰(zhàn),NLPIR-Parser歷時20余年,為一般用戶提供了本地化部署的客戶端實(shí)現(xiàn)語義智能分析的全鏈條一站式服務(wù),也為軟件工程師提供了二次開發(fā)接口。NLPIR-Parser平臺包含精準(zhǔn)采集,文檔格式轉(zhuǎn)換、新詞發(fā)現(xiàn)、批量分詞、語言統(tǒng)計(jì)、文本聚類、文本分類、摘要實(shí)體、智能過濾、情感分析、文檔去重、全文檢索和編碼轉(zhuǎn)換十三項(xiàng)獨(dú)立功能,涵蓋了從數(shù)據(jù)的采集預(yù)處理、自然語言處理到文本挖掘、信息檢索再到可視化呈現(xiàn)、結(jié)果導(dǎo)出等全鏈條各個環(huán)節(jié)的語義分析工具。

      2.NLPIR-Parser的總體架構(gòu)

      NLPIR大數(shù)據(jù)語義智能分析平臺是一個全鏈條的分析工具,完全本地化部署,不上傳用戶數(shù)據(jù),安全可靠。融合了網(wǎng)絡(luò)精準(zhǔn)采集、自然語言理解、文本挖掘和網(wǎng)絡(luò)搜索的技術(shù),提供客戶端工具、云服務(wù)以及二次開發(fā)接口,包含了大數(shù)據(jù)背景下有關(guān)語義分析的各個環(huán)節(jié)的工具,無論對沒有任何編程背景但要大量處理語言、媒體信息的文科生輔助處理分析,還是對需要二次開發(fā)才能完成特定領(lǐng)域的信息服務(wù)都可以滿足要求。平臺先后歷時20年,融入了20年的科研成果。服務(wù)了全球40萬家機(jī)構(gòu)用戶和100余家高校用戶,免費(fèi)給研究人員從事研究工作。

      語義智能分析的全鏈條指的是從語料數(shù)據(jù)的采集預(yù)處理,經(jīng)過自然語言處理到文本挖掘,信息檢索再到可視化呈現(xiàn)和導(dǎo)出以便適合于不同人員的使用需求的全部處理過程。數(shù)據(jù)收集和預(yù)處理中包括了通過主題采集和站點(diǎn)采集從互聯(lián)網(wǎng)上爬取信息和處理本地上傳或錄入的信息,同時還提供了不同文檔格式轉(zhuǎn)換和編碼轉(zhuǎn)換的工具;自然語言處理部分可以進(jìn)行批量分詞、新詞發(fā)現(xiàn)和主題抽取和語言統(tǒng)計(jì);文本挖掘部分可以進(jìn)行文本分類、文本聚類、摘要實(shí)體生成、智能過濾、情感分析、文檔去重;信息檢索部分可以進(jìn)行模糊查詢快速全文檢索,附帶還有文檔去重的工具;可視化呈現(xiàn)部分可以畫出各種用戶喜歡的信息表示圖案,如詞云圖等;導(dǎo)出部分貫穿在各個功能當(dāng)中,將輸出結(jié)果導(dǎo)出,用戶可以采用導(dǎo)出的內(nèi)容寫入分析報(bào)告當(dāng)中。對于有開發(fā)背景的還可以通過API進(jìn)行二次開發(fā)滿足特定需要,自動生成分析報(bào)告。

      圖1 NLPIR全鏈條大數(shù)據(jù)語義智能分析平臺

      具體的功能在第三大部分有詳細(xì)的描述并給出了實(shí)例。

      開發(fā)平臺由多個中間件組成,各個中間件API可以無縫地融合到客戶的各類復(fù)雜應(yīng)用系統(tǒng)之中,可兼容Windows、Linux、Android、Maemo5、FreeBSD等不同操作系統(tǒng)平臺,可以供Java、C、C#等各類開發(fā)語言使用。

      3.NLPIR-Parser功能介紹

      3.1 數(shù)據(jù)收集和預(yù)處理

      3.1.1.精準(zhǔn)采集

      對境內(nèi)外互聯(lián)網(wǎng)海量信息實(shí)時精準(zhǔn)采集,有主題采集與站點(diǎn)采集兩種模式(給定網(wǎng)址列表的站內(nèi)定點(diǎn)采集功能)??蓭椭脩艨焖佾@取海量信息,尤其是境外信息與情報(bào)的挖掘。用戶可自定義采集模式、采集時間、采集區(qū)域、采集存儲、采集層。采集完成以后,采集結(jié)果文件夾包括:境內(nèi)新聞、境外新聞與BBS以及通用采集。其中的子目錄中的數(shù)字指的是文章發(fā)布的日期,如境內(nèi)新聞20190301,指的是2019年3月1日的境內(nèi)新聞。

      圖2 NLPIR大數(shù)據(jù)語義智能分析平臺客戶端

      (1)主題采集

      采集模式選擇了“主題采集”,如圖2實(shí)例所示,按照給定的關(guān)鍵詞或主題詞進(jìn)行信息采集時,輸入關(guān)鍵詞“一帶一路”、“航空母艦”與“區(qū)塊鏈”等三個主題;采集時間區(qū)域(系統(tǒng)默認(rèn)采集時段為近3年,用戶可在此時間段內(nèi)自定義自己的采集時間,這里選取的是2015年的7月20日到2018年的7月20日);采集區(qū)域選擇了“境內(nèi)采集”(如果選擇境外采集,需要啟動翻墻措施方可使用);采集層3層。獲取主題相關(guān)的主流新聞報(bào)道、BBS與博客等內(nèi)容。

      采集完成以后,用戶可查看采集結(jié)果,采集結(jié)果文件夾包括:境內(nèi)新聞、境外新聞與BBS以及通用采集。其中的子目錄中的數(shù)字指的是文章發(fā)布的日期,如境內(nèi)新聞20180301,指的是2018年3月1日的境內(nèi)新聞。

      圖3 采集結(jié)果文件

      (2)站點(diǎn)采集

      采集模式選擇了“站點(diǎn)采集”,輸入站點(diǎn)地址,http://news.sina.com.cn、http://www.nlpir.org、http://www.bit.edu.cn;定義采集時間、區(qū)域與采集結(jié)果存放路徑,點(diǎn)擊“啟動采集”,系統(tǒng)開始采集任務(wù),結(jié)果如下。

      圖4 站點(diǎn)采集結(jié)果文件

      3.1.2 文檔格式轉(zhuǎn)換

      用戶點(diǎn)擊功能導(dǎo)航欄“文檔轉(zhuǎn)換”,系統(tǒng)進(jìn)入“文檔轉(zhuǎn)換”模塊。文檔轉(zhuǎn)換功能對doc、excel、pdf與ppt等多種主流文檔格式,進(jìn)行文本信息抽取,信息抽取準(zhǔn)確率極高,達(dá)到大數(shù)據(jù)處理的要求。通過文檔轉(zhuǎn)換結(jié)果文件與文件原文的對比,可發(fā)現(xiàn)文件抽取具有非常高的準(zhǔn)確率。

      圖5 文檔轉(zhuǎn)換結(jié)果文件

      圖6 文檔轉(zhuǎn)換效果對比

      3.1.3 編碼轉(zhuǎn)換

      編碼轉(zhuǎn)換功能,自動識別內(nèi)容的編碼,并把編碼統(tǒng)一轉(zhuǎn)換為GBK編碼。目前支持Unicode/BIG5/UTF-8等編碼自動轉(zhuǎn)換為簡體的GBK,同時將繁體BIG5和繁體GBK進(jìn)行繁簡轉(zhuǎn)化。

      系統(tǒng)自動識別給定的BIG5文件,GBK以及UTF-8,Unicode文件,最終轉(zhuǎn)化為簡體GBK或UTF8編碼的文件。轉(zhuǎn)換結(jié)果提示框?qū)@示轉(zhuǎn)換結(jié)果,并將編碼轉(zhuǎn)換結(jié)果文件夾自動打開,用戶可直接查看與使用轉(zhuǎn)換后的文件。

      圖7 轉(zhuǎn)換為GBK編碼

      3.2 自然語言處理

      3.2.1 語言統(tǒng)計(jì)

      語言統(tǒng)計(jì)功能針對切分標(biāo)注結(jié)果,系統(tǒng)可以自動地進(jìn)行一元詞頻統(tǒng)計(jì)、二元詞語轉(zhuǎn)移概率統(tǒng)計(jì)(統(tǒng)計(jì)兩個詞左右連接的頻次即概率)。針對常用的術(shù)語,會自動給出相應(yīng)的英文解釋。詞頻統(tǒng)計(jì)及翻譯分析結(jié)果有四個Excel輸出文件。其中,一元概率指的是單個詞獨(dú)立出現(xiàn)的概率,信息熵指的是該詞包含的信息廣度,其公式為:

      (1)按詞頻排序的統(tǒng)計(jì)結(jié)果文件

      按詞頻排序的統(tǒng)計(jì)內(nèi)容如下,包括:詞語、詞性、詞頻、一元概率、信息熵與譯文。

      圖8 FreqTrans.xls

      “黨”的譯文:①(政黨)political party; party ②(指中國共產(chǎn)黨)the Party(the Communist Party of China) 入~ join the Party 整~ Party consolidation ③(集團(tuán))clique; faction; gang 死~ sworn follower ④ (偏袒)be partial to; take sides with⑤(親族)kinsfolk; relatives 父~ father's kinsfolk。

      (2)按字典排序的詞頻統(tǒng)計(jì)文件

      輸出到一個名為FreqSortByWord的文件,按字典排序詞頻統(tǒng)計(jì)結(jié)果包括:詞頻統(tǒng)計(jì)結(jié)果(總詞數(shù)與平均頻率)、詞語、詞性、詞頻、一元概率與信息熵。

      (3)Bigrams輸出文件

      輸出到一個名為Bigrams的文件,Bigrams結(jié)果包括:二元詞對總數(shù)、前一個詞、后一個詞、共現(xiàn)頻次與二元詞對信息熵。共現(xiàn)頻次指的是兩個詞以前后順序同時出現(xiàn)的頻率,二元詞對信息熵指的是這兩個詞包含的信息廣度。如下:“黨”和“的”以“黨的”共現(xiàn)形式出現(xiàn)了84詞,頻率為0.430769,其信息熵值為0.031287。

      (4)文件統(tǒng)計(jì)信息輸出文件

      文件統(tǒng)計(jì)結(jié)果包括:文檔名、總詞頻、總詞數(shù)、用戶詞典總詞頻與用戶詞典總詞數(shù)。

      3.2.2 批量分詞

      對原始語料進(jìn)行分詞、自動識別人名地名機(jī)構(gòu)名等未登錄詞、新詞標(biāo)注以及詞性標(biāo)注??稍诜治鲞^程中導(dǎo)入用戶定義的詞典。

      目前多數(shù)的分詞算法都采用規(guī)則和統(tǒng)計(jì)相結(jié)合的方法,這樣做的目的是為了降低統(tǒng)計(jì)對語料庫的依賴性,可以將已有的詞法信息進(jìn)行充分利用,同時還能彌補(bǔ)規(guī)則方法的不足。現(xiàn)在經(jīng)常使用方法是利用詞典進(jìn)行初次切分,得出切分結(jié)果后,使用其他的概率統(tǒng)計(jì)方法和簡單規(guī)則消歧進(jìn)行未登錄詞的識別。NLPIR分詞法(Chenet al.2014)利用詞典匹配進(jìn)行初詞切分,得到詞切分圖后,利用詞頻信息求詞圖N條最短路徑的N最短路徑法。

      圖9 分詞結(jié)果文件

      3.2.3 新詞發(fā)現(xiàn)

      新詞發(fā)現(xiàn)(張華平、商建云2017)模塊包括新詞提取與關(guān)鍵詞提取兩個功能。系統(tǒng)可實(shí)現(xiàn)對于新詞、關(guān)鍵詞提取結(jié)果的高維可視化展示,可視化形式有三種:文本格式、二維格式與三維格式。用戶可根據(jù)需要直接使用,無須再次設(shè)計(jì)美化。

      新詞發(fā)現(xiàn)能從文本中挖掘出具有內(nèi)涵的新詞、新概念,用戶可以用于專業(yè)詞典的編撰,還可以進(jìn)一步編輯標(biāo)注,導(dǎo)入分詞詞典可提高分詞系統(tǒng)的準(zhǔn)確度,并適應(yīng)新的語言變化。

      關(guān)鍵詞提取能夠?qū)纹恼禄蛭恼录?,提取出若干個代表文章中心思想的詞匯或短語,可用于精化閱讀、語義查詢和快速匹配等。

      (1)新詞提取

      新詞提取內(nèi)容包括:詞語、詞性、權(quán)重和詞頻統(tǒng)計(jì)。本步驟所得到的新詞,可以作為分詞標(biāo)注器的用戶詞典導(dǎo)入,從而使分詞結(jié)果更加準(zhǔn)確。

      圖10 新詞提取

      (2)關(guān)鍵詞提取

      關(guān)鍵詞提取能夠?qū)纹恼禄蛭恼录?,提取出若干個代表文章中心思想的詞匯或短語,可用于精化閱讀、語義查詢和快速匹配等。關(guān)鍵詞分析內(nèi)容包括:詞語、詞性、權(quán)重和詞頻統(tǒng)計(jì)。系統(tǒng)默認(rèn)詞匯以權(quán)重值高低排序。

      圖11 關(guān)鍵詞提取

      3.3 文本挖掘

      3.3.1 文本分類

      一個文本分類問題就是將一篇文檔歸入預(yù)先定義的幾個類別中的一個或幾個,而文本的自動分類則是使用計(jì)算機(jī)程序來實(shí)現(xiàn)這樣的分類。文本分類能夠根據(jù)事先指定的規(guī)則和示例樣本,自動從海量文檔中識別并訓(xùn)練分類。NLPIR深度文本分類,可以用于新聞分類、簡歷分類、郵件分類、辦公文檔分類、區(qū)域分類等諸多方面。此外還可以實(shí)現(xiàn)文本過濾,能夠從大量文本中快速識別和過濾出符合特殊要求的信息,可應(yīng)用于品牌報(bào)道監(jiān)測、垃圾信息屏蔽、敏感信息審查等領(lǐng)域。

      NLPIR采用深度神經(jīng)網(wǎng)絡(luò)對分類體系進(jìn)行了綜合訓(xùn)練。演示平臺目前訓(xùn)練的類別只是新聞的政治、經(jīng)濟(jì)、軍事等。內(nèi)置的算法支持類別自定義訓(xùn)練,該算法對常規(guī)文本的分類準(zhǔn)確率較高,綜合開放測試的F值接近86%。

      文本分類(趙連偉等 2014)有兩種模式:專家規(guī)則分類與機(jī)器學(xué)習(xí)分類。

      專家規(guī)則分類指的是根據(jù)事先人為制定的分類規(guī)則進(jìn)行分類,比如“中國建筑”類別,可定義該類別的規(guī)則:“長城;牌坊;園林;寺院;鐘;塔;廟宇;亭臺樓閣;井;石獅;民宅;秦磚漢瓦;兵馬俑;故宮;紫禁城;頤和園;布達(dá)拉宮;平遙古城;喬家大院;蘇州園林;杭州園林;徽派建筑;十里長亭;長城;天壇;鳥巢;水立方”,系統(tǒng)會根據(jù)文本中出現(xiàn)的特征詞語判定文本類別為:中國建筑。機(jī)器學(xué)習(xí)分類是利用機(jī)器自動學(xué)習(xí)的能力,通過大量文本的訓(xùn)練,是系統(tǒng)具有分類的能力。比如準(zhǔn)備軍事、政治類別的大量語料,通過訓(xùn)練,機(jī)器自動學(xué)習(xí)類別特征,經(jīng)過不斷的語料訓(xùn)練,分類效果越來越精準(zhǔn)。

      通過“專家規(guī)則分類過濾”、“機(jī)器學(xué)習(xí)分類過濾”,分類結(jié)果會呈現(xiàn)在結(jié)果提示框中。

      圖12 訓(xùn)練

      如上所示,系統(tǒng)將訓(xùn)練結(jié)果以網(wǎng)頁的形式呈現(xiàn)在提示框中,總計(jì)頻率為186,964,共有1,000個特征詞,第一個特征詞為“會談”,在9篇文檔中出現(xiàn)共22次,權(quán)重值為11。

      3.3.2 文本聚類

      文本聚類能夠從大規(guī)模數(shù)據(jù)中自動分析出熱點(diǎn)事件,并提供事件話題的關(guān)鍵特征描述。文本聚類適用于長文本和短信、微博等短文本的熱點(diǎn)分析。

      圖13 聚類

      圖14 聚類結(jié)果文件

      用戶可查看同屬一個類別的多個文件。聚類詳情文件名稱包含:聚類特征詞、媒體來源與新聞標(biāo)題。

      3.3.3 摘要實(shí)體

      自動摘要能夠?qū)纹蚨嗥恼?,自動提煉出?nèi)容的精華,方便用戶快速瀏覽文本內(nèi)容。實(shí)體提取能夠?qū)纹蚨嗥恼?,自動提煉出?nèi)容摘要,抽取人名、地名、機(jī)構(gòu)名、時間及主題關(guān)鍵詞;方便用戶快速瀏覽文本內(nèi)容。

      圖15 摘要與實(shí)體抽取

      北理工校內(nèi)新聞的分析結(jié)果如下:

      摘要(250字)“國企公開課”走進(jìn)北理工:聽焦開河講述兵器工業(yè)的初心和使命,新時代國企的責(zé)任與擔(dān)當(dāng),北京理工大學(xué)黨委書記趙長祿、校長張軍、黨委副書記包麗穎出席,國務(wù)院國資委宣傳工作局相關(guān)同志、中國兵器工業(yè)集團(tuán)有限公司相關(guān)部門負(fù)責(zé)同志,以及北理工師生代表參加了活動。

      關(guān)鍵詞:北理工#北理工師生#兵器工業(yè)#兵器工業(yè)集團(tuán)#焦開河#國企公開課#包麗穎#北京理工大學(xué)#中國特色#貫徹落實(shí)#

      人物:包麗穎#習(xí)近平#趙長祿#郭強(qiáng)#吳楠#張軍#彭心國#

      時間:6月13日下午#今天#明#當(dāng)下#現(xiàn)代#

      國家:中國#

      機(jī)構(gòu):#黨中央#中國共產(chǎn)黨#教育部#中國兵器工業(yè)集團(tuán)#

      3.3.4 智能過濾

      智能過濾能夠?qū)ξ谋緝?nèi)容進(jìn)行語義智能過濾審查,內(nèi)置國內(nèi)最全詞庫,智能識別多種變種:形變、音變、繁簡等多種變形,且實(shí)現(xiàn)語義精準(zhǔn)排歧。

      系統(tǒng)已內(nèi)置約10類近4萬關(guān)鍵詞,用戶仍可根據(jù)需求用“導(dǎo)入關(guān)鍵詞”添加個人的關(guān)鍵詞;用“批量掃描”,系統(tǒng)進(jìn)行不良信息過濾;還可以用“打開文件”或者直接將掃描文本粘貼至文本框中進(jìn)行輸入掃描

      圖16 輸入掃描

      3.3.5 情感分析

      情感分析,針對事先指定的分析對象,系統(tǒng)自動分析海量文檔的情感傾向:情感極性及情感值測量,并在原文中給出正負(fù)面的得分和句子樣例。NLPIR情感分析的情感分類豐富,不僅包括正、負(fù)兩面,還包括好、樂、驚、怒、惡、哀和懼的具體情感屬性。NLPIR還提供關(guān)于特定人物的情感分析,并能計(jì)算正負(fù)面的具體得分。

      可以單個對象分析和批量對象分析來進(jìn)行情感分析。

      情感分析統(tǒng)計(jì)結(jié)果包括:文檔總數(shù)、正面數(shù)量及占比,每一篇文檔的正負(fù)面得分與排序。情感分析詳情結(jié)果會在原文本中顯示情感分析的詳情:對象、得分、原文等。

      圖17 單個對象(區(qū)塊鏈)的情感分析結(jié)果

      對象:區(qū)塊鏈,情感得分:38,正面得分:52,負(fù)面得分:-14

      “多對象分析”,系統(tǒng)開始對多個對象進(jìn)行情感分析。

      圖18 情感批量分析結(jié)果

      3.3.6 文檔去重

      文檔去重能夠快速準(zhǔn)確地判斷文件集合或數(shù)據(jù)庫中是否存在相同或相似內(nèi)容的記錄,同時找出所有的重復(fù)記錄。

      圖19 文檔去重

      3.4 文本檢索

      全文檢索支持文本、數(shù)字、日期、字符串等各種數(shù)據(jù)類型,多字段的高效搜索支持AND/OR/NOT以及NEAR鄰近等查詢語法,支持維語、藏語、蒙語多種少數(shù)民族語言的檢索??梢詿o縫地與現(xiàn)有文本處理系統(tǒng)與數(shù)據(jù)庫系統(tǒng)融合。

      支持的典型查詢語法包括:

      Sample1:[FIELD] title[AND] 解放軍

      Sample3:[FIELD] content[AND] 甲型H1N1流感

      Sample4:[FIELD] content[NEAR] 張雁靈解放軍

      Sample5:[FIELD] content[OR] 解放軍甲流

      Sample6:[FIELD] title[AND] 解放軍[FIELD] content[NOT] 甲流

      檢索結(jié)果包括:文檔總量統(tǒng)計(jì)、標(biāo)題、內(nèi)容與相似得分。

      圖20 普通檢索

      圖21 搜索結(jié)果

      輸入高級命令。例如:[field] content[AND] 中國人民,表示:搜索內(nèi)容字段中同時包含“中國”和“人民”的文檔,采用該語法信息過濾將更有針對性。

      圖22 高級檢索

      3.5 可視化展示

      “結(jié)果展示”選的是二維格式:top42詞匯的詞云形式展示效果如圖23所示。

      圖23 二維格式

      “結(jié)果展示”選的是三維格式:top20詞匯的三維動態(tài)展示,簡潔美觀。

      圖24 三維格式

      4.結(jié)語

      NLPIR大數(shù)據(jù)語義智能分析平臺為語義分析提供數(shù)據(jù)和技術(shù)支持,在大數(shù)據(jù)背景下,可以滿足常見的需求,支持用戶專業(yè)詞典與微博分析、支持多種編碼、多種操作系統(tǒng)、多種開發(fā)語言與平臺。一方面為語言處理,提供友好、實(shí)用的工具,另一方面為軟件開發(fā)人員和研究人員提供二次開發(fā)的接口滿足特定的空間信息處理和應(yīng)用程序的需要;同時也為研究者提供統(tǒng)計(jì)數(shù)據(jù)和實(shí)例支撐。

      此平臺是不斷完善的,最新客戶端的二次接口定期會發(fā)布白皮書,不斷把新的研究成果融入平臺以滿足各種不同的需要,并提供更大規(guī)模的詞典庫以及更多的語料。最新的在線演示、客戶端下載以及用戶手冊均可以在http://www.nlpir.org/站點(diǎn)獲得,歡迎更多的研究者和大數(shù)據(jù)分析者使用并提出寶貴意見。

      猜你喜歡
      詞頻分詞文檔
      基于詞頻分析法的社區(qū)公園歸屬感營建要素研究
      園林科技(2021年3期)2022-01-19 03:17:48
      有人一聲不吭向你扔了個文檔
      結(jié)巴分詞在詞云中的應(yīng)用
      智富時代(2019年6期)2019-07-24 10:33:16
      基于RI碼計(jì)算的Word復(fù)制文檔鑒別
      值得重視的分詞的特殊用法
      Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
      詞頻,一部隱秘的歷史
      云存儲中支持詞頻和用戶喜好的密文模糊檢索
      以關(guān)鍵詞詞頻法透視《大學(xué)圖書館學(xué)報(bào)》學(xué)術(shù)研究特色
      圖書館論壇(2014年8期)2014-03-11 18:47:59
      高考分詞作狀語考點(diǎn)歸納與疑難解析
      商南县| 永嘉县| 剑阁县| 安仁县| 合肥市| 永嘉县| 舞钢市| 开原市| 竹北市| 弥勒县| 元谋县| 铁岭县| 吴江市| 饶阳县| 当阳市| 斗六市| 波密县| 即墨市| 高台县| 东乡县| 军事| 启东市| 依兰县| 苍溪县| 江永县| 威信县| 新绛县| 芜湖市| 通化市| 泰兴市| 晴隆县| 馆陶县| 高阳县| 如东县| 湟中县| 湖州市| 临沂市| 鄂州市| 南城县| 边坝县| 安图县|