• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      大數(shù)據語義分析關鍵技術綜述

      2018-12-21 09:49:59李博
      現(xiàn)代計算機 2018年8期

      李博

      (四川大學視覺合成圖形圖像技術國防重點學科實驗室,成都 610065)

      0 引言

      隨著網絡社會的迅猛發(fā)展,以微博和微信為代表的在線網絡社會已經成為互聯(lián)網的新業(yè)態(tài),為物理社會的計算與分析提供了極佳的大數(shù)據平臺。在大數(shù)據新型社會媒體環(huán)境下,人們在網絡分享各種信息,發(fā)表自己的觀點,面對規(guī)模巨量、來源龐雜的信息,大數(shù)據語義分析與情感量化分析面臨如下挑戰(zhàn):

      (1)信息表示方式多樣,個性化和碎片化,無法使用規(guī)范文本為對象。

      (2)當前非結構化內容大數(shù)據計算范式與個體或群體計算的方法不一致。

      (3)面對千萬級語義關聯(lián)節(jié)點,已有的基于知識的算法不適用于大數(shù)據實時分析。

      1 國內外研究現(xiàn)狀與發(fā)展分析

      基于知識本體的大數(shù)據語義分析關鍵技術涉及文本表示、知識本體、語義分析、情感計算、深度機器學習、大數(shù)據等多個方面。下面將分別從語義計算、文本表示、語義知識本體構造、情感分析四個方面進行綜述分析。

      1.1 語義計算

      語義可以理解為數(shù)據所對應的現(xiàn)實世界中的客觀事物所代表的概念的含義,以及這些含義之間的關系,是數(shù)據的邏輯表示。語義計算就是研究計算機對自然語言符號背后的語義理解,構建語義表示,處理自然語言,產生關于客觀世界的知識。常見的語義計算的方法有格語法(Case Grammar),概念依存理論(Conceptu?al Dependency Theory)與語義網絡(Semantic Network)。語義計算屬于自然語言處理的終極任務,也是難點所在。當前各種理論各有優(yōu)缺點,多數(shù)屬于研究探索階段,離實用化還有一段距離;在大數(shù)據背景下的語義計算,通過海量多樣化的數(shù)據源,可以彌補知識框架的不足,小樣本的統(tǒng)計方法存在語義缺漏的困難。通過在大數(shù)據信息客體集合上采用大數(shù)據的語義計算,依據已有的大數(shù)據關聯(lián)分析,可以通過隱形語義表達的方式,在應用上獲得較好的效果。

      1.2 文本表示

      文本表示是語義計算的基礎。文本表示是指原始文本在計算機內的最終表示,是信息檢索、文本分類等的處理對象。文本表示的粒度一般為字、詞、短語、句子等語言維度。

      傳統(tǒng)的文本表示很難完整地表示出大數(shù)據背景下的短消息。一是社交媒體具有文本內容、時間、主體與客體等多維度,而僅考慮文本內容的現(xiàn)行方法對于多維度遠遠不夠。二是長文本具有口語化、不規(guī)則等特點,而傳統(tǒng)方法以字、詞為粒度居多,不同粒度之間缺乏內在的語義關聯(lián)性。需要融合多維度時空、主體特征,同時引入知識本體,對文本表示進行擴展。

      1.3 語義知識本體構建

      計算機科學中的知識本體指的是一個采用類型、屬性、關系等集合來描述客觀世界的模型。自然語言處理的眾多領域都獲益于知識本體的有效獲取與構建。目前面向通用自然語言處理研究的知識本體包括WordNet、FrameNet、HowNet、CCD、BiFrameNet等。這些通用本體對詞匯及詞匯間的關系等靜態(tài)知識做了描述,包含了高質量的語言知識。

      1.4 情感分析

      情感分析,又稱情感傾向性分析、意見挖掘或情感分類,利用計算機從文本中提取出作者的情感方向。通過情感分析,可以發(fā)現(xiàn)作者所表達的觀點、感情、立場等主觀情感。情感分析的方法可以分為三類:規(guī)則方法、有監(jiān)督機器學習方法、無監(jiān)督機器學習方法。

      縱觀常規(guī)長文本與短文本的情感分析,沒有考慮到信息主體背景的個體差異,現(xiàn)有的方法有一定缺陷。由于感情分析客觀上與信息主體的觀點有很大的相關性,僅僅依靠分析文本內容不能準確表達信息主體的情感觀點。

      2 技術框架

      基于知識本體的主客觀大數(shù)據語義分析關鍵技術旨在以知識本體為語義表示基本單元,研究社會主體與信息客體融合的統(tǒng)一語義分析模型,探索本體概念生成與知識抽取的大數(shù)據方法,建立由大數(shù)據關聯(lián)分析構成的語義網,實現(xiàn)以主體為中心的個性化情感量化計算關鍵技術;對所涉及領域的創(chuàng)新方法進行測試和分析,為探索社會公共安全的宏觀態(tài)勢預測與微觀洞察提供新的視角和切入點,為科學理論與關鍵技術研究奠定堅實基礎;以面向社會公共安全事件的群體態(tài)勢推演為示范應用,驗證基于知識本體的主客觀大數(shù)據語義分析關鍵技術的研究成果。

      3 基于知識本體大數(shù)據語義分析技術的應用實踐

      基于知識本體的大數(shù)據語義分析旨在以知識本體為語義表示基本單元,研究社會主體與信息客觀融合的統(tǒng)一語義分析模型,且目前已經正式投入實踐應用。

      3.1 NLPIR 大數(shù)據搜索與挖掘共享平臺

      NLPIR大數(shù)據搜索與挖掘共享平臺是大數(shù)據語義分析技術在應用上的典型實踐。NLPIR在前身ICT?CLAS詞法分析系統(tǒng)的基礎上進行了十余次的內核升級,已經能夠滿足各類型大數(shù)據文本處理的要求,其中包括了正文提取、中英文分詞、實體抽取、文本分類、分詞標注等完整的大數(shù)據技術鏈條。在NLPIR的所有技術鏈條中,都直接或者間接地使用了大數(shù)據語義分析技術。

      (1)正文提取

      NLPIR通過網站的RSS摘要,利用網絡采集系統(tǒng)自動抓取非導航性質的網頁,并去除網頁中的導航、廣告等內容,利用深度神經網絡模型,提取有價值的正文內容。

      (2)分詞標注

      針對漢語淺層語言分析各個層面的處理對象及問題特點,引入層疊隱馬模型統(tǒng)一建模,對原始語料進行分詞和詞性標注,還可以自動識別人名地名等專用詞匯。另外,系統(tǒng)還支持在線用戶詞典的輸入,更加方便了對專有詞、自造詞、外來詞及存在詞性爭議的詞等在實際運用及詞性方面的掌控。

      (3)文本分類

      NLPIR根據深度神經網絡,采用內置算法進行分類訓練,該分類算法有較高的準確率,可應用于新聞分類、郵件分類、簡歷分類、區(qū)域分類、辦公文檔分類等方面,而且還能夠將特殊信息從大量文本中快速地識別和過濾出來,實現(xiàn)文本過濾功能。

      3.2 JZSearch語義精準搜索引擎

      隨著知識圖譜的迅速發(fā)展和大數(shù)據語義分析技術的不斷進步,JZSearch運用了語義知識圖譜的相關技術,實現(xiàn)了針對大數(shù)據垂直搜索的全文智能檢索。JZSearch語義精準搜索引擎利用自然語言理解、文本挖掘和網絡搜索技術,進行人機互動和機器學習,具有了一定程度的語義推理能力。JZSearch最大的進步就是把常用的關鍵詞粒度提高到知識概念粒度,有了理解、處理和分析知識的能力。現(xiàn)列舉幾個主要功能。

      (1)人機自然語言問答式查詢

      JZSearch具有人機自然語言問答式查詢功能,通過人機互動,自然語言理解,對請求信息進行語義分析,能夠精準地提取出問題主體,對搜索內容去重并精準回復答案。

      (2)搜索結果在線主體聚類

      搜索結果在線主體聚類就是通過相似性算法,將搜索結果根據內容的大致一致性,自動進行文檔歸類,而且還為不同類型的文檔生成標題和主題詞,并搜索出與問題內容相關聯(lián)的其他結果。除此之外,該搜索引擎還具有多字段關聯(lián)搜索的功能,可以對多個字符串進行迭代語義分析,最終給出融合延伸結果。

      (3)搜索主題時光機技術

      JZSearch通過語義分析和關鍵字提取,將挖掘出的相關信息根據時間先后順序展示,并呈現(xiàn)為動態(tài)地隨時間變化的可視化圖譜。

      (4)大數(shù)據挖掘分析

      搜索引擎充分理解問題語義后,利用聚類技術智能搜索出與搜索主題有關的文章并統(tǒng)計出文章的數(shù)量,并標注出來源、發(fā)布時間、作者和關鍵詞等相關內容。

      JZSearch語義精準引擎具有對自然語言理解的技術優(yōu)勢,人機互動更加智能化,具有一定推理判斷能力,實現(xiàn)了從信息檢索到智能搜索的進步,能夠給用戶更精準快捷的搜索體驗。

      4 結語

      隨著電子信息產業(yè)的飛速發(fā)展,互聯(lián)網的數(shù)據量呈幾何倍數(shù)增長,大數(shù)據技術雖然發(fā)展迅猛,但由于起步較晚,還有許多技術和設計不夠成熟。本文對大數(shù)據語義分析的關鍵技術,特別是對基于知識本體大數(shù)據語義分析技術的NLPIR大數(shù)據搜索與挖掘共享平臺和JZSearch語義精準搜索引擎和進行總結和分析,對讀者對于大數(shù)據語義分析的研究和應用有一定的幫助。

      參考文獻:

      [1]李國杰.大數(shù)據研究的科學價值[J].中國計算機學會通信,2012,8(9).

      [2]張華平,高凱,黃河燕,趙燕平.大數(shù)據搜索與挖掘[M].北京:科學出版社,2014.

      [3]趙妍妍,秦兵,劉挺.文本感情分析[J].軟件學報,2010,21(8).

      [4]靳小龍,王元卓,程學旗.大數(shù)據的研究體系與現(xiàn)狀[J].信息通信技術,2013(6).

      宣汉县| 江城| 古丈县| 天长市| 郯城县| 昔阳县| 正安县| 綦江县| 遂宁市| 呼伦贝尔市| 金溪县| 弥勒县| 壶关县| 麻栗坡县| 石林| 应城市| 巴里| 灵石县| 尼玛县| 阳山县| 田阳县| 临江市| 巴楚县| 吴桥县| 平原县| 焉耆| 邯郸市| 织金县| 南宫市| 惠安县| 长泰县| 政和县| 镇沅| 竹山县| 海城市| 安丘市| 丹阳市| 大名县| 盐池县| 宁明县| 梁平县|