• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      面向大數(shù)據(jù)的知識語義建模技術(shù)研究綜述*

      2018-03-06 05:27:59柴瑜晗司亞琪
      關(guān)鍵詞:實體文獻節(jié)點

      柴瑜晗,劉 妍,司亞琪,仇 晶,2

      (1. 河北科技大學(xué) 信息科學(xué)與工程學(xué)院,河北 石家莊 050018; 2. 廣州大學(xué) 網(wǎng)絡(luò)空間先進技術(shù)研究院,廣東 廣州 510006)

      0 引言

      隨著互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展,各種行業(yè)以及人們的日常生活都與互聯(lián)網(wǎng)的聯(lián)系日益密切,同時互聯(lián)網(wǎng)數(shù)據(jù)變得愈加豐富多樣,數(shù)據(jù)量也在不斷地以指數(shù)形式上升?;ヂ?lián)網(wǎng)極大地便利了人們的生活,但是也給人們帶來了諸多的問題以及挑戰(zhàn)。海量的數(shù)據(jù)信息也為人們迅速精準獲取有效信息帶來了一定的不便。

      為了解決這一問題,許多新技術(shù)被提出用于知識獲取,信息抽取正是在這種背景下產(chǎn)生的。信息抽取完成的主要任務(wù)是將非結(jié)構(gòu)化的文本語料通過某種方式方法變換成結(jié)構(gòu)化信息。網(wǎng)絡(luò)表示學(xué)習(xí)能夠有效分析復(fù)雜網(wǎng)絡(luò)中節(jié)點之間的聯(lián)系。由于數(shù)據(jù)量的龐大以及硬件環(huán)境的限制,大數(shù)據(jù)分析技術(shù)起到了一定的作用。本文將針對近年來的大數(shù)據(jù)分析技術(shù)、信息抽取技術(shù)和網(wǎng)絡(luò)表示學(xué)習(xí)工作進行介紹和總結(jié)。

      1 大數(shù)據(jù)分析技術(shù)

      1.1 大數(shù)據(jù)分析應(yīng)用

      大數(shù)據(jù)分析在最近幾年發(fā)展迅猛,遍布各個行業(yè),例如商業(yè)、醫(yī)療、教育等,發(fā)揮著不可替代的作用,同時也創(chuàng)造了不可估量的價值。大數(shù)據(jù)分析也滲透到人們生活的方方面面。

      淘寶數(shù)據(jù)魔方能夠開放網(wǎng)站所有的交易數(shù)據(jù),是淘寶平臺的數(shù)據(jù)應(yīng)用方案,從中能夠清楚地了解到用戶的需求以及市場狀況等,為進一步的發(fā)展提供可靠的依據(jù)。

      在能源有效利用和整合上,大數(shù)據(jù)起到了至關(guān)重要的作用,智能電表能夠智能化管理能源的使用情況,也能減少一些不必要的損失。使用大數(shù)據(jù)分析能夠有效分析能源的消耗情況,并進行快速分析,依據(jù)分析結(jié)果使得能源有效節(jié)約。

      智能電網(wǎng)已經(jīng)被廣泛用于人們的生活中,德國政府通過智能電網(wǎng)來收集用電數(shù)據(jù),并預(yù)測未來需要的電量,從而提前購電,降低了成本。

      維斯塔斯風(fēng)力系統(tǒng)主要使用BigInsights軟件和IBM超級計算機將數(shù)據(jù)收集起來,能夠充分利用這些數(shù)據(jù)進行定位,使得各種裝置都能夠放置在最合適的位置,從而大大的減少了分析工作所占用的時間,并且分析得更加準確。

      1.2 大數(shù)據(jù)分析處理框架

      大數(shù)據(jù)分析處理框架主要分成批量數(shù)據(jù)處理和流式數(shù)據(jù)處理。

      1.2.1批量數(shù)據(jù)處理框架

      在大數(shù)據(jù)環(huán)境下,基于Hadoop的MapReduce并行計算框架發(fā)展得比較好,Hadoop及其生態(tài)圈在大數(shù)據(jù)處理方面已經(jīng)做得比較完善,有著優(yōu)秀的分布式并行處理框架,開發(fā)起來相對容易,并且負載均衡、容錯恢復(fù)比較完善,能運行在大量廉價的硬件系統(tǒng)之上。MapReduce模式的主要思想是把要解決的問題自動拆解成Map和Reduce。Spark 是一種高效通用的分布式計算框架,中間數(shù)據(jù)放到內(nèi)存中,在迭代運算上效率非常高。Spark更適合于迭代運算比較多的ML和DM運算。因為在Spark里面,有RDD的抽象概念。Spark比Hadoop更通用,Spark提供的數(shù)據(jù)集操作類型有很多種,Hadoop只提供了Map和Reduce兩種操作。HDFS是一種分布式文件系統(tǒng)層,可對集群節(jié)點間的存儲和復(fù)制進行協(xié)調(diào)。HDFS確保了無法避免的節(jié)點故障發(fā)生后數(shù)據(jù)依然可用,可將其用作數(shù)據(jù)來源,可用于存儲中間態(tài)的處理結(jié)果,并可存儲計算的最終結(jié)果。YARN可充當Hadoop堆棧的集群協(xié)調(diào)組件。該組件負責(zé)協(xié)調(diào)并管理底層資源和調(diào)度作業(yè)的運行。通過充當集群資源的接口,YARN使得用戶能在Hadoop集群中使用比以往的迭代方式運行更多類型的工作負載。

      1.2.2流式數(shù)據(jù)處理框架

      大數(shù)據(jù)實時流數(shù)據(jù)處理在整個數(shù)據(jù)分析過程中具有非常重要的地位,現(xiàn)在使用較為廣泛的流數(shù)據(jù)處理系統(tǒng)有Yahoo!S4、Storm、Spark Streaming、Samza等。S4(Simple Scalable Streaming System)是一個分布式流處理引擎,開發(fā)者可以在這個引擎基礎(chǔ)上開發(fā)面向無界的、不間斷的流數(shù)據(jù)處理應(yīng)用。文獻[1]中Storm是一個免費開源、分布式、高容錯的實時計算系統(tǒng),底層使用了ZeroMQ這一消息中間件來實現(xiàn)物理節(jié)點之間的數(shù)據(jù)收發(fā)。Storm的數(shù)據(jù)源一般選擇使用Kafka[2]分布式消息系統(tǒng),通過使用類似于管道的方式,實現(xiàn)高效的實時流數(shù)據(jù)處理。Spark Streaming 是Spark核心API的一個擴展,可以實現(xiàn)高吞吐量的、具備容錯機制的實時流數(shù)據(jù)的處理。支持從多種數(shù)據(jù)源獲取數(shù)據(jù),包括Kafk、Flume、Twitter、ZeroMQ、Kinesis 以及TCP sockets。基本原理是將輸入數(shù)據(jù)流以時間片(秒級)為單位進行拆分,然后以類似批處理的方式處理每個時間片數(shù)據(jù)。Samza[3]是一種基于Kafka和YARN的輕量級分布式流數(shù)據(jù)處理系統(tǒng)。Samza的工作節(jié)點類似于Storm的Balt節(jié)點,當工作節(jié)點將數(shù)據(jù)處理后,將處理后的節(jié)點發(fā)送給其他的工作節(jié)點繼續(xù)進行處理,每一個節(jié)點處理一種Task,然后多個Task串聯(lián)起來對流數(shù)據(jù)進行處理。文獻[4]中介紹了一種實時數(shù)據(jù)倉庫的流數(shù)據(jù)采集處理架構(gòu)。文獻[5]中介紹了一種在互聯(lián)網(wǎng)行業(yè)中非常具有代表性的數(shù)據(jù)采集架構(gòu)。目前在工業(yè)領(lǐng)域,主要使用了傳統(tǒng)的SCADA系統(tǒng)[6]來進行數(shù)據(jù)采集。

      2 信息抽取分析技術(shù)

      隨著互聯(lián)網(wǎng)的高速發(fā)展,網(wǎng)絡(luò)數(shù)據(jù)呈現(xiàn)爆炸式的增長,從海量數(shù)據(jù)中挖掘有效信息成為了一項艱巨的挑戰(zhàn)。2012年5月份,Google正式提出知識圖譜(Knowledge Graph)[7],在這之后,國內(nèi)外的其它互聯(lián)網(wǎng)搜索引擎公司也紛紛構(gòu)建了自己的知識圖譜,例如搜狗的“知立方”[8]、微軟的“Probase”[9]和百度的“知心”[10]。知識圖譜可以看成是一張巨大的圖,圖中的節(jié)點表示概念或者實體,而圖中的邊則由關(guān)系構(gòu)成,其基本組成單位是“實體-關(guān)系-實體”三元組。實體抽取是信息抽取的子任務(wù),是最基本的一步,旨在從大規(guī)模自然語言處理文本中找到相關(guān)的實體。關(guān)系抽取是信息抽取的關(guān)鍵任務(wù),旨在大規(guī)模自然語言處理文本中識別實體并抽取實體之間的關(guān)系。

      2.1 實體抽取

      實體抽取作為一項基本任務(wù),其抽取的完整性、準確率、召回率等都能夠嚴重影響到后續(xù)任務(wù)的進行。命名實體識別的研究從一開始是采用基于規(guī)則和詞典的方法進行識別,規(guī)則需要領(lǐng)域?qū)<一蛘哒Z言學(xué)者進行手工制定,并且規(guī)則之間不能夠出現(xiàn)沖突,這也帶來了一定的難度,需要更多的時間和精力制定規(guī)則。

      隨著技術(shù)的發(fā)展,越來越多的研究者采用基于統(tǒng)計機器學(xué)習(xí)的方法來完成命名實體識別的任務(wù),主要是通過機器學(xué)習(xí)的方法對原始語料進行訓(xùn)練,然后再利用訓(xùn)練好的模型去識別實體,例如,隱馬爾科夫模型(Hidden Markov Models,HMM)[11]、最大熵馬爾科夫模型(Maximum Entropy Markov Models,MEMM)[12]、條件隨機場(Conditional Random Fields,CRF)[13]等。文獻[14]利用KNN算法與條件隨機場模型,實現(xiàn)了對Twitter文本數(shù)據(jù)中實體的識別。文獻[15]提出使用最大熵算法,并且在Medline論文摘要的GENIA數(shù)據(jù)集上進行了實體抽取實驗,取得了不錯的效果。文獻[16]使用一種迭代的方式將實體語料庫進行有效擴展,這種方式主要是使用較少的實體實例,然后建立一些特征模型,將這些特征模型用到新的數(shù)據(jù)集當中,從而能夠從新的數(shù)據(jù)集當中抽取新的命名實體。文獻[17]提出了一種基于無監(jiān)督學(xué)習(xí)的算法,在日志中能夠根據(jù)已知的實體語義特征識別出實體,然后將這些識別出來的實體進行聚類。

      隨著深度學(xué)習(xí)的興起和廣泛應(yīng)用,將深度學(xué)習(xí)用于實體抽取上取得了不錯的效果。文獻[18]使用句子方法和窗口方法進行實體抽取。句子方法是把整個句子作為預(yù)測詞的輸入,并且區(qū)分句子中的每一個詞,然后使用一層卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu);窗口方法是把預(yù)測詞的上下文窗口作為輸入,然后使用傳統(tǒng)的NN結(jié)構(gòu)。在文獻[19]中,介紹了基于雙向LSTM和條件隨機場的方法。文獻[20]提出混合使用雙向LSTM和CNN進行自動檢測字和字符級特征。文獻[21]提出在BiLSTM-CRF模型上加入音韻特征,并且使用attention機制來學(xué)習(xí)關(guān)注更有用和有效的字符。文獻[22]中使用大量的未標注的數(shù)據(jù)集訓(xùn)練雙向神經(jīng)網(wǎng)絡(luò)語言模型,該模型用來獲取當前標注詞的語言模型向量,然后將語言模型向量作為RNN-CRF的特征向量。文獻[23]中提出了一種利用眾包標注數(shù)據(jù)學(xué)習(xí)對抗網(wǎng)絡(luò)模型的方法進行中文實體識別系統(tǒng)的構(gòu)建。該方法是受到了對抗網(wǎng)絡(luò)學(xué)習(xí)的啟發(fā),模型使用了兩個雙向 LSTM,一個LSTM用于學(xué)習(xí)標注員的公有信息,另外一個用于學(xué)習(xí)屬于不同標注員的私有信息。在公有塊的學(xué)習(xí)過程中使用了對抗學(xué)習(xí)的思想,將不同標注員作為分類的目標,從而進行對抗學(xué)習(xí),使其能夠優(yōu)化公有模塊的學(xué)習(xí)質(zhì)量,并且最終收斂于真實數(shù)據(jù),即專家標注的數(shù)據(jù)。tweet中包含多種不用的信息,為了充分利用各種信息,文獻[24]中提出了一種處理tweet數(shù)據(jù)的方法,該方法利用條件隨機場和 Adaptive Co-attention Network 擴展了一個雙向 LSTM 網(wǎng)絡(luò)。

      2.2 關(guān)系抽取

      許多的實體關(guān)系抽取系統(tǒng)被研發(fā)出來,比如SnowBall[25]、TextRunner[26]等,其中TextRunner是第一個開放領(lǐng)域關(guān)系抽取系統(tǒng)。

      基于支持向量機、核函數(shù)[27]、邏輯回歸[28]、句法解析增強[29]、條件隨機場[30]等一些有監(jiān)督學(xué)習(xí)的方法在關(guān)系抽取方面都取得了不錯的效果,但是嚴重依賴于大量已標注的數(shù)據(jù),在時間和精力上花費都是巨大的。在文獻[31]中,作者考慮使用遠程監(jiān)督的思想。遠程監(jiān)督思想能夠有效解決關(guān)系抽取任務(wù)中需要大規(guī)模標注數(shù)據(jù)的問題。在文獻[32]中,一種基于圖模型的方法被提出,從而進行關(guān)系抽取。在文獻[33]中提出增強遠程監(jiān)督的假設(shè),與文獻[30]中提出的方法相比較,大大減少了錯誤率。由于實體之間不僅僅只是包含一種關(guān)系,很多實體之間具有多種關(guān)系。文獻[34]提出采用一種多實例多標簽方法來解決實體之間具有多種關(guān)系的問題。在文獻[35]中提出利用多實例多標簽和貝葉斯網(wǎng)絡(luò)的方法,從而進行關(guān)系抽取。

      有監(jiān)督學(xué)習(xí)關(guān)系抽取方法具有嚴重的依賴性。隨著深度學(xué)習(xí)在不同任務(wù)上取得的不錯效果,例如文本分類、機器翻譯、智能問答等,許多的研究人員開始嘗試將深度學(xué)習(xí)的技術(shù)應(yīng)用到關(guān)系抽取任務(wù)中,希望能夠取得好的效果。在文獻[36]中,一種使用遞歸神經(jīng)網(wǎng)絡(luò)方法被提出,得到句子的向量表示,從而用于關(guān)系抽取。文獻[37]中提出使用卷積神經(jīng)網(wǎng)絡(luò)的方法得到句子表示,實體信息能夠被較好地考慮,從而進行關(guān)系抽取。文獻[38]中提出了一種新的卷積神經(jīng)網(wǎng)絡(luò)并且采用新的損失函數(shù)進行關(guān)系抽取,能夠很大程度上區(qū)分不同關(guān)系類別。文獻[39]中提出使用雙向LSTM和樹形LSTM同時對實體和句子進行建模,從而進行關(guān)系抽取。由于人工標注數(shù)據(jù)較少,于是,在文獻[40]中嘗試將模型擴展到遠程監(jiān)督上。在文獻[41]中,為了能夠充分利用實體所包含的所有信息,提出了一種基于句子級別注意力機制的神經(jīng)網(wǎng)絡(luò)模型,該模型能夠根據(jù)特定關(guān)系為實體對的每個句子分配權(quán)重,把有噪音的句子過濾掉,然后利用所有有效句子進行學(xué)習(xí)和預(yù)測。在文獻[42]中,將文獻[41]中提出的句子級別注意力機制的神經(jīng)網(wǎng)絡(luò)模型擴展到了多語言場景下注意力機制,大大提高了多語言場景下關(guān)系抽取的性能。文獻[43]使用增強學(xué)習(xí)的方法構(gòu)建了一個能夠依據(jù)大規(guī)模自動回標的包數(shù)據(jù)訓(xùn)練出一個高質(zhì)量的句子級的關(guān)系抽取的分類器。文獻[44]通過抽取實體的描述信息,從而引入更豐富的語義信息,使實體學(xué)習(xí)到更好的表示,并提出一種句子級別的注意力模型。文獻[45]提出了一個雙向遞歸卷積神經(jīng)網(wǎng)絡(luò)模型(BRCNN)。文獻[46]提出了Att-BLSTM模型,從而獲得一個句子中最重要的語義信息進行關(guān)系抽取。文獻[47]使用基于圖的方法對bootstrapping關(guān)系抽取系統(tǒng)返回的關(guān)系實例進行排序。

      2.3 實體和關(guān)系的聯(lián)合抽取

      對于實體抽取和關(guān)系抽取的方法,一種是使用流水線的方法(Pipelined Method)進行抽取,輸入一個句子,首先進行命名實體識別,然后對識別出來的實體進行兩兩組合,再進行關(guān)系分類,最后把存在實體關(guān)系的三元組作為輸入。流水線的方法會導(dǎo)致錯誤率的提升。另外一種是聯(lián)合學(xué)習(xí)的方法,將實體抽取和關(guān)系抽取聯(lián)合學(xué)習(xí),輸入一個句子,通過實體識別和關(guān)系抽取聯(lián)合模型,直接得到有關(guān)系的實體三元組。這種方法可以克服上面流水線方法的缺點,但是可能會有更復(fù)雜的結(jié)構(gòu)。文獻[48]利用共享神經(jīng)網(wǎng)絡(luò)底層表達來進行聯(lián)合學(xué)習(xí)。在文獻[39]中,命名實體識別使用NN進行解碼,在RC上加入了依存信息,根據(jù)依存樹最短路徑使用一個BiLSTM來進行關(guān)系分類。文獻[49]將聯(lián)合學(xué)習(xí)的方法用到了生物醫(yī)學(xué)文本中的實體關(guān)系抽取任務(wù)上,在關(guān)系分類時,先將輸入的句子進行依存句法分析,從而構(gòu)建依存句法樹,然后將這種樹狀結(jié)構(gòu)輸入到Bi-LSTM與RNN混合的網(wǎng)絡(luò)中進行關(guān)系分類。文獻[50]提出了一種新的標注策略,可以把聯(lián)合抽取實體和關(guān)系的任務(wù)轉(zhuǎn)換為標注任務(wù),然后使用端到端的神經(jīng)網(wǎng)絡(luò)模型增加了偏置損失函數(shù),增強了相關(guān)實體之間的聯(lián)系,直接得到關(guān)系實體三元組。

      3 網(wǎng)絡(luò)表示學(xué)習(xí)

      數(shù)據(jù)量的爆發(fā)式增長,使得大規(guī)模網(wǎng)絡(luò)圖結(jié)構(gòu)的分析與挖掘引起了越來越多的關(guān)注,網(wǎng)絡(luò)數(shù)據(jù)形式能夠自然且清晰地表達各種物體間的聯(lián)系,同時信息網(wǎng)絡(luò)結(jié)構(gòu)成為人們生活中的一種信息載體和形式。在網(wǎng)絡(luò)圖結(jié)構(gòu)中,包含很多的網(wǎng)絡(luò)節(jié)點以及構(gòu)節(jié)點與節(jié)點之間聯(lián)系的邊緣,每個網(wǎng)絡(luò)節(jié)點和邊緣都會包含豐富的外部信息,例如文本信息等。網(wǎng)絡(luò)結(jié)構(gòu)包含豐富的信息,對網(wǎng)絡(luò)結(jié)構(gòu)分析進行有效的分析與挖掘能夠更深層次發(fā)現(xiàn)大量隱藏的有用信息。

      針對網(wǎng)絡(luò)結(jié)構(gòu)的分析,一個重要的問題就是將網(wǎng)絡(luò)結(jié)構(gòu)信息能夠合理地表示出來?;诰W(wǎng)絡(luò)的表示學(xué)習(xí)是一種降維的方法,希望將一個網(wǎng)絡(luò)中的每一個網(wǎng)絡(luò)節(jié)點映射到一個連續(xù)低維向量空間中,并且在這個低維空間中能夠保持原有的網(wǎng)絡(luò)結(jié)構(gòu)信息或者距離信息不變,從而能夠更好地研究分析復(fù)雜信息網(wǎng)絡(luò)中的節(jié)點間的聯(lián)系,進行后續(xù)任務(wù)。

      網(wǎng)絡(luò)表示學(xué)習(xí)是一種分布式的表示學(xué)習(xí)技術(shù)。傳統(tǒng)的網(wǎng)絡(luò)表示學(xué)習(xí)是對高維數(shù)據(jù)進行降維,主要的方法包括主成分分析[51]、線性判別分析[52]、多維縮放[53]等。局部線性表示[54-55]是一種較為經(jīng)典的方法,一個節(jié)點的表示是根據(jù)它的鄰居節(jié)點的表示的線性組合來近似得到的。拉普拉斯特征映射[56-57]是假設(shè)兩個相連的節(jié)點的表示應(yīng)該相近。Word2vec[58]對網(wǎng)絡(luò)表示學(xué)習(xí)的方法有著非常重要的影響。DeepWalk[59]是受到了Word2vec的啟發(fā),也是第一次將深度學(xué)習(xí)的技術(shù)引入到網(wǎng)絡(luò)表示學(xué)習(xí)領(lǐng)域,先應(yīng)用隨機游走得到一些有序的節(jié)點序列,然后把這些節(jié)點序列使用SkipGram模型得到每個節(jié)點的向量表示。Deepwalk是根據(jù)節(jié)點之間的邊緣進行隨機游走,然后產(chǎn)生節(jié)點序列,但是只是考慮了節(jié)點的一階相似度。因此文獻[60]提出了LINE算法,該方法提出了一階相似度與二階相似度的概念。一階相似度考慮相連的兩個節(jié)點,二階相似度考慮具有共同鄰居節(jié)點的兩個節(jié)點?;谶@兩個相似度,提出了優(yōu)化函數(shù),得到的最優(yōu)化結(jié)果即為每個節(jié)點的向量表示。文獻[61]提出了node2vec算法,該算法是在DeepWalk的基礎(chǔ)上改進了隨機游走的策略,引入了 biased-random walks,具有很好的適應(yīng)性。SDNE[62]是一種基于深層神經(jīng)網(wǎng)絡(luò)的方法,使用深度學(xué)習(xí)模型來捕捉節(jié)點間高度的非線性關(guān)系。節(jié)點本身會包含豐富的文本信息,因此提出TADW算法[63],不僅考慮了網(wǎng)絡(luò)的結(jié)構(gòu)信息,還考慮了節(jié)點產(chǎn)生的文本信息。因此它在矩陣分解的基礎(chǔ)上,將鄰接矩陣進行分解,同時用節(jié)點的文本表示矩陣來進行約束,這種方法在一定程度上能夠解決網(wǎng)絡(luò)結(jié)構(gòu)的稀疏問題。文獻[64]提出了MMDW算法,該算法是基于矩陣分解,從而對網(wǎng)絡(luò)結(jié)構(gòu)進行建模。文獻[65]提出了CENE算法,通過利用結(jié)構(gòu)信息和文本信息學(xué)習(xí)節(jié)點的表示。CANE[66]利用網(wǎng)絡(luò)節(jié)點的文本信息來對節(jié)點之間的關(guān)系進行解釋, 來為網(wǎng)絡(luò)節(jié)點根據(jù)不同的鄰居學(xué)習(xí)上下文相關(guān)的節(jié)點表示。在文獻[67]中,受機器翻譯思想的啟發(fā),從而提出了TransNet模型, 利用平移機制來解決關(guān)系抽取問題。在文獻[68]中,根據(jù)社區(qū)森林模型,提出了一種新穎的基于骨干度的社區(qū)發(fā)現(xiàn)算法,用于發(fā)現(xiàn)真實社交網(wǎng)絡(luò)中的社區(qū)。在文獻[69]中,提出了BIGCLAM算法,是一個可覆蓋社區(qū)發(fā)現(xiàn)算法, 為每個網(wǎng)絡(luò)中的節(jié)點學(xué)習(xí)了一個k維非負向量表示。

      4 結(jié)論

      大數(shù)據(jù)時代的到來,使得各種信息變得更加豐富。這些信息具有跨領(lǐng)域、數(shù)目規(guī)模巨大、更新迭代速度飛快等特點,因而能夠進行數(shù)據(jù)分析以及從數(shù)據(jù)中獲取有效知識。本文闡述了大數(shù)據(jù)分析技術(shù)、信息抽取技術(shù)、網(wǎng)絡(luò)表示學(xué)習(xí)三種技術(shù)的發(fā)展以及現(xiàn)有方法的不足之處。由于中文句法的復(fù)雜性,知識獲取依舊面臨很大的挑戰(zhàn)。

      參考文獻

      [1] GRADVOHL A L S, SENGER H, ARANTES L, et al. Comparing distributed online stream processing systems considering fault tolerance issues[J]. Journal of Emerging Technologies in Web Intelligence,2014, 6(2):174-179.

      [2] WANG G, KOSHY J, SUBRAMANIAN S, et al. Building a replicated logging system with Apache Kafka[J]. Proceedings of the Vldb Endowment, 2015, 8(12):1654-1655.

      [3] FENG T, ZHUANG Z, PAN Y, et al. A memory capacity model for high performing data-filtering applications in Samza framework[C]// IEEE International Conference on Big Data. IEEE, 2015:2600-2605.

      [4] MAJEED F, MAHMOOD M S, IQBAL M. Efficient data streams processing in the real time data warehouse[C]// IEEE International Conference on Computer Science and Information Technology. IEEE, 2010:57-61.

      [5] GOODHOPE K, KOSHY J, KREPS J, et al. Building LinkedIn’s real-time activity data pipeline[Z]. 2012.

      [6] 宗子軒, 諶海云, 吉寧,等. 物聯(lián)網(wǎng)和SCADA系統(tǒng)的發(fā)展、現(xiàn)狀與展望[J]. 物聯(lián)網(wǎng)技術(shù), 2014(12):61-64.

      [7] AMIT S. Introducing the knowledge graph: things, not strings[Z].2012.

      [8] 搜狗百科.知立方[EB/OL].[2018-04-11] http://baike.sogou.com/h66616234.htm.

      [9] WU W, LI H, WANG H, ZHU K Q. Probase: a probabilistic taxonomy for text understanding[C]//Proceedings of the 2012 ACM SIGMOD International Conference on Management of Data, ACM New York, USA, 2012:481-492.

      [10] 百度百科.百度知心[EB/OL].[2018-04-11] http://baike.baidu.com/view/1097128.html.

      [11] BIKEL D M, SCHWARTZ R, WEISCHEDEL R M. An algorithm that learns what’s in a name[J]. Machine Learning, 1999, 34(1-3):211-231.

      [12] BORTHWICK A E. A maximum entropy approach to named entity recognition[D]. New York:New York University, 1999.

      [13] MCCALLUM A, LI W. Early results for named entity recognition with conditional random fields, feature induction and web-enhanced lexicons[C]// Conference on Natural Language Learning at Hlt-Naacl, Association for Computational Linguistics, 2003:188-191.

      [14] LIU X, ZHANG S, WEI F, et al. Recognizing named entities in tweets[C]// Meeting of the Association for Computational Linguistics: Human Language Technologies, 2011:359-367.

      [15] LIN Y F, TSAI T H, CHOU W C, et al. A maximum entropy approach to biomedical named entity recognition[C]// International Conference on Data Mining in Bioinformatics. Springer-Verlag, 2004:56-61.

      [16] WHITELAW C, KEHLENBECK A, PETROVIC N, et al. Web-scale named entity recognition[C]//Proceedings of the 17th ACM Conference on Information and Knowledge Management. New York: ACM, 2008.

      [17] JAIN A, PENNACCHIOTTI M. Open entity extraction from web search query logs[C]//Proceedings of the 23rd International Conference on Linguistics. Stroudsburg, PA: ACL, 2010 :510-518.

      [18] COLLOBERT R, WESTON J, KARLEN M, et al. Natural language processing (almost) from scratch[J]. Journal of Machine Learning Research, 2011, 12(1):2493-2537.

      [19] LAMPLE G, BALLESTEROS M, SUBRAMANIAN S, et al. Neural architectures for named entity recognition[C].Proceedings of the 2016 Conference of the North American Chapter of the Association for Computatuinal Linguistics:Human Language Technologies,2016:260-270.

      [20] CHIU J P C, NICHOLS E. Named entity recognition with bBidirectional LSTM-CNNs[J]. Computer Science, 2015.

      [21] BHARADWAJ A, MORTENSEN D, DYER C, et al. Phonologically aware neural model for named entity recognition in low resource transfer settings[C]// Conference on Empirical Methods in Natural Language Processing, 2016:1462-1472.

      [22] PETERS M E, AMMAR W, BHAGAVATULA C, et al. Semi-supervised sequence tagging with bidirectional language models[J]. 2017.

      [23] YANG Y S, ZHANG M, CHEN W, et al. Adversarial learning for chinese NER from crowd annotations[J]. 2018.

      [24] ZHANG Q, FU J L, LIU X Y, et al. Adaptive co-attention network for named entity recognition in tweets[J]. 2018.

      [25] AGICHTEIN E, GRAVANO L. Snowball : extracting relations from large plain-text collections[C]// ACM Conference on Digital Libraries. ACM, 2000:85-94.

      [26] MICHELE B, CAFARELLA M J, OREN E. Open information extraction from the web[C]//Proceedings of IJCAI’07, 2007:2670-2676.

      [27] BUNESCU R C, MOONEY R J. Subsequence kernels for relation extraction[C]// International Conference on Neural Information Processing Systems. MIT Press, 2005:171-178.

      [28] KAMBHATLA N. Combining lexical, syntactic, and semantic features with maximum entropy models for extracting relations[C]// ACL 2004 on Interactive Poster and Demonstration Sessions. Association for Computational Linguistics, 2004:22.

      [29] MILLER S, FOX H, RAMSHAW L, et al. A novel use of statistical parsing to extract information from text[C]// North American Chapter of the Association for Computational Linguistics Conference, 2000:226-233.

      [30] CULOTTA A, MCCALLUM A, BETZ J. Integrating probabilistic extraction models and data mining to discover relations and patterns in text[C]// Main Conference on Human Language Technology Conference of the North American Chapter of the Association of Computational Linguistics, 2006:296-303.

      [31] MINTZ, MIKIE, STEVEN, et al. Distant supervision for relation extraction without labeled data[C]// Joint Conference of the, Meeting of the ACL and the, International Joint Conference on Natural Language Processing of the Afnlp, Association for Computational Linguistics, 2010:1003-1011.

      [32] YAO L, RIEDEL S, MCCALLUM A. Collective cross-document relation extraction without labelled data[D]. Amherst:University of Massachusetts-Amherst, 2010.

      [33] RIEDEL S, YAO L, MCCALLUM A. Modeling relations and their mentions without labeled text[C]// European Conference on Machine Learning and Knowledge Discovery in Databases. Springer-Verlag, 2010:148-163.

      [34] HOFFMANN R, ZHANBG C, LING X, et al. Knowledge-based weak supervision for information extraction of overlapping relations[C]// Meeting of the Association for Computational Linguistics: Human Language Technologies, 2011:541-550.

      [35] SURDEANU M, TIBSHIRANI J, NALLAPATI R, et al. Multi-instance multi-label learning for relation extraction[C]// Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, 2010:455-465.

      [36] SOCHER R, HUVAL B, MANNING C D, et al. Semantic compositionality through recursive matrix-vector spaces[C]// Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, 2012:1201-1211.

      [37] ZENG D, LIU K, LAI S, et al. Relation classification via convolutional deep neural network[C]//Proceedings of COLING, 2014:2335-2344.

      [38] SANTOS C N D, XIANG B, ZHOU B. Classifying relations by ranking with convolutional neural networks[J]. Computer Science, 2015, 86(86):132-137.

      [39] MIWA M, BANSAL M. End-to-end relation extraction using LSTMs on sequences and tree structures[J]. 2016.

      [40] ZENG D, LIU K, LAI S, et al. Distant supervision for relation extraction via piecewise convolutional neural networks[C]//Proceedings of EMNLP, 2015.

      [41] LIN Y, SHEN S, LIU Z, et al. Neural relation extraction with selective attention over instances[C]// Meeting of the Association for Computational Linguistics, 2016:2124-2133.

      [42] LIN Y, LIU Z, SUN M. Neural relation extraction with multi-lingual attention[C]// Meeting of the Association for Computational Linguistics, 2017:34-43.

      [43] ZENG X, HE S, LIU K, et al. Large scaled relation extraction with reinforcement learning[J]. Relation, 2018, 2: 3.

      [44] JI G, LIU K, HE S, et al. Distant supervision for relation extraction with sentence-level attention and entity descriptions[C]//AAAI, 2017: 3060-3066.

      [45] CAI R, ZHANG X, WANG H. Bidirectional recurrent convolutional neural network for relation classification[C]// Meeting of the Association for Computational Linguistics, 2016:756-765.

      [46] ZHOU P, SHI W, TIAN J, et al. Attention-based bidirectional long short-term memory networks for relation classification[C]// Meeting of the Association for Computational Linguistics, 2016:207-212.

      [47] LI H, BOLLEGALA D, MATSUO Y, et al. Using graph based method to improve bootstrapping relation extraction[J]. 2011, 6609:127-138.

      [48] ZHENG S, HAO Y, LU D, et al. Joint entity and relation extraction based on a hybrid neural network[J]. Neurocomputing, 2017, 257:1-8.

      [49] FEI L, ZHANG M, FU G, et al. A neural joint model for entity and relation extraction from biomedical text[J]. Bmc Bioinformatics, 2017, 18(1):198.

      [50] ZHENG S, WANG F, BAO H, et al. Joint extraction of entities and relations based on a novel tagging scheme[J]. 2017:1227-1236.

      [51] WOLD S, ESBENSEN K, GELADI P. Principal component analysis[J]. Chemometrics & Intelligent Laboratory Systems, 1987, 2(1):37-52.

      [52] IZENMAN A J. Linear discriminant analysis[C]. Modern Multivariate Statistical Techniques, Springer, 2013:237-280.

      [53] WICKELMAIER F. An introduction to mds[Z]. Sound Quality Research Unit, Aalborg University, Denmark, vol. 46, 2003.

      [54] ROWEIS S T, SAUL L K. Nonlinear dimensionality reduction by locally linear embedding[J]. Science, 2000, 290: 2323-2326.

      [55] SAUL L K, ROWEIS S T. An introduction to locally linear embedding[Z]. 2000.

      [56] BELKIN M, NIYOGI P. Laplacian eigenmaps and spectral techniques for embedding and clustering[C]//Proceedings of the 14th International Conference on Neural Information Processing Systems: Natural and Synthetic, Vancouver, 2001. 585-591.

      [57] TANG L, LIU H. Leveraging social media networks for classification[J]. Data Mining & Knowledge Discovery, 2011, 23(3): 447-478.

      [58] MIKOLOV T, SUTSKEVER I, CHEN K, et al. Distributed representations of words and phrases and their compositionality[C]//Advances in Neural Information Processing Systems. 2013: 3111-3119.

      [59] PEROZZI B, Al-RFOU R, SKIENA S. Deepwalk: online learning of social representations[C]//Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, New York, 2014:701-710.

      [60] TANG J, QU M, WANG M, et al. Line: large-scale information network embedding[C]//Proceedings of the 24th International Conference on World Wide Web, Florence, 2015:1067-1077.

      [61] GROVER A, LESKOVEC J. Node2vec: scalable feature learning for networks[C]//Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, San Francisco, 2016:855-864.

      [62] WANG D, CUI P, ZHU W. Structural deep network embedding[C]//Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, San Francisco, 2016:1225-1234.

      [63] YANG C, LIU Z, ZHAO D, et al. Network representation learning with rich text information[C]//Proceedings of the 24th International Conference on Artificial Intelligence, Buenos Aires, 2015:2111-2117.

      [64] TU C C, ZHANG W C, Liu Z Y, et al. Max-margin deepwalk: discriminative learning of network representation[C]//Proceedings of International Joint Conference on Artificial Intelligence (IJCAI), New York, 2016.

      [65] SUN X, GUO J, DING X, et al. A general framework for content-enhanced network representation learning[J]. 2016.

      [66] TU C C, LIU H, LIU Z Y, et al. CANE: context-aware network embedding for relation modeling[C]//Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics, Vancouve, 2017:1722-1731.

      [67] TU C C, ZGANG Z Y, LIU Z Y, et al. TransNet: translation-based network representation learning for social relation extraction[C]//Proceedings of International Joint Conference on Artificial Intelligence (IJCAI), Melbourne, 2017.

      [68] XU Y, XU H, ZHANG D, et al. Finding overlapping community from social networks based on community forest model[J]. Knowledge-Based Systems, 2016, 109:238-255.

      [69] YANG J, LESKOVEC J. Overlapping community detection at scale: a nonnegative matrix factorization approach[C]//Proceedings of the 6th ACM International Conference on Web Search and Data Mining, Rome, 2013:587-596.

      猜你喜歡
      實體文獻節(jié)點
      CM節(jié)點控制在船舶上的應(yīng)用
      Hostile takeovers in China and Japan
      速讀·下旬(2021年11期)2021-10-12 01:10:43
      Analysis of the characteristics of electronic equipment usage distance for common users
      基于AutoCAD的門窗節(jié)點圖快速構(gòu)建
      前海自貿(mào)區(qū):金融服務(wù)實體
      中國外匯(2019年18期)2019-11-25 01:41:54
      Cultural and Religious Context of the Two Ancient Egyptian Stelae An Opening Paragraph
      大東方(2019年12期)2019-10-20 13:12:49
      The Application of the Situational Teaching Method in English Classroom Teaching at Vocational Colleges
      實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
      振興實體經(jīng)濟地方如何“釘釘子”
      兩會進行時:緊扣實體經(jīng)濟“釘釘子”
      海丰县| 牟定县| 老河口市| 离岛区| 潜江市| 新津县| 隆安县| 无为县| 会同县| 南丹县| 杭锦旗| 陇西县| 佛冈县| 蛟河市| 普兰县| 三明市| 德令哈市| 江西省| 同德县| 宿州市| 永泰县| 文山县| 扎兰屯市| 当阳市| 泸西县| 太原市| 海宁市| 万山特区| 商洛市| 承德县| 宝应县| 新兴县| 鄂温| 鄂州市| 皮山县| 中西区| 中牟县| 海淀区| 林西县| 新平| 潞城市|