• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      句法網(wǎng)與語義網(wǎng)的對比研究

      2019-01-22 08:33:46趙懌怡
      中文信息學報 2018年12期
      關鍵詞:虛詞句法語義

      馬 丹,趙懌怡

      (廈門大學 人文學院,福建 廈門 361005)

      0 引言

      語義分析指運用各種方法,學習與理解一段文本所表示的語義內(nèi)容,任何對語言的理解都可以歸為語義分析的范疇。語義分析又可進一步分解為詞匯級語義分析、句子級語義分析及篇章級語義分析[1]。本文主要關注句子級語義分析,句子級語義分析目標是分析整個句子所表達的語義內(nèi)容和語義關系。研究發(fā)現(xiàn),以往的語義分析主要關注句子中的實詞之間的關系,“針對動態(tài)語料的語義依存分析若只考慮論元關系[2],并不能充分實現(xiàn)句法分析到語義分析的轉化,導致句法網(wǎng)絡與語義網(wǎng)絡產(chǎn)生不可解釋的參數(shù)差異?!盵3]因此,本文把虛詞納入語義處理框架,從而實現(xiàn)從句法依存到語義依存的完全轉換,進一步推動句法網(wǎng)絡與語義網(wǎng)絡的對比研究。本文基于同一文本,以詞為單位構建了句法網(wǎng)和語義網(wǎng),試圖從網(wǎng)絡的整體數(shù)據(jù)和網(wǎng)絡的局部節(jié)點討論兩者之間的差異。

      1 語言網(wǎng)絡構建

      句法網(wǎng)絡是基于句法理論構建的語言網(wǎng)絡。句法網(wǎng)絡的構建是句法分析結果的直觀反映。句法分析又可以分為短語結構句法分析和依存句法分析[4]。本文的句法分析依賴于依存關系[5]理論。劉海濤等[6]認為依存句法分析比短語結構句法分析更容易發(fā)現(xiàn)句子中兩詞之間的關系。依存句法分析的前提是建立能夠輸入的依存句法樹庫。本文所用的樹庫是小型百科語料樹庫,采用表格的形式展示(參見表1)。

      表1 依存句法樹庫示例

      表中每一行代表的都是一個依存關系,本文采用的文本,共有1 000個詞,475個依存關系。我們以詞為節(jié)點、依存關系為邊構建語言網(wǎng)絡。

      語義網(wǎng)絡是介于句法和概念網(wǎng)絡的中間層[7],對于語義網(wǎng)絡的特征研究有助于句法和語義之間的轉換研究。語義網(wǎng)絡的研究也是以依存理論為基礎,本文所探討的語義依存理論基于句法依存分析,是句法依存分析朝深度語義理解的進一步發(fā)展,并為構建語義網(wǎng)絡提供理論支撐。不同的是,語義分析一般只對實詞進行分析,不包含虛詞。語義依存分析常常建立在句法依存分析的基礎上,從句法分析到語義分析,虛詞是否應該被保留呢?我們知道虛詞在句子中起著經(jīng)絡的作用[8]。陳芯瑩、劉海濤[9]曾以新聞聯(lián)播和實話實說為語料資源,探究虛詞“的”“了”“在p”在句法網(wǎng)絡中的特征,發(fā)現(xiàn)“的”是網(wǎng)絡的中心節(jié)點;“了”和“在p”是局部網(wǎng)絡節(jié)點去掉三個節(jié)點后,網(wǎng)絡的平均度、網(wǎng)絡密度、最大范圍均有所降低,平均路徑及直徑增加。虛詞在句法網(wǎng)絡中作為中心節(jié)點或者局部中心節(jié)點存在,那么在語義網(wǎng)絡中的作用呢?趙懌怡等[3]在進行語義分析的時候,考慮到副詞“不”會影響語義的表達,進行了保留??梢娞撛~會對語義分析產(chǎn)生影響,把虛詞納入語義分析的范疇,分析虛詞在語義網(wǎng)絡中的地位。

      語義分析離不開詞的分類問題,這里我們主要討論動詞的分類問題。在句法分析中,動詞按形式分為助動詞、系動詞、趨向動詞、不及物動詞、小句賓語、雙賓動詞等。為了滿足語義分析的需要,我們參考陳昌來[10]對動詞的分類及《漢語動詞概述》[11]對動詞進行了語義分類,分別為動作動詞、存在動詞、使令動詞、趨向動詞、心理動詞、能愿動詞、關系動詞、先導動詞。虛詞等的標記參照劉海濤[6]的句法標注體系,因為其與句法分析中的詞類標記保持一致,可以更直觀地分析虛詞在句法網(wǎng)絡和在語義網(wǎng)絡中的地位。語義標注的方法很多,這里不多贅述,本文主要參考陳昌來對語義角色的標注[12-16]、HowNet[17-18]的動態(tài)角色及哈工大LTP[19]的語義角色標注。

      依存關系轉換成語言網(wǎng)絡的方法,本文采用的是軟件Cytoscape[注]http://www.cytoscape.org,它是一個專注于開源網(wǎng)絡可視化分析的平臺,核心是提供基礎的功能分布和網(wǎng)絡查詢,并依靠基本的數(shù)據(jù)形成可視化網(wǎng)絡。它最先應用于生物學領域,顯示分子之間的相互作用[20]。這里我們應用于依存網(wǎng)絡的構建,展現(xiàn)各個語言單位之間的關系。Cytoscape是以兩個節(jié)點(source node,taget node)以及一個關系(interaction)為基礎進行的網(wǎng)絡構建[21],這里支配詞作為源節(jié)點(source node),被支配詞作為(target node)來處理,關系就是兩個詞之間的支配關系。用表1中的支配詞、被支配詞、支配關系,可以轉換成這樣的語義網(wǎng)絡(如圖1 (b)所示)。本文句法關系的確定主要采用劉海濤[6]關于漢語依存關系的描述,利用Cytoscape同樣可以構建如圖1所示的網(wǎng)絡。

      圖1是由12個節(jié)點構成的語義網(wǎng)和句法網(wǎng),箭頭表示各個節(jié)點之間的支配關系,箭頭上標注的是各個節(jié)點之間的依存關系。對比圖1(a)和圖1(b),雖然節(jié)點完全一致,但是由于構造方式的不同,結構存在較大差異,那么網(wǎng)絡的參數(shù)是否也有較大的差異呢?

      圖1 句法網(wǎng)絡和語義網(wǎng)絡

      2 分析結果對比

      我們以依存關系為邊、詞為節(jié)點,用Cytoscape軟件構建了句法網(wǎng)和語義網(wǎng)。根據(jù)Cytoscape的數(shù)據(jù)對網(wǎng)絡進行整體分析。這里,為了更清晰地看到節(jié)點之間的依存關系, 我們采 用的是有向網(wǎng)絡的分析方法。語言網(wǎng)絡的對比主要從聚集系數(shù)[7]、最短路徑[22]、平均相鄰節(jié)點數(shù)、網(wǎng)絡的層級性[23]等方面進行考察,結果如表2所示。

      表2 網(wǎng)絡整體數(shù)據(jù)對比分析

      聚集系數(shù)C(clustering coefficient)是一種用來衡量網(wǎng)絡聚類傾向或小集群形態(tài)的指標,設網(wǎng)絡節(jié)點i有k條邊和其他節(jié)點相連,那么該節(jié)點與這Ki個節(jié)點構成了一個子網(wǎng)絡(集群)。而K條邊連接的節(jié)點(k個)之間最多可能存在的邊的條數(shù)為k(k-1)/2。如果將Ei看作是ki個節(jié)點之間實際存在的邊數(shù),那么Ei和Ki最多可有的邊數(shù)之比就是節(jié)點i的聚集系數(shù)Ci,如式(1)所示。

      那么整個網(wǎng)絡的聚集系數(shù)C就是所有節(jié)點聚集系數(shù)Ci的平均值,如式(2)所示。

      聚集系數(shù)是衡量網(wǎng)絡集團化程度的標準,聚集系數(shù)越高說明各個節(jié)點之間的聯(lián)系越緊密。由表2我們可以知道: 句法網(wǎng)的聚集系數(shù)比語義網(wǎng)高,直徑比語義網(wǎng)的直徑小。

      最短路徑d指的是網(wǎng)絡中任意兩點的最短路徑,這里Cytoscape給出的是任意兩個節(jié)點之間的最短路徑數(shù)和最短路徑在總路徑中的百分比。句法網(wǎng)的最短路徑數(shù)占35%,語義網(wǎng)的最短路徑數(shù)占27%。

      特征路徑長度(平均路徑長度)cpl指任意兩個節(jié)點的距離的平均值。設兩個任意節(jié)點分別是i、j,這兩個任意節(jié)點之間的距離為dij,網(wǎng)絡的節(jié)點數(shù)為N,則:

      特征路徑的長度與節(jié)點之間的距離有關系,無向網(wǎng)絡節(jié)點之間的距離就是兩點之間最短路徑所包含的連線數(shù),有向網(wǎng)絡節(jié)點之間的距離是一個節(jié)點指向另外一個節(jié)點之間的距離,并且在相反方向上距離不同。若把網(wǎng)絡看作有向網(wǎng)絡,那我們發(fā)現(xiàn)語義網(wǎng)的特征路徑長度遠大于句法網(wǎng)。

      “網(wǎng)絡的層級結構,可以用網(wǎng)絡的聚集系數(shù)和節(jié)點度的相關性來表示,這種相關性C(k)表示的是度為k的所有節(jié)點的平均聚集系數(shù)”[7],計算如式(4)所示。

      其中Nk為節(jié)點度為k的所有節(jié)點總數(shù),δki,kj為克羅內(nèi)克符號(Kronecker),當ki=kj的時候,即任意兩個節(jié)點i,j的節(jié)點度相同,那么克羅內(nèi)克符號的值就是1,當ki≠kj時,即兩個節(jié)點的節(jié)點度不同的時候,那么符號的值就是0(不執(zhí)行求和)。在許多真實的網(wǎng)絡中,如果節(jié)點度k變大,節(jié)點聚集系數(shù)C(k)按照冪率衰減,那就說明網(wǎng)絡的層級性比較明顯,即低節(jié)點度節(jié)點,其鄰節(jié)點互聯(lián)的概率較大,而高節(jié)點度的節(jié)點,其鄰節(jié)點互聯(lián)概率較小,如圖2所示。下面我們通過數(shù)據(jù)的計算對比句法網(wǎng)和語義網(wǎng)層級性明顯程度的差異。

      圖2 句法網(wǎng)與語義網(wǎng)節(jié)點度與聚集系數(shù)的相關性

      圖中,橫軸表示節(jié)點的度(k),句法網(wǎng)中節(jié)點最高的度為94,語義網(wǎng)中節(jié)點最高的度也是94,我們把最大節(jié)點度設為100??v軸表示平均聚集系數(shù),計算方法為節(jié)點度相同的節(jié)點聚集系數(shù)的和/這些節(jié)點的個數(shù)。圖中的擬合線表示圖表的整體趨勢,即是節(jié)點度k與節(jié)點度為k的平均聚集系數(shù)的相關性。

      句法網(wǎng)和語義網(wǎng)點度與聚集系數(shù)之間的相關性都不是特別明顯,但是兩者的相關性一致。劉海濤[7]曾在統(tǒng)計語義網(wǎng)中節(jié)點度與聚集系數(shù)的相關性時發(fā)現(xiàn),節(jié)點度為1的節(jié)點可能是導致網(wǎng)絡層級性差的原因。虛詞進入語義網(wǎng)絡以后,語義網(wǎng)和句法網(wǎng)的層級性保持一致,可能是因為虛詞的存在增強了語義網(wǎng)絡的層級性。

      節(jié)點的相關性表示一個節(jié)點的度與其相鄰的節(jié)點度之間的相關性,我們可以用平均相鄰節(jié)點度(K-Nearest Neighbor,KNN)來衡量網(wǎng)絡節(jié)點之間的相關性。一般來說,如果在一個網(wǎng)絡中,節(jié)點度數(shù)大(小)的節(jié)點常常與節(jié)點度數(shù)大(小)的節(jié)點連接,那么我們認為這個網(wǎng)絡是正相關(assortativity)。相反,如果節(jié)點度大(小)的節(jié)點常常與節(jié)點度數(shù)小(大)的節(jié)點連接,那么這個網(wǎng)絡就是負相關(disassortativity)[20]。

      我們可以選擇一個節(jié)點度為k的節(jié)點,然后統(tǒng)計這個節(jié)點與其相鄰節(jié)點之間的相關性,如果隨著k的變大,相鄰的節(jié)點度也變大,則表明這個網(wǎng)絡是正相關的;如果隨著k的變大,相鄰的節(jié)點度變小,則表明這個網(wǎng)絡是負相關的;如果擬合線的斜率傾向于0,則表示網(wǎng)絡的節(jié)點間缺乏相關性。為了統(tǒng)計的方便,我們以節(jié)點度k為橫軸,鄰居節(jié)點的聯(lián)通度為縱軸。鄰居節(jié)點的聯(lián)通度可以用Cytoscape中對節(jié)點的鄰居節(jié)點的平均度(neighborhood connectivity)進行統(tǒng)計,圖中標記為NC,如圖3所示。

      圖3 句法網(wǎng)和語義網(wǎng)節(jié)點度相關性

      句法網(wǎng)中擬合線的斜率為-0.13,這說明句法網(wǎng)中的節(jié)點與相鄰節(jié)點的聯(lián)通度成負相關的關系,語義網(wǎng)擬合線的斜率接近于0,節(jié)點之間的相關性并不明顯。在句法網(wǎng)中,實詞和虛詞之間的關系緊密,節(jié)點與節(jié)點之間反映的是實詞與虛詞之間的關系。語義網(wǎng)中,虛詞只能充當被支配詞,節(jié)點與鄰居節(jié)點的相關性不強。我們有理由推斷虛詞是造成網(wǎng)絡相關性差異的原因。

      通過對網(wǎng)絡整體性參數(shù)的對比分析,我們發(fā)現(xiàn)語義網(wǎng)和句法網(wǎng)在聚集系數(shù)、最短路徑長度、節(jié)點度的相關性都存在著差異,這說明網(wǎng)絡構造方法的不同會對參數(shù)產(chǎn)生影響。

      節(jié)點度是一個節(jié)點所擁有的連線(依存關系)的數(shù)量,如果把網(wǎng)絡看作是一個簡單無向圖,那么節(jié)點的度就是與其相鄰的節(jié)點的數(shù)量。一個節(jié)點的度就是對其領域的規(guī)模的大小的一種測量。高節(jié)點度的節(jié)點往往位于網(wǎng)絡的中心或者局部網(wǎng)絡的中心。陳芯瑩、劉海濤[9]發(fā)現(xiàn)虛詞“的”“了”“過”等虛詞可能是句法網(wǎng)絡的中心節(jié)點,那么這些虛詞在語義網(wǎng)中是否也可能是中心節(jié)點呢?

      節(jié)點的聚集系數(shù)(云集系數(shù))表示在該節(jié)點的鄰點中,直接相連的鄰點對占所有鄰點對的比例。它是衡量該節(jié)點與相鄰節(jié)點之間的連通程度、反映節(jié)點之間關系的緊密度的參數(shù)。中介中心度(betweenness centrality)指在網(wǎng)絡中所有節(jié)點之間的測地線[注]無向網(wǎng)絡中,兩個節(jié)點之間的距離,就是兩點之間最短路徑所含的連線數(shù)。平均最短路徑又稱測地線。中,經(jīng)過該節(jié)點的測地線所占的比例。一個節(jié)點在網(wǎng)絡中起到多大的“中間”的作用就代表著這個節(jié)點在網(wǎng)絡中占著多中心的位置。一個節(jié)點度不高的節(jié)點也可能因為起著中介作用而成為網(wǎng)絡中心或者局部中心。中介中心度和接近中心度都是用來測算節(jié)點在網(wǎng)絡中的整體中心度。接近中心度(closeness centrality)指的是其他節(jié)點數(shù)除以該節(jié)點與其他節(jié)點的距離之和??偩嚯x越大,接近度的值就越小。

      在表3 中,句法網(wǎng)中 “的”的聚集系數(shù)、中介中心度均比語義網(wǎng)高,說明“的”的中心地位在句法網(wǎng)中更為明顯。但值得一提的是 “的”在語義網(wǎng)中雖然不起“中間”作用,但是接近中心度與句法網(wǎng)基本持平,平均路徑也很短,我們有理由認為“的”在語義網(wǎng)中的中心地位比較突出。

      “和”作為連詞出現(xiàn)在兩個網(wǎng)絡中,節(jié)點度、接近中心度較高,平均路徑長比較短,這說明“和”很有可能作為局部中心節(jié)點存在?!昂汀痹趦蓚€網(wǎng)絡中的參數(shù)基本保持一致性, 這說明“和”在網(wǎng)絡中的地位并不受網(wǎng)絡構建方式的影響。

      表3 句法網(wǎng)和語義網(wǎng)中高節(jié)點度節(jié)點參數(shù)分析

      量詞“個”在語義網(wǎng)和在句法網(wǎng)中,地位大體相同。在句法網(wǎng)中中介中心度比較高,這說明在句法網(wǎng)絡中,“個”的“中間”作用更為突出。從平均路徑上看,兩個網(wǎng)絡中“個”的平均路徑都很短,這說明“個”可能是處在網(wǎng)絡中心附近的節(jié)點。

      “是”在兩個網(wǎng)絡中都具有很高的點度、入度和出度,聚集系數(shù)也較高,這說明“是”在兩個網(wǎng)絡中的地位重要,并且與鄰居節(jié)點的連通性很好。但是兩個網(wǎng)絡中“是”的接近中心度都很小,平均路徑也很長,這說明“是”不可能處于網(wǎng)絡的中心節(jié)點,可能作為局部中心節(jié)點存在。

      為了驗證節(jié)點在網(wǎng)絡中的地位,我們統(tǒng)計了觀察剔除節(jié)點以后網(wǎng)絡特征的變化。這里主要從平均度(average degree)、網(wǎng)絡的中心度(network centralization)、特征路徑長度(characteristic path length)、孤立節(jié)點數(shù)(isolated nodes)幾個方面討論。

      平均度指的是每個節(jié)點平均具有的節(jié)點度數(shù)。計算方法是各個節(jié)點的度數(shù)之和與節(jié)點數(shù)之比。

      網(wǎng)絡中心度指整個網(wǎng)絡的中心化程度,中心度在各個節(jié)點之間的差異越大,網(wǎng)絡就越中心化,也就是說節(jié)點中心度的差異越大,網(wǎng)絡的中心化程度就越高。

      特征路徑長度又叫平均路徑長度,指任意兩點之間的平均最短路徑,計算方法見式(3)。

      孤立節(jié)點指的是節(jié)點度為0的節(jié)點。這里是去節(jié)點之后產(chǎn)生的孤立節(jié)點。去節(jié)點之后的網(wǎng)絡參數(shù)如表4所示。

      表4 顯示,去掉“的”之后的,句法網(wǎng)和語義網(wǎng)的平均度、 中心度明顯下降, 特征路徑長度變長,產(chǎn)生了8個孤立節(jié)點。去“的”之后,語義網(wǎng)絡的中心度變小了,但是變化程度遠遠低于句法網(wǎng)去“的”之后。原因是“的”在句法網(wǎng)中接近中心度更高,去掉之后,各個節(jié)點之間的差異性會變小,但是在語義網(wǎng)中,“的”的接近中心度不高,對各個節(jié)點之間的差異影響不大?!暗摹比サ糁?,語義網(wǎng)的特征路徑變長,中心度降低,這說明“的”在語義網(wǎng)中雖然不占據(jù)中心位置,但仍然與其他節(jié)點保持著聯(lián)系。去掉虛詞“的”導致語義網(wǎng)的參數(shù)發(fā)生了變化,這說明“的”在語義網(wǎng)中的重要作用。

      表4 去節(jié)點之后網(wǎng)絡參數(shù)分析

      去掉“是”之后,兩個網(wǎng)絡的平均度、中心度和密度均降低了,平均路徑都增加了,網(wǎng)絡直徑都保持不變,孤立節(jié)點數(shù)都是5。節(jié)點“是”在句法網(wǎng)中的中心度降低了0.4%,語義網(wǎng)中降低了1%,這說明去掉“是”以后,語義網(wǎng)中節(jié)點之間的差異在語義網(wǎng)中變得更小,“是”在語義關系連接中具有更強的中心節(jié)點功能,這很可能說明節(jié)點“是”在語義網(wǎng)中比在句法網(wǎng)中更占據(jù)中心的位置。當然,這需要用更大的數(shù)據(jù)庫來驗證。

      剔除節(jié)點“和”之后,兩個網(wǎng)絡的中心度都變大,句法網(wǎng)中增大幅度為0.4%,語義網(wǎng)增大了1%,網(wǎng)絡的中心度變大,說明“和”在兩個網(wǎng)絡中都不處于中心節(jié)點的位置,但是節(jié)點“和”在語義網(wǎng)中的重要性要弱于句法網(wǎng)。

      去“個”之后,兩個網(wǎng)絡的平均度下降,中心度和特征路徑長度均變大,產(chǎn)生了兩個孤立節(jié)點。網(wǎng)絡的中心度表示的是網(wǎng)絡中各個節(jié)點之間的差異程度,差異越大,中心度越高。去掉“個”之后中心度變大,說明網(wǎng)絡節(jié)點之間的差異變大,網(wǎng)絡的集中度變高,也就是“個”在兩個網(wǎng)絡中的存在影響了網(wǎng)絡的集中度。

      3 總結

      把虛詞納入語義分析的范疇,用同一文本構建語言網(wǎng)絡,是從句法依存分析到語義理解的進一步發(fā)展。虛詞只具有功能性意義,但是卻會對語義分析產(chǎn)生影響。通過對語義網(wǎng)和句法網(wǎng)的參數(shù)分析發(fā)現(xiàn),虛詞“的”“個”“和”在語義網(wǎng)中具有同樣重要的地位。本文研究的意義在于討論虛詞在語義網(wǎng)中的地位,初步研究句法到語義完全轉換。接下來本研究還會在此基礎上進一步擴大語料,探究更多虛詞在語義網(wǎng)中的作用。本文在建立包含虛詞的語義處理框架之后,對網(wǎng)絡進行了對比分析,以求進一步推動從句法到語義之間的完全轉換研究。

      猜你喜歡
      虛詞句法語義
      句法與句意(外一篇)
      中華詩詞(2021年3期)2021-12-31 08:07:22
      述謂結構與英語句法配置
      語言與語義
      基于混合策略的藏文虛詞識別方法
      句法二題
      中華詩詞(2018年3期)2018-08-01 06:40:40
      詩詞聯(lián)句句法梳理
      中華詩詞(2018年11期)2018-03-26 06:41:32
      Note from the Editor-in-Chief
      “上”與“下”語義的不對稱性及其認知闡釋
      認知范疇模糊與語義模糊
      虛詞功能的羨余及其修辭作用
      當代修辭學(2011年6期)2011-01-29 02:49:48
      六安市| 临西县| 融水| 光山县| 韶山市| 武义县| 富川| 宽甸| 云霄县| 洛南县| 贵定县| 饶平县| 日土县| 松桃| 霍林郭勒市| 东乌珠穆沁旗| 吉首市| 荔波县| 京山县| 古丈县| 西华县| 晴隆县| 新津县| 楚雄市| 莱阳市| 郧西县| 泗水县| 阿拉善左旗| 探索| 龙陵县| 岚皋县| 香河县| 迁西县| 铜山县| 将乐县| 阿巴嘎旗| 五家渠市| 库伦旗| 新闻| 青海省| 崇文区|