• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      自然語言處理背景下的“PP〈被〉+VP1+VP2”格式消歧問題再探

      2021-11-24 00:16:30麻廣
      今古文創(chuàng) 2021年45期
      關(guān)鍵詞:消歧歧義

      【摘要】 自然語言處理是近些年來的熱門話題,陸儉明先生提出了計(jì)算機(jī)PP〈被〉+VP1+VP2 這類歧義格式的困境,詹衛(wèi)東先生以此為題做了相應(yīng)的研究。文章在詹衛(wèi)東先生對(duì)PP〈被〉+VP1+VP2的歧義研究的基礎(chǔ)上,做了進(jìn)行進(jìn)一步的延伸:一、挖掘帶否定標(biāo)記的VP與PP〈被〉組合所受的具體限制規(guī)則。二、對(duì)分化為a式和b式以后的進(jìn)一步消歧及“我被他攔住不讓走”問題和“我被砍頭嚇暈了”問題的思考。三、總結(jié)出該格式的消歧流程圖。四、提出該格式消歧中仍待解決的問題。文章對(duì)上述進(jìn)行了細(xì)化研究,并嘗試提出解決方案,以期能對(duì)自然語言處理中的歧義句問題盡微薄之力。

      【關(guān)鍵詞】 歧義;消歧;“被”字短語;動(dòng)詞性短語

      【中圖分類號(hào)】H109? ? ? ? ? ? 【文獻(xiàn)標(biāo)識(shí)碼】A? ? ? ? ? ?【文章編號(hào)】2096-8264(2021)45-0112-03

      自然語言處理是語言學(xué)與計(jì)算機(jī)科學(xué)的交叉學(xué)科,在現(xiàn)代社會(huì)具有很強(qiáng)的現(xiàn)實(shí)意義,當(dāng)今諸多的人工智能系統(tǒng)都要基于機(jī)器對(duì)人類的自然語言的處理,其中自然語言中的歧義句是機(jī)器處理的難題,要解決這樣的難題,就要深度挖掘歧義格式背后的語言學(xué)原理,通過設(shè)立標(biāo)簽、標(biāo)準(zhǔn)等方式,讓機(jī)器正確識(shí)別歧義句。本文所討論的PP〈被〉+VP1+VP2格式就是一個(gè)典型的歧義句格式。

      一、PP〈被〉+VP1+VP2格式的已有研究

      陸儉明(2013)先生的《現(xiàn)代漢語語法教程》[1]提到一組在人看來沒有歧義,但計(jì)算機(jī)會(huì)認(rèn)為有歧義的句子:

      ①他被警察叫去罰了一百塊錢

      ②他被警察叫去寫了一份檢查

      例①的介詞結(jié)構(gòu)一管到底,全句意思是“他被警察叫去,他被罰了一百塊錢”;而例②的介詞結(jié)構(gòu)只管到“叫去”,管不到“寫了一份檢查”。陸儉明先生指出,這樣的句子計(jì)算機(jī)分辨不清,要讓計(jì)算機(jī)分辨清楚,就得將“PP+VP1+VP2”這種結(jié)構(gòu)中PP對(duì)后面動(dòng)詞性詞語管轄的范圍及其條件與規(guī)則進(jìn)行充分、準(zhǔn)確地描寫,并加以形式化,“交給”計(jì)算機(jī)。

      詹衛(wèi)東(1997)據(jù)此撰文《PP〈被〉+VP1+VP2格式歧義的自動(dòng)消解》[2](下文用“文章”代指此文),使用PP〈被〉+VP1+VP2這一格式來敘述,PP〈被〉指“被”加賓語成分形成的介詞短語,下文一般用PP代指PP〈被〉 。文章首先將PP〈被〉+VP1+VP2轉(zhuǎn)化為PP〈被〉能否與VP2組合,也就是“被”字的介詞短語與動(dòng)詞性短語組合有什么限制。凡是能形成PP〈被〉+VP1+VP2構(gòu)式的,經(jīng)過觀察,當(dāng)PP能跟VP2組合的時(shí)候,為a式:[PP+(VP1+VP2)],當(dāng)當(dāng)PP不能跟VP2組合的時(shí)候,為b式:[(PP+VP1)+VP2]。

      另外要說明的是,PP〈被〉+VP1+VP2這一形式可以改寫為N1+被+N2+VP1+VP2,其中N1和N2經(jīng)??梢允÷裕琕P1中的中心動(dòng)詞稱為V1,VP2中的中心動(dòng)詞稱為V2。二者相同,文中主要用前者描述,有必要時(shí)使用后者。

      二、PP〈被〉+VP1+VP2格式分解為兩個(gè)簡(jiǎn)單句的

      具體規(guī)則

      本文將在詹衛(wèi)東(1997)對(duì)PP〈被〉+VP1+VP2的研究的基礎(chǔ)上提出修改和延伸,具體分為五個(gè)部分:句式中帶否定標(biāo)記的VP的限制規(guī)則、a式的分解規(guī)則、b式的分解方法、一種特殊句式的具體消歧討論、PP〈被〉+VP1+VP2句式的消歧流程圖。

      (一)帶否定標(biāo)記的VP與PP〈被〉組合所受的具體限制規(guī)則

      關(guān)于帶否定標(biāo)記的VP與PP〈被〉在哪些情況下可以組合,哪些情況下可以組合,詹文中用到的方法是對(duì)VP的內(nèi)部結(jié)構(gòu)進(jìn)行分類處理方法,分為狀中式,述賓式和其他式的具體情況等,比較籠統(tǒng),缺乏明確的規(guī)則性。

      經(jīng)過語料對(duì)比和語法分析,這里將其總結(jié)為:VP中的中心語被否定標(biāo)記修飾時(shí)①,VP不能與PP〈被〉組合,如:“被小王吃不完”*、“被打不中眼睛”*、“被敵人沒燒光”*,而如果否定標(biāo)記修飾的不是VP的中心語,則不影響PP 〈被〉與VP結(jié)合,如:“被他洗得越發(fā)不干凈了”“他被不會(huì)武術(shù)的人打了”。

      另外,在李雙劍、仇立穎(2017)的“被”字句的否定語序統(tǒng)計(jì)中[3],“不被”和“沒被”有相當(dāng)?shù)臄?shù)量,而“被不”與“被沒”的用法幾乎不存在。綜合起來可以認(rèn)為,PP〈被〉后的VP中不能有與“被”在同一結(jié)構(gòu)層面的否定標(biāo)記,而PP〈被〉中有無否定標(biāo)記并不影響。如“我不被限制”中的“不”屬于PP〈被〉,不需要關(guān)注,需要關(guān)注的是VP中的否定標(biāo)記?!氨徊弧焙汀氨粵]”屬于我們的觀察范圍。在二位先生的語料統(tǒng)計(jì)中,“被沒”未見一例,可以印證我們的觀點(diǎn),即二者不能組合。而“被不”文中只列出了一例:“她就在一個(gè)大雨之夜,冒充自己的父親來跟蕭峰來對(duì)決,結(jié)果被蕭峰不察,由于她會(huì)化妝嘛,蕭峰不察,全力地一掌打往,竟然就把阿朱打死了(《金庸小說中的悲劇愛情》)”。這里的“被蕭峰所不察”首先在現(xiàn)代漢語中屬于非常罕見的用法,有擬古的意味。其次“所不察”不是一個(gè)動(dòng)詞性短語,而是介詞性短語了,并不符合VP的結(jié)構(gòu)。最后,由于需要的結(jié)構(gòu)是PP〈被〉+VP1+VP2,而“被蕭峰所不察”這樣的句子已經(jīng)完結(jié),其中顯然不能再加一個(gè)VP,所以基于這個(gè)目的,在計(jì)算機(jī)遇到PP〈被〉要與同一結(jié)構(gòu)層面的帶否定標(biāo)記的VP組合時(shí),可以直接認(rèn)定這樣的組合是不合法的。

      (二) a式的分解問題

      根據(jù)詹衛(wèi)東(1997)的成果,PP〈被〉+VP1+VP2這一句式最終可以被分為a式:[PP+(VP1+VP2)]和b式:[(PP+VP1)+VP2]。這無疑極大地幫助了計(jì)算機(jī)對(duì)于這一句式的處理,但筆者在觀察中發(fā)現(xiàn),在分成a式和b式之后句子仍有不確定的因素,計(jì)算機(jī)處理起來仍然存在困難。

      所以做一個(gè)延伸,將PP〈被〉+VP1+VP2這一格式分解為兩個(gè)沒有歧義的簡(jiǎn)單句作為最終目的,先看a式,基于分解為簡(jiǎn)單句的規(guī)則不同,有必要將a式分為a1和a2式并將分解規(guī)則列表:

      可以看到,a1和a2句式相同,結(jié)構(gòu)劃分相同,但其中的PP與VP1和VP2組合的能力不同,PP能與VP2組合是a式的必要條件,而能否與VP1組合則決定了a1和a2的劃分,二者在PP〈被〉+VP1+VP2句式分解為兩個(gè)簡(jiǎn)單句時(shí)的規(guī)則有顯著差別。

      a1:1.他被警察/叫去/罰了一百塊錢=他被警察叫去+他被警察罰了一百塊錢

      2.我被老王/攔住/抓個(gè)正著=我被老王攔住+我被抓個(gè)正著

      a2:1.瘋狗被他/拿鐵鏈/拴住了=他拿鐵鏈+瘋狗被他拴住了

      2.我被他/跑過來/打了一拳=他跑過來+我被他打了一拳

      依例句可見,a1與VP1、VP2都能組合,所以在分解的時(shí)候PP可以直接分別組合VP1、VP2。而到了a2式,就不能說“瘋狗被他拿鐵鏈+瘋狗被他拴住”了,因?yàn)檫@里的VP1不能與“被”組合,所以該句在分解的時(shí)候需要變?yōu)椤八∟2)拿鐵鏈(VP1)+瘋狗(N1)被他(N2)拴住了(VP2)”,這是a式分解為兩個(gè)簡(jiǎn)單句時(shí)的一條規(guī)則。

      (三) b式的分解問題

      上面屬于a式的例子都可以分成這樣兩個(gè)沒有歧義的簡(jiǎn)單句,計(jì)算機(jī)處理起來沒有問題。

      而在b式中情況則不同,b式:[(PP+VP1)+VP2]。請(qǐng)看例句,重點(diǎn)關(guān)注括號(hào)中的名詞:

      1.我被警察/叫去/寫了一份檢查=我被警察叫去+(我)寫了一份檢查

      2.我被他/蒙住眼睛/不能看書=我被他蒙住眼睛+(我)不能看書

      3.財(cái)物被他/蒙住/不給看=財(cái)務(wù)被他蒙住+(他)不給看

      4.我被他/攔住/不讓走=我被他攔住+(他)不讓(我)走

      5.我被媽媽/提醒/讓著他點(diǎn)=我被媽媽提醒+(我)讓著他點(diǎn)

      例2和例4是在詹衛(wèi)東先生的余論中提到的兩個(gè)例子,同為b式,但分解式中N的位置不同,文中寫道:“這兩個(gè)例子,似乎連謂后項(xiàng)VP‘讓’跟‘能’的差異是影響語義解釋的主要因素。”繼而全文結(jié)束,沒有提出明確的解決方案。通過觀察,運(yùn)用配價(jià)等理論去尋找一條通用的規(guī)則似乎行不通,這里涉及的主要還是語義問題,所以不妨嘗試前文的方法,給b式中的V2 貼標(biāo)簽。

      如例2,“我被他/蒙住眼睛/不能看書”,給“能”貼標(biāo)簽,當(dāng)“V2=能”時(shí),分解式的第二部分還原為“N1+VP2”,即“我不能看書”。但貼標(biāo)簽時(shí)(與“被”能與哪些動(dòng)詞組合一樣)需要按義項(xiàng)貼標(biāo)簽,如例4和例5,同為“讓”,“讓1”是“允許”義項(xiàng),“讓2”是“讓步”義項(xiàng),分解式就不同。

      例4 ,“我被他/攔住/不讓走”,當(dāng)“讓1=允許”時(shí),分解式的第二部分還原為“N2+讓1+N1+V2”即“他不讓我走”。②

      例5,“我被媽媽/提醒/讓著他點(diǎn)”,當(dāng)“讓2=讓步”時(shí),分解式的第二部分還原為“N1+讓2+Nx”,即“我讓著他點(diǎn)”。

      這樣貼標(biāo)簽的方法可以解決b式的分解問題。

      (四)“我被砍頭嚇暈了”問題

      另有一種詹先生在余論中提到的特殊句式,即當(dāng)VP做PP的賓語時(shí),如“我被砍頭嚇暈了”其本質(zhì)不是PP〈被〉+VP1+VP2格式,而是PP〈被〉+VP格式,但計(jì)算機(jī)不能分辨出來,會(huì)認(rèn)定為仍是PP〈被〉+VP1+VP2格式。

      首先可以知道,這一格式不可能被計(jì)算機(jī)認(rèn)定為b式,因?yàn)槠浔举|(zhì)為PP〈被〉+VP格式,所以其中的VP一定能與PP被組合,在計(jì)算機(jī)判定時(shí),也就是PP一定能與VP2組合,所以這種格式一定為a式。

      由此,順應(yīng)計(jì)算機(jī)將“我被砍頭嚇暈了”認(rèn)定為a1式(VP1和VP2都能與“被”組合)并分解為:我被砍頭+我被嚇暈了。很明顯被砍頭表示“死”,而被嚇暈表示“生”,只要計(jì)算機(jī)能夠具有這樣的兩個(gè)標(biāo)簽并做出二者沖突的判定,就可以將原式按照“Nx被V1+N1被V2”分解,即“某某被砍頭+我被嚇暈了”。③

      如果是被判定為a2式則更簡(jiǎn)單,直接按照上文的格式分解即可,如“我被升旗震撼了”,計(jì)算機(jī)判定為a2式,按照規(guī)則,分解為“我被震撼了+某某升旗”?!拔冶淮蚣車樕盗恕蓖?。

      (五)消歧流程圖

      經(jīng)過以上的調(diào)查研究,計(jì)算機(jī)可以更好地消除PP〈被〉+VP1+VP2格式中計(jì)算機(jī)認(rèn)為的歧義,總結(jié)以上,列出消歧流程圖如下④:

      注:1.N1、N2為PP〈被〉中的名詞,在必要時(shí)PP〈被〉拆分為(N1+被+N2)。

      2.VP1中的中心動(dòng)詞為V1,VP2中的中心動(dòng)詞為V2。

      2.b式分解后的X的具體形式見前文“b式的分解問題”。

      三、余論

      經(jīng)過以上的分析總結(jié),PP〈被〉+VP1+VP2格式的歧義基本可以被計(jì)算機(jī)所消解,不過其中仍然存在待解決之處。

      首先的一個(gè)沒有解決的難題就是“什么樣的VP可以與‘被’組合”,我們暫時(shí)找不到一個(gè)能包含所有特殊形式的規(guī)則,只能按照詹衛(wèi)東文中歸納的來處理,大多數(shù)情況可以正確判定,對(duì)于個(gè)別例外則無能為力。

      其次一個(gè)問題就是,在貼標(biāo)簽的時(shí)候無疑是需要按照義項(xiàng)來進(jìn)行的,然而雖然義項(xiàng)不同,其形式卻相同,如何讓計(jì)算機(jī)識(shí)別使用哪個(gè)義項(xiàng),就存在難點(diǎn)。

      以上是研究中尚未解決的部分,有待于進(jìn)一步的研究。

      注釋:

      ①這里的同一結(jié)構(gòu)層面可以理解為,當(dāng)“不”“沒”等帶有否定標(biāo)記的詞直接修飾VP中的謂語的時(shí)候,二者在同一結(jié)構(gòu)層面,如“被不看了一眼”。當(dāng)“不”“沒”等帶有否定標(biāo)記的詞修飾VP下一層級(jí)的謂語的時(shí)候,二者不在同一結(jié)構(gòu)層面,如“被他洗得越發(fā)不干凈了”。

      ②這里為簡(jiǎn)潔沒有在公式里標(biāo)注“不”和“走”,因?yàn)檫@里的重點(diǎn)在于N1、N2相對(duì)于V2的位置,其他的成分不需要變化。

      ③但如果是“我被打臉嚇哭了”這樣人都只能靠語境消歧的句子,計(jì)算機(jī)自然無法判定如何處理。

      ④流程圖中“PP”即代表“PP〈被〉 ”,V2表示VP2中的中心動(dòng)詞。

      參考文獻(xiàn):

      [1]陸儉明.現(xiàn)代漢語語法教程[M].北京:北京大學(xué)出版社,2013.

      [2]詹衛(wèi)東.PP 〈被〉+VP1+VP2格式歧義的自動(dòng)消解[J].中國語文,1997,(06):424-431

      [3]李雙劍,仇立穎.漢語“把”字句、“被”字句否定式的語序研究[J]海外華文教育,2017,(06).

      作者簡(jiǎn)介:

      麻廣 一,男,吉林永吉人,廣西師范大學(xué)文學(xué)院碩士研究生,主要研究方向?yàn)楝F(xiàn)代漢語和漢語史。

      猜你喜歡
      消歧歧義
      命名實(shí)體消歧研究綜述
      基于關(guān)聯(lián)圖和文本相似度的實(shí)體消歧技術(shù)研究*
      基于半監(jiān)督集成學(xué)習(xí)的詞義消歧
      eUCP條款歧義剖析
      中國外匯(2019年12期)2019-10-10 07:26:58
      藏文歷史文獻(xiàn)識(shí)別過程中藏文自由虛詞的自動(dòng)識(shí)別及消歧算法的研究
      English Jokes: Homonyms
      基于關(guān)聯(lián)理論的歧義消除研究
      “那么大”的語義模糊與歧義分析
      “v+n+n”結(jié)構(gòu)的哈薩克語短語歧義分析與消解
      語言與翻譯(2014年2期)2014-07-12 15:49:13
      基于語言模型的有監(jiān)督詞義消歧模型優(yōu)化研究
      资溪县| 咸阳市| 布拖县| 新邵县| 江油市| 安远县| 鸡西市| 西藏| 二连浩特市| 自贡市| 白河县| 乌什县| 府谷县| 剑川县| 灵寿县| 建瓯市| 德格县| 新郑市| 商丘市| 剑阁县| 南靖县| 灵台县| 都兰县| 仁化县| 施甸县| 保德县| 萍乡市| 凤冈县| 南乐县| 枝江市| 锡林郭勒盟| 廉江市| 阿图什市| 黑龙江省| 房产| 札达县| 成都市| 怀远县| 淳化县| 唐海县| 玛纳斯县|