• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      話語標(biāo)記的信息處理研究:現(xiàn)狀與設(shè)想

      2015-10-19 08:32:13姚雙云
      武陵學(xué)刊 2015年1期
      關(guān)鍵詞:語料語料庫話語

      姚雙云

      (華中師范大學(xué) 語言與語言教育研究中心,湖北 武漢 430079)

      ◇漢語信息化研究◇

      話語標(biāo)記的信息處理研究:現(xiàn)狀與設(shè)想

      姚雙云

      (華中師范大學(xué) 語言與語言教育研究中心,湖北 武漢 430079)

      話語標(biāo)記對會(huì)話結(jié)構(gòu)的分析、話語行為的識(shí)別、會(huì)話含義的理解等具有重要作用,在口語的信息處理中扮演著關(guān)鍵的角色,開展話語標(biāo)記的信息處理研究具有重要的理論意義與應(yīng)用價(jià)值。在漢語話語標(biāo)記的信息化本體研究整體較為薄弱、應(yīng)用研究尚未起步的情況下,建設(shè)包含多種次級(jí)類型語料的口語語料庫和包含多層信息的話語標(biāo)記詞庫是亟待開展的兩個(gè)重要的基礎(chǔ)性工作,其能有效推進(jìn)漢語話語標(biāo)記信息處理研究的進(jìn)程。

      話語標(biāo)記;信息處理;口語語料庫;話語標(biāo)記詞庫

      前言

      話語標(biāo)記(discoursemarker)是一種用來標(biāo)示話語連貫、傳遞話語互動(dòng)信息和人際功能信息的語言范疇。這類范疇能夠直接反映話語內(nèi)部之間的序列關(guān)系,是理解話語結(jié)構(gòu)及其人際功能的關(guān)鍵線索,因此它們對計(jì)算機(jī)自動(dòng)分析會(huì)話結(jié)構(gòu)、識(shí)別對話行為、理解會(huì)話含義具有重要作用。話語標(biāo)記的信息處理可廣泛運(yùn)用于語音識(shí)別、語言理解、信息提取、語言合成、智能問答、機(jī)器翻譯、自動(dòng)文摘等領(lǐng)域,尤其是在自然語言合成中,話語標(biāo)記扮演著關(guān)鍵的角色。正如Ramsay所言:“較之于語言分析系統(tǒng),一個(gè)令人滿意的話語各部分關(guān)系的處理方式對語言生成系統(tǒng)來說更為重要”[1]129,Ramsay所說的話語關(guān)系很大一部分是通過話語標(biāo)記顯示出來的。值得注意的是,盡管話語標(biāo)記在自然語言處理中地位重要,但是目前這方面的研究卻相當(dāng)薄弱。Heeman&Allen指出:“許多研究者注意到話語標(biāo)記在決定話語結(jié)構(gòu)中的重要性,但是真正識(shí)別話語標(biāo)記的研究并不多?!盵2]據(jù)筆者的調(diào)查,面向信息處理的話語標(biāo)記研究在英語、德語等語言中已開展了一些實(shí)質(zhì)性并富有成效的工作,但漢語中此類研究嚴(yán)重滯后。有鑒于此,本文擬對該領(lǐng)域的研究做一個(gè)簡要的回顧,并結(jié)合筆者主持課題的前期研究談兩點(diǎn)認(rèn)識(shí)。

      一、話語標(biāo)記的內(nèi)涵、分類與功能

      1.話語標(biāo)記的內(nèi)涵。學(xué)界對話語標(biāo)記的內(nèi)涵尚未達(dá)成一致觀點(diǎn)。Shiffrin認(rèn)為,話語標(biāo)記是通過其句法屬性、語義屬性以及在始發(fā)或終結(jié)位置切分話語單位的序列關(guān)系來標(biāo)記話語單位關(guān)系的語言成分、副語言成分或非言語成分[3]。Fraser認(rèn)為,話語標(biāo)記指用以標(biāo)示當(dāng)前話語和前述話語之間的序列關(guān)系,以及用作建構(gòu)語篇的詞或短語[4]。Jucker&Smith指出話語標(biāo)記是在話語中不影響句子的真值條件意義,只表達(dá)說話人態(tài)度或程序性意義的語言成分[5]。何自然、冉永平主張,話語標(biāo)記指書面交際和口語交際中表示話語結(jié)構(gòu)以及連貫關(guān)系、語用關(guān)系等的所有表達(dá)式[6]。許家金認(rèn)為,話語標(biāo)記主要是指出現(xiàn)在現(xiàn)場即席話語中,用以標(biāo)記話語連貫、傳遞話語互動(dòng)信息的語言及非語言手段[7]。

      正是由于學(xué)術(shù)背景與研究出發(fā)點(diǎn)的不同,研究者對話語標(biāo)記的認(rèn)識(shí)也存在分歧,以致所用術(shù)語也不盡相同。一般文獻(xiàn)中,與話語標(biāo)記內(nèi)涵相同或大體一致的術(shù)語有:語用標(biāo)記、話語小品詞、語用詞、語用小品詞、話語聯(lián)系詞、話語標(biāo)記裝置、話語操作語、語用操作語、連貫指示詞、句子聯(lián)系詞等。眾多的術(shù)語中,話語標(biāo)記的使用最廣泛。

      話語標(biāo)記在術(shù)語上的混亂,看似是關(guān)乎名稱的問題,實(shí)則反映了對話語標(biāo)記內(nèi)涵與定義上認(rèn)識(shí)的模糊性。因此,有必要厘清它們之間的差異。比如,話語標(biāo)記與話語聯(lián)系詞(discourseconnectives)是有區(qū)別的兩類范疇,不應(yīng)同等對待。話語聯(lián)系詞的主要特征之一是它們經(jīng)常關(guān)聯(lián)話語中諸如事件、狀態(tài)或者命題的兩個(gè)不同的抽象客體[8],而話語標(biāo)記管轄的范圍僅為一個(gè)抽象的客體。例如“因?yàn)?、但是、所以”在關(guān)聯(lián)兩個(gè)不同的事件、狀態(tài)或者命題,連接分句或者句子時(shí),它們表達(dá)的是真值意義,屬于連詞。但在口語互動(dòng)中,部分成員語義虛化了,不表真值概念意義,不用于連接不同的事件、狀態(tài)或者命題,只用來表程序性意義,這種情形當(dāng)屬話語標(biāo)記。

      2.話語標(biāo)記的分類。Fraser將話語標(biāo)記分為“關(guān)聯(lián)信息”和“關(guān)聯(lián)主題”兩大類型。前者聯(lián)結(jié)S2與S1語段,其中S2語段是S1語段中相關(guān)部分的外顯性解釋;后者將S2的主題與S1的主題聯(lián)系起來[9]。按照Fraser的分類標(biāo)準(zhǔn),連接詞屬于關(guān)聯(lián)話語信息類話語標(biāo)記,其內(nèi)部又可進(jìn)一步細(xì)分。冉永平認(rèn)為,話語標(biāo)記包括連詞、副詞、感嘆詞以及某些短語或小句,它們不傳遞命題意義或語義意義,不構(gòu)成話語的語義內(nèi)容,但是為會(huì)話提供信息標(biāo)記,從而產(chǎn)生對話語理解起引導(dǎo)作用的程序性意義[10]。劉麗艷認(rèn)為,話語標(biāo)記可從多個(gè)角度進(jìn)行分類。從形式上可分為“非詞匯形式話語標(biāo)記”與“詞匯形式話語標(biāo)記”兩類。從對語境的依存關(guān)系可分為“依存性話語標(biāo)記”“弱依存性話語標(biāo)記”和“非依存性話語標(biāo)記”三類。此外,她還提出了功能上的分類[11]。以上分類,不管哪種類型,本質(zhì)上都可以歸納為形式、語義或功能的標(biāo)準(zhǔn)。

      3.話語標(biāo)記的功能。話語標(biāo)記的功能一直是研究者特別關(guān)注的議題。stman認(rèn)為話語標(biāo)記有三種功能:話語標(biāo)記和組織;相互應(yīng)對性標(biāo)記;態(tài)度標(biāo)記[12]。Hlker指出話語標(biāo)記的功能主要體現(xiàn)在以下四個(gè)方面:不影響話語的真值條件;不增加話語的命題內(nèi)容;與說話當(dāng)時(shí)的情景有關(guān),但與被論及的情景無關(guān);具有一定的情感功能或表達(dá)功能,不具備指稱、外延或認(rèn)知功能[13]。

      Schiffri強(qiáng)調(diào)的主要是話語標(biāo)記的“增加話語連貫性”的功能[3]。Fraser也認(rèn)為話語標(biāo)記主要表示當(dāng)前話語與前一話語之間的某種聯(lián)系,程序性意義是其核心意義,即引導(dǎo)聽話者對前后話語關(guān)系的識(shí)別與理解,為話語理解提供方向,而不是為了表達(dá)語義內(nèi)容或命題意義[9]。Risselada&Spooren認(rèn)為話語標(biāo)記的主要作用就是促進(jìn)聽話者對語句之間、交際情景中各種因素之間連貫關(guān)系的理解過程[14]。Lenk主張?jiān)捳Z標(biāo)記是一種連貫指示語,話語標(biāo)記不僅具有局部的連貫功能,而且還具有宏觀的連貫功能[15]。Blakemore從關(guān)聯(lián)理論出發(fā),認(rèn)為話語標(biāo)記的使用是為了實(shí)現(xiàn)“最佳關(guān)聯(lián)”,說話者通過話語標(biāo)記引導(dǎo)或制約聽話者對話語的理解,幫助聽話人以最小的代價(jià)獲取話語與認(rèn)知語境之間的最佳關(guān)聯(lián)[16]。Rouchota則認(rèn)為話語標(biāo)記連接話語與語境,制約聽話者的推理過程[17]。另外,VanDijk認(rèn)為話語標(biāo)記的作用是將單個(gè)的言語行為組合成更大的話語單位,乃至于話語,從而實(shí)施其交際功能[18]。Holmes則認(rèn)為話語標(biāo)記語的作用是限制和調(diào)節(jié)話語層面上言語行為的施事語力,以完成話語的交際意圖[19]。劉麗艷指出,話語標(biāo)記具有三種元語用功能,即語篇組織功能、語境順應(yīng)功能和人際互動(dòng)功能[11]。筆者對話語標(biāo)記的功能進(jìn)行了細(xì)化,歸納為話語連貫、話輪構(gòu)建、話題組織、立場表達(dá)四種功能[20]。

      Fischer&Brandt-Pook從自然語言處理的角度概括了話語標(biāo)記的功能,認(rèn)為話語標(biāo)記可以標(biāo)志主題的中斷,進(jìn)而使會(huì)話宏觀結(jié)構(gòu)的組織對聽話人來說清晰可辨;它們暗示當(dāng)前話語與前述話語的關(guān)聯(lián)性,它們表明信息轉(zhuǎn)移是否成功以及信息通道是否通暢。當(dāng)出現(xiàn)言語管理問題時(shí),它們可以為形式化的處理提供支持[21]。

      二、話語標(biāo)記信息處理的研究現(xiàn)狀

      關(guān)于話語標(biāo)記的信息處理,國內(nèi)的研究較為滯后。查檢CNKI期刊網(wǎng),該領(lǐng)域以話語標(biāo)記為篇名公開發(fā)表的論文只有闞明剛的1篇①。若算上關(guān)聯(lián)詞(復(fù)句關(guān)系詞)的信息處理也只有數(shù)十篇。

      國外話語標(biāo)記的信息處理頗受計(jì)算語言學(xué)界的重視。除了知名國際刊物發(fā)表了系列有影響的論文之外,該議題也受到了國際學(xué)術(shù)會(huì)議的親睞。1998年8月8日-14日,在加拿大蒙特利爾召開了Coling-ACL'98國際學(xué)術(shù)會(huì)議,8月15日-16日舉辦的“話語聯(lián)系語與話語標(biāo)記”研討會(huì)作為此次國際會(huì)議后續(xù)研討會(huì)的十二項(xiàng)主題之一。內(nèi)容涉及話語標(biāo)記的確認(rèn)、自然語言生成、科技語體中的元話語標(biāo)記、機(jī)器學(xué)習(xí)中的話語標(biāo)記選擇、話語標(biāo)記與話語的聯(lián)系等[22]。從現(xiàn)有的成果來看,國外對話語標(biāo)記的信息處理研究成果有三大類型:

      1.基于修辭結(jié)構(gòu)理論(RST)的話語分析。修辭結(jié)構(gòu)理論是美國學(xué)者M(jìn)ann&Thompson(1988)在系統(tǒng)功能理論框架下創(chuàng)立的關(guān)于篇章生成和分析的理論②。其創(chuàng)立的最初目的是為設(shè)計(jì)具有一定語篇“創(chuàng)作”能力的計(jì)算機(jī)程序提供理論依據(jù)。目前,基于該理論建成的篇章結(jié)構(gòu)標(biāo)注語料庫由美國南加州大學(xué)信息科學(xué)學(xué)院課題組完成,包含300多篇文章,是一個(gè)帶多層語言學(xué)標(biāo)注信息的篇章語料庫。

      其他代表性的成果有:Marcu的專著《話語分析與文摘的理論與實(shí)踐》以修辭結(jié)構(gòu)理論為基礎(chǔ),對話語標(biāo)記在語篇分析與文摘中的作用作了深入研究③。此前,Marcu利用決策樹模型訓(xùn)練90篇標(biāo)注文本語料,設(shè)計(jì)了基于修辭結(jié)構(gòu)理論的話語分析器④。Soricut&Marcut對基本話語單元和話語樹結(jié)構(gòu)進(jìn)行了改進(jìn),從隨機(jī)概率模型的詞匯化句法樹中抽取可以利用的特征,該模型對話語標(biāo)記等語篇結(jié)構(gòu)信息進(jìn)行了人工標(biāo)注,提高了分析的準(zhǔn)確率⑤。Marcu& Echihabi選擇了四種修辭關(guān)系并利用帶有模糊的話語標(biāo)記標(biāo)示語義關(guān)系的大量例句建立了一個(gè)語料庫,把話語標(biāo)記和小句結(jié)構(gòu)作為自動(dòng)抽取的線索⑥。Carlsonetal.借助標(biāo)注語料庫來分析話語的修辭關(guān)系⑦。Sporleder&Lascarides利用對比、因果、解釋、總結(jié)和連貫五種語義關(guān)系,借助新聞?wù)Z料來研究話語的自動(dòng)抽?、?。類似的研究還有Reitter、Hutchinson等⑨。

      2.話語標(biāo)記的歧義消解與自動(dòng)識(shí)別研究。話語標(biāo)記的歧義消解與自動(dòng)識(shí)別是互為聯(lián)系的兩個(gè)方面,該方向也頗受重視。Hirschberg&Litman利用話語標(biāo)記的拼寫環(huán)境來對話語標(biāo)記進(jìn)行歧義消解⑩。Litman采用機(jī)器學(xué)習(xí)的方法來改善對話語標(biāo)記的識(shí)別(12)。Alistair用數(shù)據(jù)驅(qū)動(dòng)的方法來分析話語關(guān)系(12)。Fischer&Brandt-Pook依據(jù)話語標(biāo)記的句法位置及其在會(huì)話中的作用探討了它們的歧義消解問題(13)。Heeman&Allen利用結(jié)合詞性知識(shí)的語言模型來識(shí)別話語標(biāo)記(14)。Bursteinetal.利用基于決策的密度算法,借助話語標(biāo)記來識(shí)別學(xué)生論文的話語結(jié)構(gòu)(15)。Samy etal.利用多語言平行語料庫對話語標(biāo)記進(jìn)行了語用上的自動(dòng)標(biāo)注(16)。Popescu-Belisetal.利用詞匯、韻律/位置與社會(huì)語言學(xué)特征人工標(biāo)注話語標(biāo)記,取得了很好的效果(17)。類似的研究還有Heeman etal.等(18)。當(dāng)然,上述文獻(xiàn)對話語標(biāo)記的研究大多不是孤立的,而是置于話語行為的識(shí)別、對話片段的分析、言語交際的識(shí)解等更大范圍的會(huì)話分析中進(jìn)行的。

      3.次級(jí)語言中的話語標(biāo)記研究。鑒于計(jì)算機(jī)自動(dòng)理解話語的難度很大,有些學(xué)者嘗試在次級(jí)語體中尋求解決瓶頸問題的可行方案。實(shí)踐證明,這一策略是行之有效的。不少自然語言處理系統(tǒng)在句法與語義的自動(dòng)分析中有意將研究對象限制于自然發(fā)生的次級(jí)語言中,取得了意想不到的效果?;诖渭?jí)語言中的話語標(biāo)記研究就是在這種背景下應(yīng)運(yùn)而生的。

      最早將話語標(biāo)記運(yùn)用于次語言處理的是紐約大學(xué)(NYU)的醫(yī)療和制藥文本研究。NYU研究組提出了“信息格式”的概念,認(rèn)為潛隱于每個(gè)文本句子之中的基本句子的結(jié)構(gòu),都由次語言中話語標(biāo)記與其他詞的線性安排來顯示。這些話語標(biāo)記在它們的次級(jí)語言處理中扮演了重要角色[23]。Contant運(yùn)用足量的法語次語言語法、話語標(biāo)記和其他詞匯生成法語文本(19)。D'Melloetal.在一個(gè)智能教學(xué)系統(tǒng)上考證了話語標(biāo)記在預(yù)測學(xué)習(xí)者無聊、困惑、流暢、失意等狀態(tài)中占據(jù)重要的地位[24]。

      三、面向中文信息處理的話語標(biāo)記研究的設(shè)想

      與國外英語等語言的話語標(biāo)記的研究相比,漢語話語標(biāo)記的研究總體上比較滯后,這一點(diǎn)無論是在成果質(zhì)量上還是數(shù)量上均有所體現(xiàn)。筆者以“discoursemarker”為篇名在CALIS外文期刊網(wǎng)中進(jìn)行搜索(截至2014年12月6日),能夠查找到的文獻(xiàn)多達(dá)161 402篇。當(dāng)然該期刊網(wǎng)的檢索結(jié)果中有不少文獻(xiàn)重復(fù)出現(xiàn),因此成果的實(shí)際數(shù)量要低于這一數(shù)據(jù),但是總數(shù)量肯定是以數(shù)萬計(jì)的。而以“話語標(biāo)記”為篇名在CNKI期刊網(wǎng)上進(jìn)行搜索,能夠查找到的文獻(xiàn)僅有670篇(截至2014年12月6日),這其中還有部分是綜述性和引介性文獻(xiàn)。至于公開出版的直接研究話語標(biāo)記的著作,截至目前為止中國大陸僅有5部。話語標(biāo)記信息處理方面的論文,期刊上公開發(fā)表的僅僅1篇,專著尚無。這表明,我國話語標(biāo)記研究尚處于起步階段,還有很大的研究空間。有鑒于此,筆者以所在的單位為依托,申報(bào)了2013年度教育部人文社會(huì)科學(xué)重點(diǎn)研究基地重大項(xiàng)目,課題已順利立項(xiàng)。筆者與團(tuán)隊(duì)成員希望以此為契機(jī),在漢語話語標(biāo)記的信息化研究方面作一些有益的探索。經(jīng)過一段時(shí)間的調(diào)查與研究,我們對課題有不少思考與認(rèn)識(shí)。我們認(rèn)為,在本體研究整體較為薄弱,而應(yīng)用研究尚未起步的情況下,開展話語標(biāo)記的信息處理研究確實(shí)面臨諸多困難。因此要想完成課題的預(yù)期目標(biāo),有許多基礎(chǔ)性的研究工作亟待開展。限于篇幅,這里僅就其中的兩個(gè)方面,談?wù)勎覀兊难芯吭O(shè)想,以求教于方家。

      (一)建設(shè)一個(gè)包含多種次級(jí)類型語料的口語語料庫

      根據(jù)研究計(jì)劃,我們的課題擬利用詞容大、次級(jí)語料豐富的口語轉(zhuǎn)寫語料樣本,采用語料庫統(tǒng)計(jì)方法處理和分析互動(dòng)中的話語標(biāo)記及其自動(dòng)識(shí)別問題?!盎谡Z料庫的量化分析為主的方法可減少研究者的主觀偏見和發(fā)現(xiàn)大量話語中呈現(xiàn)出的累積效應(yīng)(incremental effectofdiscourse)”[25]。語料庫的廣泛使用使語言學(xué)的研究在質(zhì)與量兩個(gè)方面得到了巨大的改變和顯著的突破,“成為幾乎整個(gè)語言研究中的一個(gè)關(guān)鍵因素”[26]。

      話語標(biāo)記研究屬于會(huì)話分析的一個(gè)分支,而開展會(huì)話分析的一個(gè)重要的基礎(chǔ)性工作是獲取規(guī)模大、質(zhì)量高、真實(shí)自然的口語語料。但自然口語語料的采集和加工難度較大,因此,國內(nèi)不少學(xué)者采用小說作品的對話語料,或使用半自然的電視交談節(jié)目或電視劇的臺(tái)詞,有的甚至使用內(nèi)省式的自編例句。諸如此類的研究因?yàn)檎Z料上的局限性難以真正揭示話語標(biāo)記的實(shí)質(zhì)面貌。國內(nèi)也有少數(shù)學(xué)者自建了自然、真實(shí)的會(huì)話語料,但總體來看,語料規(guī)模較小,語料性質(zhì)單一,難以真實(shí)反映與全面揭示漢語的會(huì)話規(guī)律,也無法滿足話語標(biāo)記的研究之需。特別是面向自然語言處理的話語標(biāo)記研究,客觀上需要建立一個(gè)用于調(diào)查統(tǒng)計(jì)的海量數(shù)據(jù)庫與用于測試評估的實(shí)驗(yàn)平臺(tái)。

      鑒于此,我們計(jì)劃建設(shè)一個(gè)大規(guī)模的、高質(zhì)量的口語語料庫。建成這樣一個(gè)口語語料庫首要的問題是考慮語料的遴選。我們認(rèn)為所選語料要有代表性,要能夠收集不同性質(zhì)、不同類型的語料樣本。就口語語料來說,至少有以下常見的類型:

      我們根據(jù)話題與事件類型的不同,選擇了自然聊天、電話交談、電視訪談、醫(yī)療會(huì)話、課堂會(huì)話、庭審會(huì)話等作為采集語料的主要話語情景。計(jì)劃建成一個(gè)包含各種類型口語語料、總規(guī)模達(dá)500萬字的語料庫。其中,自然聊天語料規(guī)模為200萬字,其他類型語料300萬字。目前,語料收集工作已完成一半的任務(wù)。為了保證語料的質(zhì)量,我們在采集自然聊天口語語料過程中,編寫印制了《口語語料采集信息表》,準(zhǔn)確記錄包含交談時(shí)間、交談地點(diǎn)、話語參與人信息(含姓名、性別、年齡、職業(yè)、學(xué)歷等)、交談?wù)哧P(guān)系等話語交談的情景特征,這些信息對今后的研究有重要意義。

      為了更好地發(fā)揮語料庫的價(jià)值,口語語料庫應(yīng)該盡量同時(shí)儲(chǔ)存語音與文本,實(shí)現(xiàn)音文語料同現(xiàn)[28]。我們在存儲(chǔ)語料時(shí),嚴(yán)格遵守這一原則,同時(shí)保留了語音與文本語料,便于今后對照原始的錄音(錄像)進(jìn)行更為深入的分析。在語料轉(zhuǎn)寫規(guī)范上,借鑒DuDoisetal.語音材料轉(zhuǎn)寫規(guī)范。該轉(zhuǎn)寫規(guī)范為嚴(yán)式轉(zhuǎn)寫,可以最大限度地保留有價(jià)值的信息(20)。

      (二)建成包含多層信息的話語標(biāo)記詞庫

      本課題的另一項(xiàng)基礎(chǔ)性資源是為話語標(biāo)記設(shè)計(jì)一個(gè)科學(xué)合理的詞庫。詞庫之所以能夠在自然語言處理中發(fā)揮巨大作用是因?yàn)樗旧砜梢园δ軓?qiáng)大的多層次信息。已有研究表明,有的詞庫包含句法模式和各詞條互補(bǔ)分布的信息,有些包含針對詞語基本形態(tài)而產(chǎn)生的屈折形式,有些包含了詞的定義,有些則在各種詞條中提供了關(guān)于本體論和層級(jí)體系的語義鏈接[29]。我們將充分借鑒以往研究成果,基于大規(guī)模口語語料庫,從人工標(biāo)注中獲得量化數(shù)據(jù),用于話語標(biāo)記的信息編碼,最終建成信息豐富、功能強(qiáng)大的詞庫,以便應(yīng)用于計(jì)算程序的算法中,為話語標(biāo)記歧義的消除提供知識(shí)支持。

      1.制定話語標(biāo)記詞匯表。開發(fā)出一個(gè)性能卓越、功能完善的詞庫,需要做大量的工作。其中首要的任務(wù)是為話語標(biāo)記制定一個(gè)詞匯表,凡是能夠充當(dāng)話語標(biāo)記的形式(詞或短語甚至句子)都要收入。這要求我們對話語標(biāo)記的全部成員做窮盡調(diào)查。盡管國內(nèi)外對漢語話語標(biāo)記的本體研究已有一定數(shù)量的成果,也取得了一些進(jìn)展。但是現(xiàn)有的研究成果不能為中文信息處理提供足夠的知識(shí)支持。突出表現(xiàn)在漢語的話語標(biāo)記是一個(gè)成員繁多的大家族,現(xiàn)有的研究僅僅涉及一小部分。漢語中話語標(biāo)記數(shù)量究竟有多少,目前還是一個(gè)未知數(shù)。孟曉亮、侯敏的研究涉及話語標(biāo)記109個(gè),但正如作者自己所言,這109個(gè)話語標(biāo)記只是常用的一部分[30]。根據(jù)Hovy的統(tǒng)計(jì),英語中的話語標(biāo)記有1000余個(gè)[31]。漢語話語標(biāo)記也應(yīng)該不少,但其數(shù)量究竟是數(shù)百還是上千,目前尚無確切答案,只有通過大規(guī)模語料庫的調(diào)查才能做出準(zhǔn)確的回答。

      本課題在調(diào)查話語標(biāo)記時(shí)采取兩步走的策略。第一步,調(diào)查現(xiàn)有的關(guān)于話語標(biāo)記的研究文獻(xiàn),在前人的研究基礎(chǔ)上直接搜集已被學(xué)界認(rèn)可的成員;第二步,根據(jù)我們對話語標(biāo)記的定義,借助大規(guī)??谡Z語料庫開展全面調(diào)查,力求窮盡性地發(fā)掘各式各樣的成員,進(jìn)而得到一個(gè)面向自然語言處理的現(xiàn)代漢語話語標(biāo)記成員列表。

      2.對話語標(biāo)記進(jìn)行分類。話語標(biāo)記成員列表完成之后,需要依據(jù)一定的標(biāo)準(zhǔn)進(jìn)行分類。學(xué)界對話語標(biāo)記的分類標(biāo)準(zhǔn)通常有三種類型:形式標(biāo)準(zhǔn)、語義標(biāo)準(zhǔn)與功能標(biāo)準(zhǔn)。從信息處理的角度來看,這三種分類標(biāo)準(zhǔn)都有其價(jià)值。我們的策略是將三個(gè)標(biāo)準(zhǔn)結(jié)合起來。比方,首先從語法性質(zhì)上將話語標(biāo)記分為詞匯型話語標(biāo)記、短語型話語標(biāo)記、小句型話語標(biāo)記三種基本類型。然后每種類型下面又細(xì)分為一字串型、二字串型、三字串型、四字串型、五字串型、六字串型、超長字串型等七種類型。不同的字串?dāng)?shù)的話語標(biāo)記的使用頻率不同,這些信息對話語標(biāo)記的自動(dòng)分析價(jià)值較大。

      3.對話語標(biāo)記句法、語義、語用信息進(jìn)行編碼。這些信息對話語標(biāo)記的模糊消歧至為重要。據(jù)Popescu-Belis&Zufferey的研究,充當(dāng)話語標(biāo)記的詞的模糊性主要表現(xiàn)在三個(gè)層面:其一,這些詞的形式在某些語境中發(fā)揮語用的或話語標(biāo)記的功能,有時(shí)則發(fā)揮語義或句子功能;其二,即使某一詞充當(dāng)話語標(biāo)記,它也可以發(fā)揮不同的語用功能;其三,話語標(biāo)記的范圍,即其所應(yīng)用的言語或文本的范圍也是有差異的[32]。因此,要準(zhǔn)確地識(shí)別話語標(biāo)記,必須充分利用其句法、語義與語用信息。這些信息的編碼是直接影響詞庫功能強(qiáng)弱與質(zhì)量高低的一項(xiàng)關(guān)鍵工作。我們擬對詞庫中的每個(gè)話語標(biāo)記進(jìn)行逐一描述。具體的句法、語義和語用信息則是在對大規(guī)模語料樣本調(diào)查之后,經(jīng)過分析、歸納和整理得出。信息編碼力求突出“合理”“細(xì)致”和“實(shí)用”的特點(diǎn)。主要信息包括:

      第一,語法特征與頻率信息。其一,語法性質(zhì)與頻率信息。如“不過”“但是”屬于連詞型話語標(biāo)記,“幸虧”為副詞型話語標(biāo)記,“總的來看”屬于偏正短語型話語標(biāo)記,而“你看你”屬于主謂句小句型話語標(biāo)記;有些表達(dá)形式既可以當(dāng)話語標(biāo)記使用,也可當(dāng)非話語標(biāo)記使用,如:“完了”有話語標(biāo)記與非話語標(biāo)記(動(dòng)補(bǔ)結(jié)構(gòu))兩種用法,要分別注明兩種用法的頻率信息。其二,話語位置與頻率信息。話語位置包括所在序列中的位置(如呼喚——應(yīng)答,問候——問候,詢問——回答),以及話輪中的位置(如話輪首、話輪中、話輪尾)。分別注明各個(gè)位置上的概率。其三,話語標(biāo)記的共現(xiàn)信息。一些話語標(biāo)記在使用中傾向于與其他話語標(biāo)記(或其他詞語)一起出現(xiàn),形成組合使用的線性共現(xiàn)。比如同意標(biāo)記“是/是的”常常與“對”等同意標(biāo)記共現(xiàn),而話語標(biāo)記“你知道”常跟語氣詞“吧、嗎”結(jié)合。擬在限定的跨距內(nèi)區(qū)分為左共現(xiàn)成分和右共現(xiàn)成分,并分別注明共現(xiàn)標(biāo)記的概率。

      第二,韻律特征。詞匯表達(dá)的韻律特征對判定它是否為話語標(biāo)記非常有價(jià)值。話語標(biāo)記常見的韻律特征有:重讀、弱讀、拖音、延長音、與后續(xù)詞語間的停頓長短等。

      第三,語義特征。其一,邏輯意義。邏輯意義主要反映前言后語內(nèi)在的邏輯聯(lián)系,如話語標(biāo)記“雖然”一般表示邏輯意義;其二,程序意義。程序意義反映話語標(biāo)記在語言片段之間或是語言片段和語境之間所起的紐帶作用,能引領(lǐng)聽話人去注意語境假設(shè)之間存在的特殊關(guān)系,如推論關(guān)系、強(qiáng)化關(guān)系和否定關(guān)系[9]。如“然后”“可是”既能表示邏輯意義,又能表示程序意義,“嗯”“那個(gè)”一般只表示程序意義;其三,真值意義。真值意義就是概念意義。有些學(xué)者認(rèn)為話語標(biāo)記的真值意義非常弱或者沒有真值意義。但實(shí)際上有些話語標(biāo)記是有真值意義的,如信息來源標(biāo)記、說話方式標(biāo)記,因?yàn)檫@些標(biāo)記所編碼的信息可以受到真假質(zhì)疑[33]??梢?,話語標(biāo)記的真值意義是一個(gè)連續(xù)統(tǒng),位于連續(xù)統(tǒng)最左端的話語標(biāo)記沒有真值意義,而位于最右端的話語標(biāo)記保留了真值意義。對于演化中的話語標(biāo)記來說,真值意義的強(qiáng)弱能夠反映出其虛化程度的高低;其四,其他相關(guān)的語義特征。為了充分描述不同話語標(biāo)記的分布與功能差異,需要挖掘與話語標(biāo)記密切相關(guān)的其他語義特征。如:話語標(biāo)記的語義分類,話語標(biāo)記鄰近論元的題元關(guān)系,話語標(biāo)記的多義性及其聯(lián)系等。

      第四,話語功能。其一,連貫功能。連貫功能也即傳統(tǒng)意義上的關(guān)聯(lián)功能。由連詞充當(dāng)?shù)脑捳Z標(biāo)記大多具有此功能。從轄域的大小來看,話語標(biāo)記的連貫功能實(shí)際上可以分為微觀層面和宏觀層面兩種情況。它們分別充當(dāng)篇章中跨句和跨話輪的連接成分。其二,話輪構(gòu)建功能。話輪構(gòu)建功能指某些話語標(biāo)記具有構(gòu)建話輪的作用。具體包括:構(gòu)成相鄰對第二部分、標(biāo)記非合意第二部分、開啟話輪、延續(xù)話輪、實(shí)現(xiàn)話輪等功能。其三,實(shí)現(xiàn)話題功能。實(shí)現(xiàn)話題功能指話語標(biāo)記在話題層面上發(fā)揮的組織話題的作用。具體包括開啟話題、轉(zhuǎn)換話題、消除離題、結(jié)束話題等功能。其四,情感表達(dá)功能。有些話,語標(biāo)記雖然本身包含的語義概念不多,但是能夠傳遞說話者主觀情感,協(xié)助對話順利進(jìn)行,進(jìn)而達(dá)到最佳的言談效果。這里所謂的主觀情感涉及說話人的感覺、態(tài)度、評價(jià)、立場以及對禮貌的順應(yīng)等。其五,社會(huì)功能。某些話語標(biāo)記的使用存在性別、年齡、教育程度、母語者與非母語使用者的差異,將分別注明這些功能上的差異。

      結(jié)語

      話語標(biāo)記在會(huì)話分析研究中占據(jù)了核心地位,這與它們的高頻使用密切相關(guān)。話語標(biāo)記的高頻使用表現(xiàn)于人與人之間的會(huì)話中,也表現(xiàn)于人與機(jī)器之間的對話中。據(jù)Fischer&Johanntokrax的研究,在非正式的德語的人對人交際中,其使用頻率高達(dá)8.8%-9.8%,在人機(jī)交互中其重要性略有減弱,但在前150個(gè)高頻詞中也達(dá)到了6.6%[34]。話語標(biāo)記在會(huì)話中的地位與作用可見一斑。因此,以話語標(biāo)記為突破口開展相關(guān)研究,對面向自然語言處理的會(huì)話分析具有極為重要的意義。

      本文結(jié)合在研課題,就漢語話語標(biāo)記的信息處理談了兩個(gè)方面的研究設(shè)想,并圍繞兩點(diǎn)設(shè)想簡要介紹了研究思路與具體策略。當(dāng)然,有些想法還不夠成熟,其可行性尚需實(shí)踐來檢驗(yàn)。需要指出的是,我們的某些設(shè)計(jì)是從長遠(yuǎn)考慮的,短期內(nèi)或許無法完成。比如,話語標(biāo)記的語用信息中,涉及性別、年齡、教育程度、母語與非母語等多方面社會(huì)因素的考量,這些信息對計(jì)算機(jī)最終理解人類的會(huì)話含義具有重要價(jià)值。但此類信息并非每個(gè)話語標(biāo)記都具有,即使有些標(biāo)記擁有部分或全部的特征,要準(zhǔn)確細(xì)致地描寫這些信息也是頗有難度的。為此,我們期待語言學(xué)界與計(jì)算機(jī)學(xué)界有更多的研究者加入這一極具挑戰(zhàn)性但富有前景的研究領(lǐng)域。我們堅(jiān)信,在眾多學(xué)者的通力合作下,一定能夠達(dá)成預(yù)期的目標(biāo)。一旦獲得全面細(xì)致的話語標(biāo)記的信息編碼,就可以應(yīng)用于編寫與注釋對話語料。而借助這些形式、語義與功能上的信息,可望較為準(zhǔn)確地分析對話的實(shí)體與功能性內(nèi)容的聯(lián)系,從而獲得重要的數(shù)據(jù),為計(jì)算機(jī)提取與?;祟惖膶υ捫袨樘峁┲苯拥闹R(shí)支持。

      注 釋:

      ①參見闞明剛《話語標(biāo)記的計(jì)量與自動(dòng)過濾提取》,載《計(jì)算機(jī)工程與應(yīng)用》2012年第12期第19-23頁。

      ②Mann,W.and Thompson,S.,Rhetorical structure theory:toward a functional theory of text organisation,in Text,1988,3,p.243-281.

      ③Marcu,D.,The Theory and Practice of Discourse Parsing and Summarization,The MIT Press,Cambridge,MA,2000.

      ④Marcu,D.,A decision-based approach to rhetorical parsing,in The 37th Annual Meeting of the Association for Computational Linguistics(ACL-99).Maryland,USA 1999,P.365–372.

      ⑤Soricut,R.and Marcu,D.,Sentence Level Discourse Parsing using Syntactic and Lexical Information,in Proceedings of the Human Language Technology and North American Association for Computational Linguistics Conference.Edmonton,Canada,2003.

      ⑥Marcu,D.and Echihabi,A.,An unsupervised approach to recognizing discourse relations,in Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics Philadelphia,2002.

      ⑦Carlson,L.,Marcu,D.and Okurowski,M.E.,Building a Discourse-Tagged Corpus in the Framework of Rhetorical Structure Theory,in Current and New Directions in Discourse and Dialogue,written by J. van Kuppevelt&R.Smith,Berlin:Springer,2003,P.85-112.

      ⑧Sporleder,C.and Lascarides,A.,Exploiting linguistic cues to classify rhetorical relations,in Proceedings of Recent Advances in Natural Language Processing,2005.

      ⑨Reitter,D.,Rhetorical Analysis with Rich-Feature Support Vector Models,Unpublished Master's thesis,University of Potsdam,2003;Hutchinson,B.Acquiring the meaning of discourse markers,in Proceedings of the 42nd Annual Meeting of the Association for Computational Linguistics,2004,P.685–692.

      ⑩Hirschberg,J.and Litman,D.,Empirical studies on the disambiguation of cue phrases,in Computational Linguistics,1993,3,P.501-530.

      (11)Litman,Diane J.,Cue phrase classification using machine learning,in Journal of Artificial Intelligence Research,1996,5,P.53–94.

      (12)Alistair K.,A data-driven methodology for motivating a set of coherence relations,Ph.D.thesis,University of Edinburgh,1996.

      (13)Fischer,K.and Brandt-Pook,H.,Automatic Disambiguation of Discourse Particles,in Proceedings Of Colin ACL'98 Workshop on Discourse Relations and Discourse Markers,Montreal,1998,P.107-113.

      (14)Heemanl,P.A.and Allen,J F.,Speech repairs,international phrases and discourse markers:modeling speakers'utterances in spoken dialogue,in Computational Linguistics,1999,4,P.1-45.

      (15)Burstein J.,Marcu D.,and Knight,K.,Finding the WRITE Stuff:Automatic Identification of Discourse Structure in Student Essays,in Special Issue on Advances in Natural Language Processing,IEEE Intelligent Systems,written by Harabagiu S.and Ciravegna F.,2003,1,P. 32-39.

      (16)Samy,D.and González-Ledesma,A.,Pragmatic Annotation of Discourse Markers in a Multilingual Parallel Corpus(Arabic-Spanish-English),in Proceedings of International Conference on Language Resources and Evaluation LREC-08.Marrakech,Morocco,2008.

      (17)Popescu-BelisA.&Zufferey,S.,Automatic Identification of Discourse Markers in Multiparty Dialogues:An In-Depth Study of Like and Well,inComputer Speech and Language,2011,3,P.499-518.

      (18)Heeman,P.A.,Byron,D.K.and.Allen,J.F.,Identifying discourse markers in spoken dialog,in Proceedings of AAAI Spring Symposium on Applying Machine Learning to Discourse Processing,Stanford,CA,1998.

      (19)Contant,C.,Génération automatique de texte:application au souslan-gage boursier francais,MA thesis,Dept.of Linguistics,University ofMontreal,1985.

      (20)DuBois,etal.,Outline of discourse transcription,in Talking data:Transcription and coding in discourse research,written by Jane A.Edwards&Martin D.Lampert,(ed.),Hillsdale,NJ:Lawrence Erlbaum,1993,45-89.

      [1]Ramsay,A.Discourse[M]//The Oxford Handbook of Computational Linguistics.北京:外語教學(xué)與研究出版社,牛津:牛津大學(xué)出版社,2009.

      [2]Heemanl,P.A.and Allen,J.F..Speech repairs,international phrases and discourse markers:modeling speakers'utterances in spoken dialogue[J].Computational Linguistics,1999(4):1-45.

      [3]Schiffrin,D..Discourse markers[M].Cambridge:Cambridge University Press,1987.

      [4]Fraser,B..An approach to discourse markers[J].Journal of Pragmatics,1990(14):383-395.

      [5]Jucker,A.H.and Smith,S.W..And people just you know like “wow”,Discourse markers as negotiating strategies[M]//Jucker,A.H. and Ziv,Y.(ed.).Discourse Markers:Theory and Descriptions.Amsterdam:Benjamins,1998:171-201.

      [6]冉永平,莫愛屏,王寅.認(rèn)知語用學(xué)[M].上海:上海外語教育出版社,2006:147.

      [7]許家金.漢語自然會(huì)話中“然后”的話語功能分析[J].外語研究,2009(2):9-15.

      [8]Asher,N..Reference to Abstract Objects in Discourse[M].Dordrecht:Kluwer Academic Publishers,1993:260.

      [9]Fraser,B..What are discourse markers?[J].Journal of Pragmatics, 1999(31):931-952.

      [10]冉永平.話語標(biāo)記的語用學(xué)研究綜述 [J].外語研究,2000(4):8-14.

      [11]劉麗艷.漢語話語標(biāo)記研究[M].北京:北京語言大學(xué)出版社,2011: 32-37.

      [14]Risselada,R.and Spooren,W..Introduction:Discourse markers and coherence relations[J].Journal of Pragmatics,1998(2):131-133.

      [15]Lenk,U..Discourse markers and global coherence in conversation [J].Journal of Pragmatics,1998(2):245-257.

      [16]Blakemore,D..Constraints on Interpretations[C]//Berkeley Linguistic Society.(eds.)Proceedings of the Sixteenth Annual Meetings of the Berkeley Linguistics,1990(32):325-347.

      [17]Rouchota,V..Discourse markers:what do they link[J].UCL Working Papers in Linguistics,1996(8):199-214.

      [18]VanDijk..Semantic macro-structures and knowledge frames in discourse comprehension[M]//Marcel.Adam.J.and Patricia A..Carpenter(ed.).Cognitive Processes in Comprehension.Hillsdale,NJ:Erlbaum,1977:3-32.

      [19]Holmes,J..Hedging your Bets and Sitting on the Fence:Some Evidence for Hedges as Support Structures[J].Te Reo,1984(1):47-62.

      [20]姚雙云.自然口語中的關(guān)聯(lián)標(biāo)記研究[M].北京:中國社會(huì)科學(xué)出版社,2012:48-68.

      [21]Fischer,K.and Brandt-Pook,H..Automatic Disambiguation of Discourse Particles[M]//Proceedings Of ColinACL'98 Workshop on Discourse Relations and Discourse Markers.Montreal,1998: 107-113.

      [22]黃大網(wǎng).話語標(biāo)記研究綜述[J].福建外語,2001(1):5-12.

      [23]Sager,N..Natural language information formatting:the automatic conversion of texts to a structured data base[J].Advances in Computers,1978(17):89-162.

      [24]D'mello,S.K.,Craig,S.D.,Witherspoon,A.,Mcdaniel,B.and Graesser,A..Automatic detection of learner's affect from conversational cues[J].User Modeling and User-Adapted Interaction,2008 (1-2):45-80.

      [25]Baker,P..Using Corpora in Discourse Analysis[M].London:Continuum,2006:13.

      [26]Teubert,W..Corpus Linguistic and Lexicography:The Beginning of a Beautiful Friendship[J].Lexicographica,2004(20):1-19.

      [27]姚雙云.面向中文信息處理的漢語語法研究[M].武漢:華中師范大學(xué)出版社,2012:44.

      [28]何安平.口語語料庫、平行語料庫、學(xué)習(xí)者語料庫——第23屆國際語料庫語言學(xué)年會(huì)ICAME2002綜述 [J].國外外語教學(xué),2003 (1):15-19.

      [29]Hanks,P..Lexicography,The Oxford Handbook of Computational Linguistics[M].北京:外語教學(xué)與研究出版社,2009.

      [30]孟曉亮,侯敏.話語標(biāo)記的語體特征研究及其應(yīng)用[J].中文信息學(xué)報(bào),2009(4):34-39.

      [31]Hovy,Eduard,H..The multifunctionality of discourse markers[M]//Workshop on DiscourseMarkers.Egmond-aan-Zee,The Netherlands, 1995:1-12.

      [32]Popescu-Belis A.and Zufferey,S..Automatic Identification of Discourse Markers in Multiparty Dialogues Working Paper 65[R].ISSCO,2006.

      [33]馮光武.漢語語用標(biāo)記語的語義、語用分析[J].現(xiàn)代外語,2004 (1):24-31.

      [34]Fischer,K.&Michaela,J..Ein linguistisches Merkmalsmodell für die Lexikalisierung von diskurssteuernden Partikeln.SFB 360“Situierte künstliche Kommunikatoren”,Report 18[R].University of Bie lefeld,1995.

      (責(zé)任編輯:劉英玲)

      H14

      A

      1674-9014(2015)01-0073-07

      2014-12-18

      教育部人文社會(huì)科學(xué)重點(diǎn)研究基地重大項(xiàng)目“基于小句中樞理論的自然口語話語標(biāo)記的自動(dòng)識(shí)別研究”(13JJD740013)。

      姚雙云,男,湖南邵陽人,華中師范大學(xué)語言與語言教育研究中心教授,博士生導(dǎo)師,研究方向?yàn)楝F(xiàn)代漢語語法、會(huì)話分析和中文信息處理。

      猜你喜歡
      語料語料庫話語
      現(xiàn)代美術(shù)批評及其話語表達(dá)
      《語料庫翻譯文體學(xué)》評介
      把課文的優(yōu)美表達(dá)存進(jìn)語料庫
      基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
      華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
      基于JAVAEE的維吾爾中介語語料庫開發(fā)與實(shí)現(xiàn)
      語言與翻譯(2015年4期)2015-07-18 11:07:45
      《苗防備覽》中的湘西語料
      國內(nèi)外語用學(xué)實(shí)證研究比較:語料類型與收集方法
      話語新聞
      浙江人大(2014年6期)2014-03-20 16:20:34
      話語新聞
      浙江人大(2014年5期)2014-03-20 16:20:20
      海阳市| 沙坪坝区| 武山县| 宜州市| 西充县| 志丹县| 鲜城| 股票| 横峰县| 石台县| 翁牛特旗| 商都县| 晋城| 方山县| 喀什市| 广安市| 荔波县| 海安县| 龙海市| 平度市| 长子县| 保山市| 安康市| 博白县| 辽中县| 灵璧县| 常熟市| 无锡市| 清流县| 鄂尔多斯市| 原平市| 永定县| 永仁县| 武义县| 永宁县| 滦平县| 昭苏县| 甘孜县| 京山县| 漳州市| 多伦县|