黎江濤,饒高琦
(北京語言大學 漢語國際教育研究院,北京100083)
問句分類的效果直接影響問句理解。傳統(tǒng)的中文問題分類主要是根據答案對象的類型劃分[1],如詢問人物、地點、時間、數量等,曹志娟等人還在此基礎上增加疑問詞短語分類、問題標準型、特征詞分詞來增強計算機識別問題能力的方法[2],劉朝濤等人則進一步將疑問詞模式與問題類型對應起來,進行了基于疑問句句型識別的問題理解研究[3]。在這些分類任務中,問句的形式只是作為分類的輔助特征。
實際上,一定的問句形式下的問句類別可以對應一定的問句功能,但這方面的理論在問句理解實踐中并沒有得到重視;相反,隨著數據集的增加,問句覆蓋的范圍越廣,復雜的問句形式特征被當作解決新問題的補丁不斷地添加進來,使得問句分類標準越來越復雜。如果能在問題分類中先提供一個形式分類接口,再按照不同問句形式下對應的問句功能對問句做進一步分類,那么就能在形式上不遺漏任何問句,同時也能在分類過程中根據問句形式定位問句的具體功能。所以在現(xiàn)有問句分類研究基礎上,提倡問句的形式分類具有深刻意義。
傅惠鈞曾根據“疑”和“問”的組合劃分出“有疑有問、有疑無問、無疑有問、無疑無問”四類[4]。很明顯“有疑有問”和“無疑無問”均可以明顯地判斷句子是否為問句,問題就集中到了“有疑無問”和“無疑有問”這兩類句子上。
先說“有疑無問”。呂叔湘給出過例句“也許會下雨吧”,表示有傳疑但不發(fā)問[5]。這類例句后面既可以加上問號標記,也可以不加上問號標記,邵敬敏根據這種對比指出,兩種情況表達的疑問程度是一致的,區(qū)別僅僅在于是否發(fā)問,即是否要求對方表示態(tài)度[6]。所以由此可見,從問答理解的角度來看,回答的前提是存在發(fā)問,所以將沒有發(fā)問意圖的句子排除在分析目標之外是合理的,這也符合問句提出的預期,即發(fā)問—解答。本文也將根據是否有發(fā)問意圖來區(qū)分疑問問句和非疑問問句。
再說到“無疑而問”,學界對這類句子眾說紛紜,普遍認同的一個觀點是反問句(也叫反詰問句)可以作為“無疑而問”的典型代表,《馬氏文通》中將這類句子的功能稱為“傳信”,與“傳疑”相對。判斷這一類句子必須要明確一點: “信疑”皆是從說話人的意圖中推斷出來的,而不是站在對話的全知視角或是聽話人視角。如果“信疑”脫離了說話人的意圖,那么問句就可能會隨著不同的回答而有不同的定性,在疑問句和反問句之間搖擺不定。例如,“誰欠你錢?”,說話人如若想表達“我不欠你錢”的意思,該句則是反問句,但如果不考慮說話人的意圖,僅考慮該問句的可回答性,也可以說“某某欠了錢”,但這明顯已經脫離了說話人想表達的意圖。所以“無疑而問”本質上是不含發(fā)問意圖的句子。對于問句理解來說,如果是在問答系統(tǒng)中,“無疑而問”的問句顯然不能成為分析的對象,因為句子本身不存在疑問點,也就無法對問題做出回答;但如果從人機對話的角度來說,“無疑而問”更偏向是一種套著疑問形式的表達方式,這樣的句子往往承載著說話人的某些觀點、意圖,計算機要做的就是要在遵守語用交際原則的情況下回應這些句子,此時的“無疑而問”類句子無疑應該納入該研究的分析對象。
而本文討論分析的對象以含有說話者發(fā)問意圖的問句為主,對不含發(fā)問意圖的問句只做簡單的功能探討。
含有說話者發(fā)問意圖的問句通常又叫疑問句,按照形式上的不同,它們又可以分為四類: 是非問、特指問、選擇問、正反問。
?是非問結構類似陳述句,一般用升調,句尾一般有“?”,句尾有時兼有語氣助詞“嗎”顯化疑問語調,也可以用“啊、哇”,但不可用“呢”[7-8],如例1所示。
例1: 21世紀人類將要開發(fā)月球嗎?
?特指問用疑問代詞代替未知部分,常用的疑問代詞有“誰、什么、哪兒、怎么、多少”等,句尾有時用“呢”或“啊”,不用“嗎”[8],如例2所示。
例2: 這是哪里啊?
?選擇問有并列的若干分句,前后分句常用“是”“還是”相呼應,有時用語氣助詞“呢”或“啊”,但不用“嗎”。另外,選擇問中語氣助詞和連詞可以兼有[8],如例3所示。
例3: 是吃西餐還是吃中餐?
?正反問通常包含否定詞“不、沒有”,不采取復句的形式,在謂語中心或補語中用肯定和否定并列形式來提問[8-9],具體情況如表1所示。
表1 正反問形式及例句
問句形式是判斷問句的依據,主要包括語音語調、標點形式、句法格式、特征詞。語音語調主要指句子的句調,一般問句的句調均以聲調為主。標點形式主要指問號,這是問句的主要形式標記。句法格式指不同問句類型由特定句法單位構成的格式,按照問句類別可以分為是非問句法格式、特指問句法格式、選擇問句法格式和正反問句法格式。而特征詞是指能夠幫助判斷問句類別的典型詞語,比如特指問的疑問代詞,選擇問中的“還是”等。
根據承載問句的介質不同,可以從以下兩個方面來說明問句形式的作用和特點。
(1) 在語音問句識別中,本該使用標點停頓的地方用語音停頓替換,表達疑問的標點形式用相應的語音語調替換,因此主要是語音語調、句法格式和特征詞等在語音問句識別中起作用。
(2) 在文本問句識別中,標點完全代替語音信息起到停頓、疑問語氣的作用,所以標點形式、句法格式和特征詞在識別中占據主要地位,其中標點形式尤以問號“?”為主。
所以在問句判別的領域中,語音語調信息與標點信息形成對立,句法格式和特征詞兩者相互補充,甚至兩者還互有交叉,一定情況下還可以相互轉換。問號往往就是問句的標志。本文將重點研究文本中的問句表現(xiàn)形式。
問答系統(tǒng)一般由問題分類、查詢擴展、搜索引擎、答案抽取以及答案排序選擇等多部分組成[10]。問題分類是建構問答系統(tǒng)的重中之重。而對于問題分類而言,目標問句語料的篩選又是問題分類的前提條件。質量高的問句語料可以提高問題分類及后續(xù)工作的效率。
問句提取的對象通常都是文章中的對話內容,即引號內的問句,這樣做有兩個好處: 一是可以保證問句提取的自然度,能夠最大限度地模擬日常問答;二是為判定問句的意圖提供了條件,可以通過問句的上下文來推測說話人的意圖,從而判別句子是“有疑而問”還是“無疑而問”。而文本問句的形式在上文已提到包括標點形式、句法格式、特征詞三類,下面將圍繞這三點說明問句形式在問句語料篩選中的作用。
問號是問句的主要標志,根據問句中問號的多少可以把問句大致分為以下兩類。
(1) 問句中存在多個問號
一般包括兩種情況: 其一,問句是個連續(xù)問句群(例4),此時問句能被分解為若干個單獨的問句;其二,問句是選擇問句的一種形式變體(例5),此時每一個以問號成句的句子不能單獨理解,必須將問句群看作一個整體,因為從語義上來說,單獨的問句語義并不完整,只有問句群才能夠表達完整的意義。
例4: 你是誰?你來自哪里?
例5: 你要喝果汁?還是牛奶?
連續(xù)問句往往不能成為問句分類分析的典型語料,但其作為問句的組合形式的一種,能拆解成若干個問句來理解。而選擇問句的形式變體實際上是標點的一種誤用,在形式上與連續(xù)問句相同,但它在問句語料中也占有一定數量,應算作問句分類分析中的典型語料,否則會使選擇問句在自然語言中的比例不能得到正確的反映。
(2) 問句中只存在一個問號
又可根據問句內部是否存在標點分為兩類: 一類是組合問句群,另一類是常規(guī)問句。漢語中的連續(xù)問句可以用逗號連接,以問號結尾。此時句子并不是單一的問句,而是一個組合式的問句群,不能成為問句分類分析的典型語料(例6)。
例6: 我是誰,來自哪里,又將會去何處?
問句中存在一些包含特殊句法格式的句子,這類句子如果按照形式去分析,其問句理解的復雜程度相較其余典型問句要大得多,可細分為以下幾類。
(1) “W+呢”類
“W+呢”類又可細分為“NP+呢?”和“VP+呢?”兩類。
“NP+呢”在形式上沒有明顯的問句形式特征,但可以根據其前行句在深層語義上對其進行不同的擴展,如例7所示。
例7:
陳奶媽: “清少爺,你這一向好???”
曾文清: “好,您老人家呢?”(曹 286)
“您老人家呢?”可以作“您老人家好不好”“您老人家怎么樣”“您老人家好嗎?”等三種語義理解,且這三種理解分別屬于正反問句、特指問句、是非問句。所以可以看出,理解這類問句在語義上需要借助語用信息,在形式上做進一步分類也容易出現(xiàn)分歧。
(2) “VP+呢?”
邵敬敏[6]將這類問句分成了三種類型:
甲 (要是)VP呢?
乙 (要是)VP,怎么辦呢?
丙 (要是)VP呢?(要是)VP,怎么辦呢?
形式上來看,“VP+呢”類問句中,甲句型最簡潔,乙句型最完整,丙句型兼具甲、乙句型的特點,三種類型都能表達相同的語法意義。另外,從功能上來看,“VP+呢”類問句既能表示假設,也能表示詢問,但無論是何種功能,這類問句的理解同樣需要語用信息,且問句往往以甲句型出現(xiàn)。當然,如果考慮到根據深層語義補足原有形式的話,這類問句應是特指問,即根據完整句型乙推出。所以,在問句語料的篩選中,這類問句往往因為其功能的復雜性而被排除在典型問句的篩選范圍之外。
(3) 省略疑問成分的問句
一些問句還存在一些缺省疑問成分,但在一定語境下仍舊可以表達疑問[6]。例如,兩人初次見面時,一方可以用“您是?”提問,意為“您是哪位/您是誰”;對對方的變化感到疑問,可以用“您這是?”提問,意為“您這是怎么了?”。
這類句子在省略了疑問詞的情況下,以是非問句的形式存在,但如果根據深層語義補足原有形式,這類句子大多屬于特指問,且要理解句子省略了何種疑問詞也需要結合語用信息才能說明。所以,在問句語料的篩選中,這類問句往往排除在典型問句的篩選范圍之外。
(4) 回聲問句
回聲問是“對話的問題”,具有更多的交際價值,但對于問題本身來說它需要依托一定的語境才能理解它的含義或補全它的完整問句形式[6]。所以,在問句語料的篩選中,這類問句往往排除在典型問句的篩選范圍之外,如例8所示。
例8:
魯侍萍: “老爺那種綢襯衣不是一共有五件?您要哪一件?”
周樸園: “要哪一件?”(曹 63)
不同的問句類型有自己的特征詞,這些特征詞是判定句子類別的標志。如果特征詞出現(xiàn)了錯誤,就可能影響問句的分類,進而影響問句的理解。主要表現(xiàn)為疑問代詞,如例9、例10所示。
例9: 在中國有好多人在看搖滾?
例10: 浮云是神馬意思?
前者的“好多”帶有地域方言色彩,應屬疑問詞,對應標準式“多少”;后者的“神馬”是網絡詞匯,屬于疑問詞“什么”一種語言變體。如果在問句理解中不能對這些形式的問句加以區(qū)分,則容易在語法結構和語義分析上造成偏差,最后影響問句的理解。由此可知,在問句語料的篩選中,還需要注意特征詞的錯寫對語料篩選的影響。
所以,標點形式、句法格式、特征詞在問答系統(tǒng)的任務中具有舉足輕重的作用,規(guī)范的問句形式和信息正確同等重要,規(guī)范的問句形式是保障問句語料正確性、完整性的基礎。
根據語言學對是非問、特指問、選擇問和正反問的定義,可以進一步將句法格式和特征詞細化為疑問格式、語氣詞、語氣副詞以及疑問代詞四大類,這四大類在具體語料中又可以細分為七個小類: 語氣詞“呢”類、語氣詞“嗎”類、疑問代詞、語氣副詞、是非問疑問格式、正反問疑問格式以及選擇問疑問格式。
在是非問句中,一些句子的顯性問句標記過少,不含七小類特征中的任一特征,如是非問“他走了?”。所以為避免沒有特征匹配是非問句的情況,我們將增加一類補充特征,即當問句不存在疑問代詞、正反問疑問格式和選擇問疑問格式任一特征時,默認該句有補充特征,否則沒有。所以最終可從以上八個問句特征的角度來描述問句。
為測試問句形式對語料篩選的有效性,同時也為問句數據做進一步的分類,我們從一批小說語料中選取了2 400個問句并將這些句子分成三組,每組800句,交由6位語言學專業(yè)的研究生兩兩標注,問句的分類標準主要參照上文的問句定義。是非問、特指問、選擇問和正反問分別以數字1、2、3、4表示。一個完整標注的問句如下所示,問句前的數字代表問句的類別。
1: 還有其他異常情況嗎?(問句標注示例)
經統(tǒng)計,三組在沒有對抽取句子進行形式上的篩選之前,一致率分別為0.855,0.820,0.845,平均一致率達0.840;而經過對抽取的句子按照常規(guī)問句形式的篩選,剔除句意理解與語用信息相關的句子后,一致率分別為0.965,0.943,0.894,平均一致率達到0.934??梢?,問句形式在本研究中有助于提高問句標注的一致率。同時,以上實驗也表明,根據問句的語言學特征來判定問句種類并不是一個過于復雜的任務,在此基礎上可以繼續(xù)擴大問句標注規(guī)模。
經標注及篩選后,共得到1 679個問句。在此基礎上,我們還標注了一批形式上較為規(guī)整,不依賴語境且可以自足分析的百度知道問句數據集,共2 621句。各數據集的問句分布如表2所示。特指問在問句中數量與占比均為最高,其次是是非問、正反問以及選擇問,在一定程度上也大致反映了這四類問句在自然語言中的分布情況。
表2 問句數據分類分布情況
此外,在不同數據集上,四類問句的分布也稍有差異。在小說問句中,是非問與特指問占比相當,特指問略高于是非問;而在百度問答問句中,特指問占比超過70%,遠遠超過是非問的20.1%,在一定程度上呈現(xiàn)了小說問句與百度問答問句的特點,兩者既有聯(lián)系又有區(qū)別。百度知道問句是屬于百科問答式問句對概念的提問、事件發(fā)生的原因等問句比例較大,致使包含疑問代詞的問句較多,也就造成了特指問句在百度問答數據集上分布較多。而小說問句中并沒有這種明顯的傾向性,使得是非問句與特指問句分布較為均勻,同時小說問句的語境也更接近于日常生活場景的問句使用情況。
我們已整理出了問句的八個小類特征,分別用F1~F8來表示,在語料庫中,這些形式特征的計量統(tǒng)計如表3所示。從表3可以發(fā)現(xiàn),各特征多寡是和不同類型問句占比有關的,部分特征分布情況甚至可以直接反映問句整體的分布情況。如特征F3、F4、F5、F6的占比與四類問句在數據集中的分布情況相當,反映出特指問和是非問在問句中占比較大,選擇問正反問數量更少。另一方面,疑問格式與疑問代詞特征的占比相加大于100%,說明問句分類的結果不是僅由疑問格式決定的,至少存在一個問句包含多個疑問格式或疑問代詞的情況,問句分類的復雜性也體現(xiàn)于此。
表3 問句特征分布
從問句特征到問句種類的識別實際上是一個從特征到分類的問題。其過程就是把每個問句中能匹配的問句特征轉化為可量化的特征向量,最終將特征向量映射到該問句所對應的類別。根據表3的問句特征我們對語料中的問句進行向量化處理,含有指定特征即將特征所在維度的向量值記為1,反之記為0;是非問、特指問、選擇問、正反問分別用1、2、3、4表示。如表4所示。
表4 問句特征轉換示例
在獲得多維度向量及其對應的分類標簽后就已經進入了根據特征分布進行問句分類的任務。根據以往分類任務經驗,本文擬用支持向量機、邏輯回歸分類器、貝葉斯分類器、K近鄰、決策樹以及隨機森林等六種機器學習方法來驗證問句特征對問句的分類效果。
此外,不同特征數量的選擇對問句分類的結果也會有影響。F1~F8等特征近似于從語言學角度對問句形式進行列舉,但哪些特征組合能夠使得問句分類效果最佳需要進一步實驗證明,所以本文將對F1~F8等8個特征做排列組合,共計225種組合結果。
我們再將人工標注的1 679句小說問句作為訓練語料,后續(xù)標注的2 621句百度知道問句作為測試語料,將機器學習方法與特征組合結果結合后,下文將從多角度來分析模型的分類效果。
考慮到不存在問句特征和問句類型完全一一對應的情況,問句特征可以分為充分不必要條件(語氣詞、疑問格式等)、必要不充分條件(疑問代詞、語氣副詞等)兩種。充分不必要條件對判斷的貢獻程度會高于必要不充分條件,從這個角度來說,問句特征貢獻程度便有如下排序,語氣詞=疑問格式>疑問代詞=其他。此外,根據表3我們可以把特征的覆蓋率作為問句特征對問句分類的貢獻程度的另一參考,便有如下排序: 語氣詞>疑問格式>疑問代詞>其他。那么基于此,我們可以讓貢獻大的問句特征優(yōu)先參與問句判定,而問句特征無法覆蓋的問句可以歸入形式最多樣的是非問,這樣問句分類就是在一個有限規(guī)則內進行,只要輸入一個問句,必定可以輸出問句所屬的類別。這樣就完成了基于形式特征集的有限狀態(tài)自動機構建準備。
由于問句類別包含四類,我們主要從宏觀的角度來分析模型隨特征數量變化的情況,即通過不同模型分類的F1值宏平均和微平均分析問句分類整體的優(yōu)劣(圖1、圖2)??紤]到在某一特征數量下,存在不同特征組合影響分類結果準確性的情況,我們只選取某一特征數量下模型的最優(yōu)結果作為比較對象。
圖1 不同模型F1值在特征數量上的宏平均
圖2 不同模型F1值在特征數量上的微平均
從圖1、圖2可以看出,特征數量與模型的分類效果并不完全成正比,說明只有特定的典型問句特征組合集才利于問句分類。此外,并得出隨機森林模型在特征數量為5時,分類模型的F1值宏平均和微平均達到最高值,分別是0.98和0.99。此時選取的特征分別是F2、F3、F4、F5、F6,即語氣詞“嗎、么、嘛”、疑問代詞是非問疑問格式、選擇問疑問格式以及正反問疑問格式。隨后,我們將百度知道的2 621條問句作為實驗對象,采用有限狀態(tài)自動機分類和隨機森林模型分類的效果如表5所示。
表5 問句特征轉換示例
從模型整體效果來看,隨機森林的F1值宏平均和微平均相較有限狀態(tài)自動機的分類結果提高了0.04和0.03。這一方面說明了有限狀態(tài)自動機分類的方法對問句分類也有較好的效果,通過特定的問句規(guī)則可以有效覆蓋大多數問句,但這種方法往往會出現(xiàn)召回率偏低的情況,無法處理一些組合特征;另一方面也說明了隨機森林模型在進行問句分類過程中具有更好的分類效果。
從各個問句小類的分類結果來看,特指問的F1值在兩種分類方法中均為最佳,但在是非問、正反問中,有限狀態(tài)自動機的F1值卻偏差隨機森林頗多,表明是非問句、正反問句的判定受形式特征的多樣性影響明顯,單一的問句特征不足以覆蓋大多數此類問句;而對于正反問句來說,有限狀態(tài)自動機的方法在精確率上高于隨機森林模型,說明正反問的問句形式特征對正反問的判定具有較強的作用,但在召回率上低于隨機森林模型,與是非問情況相同,也體現(xiàn)了正反問形式特征的多樣性。
按照錯判的類別分為以下典型幾類:
例11: 有誰能幫忙解釋一下,吳尊拍這張照片的這時候在干嗎?
上述句子是特指問句,卻被錯判為是非問句。究其原因是“干嗎”作為疑問代詞,詞中含有“嗎”字,使得模型誤以為含有是非問特征詞,加之語氣詞“嗎”屬于強形式特征,模型會傾向于將問句分類為是非問。
例12: 聽說有位明星自殺了真的假的?
上述句子是選擇問句,卻被錯判為是非問句。這是由于選擇問句的形式不能覆蓋原問句形式所致。選擇問句中最典型的疑問格式是“×還是×”,但也存在選擇并列的情況,如上句。并列的成分可以是謂詞性成分,也可以是體詞性成分,但不論是何種成分,并列成分在結構上總存在一定的相似性。也正是由于這個原因,這類問句在形式上難以量化,本實驗的模型對此類問句的識別效果有限。
例13: 韓庚什么的,沒上09央視春晚吧?
上述句子是是非問句,卻被錯判為特指問句。這是由于原是非問句缺少明顯的是非問形式特征,但卻存在疑問代詞,使得模型傾向于將原問句判斷為特指問。從另一個角度來說,上述問句的疑問代詞“什么”并不是疑問點,而是表示虛指。要正確對此類問句分類,必須分清句中的疑問代詞是否表示疑問。
例14: 可最近心情又是不好,吃藥都沒作用啦,難道說還是抑郁癥?
上述句子是是非問句,卻被錯判為選擇問句。這是由于句中出現(xiàn)了選擇問形式特征,但“還是”前后連接的并不是選擇的對象。結合前文中選擇問句錯判的例句,可以發(fā)現(xiàn)選擇問問句分類精確率較其他問句低,主要是由于連詞“還是”作為選擇問的典型特征,易與狀中結構“還是”混淆,召回率低則是選擇問存在不易歸納的問句形式所致。
例15: 如何判斷經營者決策是否正確?
例16: 怎么看哈士奇純不純?
上述句子是特指問句,卻被錯判為正反問句。這是由于句中同時存在正反問形式特征和特指問形式特征所致,正反問形式特征對問句分類的直接增益更大,所以原句被判別為正反問句。實際上,上句中的“經營者決策是否正確”和“哈士奇純不純”并不是原問句的疑問焦點,“經營者決策是否正確”等價于“經營者決策的正確性”,“哈士奇純不純”等價于“哈士奇的純度”,要解決這一個問題,需要引入問句焦點信息的識別工作。
本文通過分析了問句形式在問句語料篩選和問句分類中的作用,在問句形式自動分類中證明了問句的形式分類本身是一個特征較為明確、規(guī)則性較強的問題,使用規(guī)則系統(tǒng)也可以獲得不差的效果。當形式特征集為語氣詞“嗎、吧、么、嘛”、是非問疑問格式、疑問代詞、選擇問疑問格式、正反問疑問格式時,問句分類模型的F1值能達到0.98。
考慮到不同問句形式可以對應不同語用功能的前提,我們認為,在為問句分類時可以增加一個問句形式分類的接口,一方面問句形式自動分類的精度有一定的保障,另一方面可以在這個問句形式分類接口處集中處理所有問句形式的問題,為問題進一步分類提供分類基礎。下一步我們將考慮在不同數據集上驗證問句形式的分類效果,增強問句形式對分類的泛化能力。