李 瓊,李 志
(華中師范大學(xué)國際文化交流學(xué)院,武漢430079)
基于詞性信息自動(dòng)識(shí)別和標(biāo)注非分句
李 瓊,李 志
(華中師范大學(xué)國際文化交流學(xué)院,武漢430079)
在完成自動(dòng)分詞和詞性標(biāo)注工作的基礎(chǔ)上,進(jìn)行分句層次和關(guān)系的自動(dòng)劃分和標(biāo)注,以期建設(shè)一個(gè)面向中文信息處理的大規(guī)模復(fù)句“精加工”語料庫??梢岳迷~性信息制定一系列規(guī)則去實(shí)現(xiàn)部分非分句的自動(dòng)識(shí)別和標(biāo)注,同時(shí)建設(shè)一個(gè)短語庫,把短語語言片段收錄其中。
詞性;短語庫;詞性標(biāo)注
同屬于一類的詞往往呈現(xiàn)出諸多相同的語法屬性,因此詞性對于語言信息處理是最便于應(yīng)用的。詞性標(biāo)注也成為語法分析和大規(guī)模語料庫深加工的必要步驟,是后續(xù)的句法分析、語義分析和語境分析的基礎(chǔ)。目前,由華中師范大學(xué)語言研究所設(shè)計(jì)開發(fā)的現(xiàn)代漢語復(fù)句語料庫,包括摘自《人民日報(bào)》、《長江日報(bào)》等各種報(bào)紙、雜志和小說的65萬個(gè)復(fù)句,已基本完成了自動(dòng)分詞和詞性標(biāo)注,這是一切后續(xù)工作的重要基礎(chǔ)。今天,面對自然語言的計(jì)算機(jī)處理形勢,對詞性進(jìn)行標(biāo)注更有多種意義:為更高層次的自然語言文本加工提供素材;為語言學(xué)的研究,提供翔實(shí)的資料;從加工過的文本中獲取詞類及頻度的詞性標(biāo)注知識(shí)等。
詞性是詞在語法意義上的性別,它表示詞所屬的類別;而語法上的詞類正好就是根據(jù)詞的語法特征,包括詞的形態(tài)、組合能力、造句功能三方面表現(xiàn)出來的特征,劃分出來的。不過對不同的語言來說,這三方面的特征在劃分詞類時(shí)所起的作用并不一樣。給漢語的詞分類,主要應(yīng)根據(jù)詞的組合能力和造句功能,特別是組合能力。反過來說,筆者認(rèn)為一旦把詞語歸入了某個(gè)特定的類別,就好像給這個(gè)詞貼上了標(biāo)簽,它就至少應(yīng)該表現(xiàn)出這類詞所共有的典型組合能力和造句功能。比方說,根據(jù)能受表示物量的數(shù)量短語修飾、不能受副詞修飾等語法特征把“老師”這個(gè)詞歸入名詞類;而一旦“老師”的詞性被標(biāo)為名詞n后,它就表現(xiàn)出可以作主賓語、一般不能作謂語、可以有條件地充當(dāng)定語等句法功能。正是在這個(gè)基礎(chǔ)上,又由于65萬復(fù)句語料庫已基本完成了詞性標(biāo)注的工作,所以在這一階段可以利用標(biāo)注的詞性信息對語料庫中的一部分非分句語言片段實(shí)現(xiàn)自動(dòng)識(shí)別。
當(dāng)然,有些語言片段本身就是一個(gè)詞,如連詞、副詞等經(jīng)常單獨(dú)充當(dāng)一個(gè)語言片段,這樣的語言片段就更可以在詞性標(biāo)注的時(shí)候解決了。
目前在語料的信息屬性標(biāo)注方面,最重要的工作是詞性標(biāo)注,就是標(biāo)明詞的語法范疇和功能類別。在筆者看來,一個(gè)詞的詞類屬性,僅僅是該詞一個(gè)比較重要的功能值而已。給詞定一個(gè)詞性,不是自然語言處理的最終目的;詞性只是分析的手段之一。
如果在詞性標(biāo)注階段能夠多解決一些問題,相信會(huì)為后面的非分句自動(dòng)識(shí)別工作提供更多的信息。為此,筆者在北京大學(xué)計(jì)算語言研究所研制的詞性標(biāo)注體系的基礎(chǔ)上,針對本項(xiàng)研究的實(shí)際情況對一部分詞性的標(biāo)注工作進(jìn)行了適量調(diào)整。具體說明如下:
1.把人名、地名、機(jī)構(gòu)團(tuán)體和其他專名從一般名詞中分離出來,單獨(dú)進(jìn)行標(biāo)注。如:人名標(biāo)注為nr、地名ns、機(jī)構(gòu)團(tuán)體nt、其他專名nz。
2.對語素g進(jìn)行更細(xì)致的標(biāo)注,下分為形語素ag、副語素dg、名語素ng、時(shí)語素tg和動(dòng)語素vg。
3.依照句法功能詳細(xì)標(biāo)注兼類詞,如副形詞ad、副動(dòng)詞vd、名形詞an和名動(dòng)詞vn。舉例來說:
(1)我們要搞好農(nóng)村兒童受教育狀況的調(diào)查。
“調(diào)查”的詞性,就漢語本身的研究來看,應(yīng)是動(dòng)詞。在這里之所以將它們標(biāo)注為名動(dòng)詞vn,是因?yàn)閮牲c(diǎn):第一,“調(diào)查”的語法功能更接近名詞,確實(shí)有了一些與在謂語動(dòng)詞位置上不同的語法功能,只是因?yàn)闈h語沒有形態(tài)變化,找不到形式上的標(biāo)記;所以有些學(xué)者認(rèn)為,它們是動(dòng)詞,但已經(jīng)“名物化”了。第二,動(dòng)詞在何時(shí)成為名動(dòng)詞,包括三種情況:直接受名詞修飾與直接修飾名詞,直接受“的”字結(jié)構(gòu)修飾成為體詞性短語的中心語,在形式動(dòng)詞或其他準(zhǔn)謂賓動(dòng)詞及“有”之后。第三,如果在詞性標(biāo)注階段就把名形詞、名動(dòng)詞和形容詞、動(dòng)詞分開標(biāo)注清楚,讓計(jì)算機(jī)知道這些詞不再充當(dāng)小句或分句的謂語,將為今后的非分句識(shí)別工作提供更多信息。
當(dāng)然,詞性標(biāo)注并不屬于我們的工作內(nèi)容,前面也已經(jīng)說過本項(xiàng)研究是在詞性標(biāo)注工作已大致完成的基礎(chǔ)上進(jìn)行的。
雖然本文的主要目標(biāo)是進(jìn)行非分句的自動(dòng)識(shí)別,暫不涉及標(biāo)注問題;但筆者將盡可能地在探索非分句自動(dòng)識(shí)別規(guī)則的同時(shí)對標(biāo)注問題也給予一定程度的關(guān)注,以期為今后的研究工作奠定良好的基礎(chǔ)。
書讀前后語言片段既有詞和短語,也有小句,還有很多“四不象”。盡管如此,筆者還是可以大膽地推測,這些語言片段除了小句之外,非小句(也就是非分句)中所占比例最大的顯然應(yīng)該是短語。因而,在此我們將主要討論非分句中短語的標(biāo)注問題。
按照邢福義《漢語語法學(xué)》的分類,短語可以從不同的角度分為成分短語和非成分短語、關(guān)系類短語和標(biāo)志類短語、名詞短語、動(dòng)詞短語和形容詞短語。因?yàn)楸卷?xiàng)研究是面向計(jì)算機(jī)的,是要實(shí)現(xiàn)非分句中短語的自動(dòng)標(biāo)注,因此標(biāo)志類短語將成為本文的重點(diǎn)標(biāo)注對象。
標(biāo)志類短語是結(jié)構(gòu)成分之間語義關(guān)系比較模糊,只從語表上找出標(biāo)志的短語。所謂“語表上的標(biāo)志”包括前標(biāo)志和后標(biāo)志,前標(biāo)志是短語的前面一個(gè)結(jié)構(gòu)成分,后標(biāo)志是后面一個(gè)結(jié)構(gòu)成分。根據(jù)一個(gè)短語是具有前標(biāo)志還是具有后標(biāo)志還是前后標(biāo)志兼有,標(biāo)志類短語可分為:
前標(biāo)志短語,如能愿短語和介詞短語,前者的前一個(gè)結(jié)構(gòu)成分是能愿動(dòng)詞,后者的前一個(gè)結(jié)構(gòu)成分是介詞;
后標(biāo)志短語,如“的”字短語、方位短語、趨向短語和比況短語,它們的后一個(gè)結(jié)構(gòu)成分分別是“的”字、方位詞、趨向動(dòng)詞和比況助詞;
雙標(biāo)志短語,如數(shù)量短語,前一個(gè)結(jié)構(gòu)成分是數(shù)詞,后面的一個(gè)結(jié)構(gòu)成分是量詞。
結(jié)合研究的實(shí)際情況,我們對《漢語語法學(xué)》中的標(biāo)志類短語進(jìn)行了適當(dāng)?shù)奶砑雍蛣h并,并增加了一些非標(biāo)志類短語。本文非分句中的短語包括:
表1 本文非分句中的短語
西方語法的傳統(tǒng)句子分析格局是主謂兩分的格局,這是受古典形式邏輯主詞謂詞兩分格局的影響而形成的,謂語再兩分為核心動(dòng)詞和補(bǔ)語。在機(jī)器翻譯和自然語言理解的研究領(lǐng)域里,經(jīng)常使用謂詞邏輯來描述知識(shí)和進(jìn)行邏輯推理?!皠?dòng)詞中心論”恰巧和現(xiàn)代謂詞邏輯以謂詞為中心相吻合。動(dòng)詞中心論認(rèn)為動(dòng)詞是句子的核心和重心,主語和其他補(bǔ)語都是核心動(dòng)詞的“補(bǔ)語”,主語和賓語都是修飾或限制核心動(dòng)詞的,在一個(gè)層次上。而我國語言學(xué)家呂淑湘則于1942年正式出版的《中國文法要略》就提出了“動(dòng)詞中心觀”和動(dòng)詞的“方向”問題。呂叔湘說:“句子的重心就在那個(gè)動(dòng)詞上,此外凡動(dòng)作之所由起,所于止。以及所關(guān)涉的各方面,都是補(bǔ)充這個(gè)動(dòng)詞把句子的意義說明白,都可稱為“補(bǔ)詞”。
根據(jù)小句聯(lián)結(jié)律,兩個(gè)或多個(gè)小句聯(lián)結(jié)在一起并且小句分句化后就能產(chǎn)生復(fù)句。那么針對本項(xiàng)研究,一個(gè)語言片段要想成為復(fù)句中的分句,首先必須具備成為小句的條件。而小句中樞理論在講到小句成分配置的時(shí)候說,除了單詞句,小句都有核心,而且充當(dāng)小句核心的詞一般是動(dòng)詞。綜合以上兩點(diǎn)得出結(jié)論:要判斷或者說識(shí)別一個(gè)語言片段是分句還是非分句,首先得看這個(gè)語言片段有沒有動(dòng)詞。當(dāng)然,名詞也可以充當(dāng)核心詞,但相對于動(dòng)詞來說數(shù)量要少得多。
因此,筆者從研究策略的角度出發(fā),首先編制了一個(gè)程序讓計(jì)算機(jī)把子語料庫中所有不含動(dòng)詞的語言片段標(biāo)注為非分句,因?yàn)榇蟛糠址志涞暮诵脑~是動(dòng)詞。對已經(jīng)標(biāo)注了詞性的語料,計(jì)算機(jī)是很容易做到這一點(diǎn)的。只需要對一個(gè)語言片段進(jìn)行逐詞或字符掃描即可,如果掃描后沒有發(fā)現(xiàn)V,就可以先斷定這是個(gè)非分句。對不含形容詞(可謂形容詞,不包括非謂形容詞或區(qū)別詞)的語言片段也做同樣處理,因?yàn)樾稳菰~在句中的表現(xiàn)和功能類似于不及物動(dòng)詞。這純粹是考慮到研究策略而采取的權(quán)宜之計(jì),因?yàn)檎Z料庫中還有少量以名詞為核心詞的分句,即名詞謂語句,但本文對這種情況暫時(shí)不予考慮,因?yàn)檫@種類型的分句在大規(guī)模語料庫中所占比例微不足道,對非分句識(shí)別的正確率不會(huì)有太大影響。
規(guī)則一:以方位詞“中、下、底、里、內(nèi)、間、前、以前、后、以后、之后、前后、左右”等結(jié)尾的語言片段標(biāo)注為方位短語op(orientation phrase)。舉例來說:
(2)[八/m點(diǎn)/n三十/m分/n左右/f]op,/w該輪剛駛進(jìn)青山岬水域,江面突起大霧,駕駛?cè)藛T立刻采取措施,慢車減速。
該例的第一個(gè)語言片段不包含動(dòng)詞,也沒有形容詞,計(jì)算機(jī)根據(jù)編制的程序很容易識(shí)別出它們是非分句,然后調(diào)用規(guī)則庫中設(shè)定的“規(guī)則一”對它進(jìn)行自動(dòng)標(biāo)注,“八點(diǎn)三十分左右”以復(fù)合方位詞“左右”結(jié)尾,放在方括號(hào)內(nèi),標(biāo)注為方位短語op。
規(guī)則二:以時(shí)間詞或時(shí)語素“前夕、時(shí)刻、時(shí)候、月份、時(shí)節(jié)、世紀(jì)、凌晨、清晨、早晨、傍晚、黃昏、期間、時(shí)期、春天、夏天、秋天、冬天、前夕、分、點(diǎn)、天、日、月、旬、季、節(jié)、年、年代、葉、午、晚、初、末、期、時(shí)、春、夏、秋、冬”等結(jié)尾的語言片段標(biāo)注為時(shí)間短語tp(time phrase)。
規(guī)則三:以助詞“起、來、以來、左右”等結(jié)尾的語言片段標(biāo)為時(shí)間短語tp(time phrase)。
規(guī)則四:以表時(shí)間處所的介詞“在”開頭,以表范圍的名詞“方面”或“上、下、之下、中、里、面前”等方位詞結(jié)尾的語言片段標(biāo)注為狀語性短語adp(adverbial phrase),因?yàn)檫@些語言片段的功能大致相當(dāng)于全句的狀語成分。
規(guī)則五:語言片段以“在、為、為了、從、根據(jù)、據(jù)、隨著、按、按照、依、關(guān)于、通過、經(jīng)、經(jīng)過、用、以、對、對于、把、與、供、包括、鑒于、比起、至于、作為、如、像、到、到了、憑借、乘著、面對、除、除了、除去、自、相對于、同、當(dāng)、向著”等介詞或功能類似于介詞的成分開頭的,一律標(biāo)為介詞短語pp(preposition phrase)。
規(guī)則六:如果一個(gè)語言片段的詞性序列為“/r/m/n、/r/m/q/n、/r/n、/r/vn、/r/q/n、/r/q/vn、/m/q/n、/m/q/vn、/r/q/n、/r/q/vn、/r/u/n、/r/u/vn、/n/u/n、/m/q/n/u/n、/r/m/q/n/u/n、/r/q/n/u/n ”等,或者以這樣的詞性序列結(jié)尾,這個(gè)語言片段應(yīng)標(biāo)注為量詞短語qp(quantifier phrase),其中又包括數(shù)量短語和指量短語。。
規(guī)則七:某個(gè)語言片段如果是復(fù)句的第一個(gè)語言片段,且以“跟/p、和/p、同/p、與/p、像/p”等介詞開頭,以“似的/u、一般/u、一樣/u”等助詞結(jié)尾,一律標(biāo)為助詞短語ap(auxiliary phrase)。
規(guī)則八:某個(gè)語言片段如果以復(fù)數(shù)助詞“們”或準(zhǔn)復(fù)數(shù)助詞“等”、“等等”、“等等等等”結(jié)尾,則這個(gè)語言片段標(biāo)注為助詞短語ap。
規(guī)則九:以語氣助詞“也罷”、“也好”等結(jié)尾的語言片段標(biāo)注為助詞短語ap。
本文所說的短語庫跟喬姆斯基的詞庫同中有異,它不是一種語言中儲(chǔ)存在人類大腦里所有詞語的匯合;而是針對我們的研究任務(wù)設(shè)計(jì)的,專指那些不能用規(guī)則識(shí)別、只能以清單方式一個(gè)一個(gè)貯存的非分句的集合。它們是大于詞的結(jié)構(gòu)。
上文提到,有些副詞、連詞或復(fù)句關(guān)系詞語會(huì)單獨(dú)充當(dāng)一個(gè)語言片段,這種情況直接通過詞性標(biāo)注信息就可以識(shí)別為非分句了。還有些形式相對固定的短語經(jīng)常單獨(dú)充當(dāng)復(fù)句的一個(gè)語言片段,但不和前后分句發(fā)生任何邏輯上的語義聯(lián)系,因此也不參加復(fù)句層次關(guān)系的標(biāo)注,應(yīng)排除它們。這些短語是一個(gè)相對封閉的類,所以我們采取窮盡性列舉的方法,盡可能把它們都收入短語庫中。目前我們發(fā)現(xiàn)的這類非分句主要有:
規(guī)則十:“近年來、不一會(huì)兒、不多久、前不久、久而久之、那陣子、這陣子、長期以來、此時(shí)此刻、到時(shí)候”等單獨(dú)充當(dāng)一個(gè)語言片段時(shí)標(biāo)注為時(shí)間短語tp,某個(gè)語言片段以它們結(jié)尾的也標(biāo)注為tp。
規(guī)則十一:“很可惜、很明顯、沒辦法、事實(shí)上、那當(dāng)然、那好、實(shí)際上、果然如此、算了算了、對不起、說實(shí)話、講心里話、依我看、據(jù)分析、要知道、你看、你們看、你看看、你們看看、表面上看、想想看、你想、你們想、你想想、你們想想、你瞧、你們瞧、你瞧瞧、你們瞧瞧、要知道、按理講、按理說、照理說、這就是說、不也可以說、退一步講、進(jìn)一步講、換句話講、比如說”等單獨(dú)充當(dāng)一個(gè)語言片段時(shí)標(biāo)注為插說語ip(inserted phrase),某個(gè)語言片段如果以它們結(jié)尾也同樣標(biāo)為ip。
規(guī)則十二:“相反地、也就是說、具體地說、反過來說、恰恰相反、唯其如此、既然如此、不僅如此、簡言之、究其原因、相比之下、更重要的、總而言之”等標(biāo)注為連詞(關(guān)系詞)短語cp(connection phrase),某個(gè)語言片段以它們結(jié)尾的也標(biāo)注為cp。
規(guī)則十三:以“從、在、僅從、以、相對于”等介詞或副介組合成分開頭,以“說、來說、上說、看、來看、看來、上看、講、來講、而言、而論”等結(jié)尾的語言片段標(biāo)注為話題短語TP(topic phrase)。為了與時(shí)間短語的代碼tp相區(qū)別,這里用大寫字母表示。
規(guī)則十四:以“可以、能、能夠、應(yīng)該”等能愿動(dòng)詞開頭的語言片段標(biāo)注為能愿短語mp(modal phrase)。如“可以說、可以斷言、可以毫不夸張地說、可以無愧地說、可以看出、可以設(shè)想、可以相信、可以肯定、可以肯定地認(rèn)為、可以預(yù)期、可以預(yù)料”等。
短語庫具有一定的開放性和可增補(bǔ)性,隨著研究工作的進(jìn)展,筆者將不斷添加新的類似于上述五類的短語進(jìn)庫。
做了自動(dòng)分詞工作的語料庫是“粗加工”語料庫,標(biāo)注了詞性信息的語料庫是“深加工”的語料庫;這兩類語料庫雖然都是語言研究工作可以利用的知識(shí)庫,但“利用價(jià)值”顯然還不夠高。如果能對語料庫中的語料進(jìn)一步進(jìn)行“精加工”,標(biāo)注上更多的詞法、句法甚至語義信息,并使標(biāo)注正確率不斷得到提高;這個(gè)語料庫就會(huì)成為語言研究比較理想的知識(shí)源,在語言研究工作中發(fā)揮更大的作用。然而,分詞和詞性信息對語料庫的“精加工”來說又是最基本和最重要的。一方面,語料的分詞和詞性標(biāo)注信息是從事其他語料加工活動(dòng)的基礎(chǔ),如果沒有這個(gè)基礎(chǔ),就根本談不上對語料進(jìn)行更深入的信息標(biāo)注;另一方面,自動(dòng)分詞和詞性標(biāo)注也是后續(xù)工作的關(guān)鍵一環(huán),其正確率會(huì)直接影響到其他語料加工活動(dòng)的準(zhǔn)確性,應(yīng)盡量避免出現(xiàn)不必要的錯(cuò)誤。拿本文來說,根據(jù)“小句中樞”理論,小句都有核心,而充當(dāng)小句核心的詞大多是動(dòng)詞。因此從研究策略的角度出發(fā),筆者暫時(shí)把不包含動(dòng)詞和(或)形容詞的語言片段統(tǒng)一標(biāo)注為非分句,盡管這樣會(huì)對少量以名詞或其他詞類為核心的分句產(chǎn)生誤判,而這項(xiàng)工作就必須建立在詞性標(biāo)注的基礎(chǔ)上,其正確率也依賴于詞性標(biāo)注的正確率。
接下來,本項(xiàng)目還對憑借詞性信息識(shí)別出來的一部分非分句進(jìn)行類型標(biāo)注,并制定了自動(dòng)標(biāo)法的九條規(guī)則,但要注意,這九條規(guī)則針對的語言片段都是或前或后或前后都有明顯形式標(biāo)記的。
最后,對于那些形式相對固定的短語單獨(dú)充當(dāng)?shù)姆欠志湔Z言片斷,采取建立短語庫的方式進(jìn)行識(shí)別。因?yàn)檫@些短語是可以窮盡性列舉的,每碰到一個(gè)新的成員就把它收入短語庫中,不斷擴(kuò)大短語庫的規(guī)律,直至把所有符合條件的語言片斷都收錄進(jìn)來。
[1] 邢福義.漢語語法學(xué)[M].長春:東北師范大學(xué)出版社,1998:439-474.
[2]呂叔湘.中國文法要略[M].北京:商務(wù)印書館,1956:53.
Automatic identification and labeling of non-clauses based on part of speech
LI Qiong,et al.
(School of International Culture Exchanges CCnU,Wuhan 430079,China)
Inorder to build a“finishing”compoundsentence corpus for Chinese Information Process,automatic word segmentation and POS tagging work should be completed first of all.On this basis,automatic classification and labeling of levels and relationship between clauses should be conducted.We can use the POS information to develop a set of rules to achieve some nonclause of automatic identification and labeling,but also can build a phrase library,which includes the phrase language fragments.
part of speech;phrase library;rules
H08
A
1009-8976(2011)01-0077-04
2010-10-29
教育部人文社會(huì)科學(xué)研究青年項(xiàng)目的研究成果(項(xiàng)目編號(hào):09YJC740032)
華中師范大學(xué)“丹桂計(jì)劃”項(xiàng)目
李瓊(1979—),女(漢),湖北荊州,講師,博士主要研究中文信息處理、對外漢語教學(xué)。