當增卓瑪
(青海民族大學(xué)藏文信息處理軟件研究所 青海 810007)
古印度學(xué)家研究梵文時將靜詞分為七種變格形式,分別叫做第一格、第二格等,從而 “格”這個語法詞也就在語言學(xué)中傳承了下來。20世紀60年代末,喬姆斯基推遲了TG理論的標準模式,針對這一模式所存在的缺陷,美國語言學(xué)家喬姆斯基的學(xué)生費爾默提出了“格”語法的理論,這一理論從句法語義關(guān)系方面對TG的標準理論進行了修改,提出了一系列的概念及分析問題的新視角。對格語法的研究世界各國依據(jù)各自語言對各項分析與概念推理也不一致,沒有統(tǒng)一的標準。國內(nèi)從吐彌開始的藏語文法,己經(jīng)建立起了一套完整的傳統(tǒng)語法體系。但另一方面,隨著語言學(xué)的不斷發(fā)展,需要用新的語言學(xué)理論和方法重新宏觀研究藏語語法,建立符合現(xiàn)代藏語語法的新體系,但是到目前為止,自動識別藏文八格的算法和軟件都沒有。本文為了給藏文文法研究者和學(xué)習(xí)者提供識別藏文八格,并正確消除藏文語境歧義,還可推動藏文信息處理和藏文文法中句法分析、機器翻譯和語義分析等的進一步發(fā)展。
“格”(case)這個術(shù)語是由布萊克(Blake 1930)首先提出來的,“格”是語法范疇之一,它是指某些曲折語法中用于詞間語法關(guān)系中的語法形式表達式表示名詞和代詞的形態(tài)變化,這種格有顯性的形態(tài)標記即表層結(jié)構(gòu)。
格語法(C ase Grammar)規(guī)則是美國語言學(xué)家菲爾墨(C.J.Filltnore)在 l968 年發(fā)表的《“格”辯》(The Case For Case)中首先提出來的。
(2)格助詞的概念
格是名詞的語法范濤之一。它通過一定的語法形式表示名詞、代詞在句子中跟其他詞語發(fā)生的種種結(jié)構(gòu)關(guān)系
(3)格助詞的分類
藏語書面語的“格”若從語法意義上來分遠不止八個,若從語法形式上可以分成八格即“本體詞等 。 而 其 中 第 一 體 格是以名詞為主體的原形詞。第八格是對別人打招呼時對待不同人的一種稱呼與指人的名詞一起使用的詞。因此在本文中不做詳細研究的對象。位助詞又包括業(yè)格、為格、于格,即總體可以分為四大類。(如圖1所示:)
圖1 藏文格助詞的分類
(4)格助詞的標記符號
本文中書寫形式時使用青海民族大學(xué)藏語語料基本加工規(guī)范中的縮寫形式。其中d表示副詞;n表示名詞;v表示動詞;f表示方位詞;vae表示助動詞;cp表示為格即
知識庫是知識工程中的結(jié)構(gòu)化,俱全面組織的知識集群。建立知識庫,必須要對原有的信息和理論知識做一次大規(guī)模的的收集和整理,按照一定的方式進行分類存儲,并提供相應(yīng)的檢索手段。經(jīng)過這樣處理后,信息、知識便從原來的無需變成了有序,并為有效的使用而打下了一定的基礎(chǔ)。
格助詞知識庫
研究藏文傳統(tǒng)語法的格助詞的定義及舉例中找出規(guī)律并進行形式化后構(gòu)建知識庫。(如圖2所示:)
圖2 格助詞知識庫
識別算法步驟如下:
①先構(gòu)建語料庫并研究藏文分詞進行詞性標注;
②研究藏文八格的形式化并建設(shè)藏文八格的知識庫;
③研究藏文八格的算法并在藏文文本中研究藏文八格的識別;
④最終實現(xiàn)藏文文本中八格的識別。
藏文文本中格助詞的識別率除跟研究傳統(tǒng)藏文語法有關(guān)外還跟詞性標注的算法性能和大家公認的詞性標記集及專家標注過的詞性語料庫。