• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于中心語塊擴展的漢藏基本名詞短語對的識別

      2013-10-15 01:51:02諾明花劉匯丹馬龍龍丁治明
      中文信息學報 2013年4期
      關鍵詞:漢藏中心語藏語

      諾明花,劉匯丹,馬龍龍,吳 健,丁治明

      (中國科學院 軟件研究所,北京100190)

      1 引言

      淺層句法分析也稱作部分句法分析或語塊分析(chunking)。它主要是識別句子中某些結(jié)構(gòu)相對簡單的獨立成分。例如,非遞歸的名詞短語、動詞短語等。這些被識別出的結(jié)構(gòu)通常被稱作語塊(chunk),語塊和短語這兩個概念可以換用[1]。目前最具代表性的語塊分析任務是基本名詞短語識別。

      名詞短語翻譯是機器翻譯的一個子任務。雙語語料庫是從事統(tǒng)計機器翻譯/輔助翻譯等自然語言處理研究必不可少的基礎資源。構(gòu)建雙語語料庫的關鍵技術之一是對齊,即在雙語文本中找到互為翻譯的源文和譯文片段,對齊的單位包括篇章、段落、句子、短語、詞語等,不同的自然語言應用要求做到不同單位的對齊。漢藏輔助翻譯工作已經(jīng)具備了大規(guī)模的漢藏句子對齊語料[2]和藏文分詞工具[3-4]。短語級別的對齊工作剛剛開始,目前還未看到漢藏基本名詞對齊相關研究報道。較大規(guī)模的漢藏短語詞典的構(gòu)建,僅靠手工對齊是不現(xiàn)實的,因此研究漢藏短語自動對齊方法是有意義且必要的。鑒于現(xiàn)代藏語句法結(jié)構(gòu),本文先從名詞為中心詞的基本名詞短語(BaseNP)入手,識別漢藏基本名詞短語互譯對。

      2 相關研究

      目前英語基本名詞短語的研究已相對比較深入并且滲透到語法分析、信息檢索等應用領域。早在1991年,Abney[5]提出了語塊分析的策略,并引進句法塊概念后,淺層句法分析,特別是BaseNP的識別得到了普遍的關注,國內(nèi)外出現(xiàn)了很多BaseNP識別的方法,許多有效的統(tǒng)計和機器學習方法被應用到英語語塊識別中,并且取得了較好的識別效果。

      Ramshaw和 Marcus[6]在他們的開創(chuàng)性工作中,把NP語塊分析問題作為機器學習問題,并提出標準數(shù)據(jù)集和評價指標。2000年舉行的自然語言學習國際會議(CONLL-2000)推出了組塊共享任務[7],旨在統(tǒng)一組塊類別,開發(fā)出一個大規(guī)模的英語組塊庫,為基于統(tǒng)計的不同分析方法的探索提供統(tǒng)一的訓練和測試語料庫。此項共享任務采用了Abney的組塊描述框架,擴展其他基本組塊,其中名詞短語組塊是從Ramshaw和Marcus的工作發(fā)展而來的。在研討會中的很多系統(tǒng)利用了機器學習方法,其中,最有代表性的是Kudo和 Matsumoto[8]應用的支持向量機(Support Vector Machine,SVM)的方法[8]。此后,許多新的統(tǒng)計學習的方法被應用到了BaseNP識別中,例如,條件隨機場(Conditional Random Fields,CRF)[9]、Winnow 算法[10]、結(jié)構(gòu)學習方法(Structural Learning Methods)[11]等。Ando和Zhang提出了一種半監(jiān)督學習(Semi-supervised Learning)的英文BaseNP識別方法并取得了目前最好的識別結(jié)果[11]。

      因為漢語名詞短語結(jié)構(gòu)的復雜性,漢語語言學界對名詞短語結(jié)構(gòu)的看法尚未形成成熟而統(tǒng)一的意見。在漢語BaseNP研究方面,趙軍[12]依據(jù)張衛(wèi)國對名詞短語中三類定語的論述,首先提出了漢語基本名詞短語的嚴格形式化定義,闡明了它的語言學內(nèi)涵,提出了基于轉(zhuǎn)換的中文基本名詞短語識別方法和模型[13]。還有許多其他的方法用于漢語基本名詞短語的識別,例如,利用隱馬爾科夫模型(Hidden Markov Model,HMM)[14]、利用最大熵(Maximum Entropy,ME)方法[15]、利用基于記憶的學習方法(Memory-based Learnig)[16]和利用組合分類器的方法[17]等。徐昉采用一種新的錯誤驅(qū)動的組合分類器方法,與單獨使用基于轉(zhuǎn)化的方法、條件隨機場方法以及支持向量機方法相比較,顯著提高了中文BaseNP識別效果[18]。目前,漢語還沒有像CoNLL-2000那樣的標準數(shù)據(jù)集和評估系統(tǒng),因此無法評價不同的中文BaseNP識別系統(tǒng)。

      藏語BaseNP研究還處于起步階段。2003年,江荻初步闡述了藏語組塊分析的基本觀念[19],同時對藏語組塊構(gòu)成的類型和標記形式做了廣泛的描述。其后,詳細分析了藏語的組塊計算處理問題,并落實到計算處理方法上[20]。從形式標記著手提出解決非謂動詞自動識別的方法。而在藏語名詞組塊分析中,黃行[21]針對現(xiàn)代藏語名詞組塊的構(gòu)成與結(jié)構(gòu),對名詞組塊做了初步定義,并根據(jù)名詞組塊的句法功能開展了名詞組塊的分類研究。嘗試解決詞格標記的同形問題和詞根黏著問題。對于采用零標記的名詞組塊,利用其他上下文隱性標記加以處理,其中主賓語名詞組塊的識別率均達到了可接受的程度[22]。

      雙語名詞短語自動抽取相關成果發(fā)表較少。劉冬明提出了一種在漢英雙語語料庫句子對齊的基礎上,自動進行漢英名詞短語劃分和對應的方法[23]。他將短語分高頻和低頻短語分別處理,對于高頻短語,利用英語短語和漢語詞在雙語語料庫中的關聯(lián)信息,采用一種迭代重估算法進行雙語短語的對應;對于低頻短語,根據(jù)雙語詞典中源詞和譯詞之間的對應信息,結(jié)合一套人工編寫的句法規(guī)則進行雙語低頻短語的對應,從而提高了覆蓋率。屈剛用基于“有效句型”概念和“翻譯中相對不變準則”的短語對齊模型對源語言和目標語言句法樹間對應關系排除歧義[24]。這個模型的輸入是源語言(英語)、目標語言(漢語)候選句法分析樹集。漢藏雙語BaseNP的研究還未見相關報道。

      3 漢藏基本名詞短語對齊框架

      對于不同的語言,名詞短語的結(jié)構(gòu)有著較大的差異,定義的方式也往往不同。英語基本名詞短語定義為簡單的非嵌套的名詞短語,即一個基本名詞短語內(nèi)部不能再包含有更小的名詞短語。通過對漢藏雙語語料的分析,鑒于雙語短語對的源語言是漢語,我們參考文獻[12]提出的從限定性定語的角度出發(fā)的漢語基本名詞短語的概念,定義本文所抽取的藏語基本名詞短語的概念。

      定義1:藏語基本名詞短語 (BaseNP)

      BaseNP→BaseNP+BaseNP

      BaseNP→BaseNP+名詞

      BaseNP→限定性定語+BaseNP

      BaseNP→限定性定語+名詞

      限定性定語→形容詞|區(qū)別詞|動詞|名詞|處所詞|(數(shù)詞+量詞)

      其中,為了抽取結(jié)合比較緊密的一般名詞短語,“的”字短語作定語及并列的名詞性成分都在藏語基本名詞短語范圍內(nèi)。本文工作目標是建立漢藏雙語基本名詞短語詞典。因此,只抽取兩個或以上單詞構(gòu)成的短語。

      定義2:漢藏名詞短語準等價對

      漢藏準等價對是短語級的對齊,設符號 “?”表示對齊關系,短語用詞序列表示,漢藏準等價對的定義表示如下。

      <Cr1,Cr2,…,Crq>?<Tt1,Tt2,…,Ttp>

      關于此定義的說明為:由于漢語和藏語語義上的差別,很難在語法層面上找到一個定義使得漢語名詞短語和藏語名詞短語完全等價,因此本文稱為漢藏準等價名詞短語,以下簡稱漢藏名詞短語對。

      下面介紹本文提出的漢藏基本名詞短語對自動抽取框架。分兩步完成。首先,抽取漢語基本名詞短語。這一步以漢藏句子對齊的語料為基礎,用Stanford parser對雙語語料中的所有漢語句子做句法分析,從句法樹中抽取所有NP。自動抽取的NP存在一定的誤差,我們進行適當?shù)娜斯ずY選后作為漢語基本名詞短語。第二步是從已得到的漢語基本名詞短語出發(fā),用不同的基于中心語塊擴展的方法找到藏語短語譯文。處理流程如圖1所示。

      圖1 漢藏基本名詞短語對齊流程圖

      識別過程主要分三步來完成。

      1.預處理。句子對齊的漢語語料和藏語語料以一行一句的形式分開存儲。漢語和藏語語料均分別做分詞處理后用GIZA++①http://code.google.com/p/giza-pp/downloads/list自動詞對齊。

      2.識別漢語基本名詞短語。用Stanford Chinese parser②http://www-nlp.stanford.edu/software/lex-parser.shtml對漢語語料做句法分析,自動抽取句法樹中的NP得到分詞的漢語基本名詞短語,并存儲短語及它所在的句號。

      3.找對齊的藏語基本名詞短語。用中心語塊擴展策略和統(tǒng)計信息為第二步抽取的漢語基本名詞短語確定正確的譯文。

      下一節(jié)重點介紹中心語塊擴展策略和不同的藏語基本名詞短語自動抽取的方法。

      4 藏語基本名詞短語生成模型

      在漢英短語對齊方面,張春祥[25]提出中心語塊擴展的源語言短語候選譯文生成方法。其中,譯文生成過程大致分兩步,先確定中心語塊的邊界,再通過擴展中心語塊找出正確的譯文。

      本文提出的藏語基本名詞短語生成模型用中心語塊擴展的策略,在兩個處理階段中用與文獻[25]不同的方法。在藏語短語中心語塊邊界確定階段,可以以基于詞典的對齊結(jié)果為錨點,在藏語句子中抽取漢語短語的譯文。顯然,基于詞典的對齊方法具有很高的正確率,但召回率低。因此,本文用GIZA++生成的詞對齊結(jié)果彌補召回率。另外,參考王辰[26]提出的基于序列相交的短語譯文獲取方法的基本思想,對已知的漢語基本名詞短語,對它所存在的所有藏語句子進行序列相交操作得到候選譯文,再應用統(tǒng)計信息進一步確認正確譯文。在中心語塊擴展階段,定義中心語塊擴展可信度,當擴展中的候選譯文與漢語基本名詞短語之間的可信度明顯降低時認為已經(jīng)擴展到了譯文邊界。

      4.1 基于詞對齊的中心語塊確定方法

      為已知的漢語基本名詞短語,依據(jù)它所在的漢藏句對的詞對齊結(jié)果獲得短語譯文對齊區(qū)間[i,j]。其中,i和j分別是當前漢語基本名詞短語中各個詞對齊的藏語單詞位置中最小和最大值。

      具體實現(xiàn)中,詞對齊可以用漢藏雙語詞典或采用intersect啟發(fā)式規(guī)則的GIZA++詞對齊,還嘗試這兩種詞對齊的融合來確定藏語中心語塊。融合策略描述如下。

      漢語基本名詞短語的每個單詞在漢藏雙語詞典中查找,如果有對應詞條即可以得到藏語詞列表(TWL)。

      · 如果TWL不為空,在當前漢語基本名詞短語所存在的句號找到藏語句子。判斷TWL中是否有單詞出現(xiàn)在該藏語句子中。并把所有出現(xiàn)的位置記錄下來。

      · 如果TWL為空,直接用GIZA++生成的詞對齊結(jié)果找到對齊單詞在藏語句子中的位置,并記錄位置信息。

      在位置集合中最小和最大兩個值之間的詞串作為藏語中心語塊。

      4.2 基于序列相交的中心語塊確定方法

      漢藏句子對齊語料中任何一個句對用SP表示,對齊關系可以表示為SP=CS?TS,其中CS和TS分別表示漢語和藏語句子。本文的漢藏語料是分詞處理過的,因此句子可以表示為詞序列;漢語句子、藏語句子和漢藏對齊詞序列表示形式如式(1)、(2)、(3)所示。

      定義3:藏語句子序列相交

      設SPr,SPt∈CTBC是漢藏句子對齊語料中任意兩個句對,可以表示為SPr=CSr?TSr和SPt=CSt?TSt,兩個句對中藏語句子的相交可以用式(4)表示。

      其中,TSr∩TSt是藏語句子TSr和TSt的交集。下標r1,r2…rq和t1,t2…tp是遞增的。

      語料中,如果一個漢語基本名詞短語Qi出現(xiàn)在多個漢語句子中,通常在這些漢語句子所對應的藏語句子中Qi的譯文是完全相同或核心詞相同。藏文是語法特征和形式標記比較豐富的語言,名物化標記、格助詞等使得序列相交的結(jié)果為核心詞相同的可能性更大。因此,集合T中的某一個元素肯定是Qi譯文的中心語塊。從而,找藏語基本名詞短語的任務可以轉(zhuǎn)化為計算藏語句子之間的公共子串的問題。

      經(jīng)過以上分析,可以用式(5)表示藏語句子的序列相交。

      集合T一定包含Qi的翻譯譯文的一部分,用Tj表示。假設與已識別的漢語BaseNP共現(xiàn)的,連續(xù)的藏語字串T用下面的符號表示:

      漢語BaseNP與T之間的平均互信息(Average Mutual Information,AMI)和平均t值(Average T-score,AT)的計算公式分別如下:

      我們設定一個選擇函數(shù)來確定候選譯文。為每個Tj(1≤j≤g)用 MI和t-value來定義選擇函數(shù)Ψj,如式(9)所示。

      其中,Ψj值最大的Tj(1≤j≤g)是藏語基本名詞短語的中心語塊。藏語中心語塊確定后,下一步工作是從中心語塊出發(fā)確定藏語基本名詞短語的左右邊界。

      4.3 藏語中心語塊擴展策略

      藏語基本名詞短語生成模型第二步是定義擴展策略來確定藏語短語的統(tǒng)計邊界。一般統(tǒng)計方法中最常用的是互信息和關聯(lián)度t-value值。所用公式如下:

      4.3 藏語中心語塊擴展策略

      藏語基本名詞短語生成模型第二步是定義擴展策略來確定藏語短語的統(tǒng)計邊界。一般統(tǒng)計方法中最常用的是互信息和關聯(lián)度t-value值。所用公式如下:

      其中N是句子總數(shù),c表示漢語短語,t表示藏語詞匯,Pr(c,t)表示c和t的共現(xiàn)概率,Pr(c)和Pr(t)分別表示c和t出現(xiàn)的概率。為每個漢語基本名詞短語,計算它和所在的句對中的藏語句子中每個單詞之間的MI和t-value?;バ畔⒃诖擞糜诒碚鳚h語名詞短語和藏語詞語之間對應的確定性程度,t-value值用于說明統(tǒng)計信息值得信任的程度。

      定義4:中心語塊擴展可信度

      漢語短語PhC在藏語句子中的中心語塊為PhT(n),其中n為長度,擴展相鄰藏語單詞后獲得的譯文為PhT(n+1),則中心語塊擴展可信度Cn可以定義為:

      其中,AMI和AT分別表示PhC和正在擴充的候選藏語基本名詞短語中所有單詞之間 MI和tvalue的均值。

      依據(jù)Cn,藏語基本名詞短語統(tǒng)計邊界確定過程描述如下。從譯文中心語塊出發(fā),在藏語句子中不斷向一側(cè)擴充單詞,每擴充一個藏語單詞就計算Cn;如果Cn大于等于閾值,則繼續(xù)擴展,直到Cn小于閾值時停。獲得漢語短語PhC的譯文統(tǒng)計邊界具體過程如圖2所示。

      圖2 中心語塊擴展過程圖

      圖2中,漢語句子中方括弧內(nèi)是漢語基本名詞短語PhC,藏語譯文的左右邊界已用大括弧括起來,獲得了擴展后的藏語基本名詞短語,表示為PhT(n+ω),0≤ω≤L-n,它們構(gòu)成準等價基本名詞短語對(PhC,PhT)。

      5 實驗

      5.1 實驗語料

      本文實驗在漢藏法律法規(guī)和公文報告領域句子對齊語料上進行。收集到的原始語料通過篇章對齊和句子對齊后,分單語語料存儲。句子級對齊的漢語和藏語語料經(jīng)過分詞、GIZA++工具詞對齊以及對漢語句子做句法分析等預處理工作后,最終形成漢藏基本名詞短語對抽取框架可以處理的初始數(shù)據(jù)。表1給出了語料基本信息。

      表1 語料信息

      已有的句對齊的漢藏語料規(guī)模達到25萬余,稱為語料1,包括長句和短句。本文工作目標為從較大規(guī)模語料中自動抽取漢藏基本名詞短語對,從而構(gòu)建漢藏基本名詞短語詞典。但現(xiàn)階段還沒有漢藏對齊短語對正確率的自動評價工具,需要人工完成正確率計算;考慮到工作量較大,在測試階段從語料1隨機抽取了378句對,作為測試語料。對測試語料通過句法分析能夠抽取384條漢語基本名詞短語,其中包括只有一個名詞構(gòu)成的基本名詞短語、不符合本文定義的基本名詞短語和句法分析識別錯誤的基本名詞短語等。人工篩選后,獲得符合本文的基本名詞短語212條。隨后我們邀請藏族學者為212條漢語基本名詞短語提供正確譯文,再以此為參考自動判斷不同算法的實驗結(jié)果。

      5.2 實驗結(jié)果及分析

      本文參考文獻[23],使用的評價指標為覆蓋率和正確率,定義如下。

      其中,N為實驗語料中漢語基本名詞短語總的出現(xiàn)次數(shù),N1為語料中獲得對應的漢語基本名詞短語的總出現(xiàn)次數(shù),N2為語料中獲得正確對應的漢語基本名詞短語總出現(xiàn)次數(shù)。以參考答案為基礎,自動計算N1和N2。

      基于中心語塊擴展的藏語基本名詞短語識別方法由兩部分組成,分別是中心語塊的抽取和中心語塊的擴展。本文在中心語塊抽取過程中使用不同方法做實驗,最終確定一個適合藏語中心語塊抽取的方法。基于詞對齊結(jié)果的中心語塊確定方法可以獨立應用漢藏雙語詞典或GIZA++詞對齊結(jié)果。也可以將兩者結(jié)合起來用。應用GIZA++中,評估多種啟發(fā)式合并規(guī)則提供的詞對齊結(jié)果,結(jié)論是intersect最適合用于中心語塊抽取。因為,intersect提供的詞對齊是孤立單詞的正確對應,從而避免了藏語名物化標記、格助詞和停用詞等邊界高頻干擾信息。

      在中心語塊的抽取過程中,基于漢藏雙語詞典的方法(DicB)、基于GIZA++詞對齊的方法(WA)、詞典和GIZA++詞對齊相結(jié)合的方法(Dic&WA)以及基于序列相交的方法(SI)的實驗結(jié)果如表2所示。

      表2 不同方法BaseNP對齊結(jié)果

      從實驗結(jié)果可以看出,漢藏詞典的召回率較低,但具有很高的正確率,導致DicB方法正確率高,而覆蓋率太低。如果單獨用GIZA++詞對齊結(jié)果,能夠提高覆蓋率。因為GIZA++工具本身的誤差導致WA方法正確率明顯降低。Dic&WA方法通過兩種詞對齊結(jié)果的互補來提高了整體性能。因此,與詞典和GIZA++相結(jié)合的方法相比,基于序列相交的方法適合低頻短語的抽取,從而能夠提高覆蓋率;同時,它在句子序列相交的過程中能夠把附加的形式化標記和高頻干擾項過濾,所以能夠獲得較高的正確率。在自動抽取漢藏基本名詞短語對任務中,基于序列相交的方法效果最好。

      6 結(jié)論

      本文參考英漢短語對齊的方法,針對藏語語言的特殊性,提出基于中心語塊擴展的漢藏基本名詞短語對自動抽取方法。對漢藏句子對齊語料進行一些預處理后,用Stanford parser抽取漢語基本名詞短語。進一步應用中心語塊擴展策略為這些漢語基本名詞找到語料中的正確譯文。中心語塊確定過程中,用DicB方法、WA方法、Dic&WA方法以及基于序列相交的方法;在擴展中心語塊過程中,定義了擴展可信度來確定左右統(tǒng)計邊界。自動抽取的漢藏基本名詞短語對能夠節(jié)省人工校正的工作量,可以很好地輔助漢藏基本名詞短語詞典建設。

      總體來說,藏語基本名詞短語之間的邊界比較模糊,長名詞短語較豐富,就目前而言語言學界對藏語基本名詞短語的描述不夠深入。因此,藏語基本名詞短語識別的正確率比英語和漢語BaseNP識別結(jié)果偏低,在識別精度方面還有待于提高。本文提出的漢藏基本名詞短語對自動抽取框架也可以用于漢藏一般名詞短語或動詞短語對識別任務中。

      [1]孫宏林,俞士汶.淺層句法分析方法綜述[J].當代語言學,2000,2(2):74-83.

      [2]于新,吳健,洪錦玲.基于詞典的漢藏句子對齊研究與實現(xiàn)[J].中文信息學報,2011,25(4):57-62.

      [3]Huidan Liu,Weina Zhao,Minghua Nuo,et al.Tibetan number identification based on classification of number components in Tibetan word segmentation[C]//Proceedings of the 23rd International Conference on Computational Linguistics (COLING'10):Posters,2010:719-724.

      [4]劉匯丹,諾明花,趙維納,等.SegT:一個實用的藏文分詞系統(tǒng)[J].中文信息學報,2012,26(2):97-103.

      [5]Steven P Abney.Principle-Based Parsing[M],Kluwer Academic Publishers.1991.

      [6]Ramshaw L A,Marcus M P.Text Chunking using Transformation-Based Learning[C]//Proceedings of Schiffrin A.Proceedings of ACL Workshop on Very Large Corpora.Boston,1995:82-94.

      [7]Erik F Tjong Kim Sang,S Buchholz.Introduction to the CoNLL-2000shared task:Chunking.[C]//Proceedings of CoNLL-2000,2000:127-132.

      [8]Taku Kudo,Yuji Matsumoto.Chunking with support vector machine [DB/OL].acl.ldc.upenn.edu/N/N01/N01-1025.pdf.2000.

      [9]Fei Sha,F(xiàn)ernando Pereira.Shallow Parsing with Conditional Random Fields.Eduard Hovy[C]//Proceedings of HLT-NAACL,Edmonton,Alberta,2003:134-141.

      [10]Zhang Tong,F(xiàn)red Damerau,David Johnson.Text chunking using regularized Winnow[C]//Proceedings of ACL'01,2001:539-546.

      [11]Ando R K,Zhang Tong.A High-Performance Semi-Supervised Learning Method for Text Chunking[C]//Kevin Knight.Proceedings of the 43rd Annual Meeting of ACL.Ann Arbor,Michigan,2005:1-9.

      [12]趙軍.漢語基本名詞短語識別及結(jié)構(gòu)分析研究[D].清華大學博士研究生學位論文.1998.

      [13]趙軍,黃昌寧.基于轉(zhuǎn)換的漢語基本名詞短語識別模型[J].中文信息學報,1999,13(2):1-7.

      [14]Heng Li,Jonathan J.Webster,Chunyu Kit,et al.Transductive HMM based Chinese text chunking[C]//Proceedings of IEEE NLP-KE 2003,2003:257-262,Beijing.

      [15]李素建,劉群,楊志峰.基于最大熵模型的組塊分析[J].計算機學報,2003,26(12):1722-1727.

      [16]Yuqi Zhang, Qiang Zhou. Chinese base-phrases chunking[C]//Proceedings of the First SIGHAN Workshop on Chinese Language Processing,vol(18):1-5,Taipei,Taiwan,2002.

      [17]Wenliang Chen,Yujie Zhang,Hitoshi Isahara.An Empirical Study of Chinese Chunking[C]//Proceedings of the 43rd Annual Meeting of ACL.Sydney,Australia,2006:97-104.

      [18]徐昉,宗成慶,王霞.中文Base NP識別:錯誤驅(qū)動的組合分類器方法[J].中文信息學報,2007,21(1):115-119.

      [19]江荻.現(xiàn)代藏語組塊分詞的方法和過程概述[J].民族語文,2003,(4).

      [20]江荻.現(xiàn)代藏語的句法組塊與形式標記,語言計算與基于內(nèi)容的文本處理[C]//全國第七屆計算語言學聯(lián)合學術會議論文集.2003:160-166.

      [21]黃行,孫宏開,江荻,等.現(xiàn)代藏語名詞組塊的類型及形式標記特征[C]//全國第八屆計算語言學聯(lián)合學術會議.2005:615-617.

      [22]黃行,江荻.現(xiàn)代藏語判定動詞句主賓語的自動識別方法[M].語言計算與基于內(nèi)容的文本處理.清華大學出版社.2003:167-172.

      [23]劉冬明,趙軍,楊爾弘.漢英雙語語料庫中名詞短語的自動對應[J].中文信息學報,2003,17(5):6-12.

      [24]屈剛,陳笑蓉,陸汝占.基于有效句型的英漢雙語短語對齊[J].計算機研究與發(fā)展,2003,40(2):143-149.

      [25]張春祥,李 生,趙鐵軍.基于中心語塊擴展的短語對齊[J].計算機研究與發(fā)展,2006,43(9):1658-1665.

      [26]王辰,宋國龍,吳宏林,等.基于序列相交的短語譯文獲取[J].中文信息學報,2009,23(1):38-43.

      猜你喜歡
      漢藏中心語藏語
      淺談藏語中的禮儀語
      客聯(lián)(2022年2期)2022-04-29 22:05:07
      浙江桐廬中學 晏鈮 老師答疑
      漢藏語及其音樂
      中國音樂學(2020年2期)2020-12-14 03:07:24
      轉(zhuǎn)折副詞“卻”在單句中連接狀語中心語的特點和功能
      藏語拉達克話的幾個語音特征
      西藏研究(2017年3期)2017-09-05 09:44:58
      淺析漢語以形容詞為中心語的定中結(jié)構(gòu)——以《漢語形容詞用法詞典》所列例句為例
      2《步輦圖》:初唐漢藏關系圖錄
      藝術品鑒(2017年11期)2017-04-23 05:17:09
      生成語法框架下并列結(jié)構(gòu)的句法研究
      藏語地理分布格局的形成原因
      西藏研究(2016年5期)2016-06-15 12:56:42
      漢藏姐妹一家親
      民族大家庭(2016年3期)2016-03-20 14:52:24
      泗水县| 铁岭县| 左云县| 和田县| 镇原县| 墨江| 遂溪县| 乌兰县| 塔城市| 明溪县| 巫山县| 苏尼特右旗| 米泉市| 洞头县| 隆子县| 永川市| 遂川县| 上虞市| 石渠县| 武川县| 聊城市| 固镇县| 轮台县| 且末县| 衡东县| 乐东| 菏泽市| 琼结县| 古浪县| 常熟市| 东明县| 南岸区| 临泉县| 泸西县| 中宁县| 本溪市| 阿拉善盟| 闸北区| 建昌县| 通辽市| 南投县|