• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      漢藏短語(yǔ)對(duì)抽取中短語(yǔ)譯文獲取方法研究

      2011-06-14 03:34:54諾明花劉匯丹丁治明
      中文信息學(xué)報(bào) 2011年3期
      關(guān)鍵詞:漢藏語(yǔ)塊藏文

      諾明花,吳 健,劉匯丹,丁治明

      (1. 中國(guó)科學(xué)院 軟件研究所,北京 100190;2. 中國(guó)科學(xué)院 研究生院,北京 100049)

      1 引言

      本文工作核心是要針對(duì)特定領(lǐng)域漢藏多策略機(jī)器輔助翻譯系統(tǒng)(MSCT_CAT)構(gòu)建短語(yǔ)對(duì)齊庫(kù)的需求,獲取藏文譯文。MSCT_CAT是基于實(shí)例的輔助翻譯系統(tǒng),它通過(guò)檢索實(shí)例句子庫(kù),短句庫(kù)和短語(yǔ)庫(kù)來(lái)提供相似的參考譯文。

      基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯的優(yōu)勢(shì)在于短語(yǔ)能夠抓住局部上下文的依賴關(guān)系。迄今為止,已經(jīng)出現(xiàn)了多種短語(yǔ)抽取方法[1-8]。其中,有些計(jì)算復(fù)雜度太高,代價(jià)很高;有些模型依賴于詞對(duì)齊的結(jié)果,有些依賴于句法分析結(jié)果,對(duì)資源的要求很高。本文要從漢藏對(duì)齊語(yǔ)料中抽取互譯短語(yǔ)對(duì)。由于藏文自身的繁雜性及使用范圍相對(duì)較小的特點(diǎn),加之當(dāng)前藏文信息處理技術(shù)還在起步階段,藏語(yǔ)語(yǔ)料庫(kù)建設(shè),自動(dòng)分詞標(biāo)注等與機(jī)器翻譯相關(guān)的基礎(chǔ)研究尚未形成系統(tǒng)。GIZA++等開源詞對(duì)齊工具對(duì)訓(xùn)練語(yǔ)料庫(kù)規(guī)模有一定要求,特定領(lǐng)域漢藏句對(duì)齊語(yǔ)料規(guī)模有限,漢藏詞對(duì)齊正確率為進(jìn)一步做短語(yǔ)抽取而言不可取。因此,考慮目前還沒(méi)有詞性、句法層面上加工過(guò)的語(yǔ)料,漢藏短語(yǔ)獲取方法一定擺脫對(duì)詞對(duì)齊、句法分析等資源的依賴。

      本文獲取的短語(yǔ)是廣義上的,它是由若干個(gè)單詞組成的語(yǔ)塊。MSCT_CAT的短語(yǔ)庫(kù)只要有漢語(yǔ)短語(yǔ)以及它的藏文譯文即可以轉(zhuǎn)成TMX庫(kù),以供檢索和返回短語(yǔ)譯文用。本文的思路是先從句對(duì)齊雙語(yǔ)語(yǔ)料中獲取有效漢語(yǔ)語(yǔ)塊,對(duì)包含待譯語(yǔ)塊的句對(duì)求交集,得到候選譯文,最后經(jīng)過(guò)后處理得到漢藏互譯語(yǔ)塊并保持到短語(yǔ)庫(kù)中。

      2 翻譯基本模型

      王辰[9]提出了一種基于序列相交的短語(yǔ)譯文獲取方法,該方法不依賴于額外資源信息的特點(diǎn)正符合目前藏文資源匱乏,可以借鑒到MSCT_CAT的短語(yǔ)庫(kù)構(gòu)建模型中。

      本節(jié)先分析藏文短語(yǔ)類型,再介紹TIA譯文獲取模型。為了使用詞序列相交方法,漢藏兩種語(yǔ)言的文本都需要分詞。本文使用斯坦福的中文分詞開源項(xiàng)目和中國(guó)科學(xué)院軟件研究所多語(yǔ)言信息處理研究室開發(fā)的藏文分詞模塊分別對(duì)漢藏單語(yǔ)語(yǔ)料進(jìn)行分詞。

      2.1 藏文短語(yǔ)類型

      在藏文實(shí)際文本中,從不同層面來(lái)分析短語(yǔ)特性時(shí)可以得出以下結(jié)論。

      ? 其次,漢藏互譯對(duì)之間對(duì)應(yīng)關(guān)系有兩種形式;經(jīng)過(guò)分析收集的漢藏句對(duì)齊語(yǔ)料發(fā)現(xiàn)雙語(yǔ)短語(yǔ)中的漢語(yǔ)單詞既有只有一種譯文的,也有兩個(gè)或以上的譯文的。一個(gè)原文短語(yǔ)對(duì)應(yīng)一個(gè)譯文較常見,這里不舉例說(shuō)明,這種現(xiàn)象本文稱為一詞一譯,簡(jiǎn)稱一對(duì)一(1-1)。由于翻譯機(jī)構(gòu)的地域性或者上下文意譯,同一個(gè)中文有不同譯法,類似一詞多義,這種現(xiàn)象本文稱為一詞多譯,簡(jiǎn)稱一對(duì)多(1-n)。

      2.2 藏文短語(yǔ)譯文獲取模型

      漢藏雙語(yǔ)句對(duì)詞序列相交的示例見表1。

      表1 漢藏雙語(yǔ)句對(duì)詞序列相交示例表

      從以上分析可以得出兩個(gè)句對(duì)SPr與SPt相交公式,表示如下:

      Q={Q1,Q2, …,Qk} 為句對(duì)SPr和SPt中漢語(yǔ)句子CSr和CSt的交集,Q中包含Qi(1≤i≤k)待翻譯的中文短語(yǔ);T={T1,T2, …,Tg} 為SPr和SPt中藏文句子TSr和TSt的交集,T中肯定包含Qi的譯文,可以通過(guò)漢藏詞典確定 (Qi,Tj)漢藏互譯對(duì)。

      待翻譯中文短語(yǔ)由多個(gè)漢語(yǔ)單詞構(gòu)成,表示如公式(2):

      Qi中任意單詞Qi+θ(1≤θ≤l)在詞典中查找,如果詞典中有譯項(xiàng)計(jì)數(shù)并保存到一個(gè)鏈結(jié)構(gòu)L中,一定會(huì)存在某個(gè)Tj+ω能夠滿足Tj+ω∩L≠ Ф的條件,保留為候選譯文。當(dāng)Qi中有未找到譯項(xiàng)的Qi+θ時(shí),設(shè)定一個(gè)閾值(本文取0.66),對(duì)待譯漢語(yǔ)語(yǔ)塊中查詞典成功率大于閾值的保留譯文,對(duì)小于閾值的候選譯文進(jìn)一步計(jì)算其在序列相交過(guò)程中累計(jì)的頻次權(quán)值,保留權(quán)值高的候選,丟棄權(quán)值低的候選譯文。最終保留的Tj+ω(1≤ω≤g)構(gòu)成Qi的譯文Tj。Tj可以是連續(xù)的,也可以是非連續(xù)的。

      3 藏文短語(yǔ)譯文獲取

      本文提出藏文詞串頻率統(tǒng)計(jì)算法(簡(jiǎn)稱TSM)和藏文詞串序列相交算法(簡(jiǎn)稱TIA)兩種方法獲取短語(yǔ)譯文。TSM可以滿足短語(yǔ)連續(xù)性,但是只能抽取1-1的短語(yǔ)對(duì)。而TIA可以彌補(bǔ)TSM的不足,能夠抽取1-n的漢藏短語(yǔ)對(duì)。TIA使用的語(yǔ)料為漢藏句對(duì)齊雙語(yǔ)語(yǔ)料庫(kù),將通過(guò)漢藏詞序列相交模型,獲取1-n的漢藏互譯短語(yǔ)對(duì)。

      3.1 藏文詞串頻率統(tǒng)計(jì)算法

      先簡(jiǎn)單描述一下詞串頻率統(tǒng)計(jì)算法思想。給定一個(gè)待翻譯漢語(yǔ)語(yǔ)塊Q,TSM需要解決怎樣確定Q的譯文P。TSM算法目標(biāo)是獲取1-1的互譯對(duì)。為了算法描述便利,先假定部分符號(hào)表示。

      ?SP表示語(yǔ)料中所有包含Q的句對(duì)集合;

      ?Sn表示SP中句對(duì)數(shù);

      ?TSS表示SP中藏文句子集;

      ?CS表示公共子串。

      以上符號(hào)通用于3.1節(jié)和3.2節(jié)。TSM算法生成公共子串CS過(guò)程描述如下:

      1. 從TSS中,任選一個(gè)藏文句子TS。

      2. 為TS建立一個(gè)單詞列表WL,并保留TS中的詞序。

      3.WL中詞在TSS范圍內(nèi)以句子為單位做詞頻統(tǒng)計(jì)。

      4. 標(biāo)記所有滿足詞頻為Sn的單詞,獲取CS的集合,用ICS來(lái)表示。

      5. 使用雙語(yǔ)詞典過(guò)濾ICS中與Q不相關(guān)的公共子串,用UCS表示。

      6. 按照WL中詞序恢復(fù)CS的鄰接性和連續(xù)性。

      7. 使用TSW過(guò)濾模塊過(guò)濾CS邊界高頻干擾信息得到譯文P。

      藏文詞串頻率統(tǒng)計(jì)算法抽取到的1-1互譯對(duì)(Q,P)能夠很好地滿足MSCT_CAT構(gòu)建短語(yǔ)庫(kù)的需求。TSM算法只適合1-1的連續(xù)和非連續(xù)短語(yǔ)抽取,然而以下兩個(gè)因素導(dǎo)致漢藏語(yǔ)料中存在漢語(yǔ)短語(yǔ)有多種譯法的情況,降低TSM的召回率。

      ? 短語(yǔ)中部分漢語(yǔ)單詞可以對(duì)應(yīng)意義相同的多個(gè)藏文單詞,不同的譯者選擇不一致。

      ? 根據(jù)上下文意譯時(shí),藏文格特征和后修飾特征[12]引起中心詞之外的部分不一致。

      3.2 藏文詞串序列相交算法

      為了提高召回率,TIA重點(diǎn)解決1-n的短語(yǔ)對(duì)抽取問(wèn)題。漢藏詞序列相交模型中提到,對(duì)包含Q的漢藏句對(duì)計(jì)算公共子串確定P后可以獲取漢藏短語(yǔ)對(duì)(Q,P)。從公式(1)得知,句對(duì)的序列相交由若干個(gè)藏文公共子串CS組成。將為每個(gè)CS構(gòu)造一個(gè)樹結(jié)構(gòu)T的話,句對(duì)的序列相交可以組成一個(gè)森林。T由中心節(jié)點(diǎn)和修飾節(jié)點(diǎn)兩種節(jié)點(diǎn)組成。表2給出兩種節(jié)點(diǎn)各個(gè)字段及功能,以便后續(xù)算法描述。

      表2中的中心節(jié)點(diǎn)用來(lái)存儲(chǔ)藏文句子取交后的CS的所有中心語(yǔ),用ITN表示,修飾節(jié)點(diǎn)記錄與其相關(guān)聯(lián)的中心節(jié)點(diǎn)的修飾語(yǔ),用SYN表示。因此,T的根節(jié)點(diǎn)是tag域?yàn)?的ITN節(jié)點(diǎn),T的葉子是next域?yàn)榭盏腎TN節(jié)點(diǎn)。對(duì)某個(gè)ITN來(lái)說(shuō),syn域指向左節(jié)點(diǎn),next域指向右節(jié)點(diǎn)。CS中某個(gè)中心節(jié)點(diǎn)的左子樹是由其在語(yǔ)料中出現(xiàn)的所有格特征和后修飾特征通過(guò)SYN的next域鏈接而成的鏈表SL。

      表2 公共子串樹節(jié)點(diǎn)各個(gè)域及功能表

      由公式(2),Q由若干個(gè)詞Qi(1≤i≤l) 組成。取交過(guò)程中Q的所有候選譯文均保存為表2的節(jié)點(diǎn),生成樹T或森林F。T或F中并不是所有節(jié)點(diǎn)組成最終譯文,通過(guò)確認(rèn)過(guò)程滿足以下兩個(gè)條件的節(jié)點(diǎn)才會(huì)被選為最終譯文的一部分。

      1) 譯文中一定包含任意Qi(1≤i≤l)的譯文;

      2) 所有候選譯文的支持度和等于Sn。

      TIA算法核心是為已知的漢語(yǔ)語(yǔ)塊Q構(gòu)建公共子串森林F,以及遍歷F來(lái)確認(rèn)Q的最終譯文P。構(gòu)建F的過(guò)程描述如下:

      TIA構(gòu)建F的過(guò)程

      1. Choose any two sentencesTS1andTS2fromTSSat random.

      2. CalculateTS1∩TS2results, denote asIL.

      3. FilterILby dictionary (D) in terms ofQ, get sublist ofIL, denotes asSL.

      4. Construct forestFofSL, based on table 3.

      5. for eachTSinTSS-{TS1,TS2}

      6. for each treeTinF

      7. ifTScontainsTthen

      8. plus 1 tofreqfor all nodes inTand exit.

      9. if (TScontains parts ofT) & (TScontains qualifierSfor the rest parts ofT)& (S?SL) then

      10. newly-built aSYNand assign theSto field syn and exit.

      11. end for

      12. end for

      以上取交過(guò)程生成一個(gè)森林F。下一步是通過(guò)遍歷F確認(rèn)Q的譯文P。P是CS的集合,藏語(yǔ)譯文確認(rèn)過(guò)程描述如下。其中用A,B,C,D分別將P標(biāo)記為1-1,1-n,,連續(xù)或非連續(xù)短語(yǔ)等短語(yǔ)類型。

      TIA藏語(yǔ)譯文確認(rèn)過(guò)程

      1. inttn=0,i=0.

      2. for eachTinF

      3. for eachtwinT

      4. iffreqequalsSn

      5. addtwto{Pi} andi++.

      6. else if sum offreqinSLequalsSn

      7. add sy_tw ofSLto {Pi} and

      i++.

      8. else

      9. discardT.

      10. end for

      11.tn++

      12. end for

      13. iftn==1

      14. (Q,P) are marked asA

      15. Iftn>1

      16. (Q,P) are marked as B

      17. Ifi==1

      18.Pis marked asC

      19.elseifi> 1 then

      20.Pis marked asD

      可以示例說(shuō)明藏文譯文確認(rèn)過(guò)程。假設(shè),在漢藏平行語(yǔ)料中有50個(gè)句對(duì)包含待翻譯語(yǔ)塊Q,取交后獲取兩個(gè)公共子串CS1和CS2。為CS1和CS2構(gòu)建樹結(jié)構(gòu),分別用T1和T2表示,如圖1。

      圖1 譯文確認(rèn)過(guò)程

      待譯語(yǔ)塊Qi的譯文Tj的確認(rèn)過(guò)程是對(duì)由T1和T2組成的森林的搜索過(guò)程。在圖1 中,T1的根節(jié)點(diǎn)W11的freq域值等于50,因此被標(biāo)記為最終譯文的組成部分。W12_sy1是W12的修飾語(yǔ),同時(shí)W12_sy1和W12的freq域值的和等于50,因此詞組[W12,W12_sy1] 被接受。W13的freq域?yàn)?0,它被接受為最終譯文的組成部分。W14的freq域值小于50,從而被丟棄。同樣原理,W21和W22被接受。Qi的最終翻譯譯文Tj是由兩棵樹T1和T2對(duì)應(yīng)的字符串中所有被接受并標(biāo)記的節(jié)點(diǎn)序列的集合,P={W11[W12|W12_sy1]W13,W21W22}。

      因?yàn)槭褂昧斯沧哟畼浜蜕纸Y(jié)構(gòu),TIA既能抽取1-1短語(yǔ),又能抽取1-n短語(yǔ)。同時(shí)TIA也不會(huì)遺漏非連續(xù)短語(yǔ),能夠滿足藏文短語(yǔ)的連續(xù)性。從而可以滿足MSCT_CAT的短語(yǔ)庫(kù)構(gòu)建需求。

      4 實(shí)驗(yàn)

      實(shí)驗(yàn)數(shù)據(jù)是漢藏法律法規(guī)和公文報(bào)告等特定領(lǐng)域語(yǔ)料。漢語(yǔ)語(yǔ)料通過(guò)網(wǎng)上下載處理得到,藏文語(yǔ)料由西藏翻譯局提供。收集到的原始語(yǔ)料通過(guò)篇章對(duì)齊和句子對(duì)齊后,最終形成短語(yǔ)對(duì)抽取模塊可以處理的五份漢藏語(yǔ)料,語(yǔ)料的統(tǒng)計(jì)數(shù)據(jù)見表3。表中,最后一列短語(yǔ)對(duì)數(shù)為計(jì)算召回率時(shí)人工確認(rèn)的平行語(yǔ)料中所含的短語(yǔ)對(duì)數(shù)量。

      表3 語(yǔ)料信息

      4.1 藏文短語(yǔ)連續(xù)性驗(yàn)證

      在實(shí)驗(yàn)中,對(duì)五組語(yǔ)料分別用TSM和TIA進(jìn)行短語(yǔ)抽取之后,采用計(jì)算機(jī)輔助人工的方法判斷互譯對(duì)正確與否,實(shí)驗(yàn)的準(zhǔn)確率(P)定義為:

      召回率(R)定義為:

      TSM算法簡(jiǎn)單,容易實(shí)現(xiàn)。它抽取的連續(xù)短語(yǔ)準(zhǔn)確率較高。TSM抽取的1-1連續(xù)短語(yǔ)(C)和非連續(xù)短語(yǔ)(D)統(tǒng)計(jì)結(jié)果見表4。TIA算法因?yàn)榭紤]到同一個(gè)中文單詞的不同表示以及藏文的格特征和后修飾特征,準(zhǔn)確率沒(méi)有TSM好,但也能滿足系統(tǒng)需求。TIA抽取的連續(xù)短語(yǔ)和非連續(xù)短語(yǔ)統(tǒng)計(jì)結(jié)果見表5。表4和表5中D表示不連續(xù)(Discontinuous),C表示連續(xù)(Continuous)。

      表4 TSM抽取結(jié)果

      表5 TIA抽取結(jié)果的連續(xù)性統(tǒng)計(jì)表

      數(shù)據(jù)表明,兩種算法抽取的短語(yǔ)召回率都很低,TIA與TSM比較召回率明顯提高,原因有以下幾點(diǎn): (1)漢藏詞典數(shù)據(jù)稀疏問(wèn)題。雖然算法中采用閾值和短語(yǔ)頻次權(quán)值來(lái)保留部分候選譯文,無(wú)法徹底解決數(shù)據(jù)稀疏問(wèn)題。(2)漢藏分詞粒度不一致,一些漢語(yǔ)兩詞組成的短語(yǔ)在藏文中對(duì)應(yīng)一個(gè)詞,不再是短語(yǔ)。(3)漢語(yǔ)有效語(yǔ)塊是從單語(yǔ)語(yǔ)料中抽取的,只要有實(shí)際意義就可取。藏文是SOV型語(yǔ)言,其中部分漢語(yǔ)語(yǔ)塊在平行語(yǔ)料中失去了句法特征,所以很難找到譯文。(4)語(yǔ)料中1-n短語(yǔ)對(duì)的存在造成TSM的召回率明顯不如TIA的好。

      4.2 藏文短語(yǔ)對(duì)應(yīng)關(guān)系驗(yàn)證

      為了證明TIA算法抽取1-n短語(yǔ)對(duì)的有效性,分析TIA從五組語(yǔ)料中抽取到的短語(yǔ)對(duì)的漢藏對(duì)應(yīng)關(guān)系。表6給出漢藏短語(yǔ)對(duì)應(yīng)關(guān)系分布情況及準(zhǔn)確率和召回率。

      表6 TIA抽取結(jié)果的對(duì)應(yīng)關(guān)系統(tǒng)計(jì)表

      很顯然,語(yǔ)料中非連續(xù)藏文短語(yǔ)和1-n的藏文短語(yǔ)均不能忽略不計(jì)。TIA可以抽取連續(xù)和非連續(xù)的短語(yǔ)。同時(shí),它能抽取1-1和1-n的漢藏短語(yǔ)對(duì)。TIA算法獲取的短語(yǔ)譯文準(zhǔn)確率達(dá)81%。

      實(shí)驗(yàn)結(jié)果分析得知,由于數(shù)據(jù)稀疏問(wèn)題,語(yǔ)料1和語(yǔ)料4中低頻短語(yǔ)對(duì)(在語(yǔ)料中出現(xiàn)次數(shù)很少)較頻繁出現(xiàn),從而導(dǎo)致語(yǔ)料1和語(yǔ)料4的準(zhǔn)確率在同組試驗(yàn)中低于其他語(yǔ)料。低頻短語(yǔ)在序列相交過(guò)程中攜帶了額外的與譯文無(wú)關(guān)內(nèi)容,這些干擾信息使準(zhǔn)確率降低。設(shè)定頻率限度可以提高準(zhǔn)確率,但會(huì)損失召回率。從表3可以看出,語(yǔ)料5在五組語(yǔ)料中句對(duì)數(shù)最多;每組實(shí)驗(yàn)結(jié)果中,語(yǔ)料5的準(zhǔn)確率最佳,這表明通常語(yǔ)料變大可以提高覆蓋率,較高的覆蓋率能提高準(zhǔn)確率。

      5 結(jié)束語(yǔ)

      在目前漢藏語(yǔ)料資源匱乏、語(yǔ)料處理技術(shù)不成熟的前提下,本文提出獲取藏語(yǔ)譯文的方法。依據(jù)包含待翻譯漢語(yǔ)語(yǔ)塊的漢藏句對(duì)公共子串的思想,分別嘗試藏文詞串頻率統(tǒng)計(jì)算法和藏文詞串序列相交算法獲取待譯漢語(yǔ)語(yǔ)塊的譯文。

      然而,文章提出的方法召回率太低,這是下一步研究的重點(diǎn)。提高召回率后,可以將抽取的短語(yǔ)融入翻譯模型中進(jìn)行實(shí)際翻譯工作。目前收集的漢藏平行語(yǔ)料中存在數(shù)據(jù)稀疏問(wèn)題,TSM和TIA都是依賴于統(tǒng)計(jì)的,對(duì)數(shù)據(jù)稀疏問(wèn)題無(wú)可奈何。改進(jìn)語(yǔ)料覆蓋率有利于擴(kuò)建漢藏短語(yǔ)庫(kù)。

      [1] Daniel Marcu, William Wong. A Phrase-based, Joint Probability Module for Statistical Machine Translation [C]//Proceedings of the ACL-02 Conference on Empirical Methods in Natural Language Processing. Morristown, NJ, USA. Association for Computational Linguistics, 2002:133-139.

      [2] Dekai Wu.Stochastic inversion transduction grammars and bilingual parsing of parallel corpora [J].Computational Linguistics, 1997,23(3):377-403.

      [3] Ying Zhang,Stephan Vogel, and Alex Waibel.Integrated phrase segmentation and alignment algorithm for statistical machine translation [C]//Proceeding of International Conference on Natural Language Processing and Knowledge Engineering.Beijing,2003:567-573.

      [4] Ying Zhang, Stephan Vogel. Competitive Grouping in Integrated Phrase Segmentation and Alignment Model [C]//Proceeding of ACL Workshop on Building and Using Parallel Texts. Ann Arbor.2005:159-162.

      [5] H Kaji, Y Kida, and Y Morimoto. Learning Translation Templates from Bilingual Text[C]//Proceedings of the 14th International Conference on Computational Linguistics. Nantes, France. 1992:672-678.

      [6] Franz Josef Och,Hermann Ney.The alignment template approach to statistical machine translation[J].Computational Linguistics,2004,30(4):417-449.

      [7] David Chiang. A Hierarchical Phrase-Based Model for Statistical Machine Translation[C]//Proceedings of the 43th Annual Meeting of the Association for Computational Linguistics. Ann Arbor.2005:263-270.

      [8] 何彥青,周玉,宗成慶,等.基于“松弛尺度”的短語(yǔ)翻譯對(duì)抽取方法[J].中文信息學(xué)報(bào),2007,21(5):91-95.

      [9] 王辰,宋國(guó)龍,吳宏林,等.基于序列相交的短語(yǔ)譯文獲取[J].中文信息學(xué)報(bào),2009,23(1):39-43.

      [10] 周季文,傅同和.藏漢互譯教程[M].北京:民族出版社,1999.

      [11] 張怡蓀.藏漢大辭典[M].北京:民族出版社,1993.

      [12] 陳玉忠,李保利,俞士汶,蘭措吉. 基于格助詞和接續(xù)特征的藏文自動(dòng)分詞方案[C]//第一屆學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)論文集.北京,2002.

      猜你喜歡
      漢藏語(yǔ)塊藏文
      西藏大批珍貴藏文古籍實(shí)現(xiàn)“云閱讀”
      布達(dá)拉(2020年3期)2020-04-13 10:00:07
      黑水城和額濟(jì)納出土藏文文獻(xiàn)簡(jiǎn)介
      西夏學(xué)(2019年1期)2019-02-10 06:22:34
      2《步輦圖》:初唐漢藏關(guān)系圖錄
      藏文音節(jié)字的頻次統(tǒng)計(jì)
      現(xiàn)代語(yǔ)境下的藏文報(bào)刊
      新聞傳播(2016年17期)2016-07-19 10:12:05
      漢藏姐妹一家親
      民族大家庭(2016年3期)2016-03-20 14:52:24
      英語(yǔ)語(yǔ)塊在漢英翻譯中的積極作用
      從語(yǔ)塊類型看英語(yǔ)專業(yè)大學(xué)生語(yǔ)塊獲取能力與聽力理解能力的相關(guān)性研究
      古代漢藏文化交流研究成果(1979-2011)述評(píng)
      語(yǔ)塊的性質(zhì)及漢語(yǔ)語(yǔ)塊系統(tǒng)的層級(jí)關(guān)系
      惠州市| 泰顺县| 水富县| 孟津县| 夏河县| 固阳县| 县级市| 敦化市| 左云县| 建瓯市| 西乡县| 凤冈县| 沙湾县| 和龙市| 乐清市| 汝州市| 泸州市| 梨树县| 南昌县| 白沙| 巩留县| 永兴县| 祁连县| 富锦市| 巨鹿县| 德令哈市| 浏阳市| 大余县| 扎赉特旗| 专栏| 和平县| 于都县| 高邮市| 辛集市| 昆明市| 寻乌县| 德保县| 潜山县| 米脂县| 崇义县| 浏阳市|