• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于層疊條件隨機場的哈語樹庫構(gòu)建技術(shù)研究

      2016-09-26 07:31:04于智娟古麗拉阿東別克
      計算機應(yīng)用與軟件 2016年3期
      關(guān)鍵詞:哈薩克語句法語料

      于智娟 古麗拉·阿東別克

      (新疆大學(xué)信息科學(xué)與工程學(xué)院 新疆 烏魯木齊 830046)

      ?

      基于層疊條件隨機場的哈語樹庫構(gòu)建技術(shù)研究

      于智娟古麗拉·阿東別克

      (新疆大學(xué)信息科學(xué)與工程學(xué)院新疆 烏魯木齊 830046)

      針對如何提高基于統(tǒng)計的哈薩克語句法分析算法的處理性能問題,提出一種通過人機交互來構(gòu)建哈薩克語樹庫的方法。在自動句法標(biāo)注階段,采用層疊條件隨機場模型實現(xiàn),并在其低層與高層模型之間加入改進(jìn)的基于轉(zhuǎn)換的錯誤驅(qū)動學(xué)習(xí)算法來進(jìn)行簡單句的自動句法標(biāo)注及自動校正。最后對特殊的整體標(biāo)記錯誤進(jìn)行人工校對,形成基于短語結(jié)構(gòu)的哈薩克語樹庫。實驗結(jié)果表明,該方法在很大程度上減少了人力及物力的投入,提高了分析精度及整體處理效率,并為后期基于哈薩克語的句法機器翻譯及文本挖掘奠定了一定的基礎(chǔ)。

      哈薩克語樹庫人機交互層疊條件隨機場錯誤驅(qū)動學(xué)習(xí)算法

      0 引 言

      哈薩克語樹庫為哈語自動句法分析、句法機器翻譯、文本挖掘等熱門研究領(lǐng)域提供知識源,其重要性不言而喻。特別是哈薩克語的樹庫構(gòu)建技術(shù)相比于漢語、英語等其他語言比較滯后,仍處于初級階段。所以說如何在節(jié)省人力及物力資源的前提下,能夠更好地構(gòu)建哈薩克語樹庫是一個急需解決的難點問題。在樹庫構(gòu)建方面,漢語樹庫的構(gòu)建技術(shù)已基本成熟并取得了一些成果,包括美國賓州大學(xué)的UPenn樹庫[1]和臺灣中研院的Sinica樹庫[2]。英語語料庫的研究也做了許多工作,其中兩個比較大的項目是:英國的Lancaster-Leeds樹庫[3]和美國的Penn樹庫項目[4],樹庫規(guī)模已達(dá)到二百萬詞以上。

      而哈薩克語方面,目前還沒有一個相對成熟的樹庫,只做了一些構(gòu)建樹庫前的鋪墊工作。例如:古麗拉·阿東別克等根據(jù)哈薩克語的獨特語言特點,進(jìn)行了詞級帶標(biāo)注的哈薩克語語料庫構(gòu)建研究[5];侯呈風(fēng)等在基于詞典靜態(tài)標(biāo)注基礎(chǔ)上分析了隱馬爾科夫模型并對哈薩克語進(jìn)行了詞性標(biāo)注研究[6];在短語識別方面,孫瑞娜等以基本名詞短語為目標(biāo),實現(xiàn)了哈薩克語的基本名詞短語自動識別系統(tǒng)[7];古麗扎達(dá)·海沙根據(jù)哈薩克語基本動詞短語組成結(jié)構(gòu)的復(fù)雜性,提出了一種規(guī)則與最大熵相結(jié)合的方法對哈語基本動詞短語進(jìn)行了識別[8]。

      本文在以上詞性及基本短語標(biāo)注基礎(chǔ)上,采用基于層疊條件隨機場對哈薩克語的簡單句進(jìn)行了句法標(biāo)注,同時對部分因典型的歧義結(jié)構(gòu)造成標(biāo)注錯誤的句子進(jìn)行人工校對,最終形成完整的句法結(jié)構(gòu)樹。同時借鑒了文獻(xiàn)[9,10]中提出的分階段構(gòu)建漢語樹庫及標(biāo)記集的選取相關(guān)問題的方法思路,并結(jié)合哈薩克語自身語言的粘著性特點,分階段進(jìn)行樹庫構(gòu)建。并在基于層疊條件隨機場模型的自動標(biāo)注階段,引入基于錯誤驅(qū)動的學(xué)習(xí)算法,進(jìn)行自動校正,提高了整體句法標(biāo)注的準(zhǔn)確率,同時減少了人力及物力資源的投入。

      1 樹庫構(gòu)建的理論基礎(chǔ)

      1.1哈語句法標(biāo)記集的選取

      構(gòu)建哈薩克語樹庫的一項基礎(chǔ)工作就是要確定適合哈薩克語粘著性特點的句法標(biāo)記集。在哈薩克語中,對短語進(jìn)行分類一般采用兩大標(biāo)準(zhǔn):1) 內(nèi)部結(jié)構(gòu);2) 外部結(jié)構(gòu)。本文著重研究哈語短語的外部結(jié)構(gòu)。首先參照漢語樹庫構(gòu)建[9]和英語樹庫[11]的處理經(jīng)驗及方法。同時結(jié)合哈薩克語粘著性語言的特點,找出哈薩克語同漢語、英語、維吾爾語的異同點,其中相同的句法結(jié)構(gòu)采用相同的標(biāo)注集標(biāo)注。不同的句法結(jié)構(gòu)又可以參照與哈薩克語同屬于阿爾泰語系的維吾爾語的樹庫標(biāo)注體系[12]及現(xiàn)代哈薩克語實用語法[13]。根據(jù)以上方法,我們?yōu)楣_克語設(shè)計了一套符合哈薩克語自身語言特點的句法標(biāo)記集。如表1所示。

      表1 哈薩克語句法標(biāo)記集

      1.2構(gòu)建哈薩克語樹庫的步驟流程

      大規(guī)模哈語樹庫的構(gòu)建作為一個龐大的語言工程,在現(xiàn)有條件下,完全由機器自動完成是不可能的,需要找到一個很好的人工切入點,以最少的人工投入獲得最佳的整體處理效果。為此,結(jié)合哈薩克語自身粘著性的語言特點,我們在已有的分詞和詞性標(biāo)注的基礎(chǔ)上,利用層疊條件隨機場模型進(jìn)行簡單句的句法標(biāo)注。標(biāo)注出句子的短語結(jié)構(gòu)層次,在加入基于錯誤驅(qū)動的學(xué)習(xí)算法之后,提高了標(biāo)注結(jié)果的正確率,但仍然存在部分標(biāo)注錯誤的情況,這時我們就需要人工校正來對結(jié)果進(jìn)行完善。根據(jù)以上情況,本文制定出了構(gòu)建半自動哈薩克語樹庫的思路方法,分別從詞、短語層的句法分析再到最后人工的處理這三步進(jìn)行。本文重點工作是在步驟一的基礎(chǔ)上實現(xiàn)了步驟二、步驟三。具體步驟如下:

      步驟一預(yù)處理,主要對哈語生語料做篇章級的斷句、分詞;并對詞做統(tǒng)一的詞性標(biāo)注規(guī)范,然后進(jìn)行詞性標(biāo)注。

      步驟二機器分析,在分詞和詞性標(biāo)注的基礎(chǔ)上,通過層疊條件隨機場模型進(jìn)行短語層次結(jié)構(gòu)的句法標(biāo)注。從低層組塊標(biāo)注到高層復(fù)雜短語的標(biāo)注中,引入基于錯誤驅(qū)動的學(xué)習(xí)算法自動進(jìn)行標(biāo)注結(jié)果的校正。最后形成較完善的句法分析樹。

      步驟三人工校對,由于第二步工作中采用的是基于規(guī)則的校正算法,而規(guī)則的獲取僅依賴于語言學(xué)家的語言知識和經(jīng)驗,卻不能完全囊括各種復(fù)雜的語言現(xiàn)象。所以需要人工的介入,對一些復(fù)雜的存在歧義的句法樹進(jìn)行人工校正,從而獲得最佳的標(biāo)注結(jié)果。具體處理流程如圖1所示。

      圖1 半自動構(gòu)建哈語樹庫流程圖

      2 哈薩克語句法標(biāo)注及人工處理

      由于前人在哈薩克語的分詞和詞性標(biāo)注方面做了大量研究及實驗[14,15],且在樹庫預(yù)處理方面已經(jīng)相對比較成熟。 所以說本文重點工作在句法分析階段。

      2.1層疊條件隨機場模型

      由于句子中存在許多短語的嵌套及組合現(xiàn)象,所以在進(jìn)行句法標(biāo)注過程中,需要進(jìn)行分層研究。層疊條件隨機場(CCRFs)由一個兩階段的條件隨機場模型構(gòu)成,層次模型間存在松耦合關(guān)系,各模型可獨立建立,且整個模型的復(fù)雜度和句子長度成線性關(guān)系。本文新加入的低層后處理模塊對低層模型產(chǎn)生的錯誤可經(jīng)過濾和更正后傳入高層,從而避免錯誤傳播。鑒于此,本文將句法結(jié)構(gòu)任務(wù)分多個層次,每層內(nèi)部用CCRFs作為層次標(biāo)注的機器學(xué)習(xí)方法。在CCRFs中,低層的條件隨機場僅以觀察值為條件,用于基本短語即組塊的識別,識別結(jié)果傳遞至高層條件隨機場模型,作為高層模型的輸入。這樣高層模型的觀察序列中不僅包含詞和詞性的信息,同時也包含了底層基本短語識別的結(jié)果,從而為高層復(fù)雜短語的識別奠定了基礎(chǔ)。

      兩階段的條件隨機場模型具體算法:定義x=x1,…,xN為給定的輸入觀測值哈序列,即無向圖模型中N個輸入節(jié)點上的值,如當(dāng)前輸入的哈文詞序列;定義y=y1,…,yN為輸出的狀態(tài)序列,即無向圖模型中N個輸出節(jié)點上的值,如輸出的標(biāo)記序列。CRF定義從輸入x得到序列y的條件概率定義為:

      (1)

      其中每個fk(yi-1,yi,x)是整個觀察序列和相應(yīng)的標(biāo)注序列中位置為i和i-1標(biāo)記的特征函數(shù),每個gk(yi,x)是在位置為i的標(biāo)記和觀察序列的狀態(tài)特征函數(shù),λk和uk是特征函數(shù)的權(quán)重,可從訓(xùn)練語料中估計得到。

      層疊條件隨機場的具體模型如圖2所示。

      圖2 層疊條件隨機場模型

      為了能夠更好地將句法標(biāo)注問題轉(zhuǎn)化為序列標(biāo)注問題,在使用層疊條件隨機場模型前,需要在分詞和詞性標(biāo)注的基礎(chǔ)上,對句子進(jìn)行預(yù)處理。處理成符合此模型接口模式,并在標(biāo)注過程中采用RamShow等人在1995年最早提出的Inside/Outside標(biāo)記法,即BIO標(biāo)記法[16]。具體標(biāo)記集為T={B,I,O},其中B表示短語的開始詞,I是短語中的第二個以上(包括第二個)的詞,O是短語外部的詞。例如表2所示的名詞短語塊(NP)的標(biāo)記方法。

      表2 “BIO”標(biāo)記法的短語標(biāo)記集實例

      2.2特征及特征模板選擇

      在基于CCRFs的分層標(biāo)注問題中,特征函數(shù)的選擇往往是至關(guān)重要前提準(zhǔn)備工作。特征選取的好壞決定著CCRFs標(biāo)注結(jié)果的優(yōu)劣,所以本文結(jié)合哈薩克語的語法習(xí)慣,采用基于貪心策略的增益式特征模板自動選擇算法[17]。盡量少地自動選取合適的特征,以此來降低選取過程中的空間及時間復(fù)雜度。

      算法思想是將已經(jīng)選擇的特征模板集設(shè)為空,然后在每次迭代的過程中將備選特征模板集中的各個模板項依次加入到已選特征模板集中。并用條件隨機場模型依次訓(xùn)練測試,根據(jù)測試結(jié)果給出其評分Scores,從備選特征集中選取評分最高的模板項加入已選特征模板中。然后進(jìn)行下一次迭代,至多重復(fù)m次,最終選擇出一個特征模板子集,時間復(fù)雜度從原先的O(2m)數(shù)量級降低到了O(m2)數(shù)量級。選取結(jié)果如表3所示。

      表3 哈薩克語層疊條件隨機場的最優(yōu)特征模板

      2.3訓(xùn)練及標(biāo)注

      在訓(xùn)練階段:基于層疊條件隨機場模型中,低層條件隨機場的訓(xùn)練語料包括詞、詞性標(biāo)注和人工基本短語的類型標(biāo)記。而高層的訓(xùn)練語料是在低層組塊標(biāo)注結(jié)果的基礎(chǔ)上經(jīng)短語類型替換后作為高層的訓(xùn)練語料。也就是說,高層訓(xùn)練語料的觀察值序列中不僅包括詞及詞性標(biāo)注信息,同時涵蓋了來自低層的組塊標(biāo)注結(jié)果。如表4、表5所示。

      表4 CCRFS低層組塊訓(xùn)練語料標(biāo)注格式

      表5 CCRFS高層短語訓(xùn)練語料標(biāo)注格式

      將上述轉(zhuǎn)換好格式的訓(xùn)練語料分別進(jìn)行特征提取,將提取結(jié)果加入到相應(yīng)特征模板集。然后分別對特征模板集進(jìn)行有限內(nèi)存擬牛頓法(L-BFGS)參數(shù)估計。根據(jù)層疊條件隨機場模型使得每個特征對應(yīng)一個參數(shù),從而使模型得到充分訓(xùn)練并達(dá)到自學(xué)習(xí)的目的,訓(xùn)練結(jié)束后建立起相應(yīng)的低層及高層條件隨機場模型。

      在測試階段:首先將測試語料預(yù)處理成符合模型識別接口的格式,對每層的待標(biāo)注的詞根據(jù)特征模板選取出合適的特征,并獲取出每個詞的特征對應(yīng)參數(shù)。通過Viterbi算法對每個詞進(jìn)行解碼標(biāo)注,輸出標(biāo)注結(jié)果。在這個過程中,為了避免由低層標(biāo)注錯誤傳遞到高層模型而引起的錯誤蔓延,我們在層疊條件隨機場模型中引入了基于轉(zhuǎn)換的錯誤驅(qū)動學(xué)習(xí)算法[17]。該算法是EricBrill提出的。本文在此基礎(chǔ)上改進(jìn)了轉(zhuǎn)換算法,在原有的評價函數(shù)方法式(2)的基礎(chǔ)上改進(jìn)得到方法式(3)。通過人工給出的參數(shù)分別與F1(r)、F2(r)進(jìn)行比較選出最佳規(guī)則。此改進(jìn)的算法在符合哈薩克語句法特點的及相同語料環(huán)境下,不需要遍歷所有規(guī)則,同時加入評分準(zhǔn)則,根據(jù)其得分和失分情況來判斷其是否滿足條件。若滿足則加入規(guī)則集,若不滿足則舍棄,最終遍歷完所有轉(zhuǎn)換規(guī)則。

      F(r)=g(r)-f(r)

      (2)

      (3)

      注:g(r)為轉(zhuǎn)換正確次數(shù),f(r)為轉(zhuǎn)換錯誤次數(shù)。

      系統(tǒng)中獲取并篩選出的錯誤標(biāo)記規(guī)則集如圖3所示。

      圖3 篩選出的錯誤標(biāo)記規(guī)則集

      經(jīng)過自動校正的低層標(biāo)注結(jié)果部分自動替換成高層模型的訓(xùn)練語料格式,剩余部分作為高層模型的輸入進(jìn)行高層短語的標(biāo)注,最終提高了整體標(biāo)注準(zhǔn)確率,同時節(jié)省了時間開銷。

      2.4人工校正

      對于基于規(guī)則的錯誤驅(qū)動學(xué)習(xí)算法來說,規(guī)則集的龐大與否是一項至關(guān)重要的工作。由于哈薩克語樹庫構(gòu)建仍處于初步階段,所以要從大規(guī)模的語言現(xiàn)象中總結(jié)囊括所有規(guī)則情況,是一件困難的事。而人工的后期校正工作尤為重要,人工校對主要工作包括:標(biāo)記錯誤、結(jié)構(gòu)組合錯誤等。例如:

      標(biāo)記錯誤:

      上述句子將n+n+n+v組合的動詞短語(VP)錯誤標(biāo)記成了名詞短語(NP)。

      標(biāo)注不全:

      上述句子中未將n+va的動詞短語(VP)組合識別出來,從而造成低層組塊識別不全的情況。

      3 實驗結(jié)果及分析

      3.1語料準(zhǔn)備及評價指標(biāo)

      實驗語料為新疆日報(哈語版)2008年20天的已被準(zhǔn)確分詞和詞性標(biāo)注的數(shù)據(jù),由于目前哈薩克語樹庫構(gòu)建處于初級階段,所以重點研究簡單句的句法標(biāo)記。題材包括政治、經(jīng)濟、文化、體育、娛樂、軍事等,共5469條語句,并將語料分成兩部分進(jìn)行哈薩克語樹庫構(gòu)建的分析實驗。5天的語料做封閉測試,15天的語料做開放測試。本文在實驗結(jié)果的評測中,采用了標(biāo)準(zhǔn)的評測方式,分為準(zhǔn)確率P(Precision)、召回率R(Recall)和F值F(F-score)。

      準(zhǔn)確率:P=N3/N2×100%

      (4)

      召回率:R=N3/N1×100%

      (5)

      以及綜合反映二者的指標(biāo):

      F=(β2+1)×P×R/(R+β2×P),β=1

      (6)

      其中N1:測試語料中實際的短語或括號對數(shù)量

      N2:系統(tǒng)自動識別出的短語或括號對數(shù)量

      N3:系統(tǒng)正確識別出的短語或括號對數(shù)量

      系統(tǒng)中語料的輸入輸出模式主要如圖4、圖5所示。

      圖4 輸入文件(帶有分詞和詞性標(biāo)記的句子)

      圖5 輸出文件(帶有基于短語結(jié)構(gòu)的句法標(biāo)記句子)

      3.2實驗結(jié)果對比及分析

      在自動句法標(biāo)記中,我們通過開放測試和封閉測試兩個評測方向進(jìn)行了對比試驗。對CCRFs+人工模板選擇、CCRFs+增益式模板自動選擇和CCRFs+增益式模板自動選擇+基于轉(zhuǎn)換的錯誤驅(qū)動學(xué)習(xí)的后處理模塊進(jìn)行了對比試驗,如表6所示。

      表6 采用不同方法的CCRFs實驗結(jié)果比較

      從實驗結(jié)果可以看出,基于層疊的條件隨機場模型+增益式選擇模板及引入基于轉(zhuǎn)換的錯誤驅(qū)動學(xué)習(xí)算法的識別效果,相對于基于層疊的條件隨機場模型外加人工選擇模板有了較大的改進(jìn)。提高了整體自動句法標(biāo)記的準(zhǔn)確率,同時降低了低層模型對高層模型造成錯誤蔓延的發(fā)生率。

      在自動句法標(biāo)注結(jié)果的基礎(chǔ)上我們加入了人工校對的處理環(huán)節(jié),同時對人工校對前后的樹庫構(gòu)建的整體準(zhǔn)確率進(jìn)行了對比試驗,如圖6所示。

      圖6 人工校對前后系統(tǒng)對測試語料的評價指標(biāo)

      由圖6可知:人工校對的介入對于哈薩克語樹庫構(gòu)建的影響之大,且開放測試語料的人工處理效果明顯優(yōu)于封閉測試語料的人工處理效果。

      由以上兩個實驗的對比,我們通過自動模板選擇進(jìn)行基于層疊條件隨機場模型的自動句法標(biāo)注,并加入基于錯誤驅(qū)動的學(xué)習(xí)算法后做一個整體的樹庫構(gòu)建性能對比。其中缺失括號對指在句子中缺失半個括號或者未標(biāo)記出的括號對,既每個句子的平均括號缺失對的數(shù)目。括號正確率及召回率分別為式(4)和式(5)所示,具體的實驗性能對比如表7所示。

      表7 哈語語料整體句法標(biāo)注性能對比

      從上表可以看出,平均每個句子的括號缺失對數(shù)相對比較少,原因是采用層疊條件隨機場模型進(jìn)行分層句法標(biāo)記時。對待標(biāo)記的序列采用的“BIO”標(biāo)記法,它的優(yōu)點在于至少是兩個詞、兩個短語、一個短語和一個詞組成的嵌套短語或者復(fù)雜短語,所以在標(biāo)記的時,如果是短語,必定存在短語開頭“B-”+“短語類型”及短語結(jié)尾“I-”+“短語類型”。括號對不全的情況較低,只存在未標(biāo)注出的短語情況,既缺失一對的括號。

      4 結(jié) 語

      本文介紹了構(gòu)建哈薩克語樹庫流程及方法,首先選取了哈語句法標(biāo)記集,同時提出了采用基于層疊條件隨機場進(jìn)行哈薩克語自動句法標(biāo)注。在層疊條件隨機場模型中,文中在低層模型與高層模型之間加入了基于轉(zhuǎn)換的錯誤驅(qū)動學(xué)習(xí)算法,減少其造成的錯誤蔓延同時提高標(biāo)注準(zhǔn)確率。最后對整體標(biāo)注結(jié)果進(jìn)行人工校對從而完善樹庫。從目前的實驗結(jié)果來看,我們證明了該方法在特殊的哈語自動句法標(biāo)注層面的有效性,也為我們在自動句法標(biāo)注和人工校正方面積累了一定的經(jīng)驗。但目前哈語樹庫構(gòu)建處于初級階段,實驗語料規(guī)模較小,因此需要后期在以下幾個方面做進(jìn)一步提升:1) 增加哈薩克語語料規(guī)模并分析處理,發(fā)現(xiàn)新的語言現(xiàn)象;2) 補充及完善樹庫句法標(biāo)記規(guī)范,確保機器自動標(biāo)注與人工標(biāo)注的一致性;3) 提出新的技術(shù),能夠更好地分析復(fù)雜句子,加強句子的排歧能力,從而降低人工校對的工作量。

      [1]NianwenXue,FuDongChiou,MarthaPalmer.BuildingaLarge-ScaleAnnotatedChineseCorpus[C]//Proc.of19thInternationalConferenceonComputationalLinguistics(COLING-02),Taiwan,2002:1-7.

      [2]ChuRenHuang,FengYiChen,ZhaomingGao,etal.SinicaTreebank:designcriteria,annotationguidelines,andon-lineinterface[C]//ProceedingsoftheSecondWorkshopChineseLanguageProcessing,HongKong,2000:29-37.

      [3]WojciechSkut,ThorstenBrants,BrigitteKrenn,etal.AlinguisticallyinterpretedcorpusofGermanNewspapertext[C]//ProceedingsoftheConferenceonLanguageResourcesandEvaluationLREC-98.Granade,Spain,1998:705-711.

      [4]SabineBrants,SilviaHansen.DevelopmentsintheTIGERannotationschemeandtheirrealizationinthecorpus[C]//ProceedingsoftheThirdConferenceonLanguageResourcesandEvaluation(LREC-02).LasPalmasdeGranCanaria,Spain,2002:1643-1649.

      [5] 古麗拉·阿東別克,達(dá)吾勒·阿布都哈依爾,木合亞提·尼亞孜別克,等.現(xiàn)代哈薩克語詞級標(biāo)注語料庫的構(gòu)建研究(特邀文章)[J].新疆大學(xué)學(xué)報:自然科學(xué)版,2009,26(4):394-401.

      [6] 侯呈風(fēng),古麗拉·阿東別克,陳景超.基于HMM的哈薩克語詞性標(biāo)注研究 [J].計算機應(yīng)用與軟件,2012,29(2):31-33.

      [7] 孫瑞娜,古麗拉·阿東別克.哈薩克語基本名詞短語自動識別研究與實現(xiàn)[J].中文信息學(xué)報, 2010,24(6):114-119.

      [8] 古麗扎達(dá)·海沙.哈薩克語基本動詞短語自動識別研究[D].新疆:新疆大學(xué)信息科學(xué)與工程學(xué)院, 2013.

      [9] 周強,張偉,俞士汶.漢語樹庫的構(gòu)建[J].中文信息學(xué)報,1997,11(4):42-51.

      [10] 周強,任海波,孫茂松.分階段構(gòu)建漢語樹庫[C]//第二屆中日自然語言處理專家研討會,2006,5:189-197.

      [11] 周強, 俞士汶.漢語短語標(biāo)注標(biāo)記集的確定[J].中文信息學(xué)報,1996,10(4):1-11.

      [12]MarcusMP,MarcinkiewiczMA,SantoriniB.BuildingaLargeAnnotatedCorpusofEnglish:ThePennTreeband[J].ComputationalLinguistics,1993,19(2):313-330.

      [13] 張定京.現(xiàn)代哈薩克語使用語法(語法形式篇)[M].北京:中央民族大學(xué)出版社,2004.

      [14] 桑海巖,古麗拉·阿東別克,牛寧寧.基于最大熵的哈薩克語詞性標(biāo)注模型[J].計算機工程與應(yīng)用,2013,49(11):126-129.

      [15] 侯呈風(fēng),古麗拉·阿東別克.改進(jìn)的HMM應(yīng)用于哈薩克語詞性標(biāo)注[J].計算機工程與應(yīng)用,2010,46(36):147-149.

      [16]RamshowLA,MarcusMP.Textchunkingusingtransformation-basedlearning[C]//ProceedingsoftheThirdACLWorkshoponVeryLargeCorpora,1995:82-94.

      [17]EricBrill.Transformation-basederror-drivelearningandnaturallanguageprocessing:acasestudyinpartofspeechtagging[J].ComputationalLinguistics,1995,21(4):543-565.

      RESEARCH ON THE TECHNOLOGY OF BUILDING KAZAKH TREEBANK BASED ON CASCADED CONDITIONAL RANDOM FIELD

      Yu ZhijuanGulia·Altenbek

      (SchoolofInformationScienceandEngineering,XinjiangUniversity,Urumqi830046,Xinjiang,China)

      On the issue of how to improve the processing performance of statistical analysis-based Kazakh syntax parsing algorithm, this paper proposes a method of constructing the Kazakh treebank by human-computer interaction. In automatic syntax annotation stage, it achieves by using the cascade conditional random field model. And between its low-level and high-level models it adds the improved and transformation-based error-driven learning algorithm to carry out automatic syntax annotation and automatic correction of the simple sentences. Finally for special entire marking errors the artificial proofreading will be conducted, thus the method forms the phrase structure-based Kazakh treebank. Experimental results show that this method reduces to a large extent the investment on human power and material resources, improves the parsing accuracy and overall processing efficiency. Moreover, it lays the certain foundation for the Kazakh-based syntactic machine translation and text mining afterwards.

      Kazakh treebankHuman-machine interactionCascade conditional random fieldsError-driven learning algorithm

      2014-09-12。國家自然科學(xué)基金項目(61063025,61363062)。于智娟,碩士,主研領(lǐng)域:自然語言信息處理。古麗拉·阿東別克,教授。

      TP391.1

      A

      10.3969/j.issn.1000-386x.2016.03.015

      猜你喜歡
      哈薩克語句法語料
      句法與句意(外一篇)
      中華詩詞(2021年3期)2021-12-31 08:07:22
      述謂結(jié)構(gòu)與英語句法配置
      句法二題
      中華詩詞(2018年3期)2018-08-01 06:40:40
      詩詞聯(lián)句句法梳理
      中華詩詞(2018年11期)2018-03-26 06:41:32
      基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
      華語電影作為真實語料在翻譯教學(xué)中的應(yīng)用
      哈薩克語附加成分-A
      《苗防備覽》中的湘西語料
      哈薩克語比喻及其文化特征
      語言與翻譯(2014年2期)2014-07-12 15:49:28
      “v+n+n”結(jié)構(gòu)的哈薩克語短語歧義分析與消解
      語言與翻譯(2014年2期)2014-07-12 15:49:13
      福安市| 昂仁县| 洪雅县| 万安县| 阿拉善右旗| 灵石县| 凯里市| 乌兰察布市| 大化| 金华市| 陵川县| 西青区| 卢湾区| 林州市| 鹤壁市| 永年县| 贺兰县| 从江县| 乐清市| 呼伦贝尔市| 五大连池市| 田林县| 富民县| 大名县| 南涧| 广宁县| 凤阳县| 从江县| 新乐市| 藁城市| 静宁县| 新丰县| 新宁县| 绥宁县| 泽州县| 华安县| 嘉善县| 莱州市| 上林县| 漯河市| 宜昌市|