摘要:朝鮮語作為人類語種中的一員,雖使用人數(shù)不多,但卻依然為人類文明的傳承,作出了重要貢獻(xiàn)?;诖饲?,文章將對朝鮮語自然語言的處理問題進(jìn)行探究,望所述為朝鮮語自然語言處理的發(fā)展,提供些許可參考依據(jù)。
關(guān)鍵詞:自然語言;朝鮮語;處理
引言
我國早在上世紀(jì)就開始對自然語言的處理進(jìn)行探究,但是主要集中在英語、日語等語種方面,涉及朝鮮語的自然語言處理問題探究相對要少很多,而自然語言又是一種由人蓄意為某些特定目的而創(chuàng)造的語言,故而在翻譯方面難度較大,因此,下文將對朝鮮語自然語言處理問題進(jìn)行探究。
一、朝鮮語自然語言處理的主要內(nèi)容
1、句法學(xué)
句法學(xué)是朝鮮語自然語言處理中的重要內(nèi)容,其主要是對語言中不同成分組成句子的規(guī)則和句子結(jié)構(gòu)中各成分之間的相互關(guān)系進(jìn)行探究,長久以來,受各種客觀和主觀因素影響,其研究進(jìn)展緩慢,但近幾年,關(guān)于句法學(xué)的研究,卻在穩(wěn)步推進(jìn),并取得了一定的成果。
目前,我國在朝鮮語句法學(xué)方面,主要分兩個(gè)方面對復(fù)句進(jìn)行了探究,即復(fù)句的自動(dòng)識別、提取與復(fù)句的句法結(jié)構(gòu)、語義結(jié)構(gòu)的相似度計(jì)算。其一,在復(fù)句的自動(dòng)識別、提取方面,采用借助一階謂詞邏輯表示法與框架表示法,這種方法需要人工進(jìn)行編碼,工作量十分龐大,且耗時(shí)較長,但卻為后續(xù)的復(fù)句識別研究提供了借鑒,其二,是通過借助連接副詞對復(fù)句進(jìn)行“解構(gòu)化”處理,但這種方法有一定的局限性,其主要針對朝鮮語單重復(fù)句,而對句子結(jié)構(gòu)復(fù)雜的長句和多重復(fù)句不太適用,其三,結(jié)合朝鮮語復(fù)句語法特點(diǎn)和標(biāo)注特征,歸納了130余類連接語尾使用語境和4類潛在關(guān)系標(biāo)記,構(gòu)建了詳細(xì)的復(fù)句識別特征集,實(shí)驗(yàn)結(jié)果表明復(fù)句的識別率能達(dá)到87%以上,為朝鮮語的復(fù)句處理提供了基礎(chǔ)資源,存在的不足是數(shù)據(jù)樣本的規(guī)模較小,特征集還有待進(jìn)一步完善,多重復(fù)句的識別準(zhǔn)確率不高。
2、形態(tài)學(xué)
形態(tài)學(xué)是語言學(xué)的一個(gè)分支,其主要的研究內(nèi)容是詞的內(nèi)部結(jié)構(gòu),包括曲折變化、構(gòu)詞法。目前,針對朝鮮語的自然語言處理,我國的起步相對較晚,因此,尚未有什么顯著成就,而在這方面研究成果較為突出的當(dāng)屬韓國,如首爾的高麗大學(xué),通過構(gòu)建詞綴詞典和制定詞綴規(guī)則體制來進(jìn)行形態(tài)素分析,構(gòu)建了韓國語形態(tài)分析模型,另外,延世大學(xué)、梨花女子大學(xué)等,也均開發(fā)了形態(tài)素分析器,當(dāng)然,還有一些其他高等學(xué)府在其處理方面也取得了一定的成果。
3、語義學(xué)
語義學(xué),顧名思義,即探究語言意義的學(xué)科。對于不同的語言單位,語義分析的任務(wù)各不相同。在詞的層次上,語義分析主要是進(jìn)行詞義消歧(WSD),在句子層面上,主要任務(wù)是語義角色標(biāo)注,而在篇章層面上,指代消歧、篇章語義分析則是目前研究的重點(diǎn)。
我國在朝鮮語予以分析方面,主要集中在詞匯及句子層面的語義角色標(biāo)注、語義知識庫建立。目前,對朝鮮語可能存在的語義結(jié)構(gòu)進(jìn)行了全面系統(tǒng)的總結(jié),最終構(gòu)擬出朝鮮語事件語義結(jié)構(gòu)的層次推演系統(tǒng),初步建立了現(xiàn)代朝鮮語的語義角色清單,該語義角色清單共包含了35個(gè)具體的語義角色,比韓國的“世宗計(jì)劃”,還要多出21個(gè),這也為朝鮮語語義研究奠定了基礎(chǔ),而在此基礎(chǔ)上,又將謂詞的句法、語義屬性結(jié)合,進(jìn)而建立了“朝鮮語句法語義知識庫”,為我國朝鮮語的自然語言處理作出了巨大貢獻(xiàn)。
二、朝鮮語自然語言處理的基本方法
從當(dāng)前的朝鮮語自然語言處理的研究來看,其主要以理性主義和經(jīng)驗(yàn)主義兩種研究方法為主,采取規(guī)則和統(tǒng)計(jì)相結(jié)合的形式。而為了能夠提高計(jì)算機(jī)翻譯的準(zhǔn)確度,在基于韓國“世宗計(jì)劃”標(biāo)注語料庫中的20萬句語料的基礎(chǔ)上,對朝鮮語以連接詞尾結(jié)尾的特殊短語結(jié)構(gòu)、以冠形詞轉(zhuǎn)成詞尾結(jié)尾的特殊短語以及以一般副詞結(jié)尾的特殊短語分別進(jìn)行語言特征分析,確定其左右邊界,構(gòu)建規(guī)則庫,以迭代方式提取出56216個(gè)短語結(jié)構(gòu),建立了特殊短語庫,最后以5000句訓(xùn)練語料為基礎(chǔ),通過中心詞對信息提取系統(tǒng)進(jìn)行召回率和正確率的評價(jià),最終召回率達(dá)到了100%,正確率為93.8%。采用規(guī)則與統(tǒng)計(jì)相結(jié)合的方法,對韓國語的定語從句進(jìn)行了句法特征的分析及自動(dòng)識別。通過分析動(dòng)詞類AM定語從句,形容詞類AM定語從句,系詞類AM定語從句的句法結(jié)構(gòu)特征,歸納總結(jié)其左右邊界和內(nèi)部構(gòu)成的共現(xiàn)關(guān)系,構(gòu)建了定語從句識別集,在語料庫中進(jìn)行匹配運(yùn)算,實(shí)現(xiàn)了定語從句的自動(dòng)識別。通過提取句子的骨架結(jié)構(gòu),然后與實(shí)例庫中句子匹配,并運(yùn)用數(shù)學(xué)模型計(jì)算出兩個(gè)句子間的結(jié)構(gòu)相似度,最后以1萬句單句為實(shí)驗(yàn)對象,抽取骨架結(jié)構(gòu),按上述數(shù)學(xué)模型對句子進(jìn)行遍歷比較,最終得到相似度計(jì)算結(jié)果,驗(yàn)證了該方法的可行性,但是正確率只要76%,有進(jìn)一步提升的空間。
結(jié)束語
綜上所述,朝鮮語的自然語言處理,雖然已經(jīng)取得一些成就,但仍然有很多地方需要完善,只有這樣,才能更加準(zhǔn)確無誤的實(shí)現(xiàn)不同語言之間的有效互譯,消除語言障礙,實(shí)現(xiàn)國家、地區(qū)及民族之間的溝通,促進(jìn)兩者的共同進(jìn)步,為人類文明的延續(xù),作出應(yīng)有的貢獻(xiàn)。
參考文獻(xiàn):
[1]畢玉德.朝鮮語特殊短語結(jié)構(gòu)的語言特征分析及自動(dòng)提取[D].廣西科學(xué)院學(xué)報(bào),2018(34)
[2]江一赫.朝鮮語民俗語言的翻譯方法探討[J].科教導(dǎo)刊(電子版),2021(12)
[3]畢玉德.朝鮮語自然語言處理研究管窺[J].中文信息學(xué)報(bào),2011(25)
作者姓名:張?jiān)姁偅錾掌冢?999.2.17,性別:女,籍貫:遼寧省遼中縣,專業(yè):朝鮮語,學(xué)校:遼東學(xué)院