• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      一種適用于唐詩詩句分詞方法的研究

      2016-01-01 12:57:44閆偉楊秀梅
      現(xiàn)代計算機 2016年3期
      關(guān)鍵詞:子句全唐詩復合詞

      閆偉,楊秀梅

      (1.四川大學計算機學院,成都 610000;2.中國科學院大學,北京 100049)

      一種適用于唐詩詩句分詞方法的研究

      閆偉1,楊秀梅2

      (1.四川大學計算機學院,成都610000;2.中國科學院大學,北京100049)

      0 引言

      隨著自然語言處理技術(shù)的發(fā)展,文學性語言的計算機處理作為自然語言處理的分支擺在了學術(shù)界的面前。但由于漢語連續(xù)書寫的習慣,構(gòu)建適合計算機處理的詩詞語料庫成為后續(xù)工作的基礎,因此分詞技術(shù)成為對漢語信息處理的第一步。中國素來享有“詩國”之稱,詩詞作為特殊的文學形式,以獨特的藝術(shù)形式,以恒久不衰的魅力成為中國文學的驕傲而流傳千古。因此,利用計算機技術(shù)處理古典詩詞成為廣大科研人員的關(guān)注點。

      本文在對現(xiàn)有研究成果學習總結(jié)的基礎上,提出了一種適用于唐詩的分詞方法。

      1 古典詩詞切分方法的提出

      相關(guān)的科研機構(gòu)和科研人員在古典詩詞切分方面都做了大量研究,并取得了豐碩的研究成果。目前,對于詞的切分方法歸納起來大致分為三類:第一類是基于語法和規(guī)則的方法。其基本思想是在提取詞的同時進行句法、語義的分析,利用句法信息和語義信息進行詞性的標注,并以此解決提取詞歧義的現(xiàn)象。第二類是基于統(tǒng)計的方法。該方法根據(jù)字符串在語料庫中出現(xiàn)的統(tǒng)計頻率決定是否能夠構(gòu)成詞。此方法不需要詞典技術(shù)的支持,但會提取出共現(xiàn)頻率高但不是詞的字符串。第三類是機械式方法。該方法將文檔中的字符串與詞典中的詞條進行逐一匹配,若查找成功,則進行切分,否則不予切分。古典詩詞切分方面,北大計算語言所通過利用純統(tǒng)計的方法將結(jié)合強度較強、使用穩(wěn)定以及帶有隱喻義的二字詞抽取出來;臺灣元智大學羅鳳珠等人根據(jù)詩詞格律進行詩詞切分。這些方法的提出為后續(xù)研究奠定了良好的基礎。

      唐詩是一種特殊的文體形式。就詩行字數(shù)看,有:五言體(每句必須是五個字)、七言體(每句必須是七個字);從詩體長短看,有:絕句(全詩共四句)、律詩(全詩共八句)、排律(全詩多余八句)。

      本文在對上述方法及唐詩特點研究的基礎上,提出了詩詞格律與機械匹配相結(jié)合的唐詩切分方法。本文剩余章節(jié)將詳細介紹本文涉及的相關(guān)定義及相應的算法流程。

      2 相關(guān)定義及說明

      2.1子句和短句

      子句是從文獻整體中經(jīng)由標點符號分割,并進行抽取的字符串。子句是文獻分詞的初始對象。短語是子句經(jīng)由多次分詞處理后,刪除已成功分詞的之后的剩余部分。例如,在古體詩-樂府詩中常有以“君不見”為起始的句子,若將子句“君不見黃河之水天上來”中“君不見”三個字被切分之后,剩余的“黃河之水天上來”則作為下一次切分的短語。

      2.2詞

      學術(shù)界至今沒有一個公認的、具有權(quán)威性的詞表。鑒于此,故本文對詞的形式作如下定義:詞是最小的能夠獨立應用的語言單位,即在漢語言文獻中能夠獨立、完整的表達語義且語義上不可再做分割的字符串。語義上不可分割指部分詞字面上可以分割成兩個或多個詞,但在實際分割之后語義則會發(fā)生改變不能表達原詞的意義。例如“二十四橋仍在,波心蕩、冷月無聲”(作者:姜夔 詞牌:揚州慢)中,“二十四橋”為揚州的古橋名,表示一個地點的專有名詞,若將其劃分為“二十四/橋”,則使得原本句意發(fā)生改變。

      從構(gòu)成元素上看,詞可以分為基本詞和復合詞。基本詞無法看作由其他詞構(gòu)成。例如:單字詞“閃”、“亮”,雙字詞“鴛鴦”等。復合詞看作由其他詞構(gòu)成,可再分但整體詞義可能會發(fā)生改變。

      2.3復合詞

      復合詞指詞與詞的復合體,由兩個或兩個以上的詞組成的字符串。構(gòu)成復合詞的詞稱為構(gòu)詞部件,構(gòu)詞部件可為基本詞或者其他復合詞。復合詞的結(jié)構(gòu)取決于構(gòu)詞部件的數(shù)量和關(guān)系。復合詞的構(gòu)詞成分及所在的位置,社會已對其約定俗成,因而盡管這些復合詞在結(jié)構(gòu)上可以拆分開來,但在唐詩語料庫中出現(xiàn)頻率非常高,結(jié)構(gòu)穩(wěn)定,帶有一定的特殊意義,具有“詞”的特性。

      3 唐詩分詞算法

      3.1全唐詩及詞數(shù)據(jù)庫

      本文以彭定求等人編著的《全唐詩》為標準進行整理,剔除其余朝代詩作,整合后全唐詩數(shù)據(jù)庫中共收錄2529人共計42863首詩詞。以范之麟編撰的《全唐詩大辭典》作為基本唐詩詞庫。

      3.2全唐詩典故及專有名詞數(shù)據(jù)庫

      唐詩中運用大量的典故及專有名詞進行詩詞的表情達意,具有特殊的含義。然而,由于數(shù)據(jù)稀疏情況的存在,這類詞在統(tǒng)計中并沒有顯示出具有很強的結(jié)合強度。這都造成詞匯切分與語意標記的困難。對此,本文以范之麟編撰的《全唐詩典故辭典》和張忠綱編撰的《全唐詩大辭典》為基礎,結(jié)合前人的工作,建立全唐詩典故及專有名詞數(shù)據(jù)庫。該數(shù)據(jù)庫共包含唐詩專有名詞732個,唐詩典故5126個。

      3.3唐詩分詞方法介紹

      平仄是近體詩最重要的格律因素,平仄在詩和韻文中的作用是構(gòu)成一種節(jié)奏。唐詩以兩個音節(jié)為一個音步,由于唐詩中天然的韻律結(jié)構(gòu),除了典故及專有名詞之外,以雙字詞最多,單字詞次之。此外,在五言句中的第2-3字、七言中的第2-3、4-5字之間一般不構(gòu)成詞。因此,本文提出了一種基于唐詩格律特點,結(jié)合現(xiàn)代漢語分詞方法生成一種適用于唐詩詩句分詞算法。在此,以“青山隱隱水迢迢,秋盡江南草未凋。二十四橋明月夜,玉人何處教吹簫。”為例來說明唐詩的切分步驟。(其中/表示分詞符號,|表示根據(jù)古代詩詞切分規(guī)則設置詞結(jié)構(gòu)切分點)

      步驟1對比專有名詞數(shù)據(jù)庫和典故數(shù)據(jù)庫,將長度大于等于3的專有名詞和典故優(yōu)先切分出來?!岸臉颉睘閾P州的古橋名,是一個表示地點的專有名詞。將其先切分出來成詞:“青山隱隱水迢迢/秋盡江南草未凋/二十四橋|明月夜/玉人何處教吹簫/”。

      步驟2經(jīng)過步驟1之后,切分成的各子句字數(shù)為一到七之間,在這里根據(jù)古代詩詞切分規(guī)則[2]來設定詞結(jié)構(gòu)切分點:

      規(guī)則(1)子句字數(shù)為一則單字成詞;

      規(guī)則(2)子句字數(shù)為二、三的字串,不設置詞結(jié)構(gòu)切分點;

      規(guī)則(3)子句字數(shù)為四、五的字串,則在第二字后面設置詞結(jié)構(gòu)切分點;

      規(guī)則(4)子句字數(shù)為六、七的字串,則可分別在第二字和第四字后面設置詞結(jié)構(gòu)切分點 。

      根據(jù)步驟2的規(guī)則,切分結(jié)果如下:“青山|隱隱|水迢迢/秋盡|江南|草未凋/二十四橋|明月夜/玉人|何處|教吹簫/”。

      步驟3經(jīng)過步驟2之后,將切分的所有長度為2的字串“XY”,與基本唐詩詞庫中詞進行匹配,若匹配成功,則保留原切分;否則,將原字串“XY”切分為“X| Y”。

      步驟4經(jīng)過上述操作,僅剩下長度為3的字串,結(jié)合現(xiàn)代漢語分詞技術(shù)對剩余字串進行進一步切分。

      本文采用最大逆向匹配算法對長度為3的字串“XYZ”進行切分。其原理如下:對字串進行最大正向匹配算法:首先基本唐詩詞庫若存在長度為3的字詞,則取“XYZ”作為匹配字段,若詞庫中存在“XYZ”,則匹配成功,字串“XYZ”不予切分,獨自成詞;若匹配不成功,則匹配“XY”,若成功,則字串切分為“XY|Z”;否則匹配“YZ”,若匹配成功,則字串切分為“X|YZ”;否則,字串切分為則字串切分為 “X|Y|Z”。切分之后的詩句結(jié)果如下:“青山|隱|隱|水|迢迢/秋|盡|江南|草|未|凋/二十四橋|明月|夜/玉人|何處|教|吹簫/”。

      4 結(jié)果分析

      本文在《全唐詩》基礎上構(gòu)建生語料庫,利用上文所述分詞方法,對全唐詩生語料庫進行分詞。利用現(xiàn)已人工分詞的王維和孟浩然詩篇621首對上文分詞方法進行驗證。從統(tǒng)計結(jié)果來看,分詞正確率達90%。對于未成功分詞的詩句,主要由以下幾個方面的原因構(gòu)成:

      ①專有名詞語料庫和典故數(shù)據(jù)庫的完善程度不夠,這直接影響了分詞準確率的高低。

      ②本文利用唐詩音律進行分詞,是基于這樣一個假設:唐詩中的詞多以二字詞為主。然而,在對于長度為3的字串進行切分時,沒有充分考慮字串“XYZ”中“XY”和“YZ”兩者之中結(jié)合成詞的頻度。

      ③存在包孕型的錯誤。例如:“三月”有可能是表示三個月,也可能表示十二月份中的三月,而兩種情況下的切分是不同的。從實驗結(jié)果來看,相對于現(xiàn)代漢語的切分,全唐詩的切分正確率還有一定差距的。

      5 結(jié)語

      本文對唐詩語料的結(jié)構(gòu)特點及相應的分詞技術(shù)進行了深入的探討,在總結(jié)前人研究方法的同時,提出了一種基于唐詩格律特點,結(jié)合現(xiàn)代漢語分詞方法生成一種適用于唐詩詩句分詞算法。實驗結(jié)果表明,本文提出的方法能夠有效提高唐詩分詞準確率。當然,僅對語料進行切分是不夠的,只有以詞匯為單位對進行標注加工,才能對整首唐詩的情感、風格等諸多方面進行深入研究,這也為本文未來的工作指明了道路。

      [1]蘇勁松,周昌樂等.基于統(tǒng)計抽詞和格律的全宋詞切分語料庫建立[J].中文信息學報,2007,21(2):52-57.

      [2]羅鳳珠.詩詞語言切分與語意分類標記之系統(tǒng)設計及應用[A].第四屆數(shù)位典藏技術(shù)研討會[C].2005.

      [3]俞士汶,段慧明,等.北京大學現(xiàn)代漢語語料庫基本加工規(guī)范[J].中文信息學報,2002,16(5):49-64.

      Tang Poetry;Corpus;Word Segmentation;String Matching

      Research on Segmentation Methods Applicable to Tang Poetry

      YAN Wei1,YANG Xiu-mei2
      (1.College of Computer Science,Sichuan University,Chengdu 610000;2.University of Chinese Academy of Sciences,Beijing 100049)

      1007-1423(2016)03-0017-03

      10.3969/j.issn.1007-1423.2016.03.004

      閆偉(1990-),男,山東滕州人,碩士研究生,研究方向為數(shù)據(jù)挖掘、多媒體計算楊秀梅(1990-),女,山東臨沂人,碩士研究生,,研究方向為數(shù)據(jù)分析、數(shù)據(jù)挖掘

      2015-12-15

      2015-12-30

      構(gòu)建一個全唐詩語料庫是使用計算機自動研究唐詩的基礎。在對唐詩中的“詞”、“復合詞”等進行系統(tǒng)定義的基礎上,綜合唐詩在格律方面的特點,提出一種適用于唐詩詩句分詞的方法。該方法先依據(jù)唐詩格律特點對詩句進行切分,對不符合詞定義的切分結(jié)果,再采用現(xiàn)代漢語分詞技術(shù)中最大逆向匹配算法進行修正。實驗結(jié)果表明,所提出的方法能有效提高唐詩分詞準確率。

      唐詩;語料庫;分詞技術(shù);字串匹配

      The construction of a full Tang poetry corpus is the basis for the study of Tang poetry by computer.Based on the Tang Dynasty in the "word"and"compound"system is defined on the basis of the comprehensive characteristics of Tang poetry in metrical form,proposes a method applicable to segment the Tang poetry.The first method of Tang poetry metrical features segmentation of verse basis,does not conform to the definition of the segmentation results,and then the use of modern Chinese word segmentation in reverse matching algorithm is modified.The experimental results show that the method proposed can effectively improve the accuracy rate of Tang poetry word segmentation.

      猜你喜歡
      子句全唐詩復合詞
      《全唐詩》中的汴河人文風物
      江蘇地方志(2024年5期)2024-01-01 00:00:00
      命題邏輯中一類擴展子句消去方法
      含有“心”一詞蒙古語復合詞的語義
      命題邏輯可滿足性問題求解器的新型預處理子句消去方法
      西夏語的副詞子句
      西夏學(2018年2期)2018-05-15 11:24:42
      南昌方言“X 人”式復合詞考察
      《全唐詩》里的中秋節(jié)俗(節(jié)選)
      論名詞補充式復合詞的界定
      命題邏輯的子句集中文字的分類
      唐代箏曲的風格及其美學意蘊
      藝海(2015年4期)2015-11-02 16:02:56
      视频| 岑溪市| 四子王旗| 凤翔县| 平凉市| 宜宾县| 定兴县| 安乡县| 乌鲁木齐县| 枣阳市| 荔波县| 河东区| 定远县| 抚顺县| 贵溪市| 四会市| 喀什市| 保亭| 曲周县| 建德市| 绍兴县| 芦溪县| 会昌县| 郎溪县| 方城县| 射阳县| 宝清县| 安达市| 松江区| 河津市| 麻阳| 嘉义县| 工布江达县| 萝北县| 新郑市| 固始县| 桂平市| 镇江市| 通河县| 前郭尔| 桃园县|