穆肇南 劉夢(mèng)珠 孫界平 王成
摘要:針對(duì)基于演化算法的唐詩(shī)自動(dòng)生成系統(tǒng)展開(kāi)研究.研究工作主要有:使用GloVe(Global Vectors for Word Representation)模型訓(xùn)練詞向量,設(shè)計(jì)了基于關(guān)鍵詞和平仄押韻的初始種群方案、基于語(yǔ)法語(yǔ)義加權(quán)值的適應(yīng)度函數(shù)、基于錦標(biāo)賽算法的選擇策略、基于啟發(fā)式交叉算子和啟發(fā)式變異算子的演化算法;給出了基于演化算法的唐詩(shī)自動(dòng)生成模型及系統(tǒng)實(shí)現(xiàn).實(shí)驗(yàn)表明,根據(jù)給定關(guān)鍵詞,該系統(tǒng)初步實(shí)現(xiàn)了唐詩(shī)的自動(dòng)生成,生成的唐詩(shī)經(jīng)人工修改后具有一定的欣賞價(jià)值.
關(guān)鍵詞:演化算法;自動(dòng)生成;唐詩(shī);自然語(yǔ)言處理
中圖分類號(hào):TP391
文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1000-5641(2020)06-0129-11
0引言
自然語(yǔ)言生成在自然語(yǔ)言處理領(lǐng)域中占據(jù)著重要的位置,它是研究和模仿人類自然語(yǔ)言文本生成的過(guò)程和方法。自然語(yǔ)言生成研究的是,計(jì)算機(jī)根據(jù)文本信息在機(jī)器內(nèi)部形成表達(dá)的形式,即模擬人類生成一段高質(zhì)量的自然語(yǔ)言文本.唐詩(shī)語(yǔ)言形式簡(jiǎn)潔凝練,是中華民族兩千多年來(lái)思想、文化、精神、情感的一種藝術(shù)體現(xiàn),人們希望借助技術(shù)手段,以人工智能為載體,讓計(jì)算機(jī)自動(dòng)“創(chuàng)作”出能與唐詩(shī)媲美的詩(shī)歌.
本文從唐代詩(shī)歌出發(fā),對(duì)唐詩(shī)自動(dòng)生成系統(tǒng)進(jìn)行了研究和實(shí)現(xiàn);基于演化算法搭建自動(dòng)生成模型,構(gòu)建了一套較完善的唐詩(shī)自動(dòng)生成系統(tǒng).實(shí)驗(yàn)表明,文本系統(tǒng)可簡(jiǎn)單模擬人的思維,生成較押韻的詩(shī)詞作品.
1相關(guān)研究
國(guó)際上對(duì)機(jī)器生成詩(shī)歌的研究興起于20世紀(jì)70年代,此后又誕生了很多英語(yǔ)、德語(yǔ)、日語(yǔ)、韓語(yǔ)等語(yǔ)言的不同類型、不同風(fēng)格的機(jī)器自動(dòng)生成的詩(shī)歌.先后經(jīng)歷了隨機(jī)詞匯連接方法(代表系統(tǒng)為Pete Kilgannon的“LYRIC3025”)、基于模板的詩(shī)歌生成方式(代表系統(tǒng)有RACTER、PROSE和RETURNER等)、基于進(jìn)化算法的詩(shī)歌生成方式(代表系統(tǒng)為L(zhǎng)evy的POEVOLVE和Manurung H.M.的MCGONAGALL系統(tǒng))等生成詩(shī)歌的方式,以及近年來(lái)基于序列模型生成詩(shī)歌的方法.
在我國(guó),漢語(yǔ)古詩(shī)詞計(jì)算機(jī)語(yǔ)言學(xué)方面的研究在20世紀(jì)90年代中期才開(kāi)始興起,其中值得關(guān)注的有20世紀(jì)90年代林鴻城獨(dú)立開(kāi)發(fā)的“稻香老農(nóng)作詩(shī)機(jī)”、1999年費(fèi)越在中科院自動(dòng)化所開(kāi)發(fā)的春聯(lián)藝術(shù)系統(tǒng)、2006年微軟中文網(wǎng)站上提供的一個(gè)中文對(duì)聯(lián)在線生成系統(tǒng)、2007年游維的基于遺傳算法的宋詞自動(dòng)生成研究、2010年游維的又一種宋詞自動(dòng)生成的遺傳算法及其機(jī)器實(shí)現(xiàn)的研究、2011年曹衛(wèi)華的基于進(jìn)化策略的仿唐詩(shī)自動(dòng)生成系統(tǒng)研究.除此之外,還有臺(tái)灣元智大學(xué)與北京大學(xué)計(jì)算語(yǔ)言研究所合作開(kāi)發(fā)的“古詩(shī)研究的計(jì)算機(jī)支持環(huán)境”模型系統(tǒng)、以160萬(wàn)字的宋代名家詩(shī)作為研究對(duì)象的“宋代名家詩(shī)自動(dòng)注音系統(tǒng)”.近年來(lái),也開(kāi)始有人利用循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)等方法創(chuàng)作中文詩(shī)歌,如清華大學(xué)的九歌系統(tǒng)就是采用最新的深度學(xué)習(xí)技術(shù),結(jié)合多個(gè)詩(shī)歌生成的不同模型對(duì)超過(guò)30萬(wàn)首古代詩(shī)歌進(jìn)行訓(xùn)練學(xué)習(xí),以及東北大學(xué)自主研發(fā)的機(jī)器翻譯系統(tǒng)NiuTrans等.詩(shī)歌作為漢語(yǔ)精髓,時(shí)至今日仍需更多的探索和發(fā)現(xiàn).
本文主要針對(duì)唐詩(shī)這種獨(dú)特的漢語(yǔ)詩(shī)歌體裁,基于演化算法設(shè)計(jì)并實(shí)現(xiàn)一個(gè)機(jī)器自動(dòng)生成仿唐詩(shī)的系統(tǒng).本文主要研究工作包括以下幾個(gè)部分.
(1)建立唐詩(shī)語(yǔ)料庫(kù).首先通過(guò)對(duì)唐詩(shī)格律的研究將唐詩(shī)細(xì)分為子句,統(tǒng)計(jì)子句中的詞語(yǔ);其次根據(jù)通過(guò)GloVe模型得到的詞與詞共現(xiàn)的頻率,篩選出結(jié)合強(qiáng)度較高的詞語(yǔ)來(lái)建立唐詩(shī)詞表;最后利用工具對(duì)已經(jīng)切分的唐詩(shī)中的詞語(yǔ)進(jìn)行注音、詞性標(biāo)注及平仄押韻等工作.
(2)語(yǔ)法語(yǔ)義的處理.首先根據(jù)全唐詩(shī)語(yǔ)料庫(kù)中詩(shī)歌的語(yǔ)法規(guī)則,判斷生成的仿唐詩(shī)詞句語(yǔ)法的正確性;其次通過(guò)GloVe模型計(jì)算兩個(gè)單詞之間的語(yǔ)義相似性;最后采用人工方式對(duì)高頻詞進(jìn)行風(fēng)格和情感的評(píng)判.
(3)設(shè)計(jì)基于演化算法的仿唐詩(shī)自動(dòng)生成系統(tǒng).根據(jù)唐詩(shī)的特點(diǎn),本文運(yùn)用啟發(fā)式交叉算子和啟發(fā)式變異算子進(jìn)行雜交與變異,設(shè)計(jì)了基于語(yǔ)法規(guī)則、語(yǔ)義相似的加權(quán)適應(yīng)度函數(shù),基于錦標(biāo)賽算法的選擇策略.
(4)實(shí)現(xiàn)基于演化算法的仿唐詩(shī)自動(dòng)生成系統(tǒng),包括給出數(shù)據(jù)庫(kù)建立模塊、語(yǔ)法語(yǔ)義處理模塊、基于演化算法的生成模塊的具體算法實(shí)現(xiàn)流程以及仿唐詩(shī)生成實(shí)例等.
2基于演化算法的系統(tǒng)設(shè)計(jì)
系統(tǒng)的總體架構(gòu)分為3個(gè)基本模塊:數(shù)據(jù)庫(kù)建立模塊、語(yǔ)義語(yǔ)法處理模塊、基于演化算法生成模塊.具體的系統(tǒng)架構(gòu)設(shè)計(jì)如圖1所示.
2.1數(shù)據(jù)庫(kù)建立模塊
先建立針對(duì)古代詩(shī)歌處理用的全唐詩(shī)語(yǔ)料庫(kù).由于本文的詩(shī)詞生成主要集中于仿唐詩(shī)的機(jī)器生成,所以選取大量唐詩(shī)語(yǔ)料庫(kù)進(jìn)行切分,生成單字詞;除此之外還將詩(shī)歌切分成單獨(dú)的詩(shī)句并且存入數(shù)據(jù)庫(kù).數(shù)據(jù)項(xiàng)和數(shù)據(jù)結(jié)構(gòu)設(shè)計(jì)如下.
(1)單字詞,包括的數(shù)據(jù)項(xiàng)有編號(hào)、詞語(yǔ)、拼音、平仄、詞語(yǔ)頻率、詞語(yǔ)詞性.
(2)詩(shī)句表,包括的數(shù)據(jù)項(xiàng)有編號(hào)、詩(shī)句.
由上述分析可知,本系統(tǒng)需要設(shè)計(jì)兩張表:?jiǎn)巫衷~表和詩(shī)句表.單字表用來(lái)存儲(chǔ)單個(gè)字的基本信息.詩(shī)句表用來(lái)存放唐詩(shī)中出現(xiàn)過(guò)的所有詩(shī)句.
根據(jù)數(shù)據(jù)庫(kù)分析中的存單字表的數(shù)據(jù)項(xiàng)可以設(shè)計(jì)出單字表,如表1所示.
同理,根據(jù)數(shù)據(jù)庫(kù)分析中的存詩(shī)句表的數(shù)據(jù)項(xiàng)可以設(shè)計(jì)出詩(shī)句表,包含的字段有字段名、數(shù)據(jù)類型、長(zhǎng)度、描述.
該模塊實(shí)現(xiàn)的是對(duì)已有的唐詩(shī)的每行詩(shī)進(jìn)行單字詞的切分和各行詩(shī)詩(shī)句的切分,以及數(shù)據(jù)庫(kù)建立的功能.
數(shù)據(jù)庫(kù)建立包括對(duì)單字詞進(jìn)行詞性、拼音、音韻、頻率的標(biāo)注等.利用分詞工具對(duì)單字詞的詞性進(jìn)行標(biāo)注,利用注音工具對(duì)單字詞的拼音進(jìn)行標(biāo)注,利用高頻詞查詢工具對(duì)單字詞的詞頻進(jìn)行標(biāo)注;繼而利用SQL實(shí)現(xiàn)對(duì)單字表音韻的標(biāo)注.
2.2語(yǔ)義語(yǔ)法處理模塊
基于演化算法的唐詩(shī)機(jī)器自動(dòng)生成設(shè)計(jì)根據(jù)適應(yīng)度函數(shù)值的大小進(jìn)行優(yōu)勝劣汰,那么關(guān)鍵問(wèn)題就是要設(shè)計(jì)出評(píng)價(jià)機(jī)器自動(dòng)生成的唐詩(shī)優(yōu)劣程度的量化計(jì)算方式.本文通過(guò)對(duì)大量唐詩(shī)的構(gòu)成規(guī)律、語(yǔ)法結(jié)構(gòu)、語(yǔ)義呈現(xiàn)及情感表達(dá)等方面的研究,總結(jié)出了唐詩(shī)的質(zhì)量主要體現(xiàn)在語(yǔ)法的規(guī)范性和語(yǔ)義的關(guān)聯(lián)度兩方面.
在語(yǔ)法方面,主要考慮兩個(gè)方面:一是唐詩(shī)詞性組合規(guī)則;二是押韻平仄規(guī)則.首先本系統(tǒng)需要通過(guò)對(duì)大量唐詩(shī)詞性組合規(guī)則的總結(jié)來(lái)確立合適的詩(shī)歌語(yǔ)法規(guī)則,通過(guò)對(duì)大量唐詩(shī)構(gòu)成規(guī)律的分析總結(jié)出語(yǔ)法規(guī)則.然后需要考慮詩(shī)歌的押韻問(wèn)題,押韻的要求可以根據(jù)詞庫(kù)的音韻標(biāo)注來(lái)實(shí)現(xiàn).系統(tǒng)最終從這兩個(gè)方面判斷生成的仿唐詩(shī)的語(yǔ)法合法性.
詩(shī)歌在語(yǔ)義方面要求風(fēng)格統(tǒng)一、主題連貫、情感豐富等.對(duì)于給定的主題詞,本系統(tǒng)主要使用GloVe模型計(jì)算兩個(gè)單詞之間的語(yǔ)義相似性,進(jìn)而建立起詞與詞之間的關(guān)聯(lián)度.GloVe融合了矩陣分解(Latent Semantic Analysis,LSA)的全局統(tǒng)計(jì)信息和局部上下文窗口(Local Context Window,LCW)優(yōu)勢(shì).融入全局的先驗(yàn)統(tǒng)計(jì)信息,可以加快模型的訓(xùn)練速度,又可以控制詞的相對(duì)權(quán)重.具體實(shí)現(xiàn)包括以下3步.
第一步,根據(jù)語(yǔ)料庫(kù)構(gòu)建一個(gè)共現(xiàn)矩陣X,矩陣中的每一個(gè)元素Xij代表單詞i和上下文單詞j在特定大小的上下文窗口內(nèi)共同出現(xiàn)的次數(shù).一般而言,這個(gè)次數(shù)的最小單位為1,但是GloVe模型根據(jù)兩個(gè)單詞在上下文窗口的距離d提出了一個(gè)衰減函數(shù)decay=1/d,用于計(jì)算權(quán)重,也就是說(shuō)距離越遠(yuǎn)的兩個(gè)單詞所占總計(jì)數(shù)的權(quán)重越小.
通過(guò)以上模型計(jì)算兩個(gè)單詞之間的語(yǔ)義相似性,進(jìn)而建立詞與詞之間的關(guān)聯(lián)度,使詞與詞之間更有凝聚力,使產(chǎn)生的句子看起來(lái)更有意義,且符合語(yǔ)義語(yǔ)法的要求.語(yǔ)法語(yǔ)義處理模塊流程圖如圖2所示.
2.3基于演化算法生成模塊
基于演化算法生成模塊主要是實(shí)現(xiàn)生成仿唐詩(shī)的功能,主要包括初始種群的生成、適應(yīng)度值的計(jì)算、選擇操作、交叉、變異這5個(gè)步驟.
首先,種群的初始化主要步驟如下.
第一,根據(jù)給定的主題詞,從數(shù)據(jù)庫(kù)中抽取與其相關(guān)的候選詞,構(gòu)成候選詞空間.
第二,從候選詞空間隨機(jī)選擇高頻詞進(jìn)行隨機(jī)組合,生成一首五言仿唐詩(shī).
第三,判斷生成的仿唐詩(shī)的第二行詩(shī)押的是什么韻腳,如押的是仄韻,那就再判斷仿唐詩(shī)第四句是不是同樣押的仄韻,如若不是則隨機(jī)從候選詞空間選擇一個(gè)押仄韻且與韻腳語(yǔ)義相關(guān)度強(qiáng)的高頻詞來(lái)替換原來(lái)的詞,從而使得整個(gè)詩(shī)歌押的都是仄韻;重復(fù)此操作,直到最終能夠生成含有N個(gè)個(gè)體的初始種群.
其次,就是計(jì)算其適應(yīng)度.本次試驗(yàn)個(gè)體適應(yīng)性評(píng)判主要依據(jù)是否符合詞性組合規(guī)則(C)、是否符合押韻平仄規(guī)則(Y)以及詞義相關(guān)度(X),適應(yīng)度函數(shù)F為以上3個(gè)測(cè)量依據(jù)歸一化后的加權(quán)值,即
再次,就是選擇操作,此操作就是從群體中選出更加適應(yīng)環(huán)境的個(gè)體.在此操作中本系統(tǒng)采用了錦標(biāo)賽算法,算法具體實(shí)現(xiàn)是通過(guò)父代與之生成的子代進(jìn)行比較,適應(yīng)度值高的個(gè)體會(huì)存活下來(lái)繼續(xù)產(chǎn)生下一代個(gè)體,適應(yīng)度值低的個(gè)體將會(huì)被其子代取代.基于演化算法生成模塊的具體流程如圖3所示.
最后,就是雜交和變異操作.雜交時(shí)隨機(jī)選擇兩個(gè)父代個(gè)體,然后再將兩個(gè)父代個(gè)體中的各行進(jìn)行雜交生成新個(gè)體.變異則是在每一個(gè)個(gè)體中的每一行隨機(jī)抽取一個(gè)位置,把此位置上的詞換成候選詞中與之詞義相近的候選詞,如果抽取的位置是韻腳,那就要在候選詞里選取與韻腳押相同韻的詞語(yǔ)來(lái)進(jìn)行替換.
3基于演化算法的系統(tǒng)實(shí)現(xiàn)
3.1語(yǔ)法語(yǔ)義處理模塊的實(shí)現(xiàn)
語(yǔ)法語(yǔ)義處理模塊包括語(yǔ)法合法性的確立和語(yǔ)義相關(guān)度的計(jì)算的實(shí)現(xiàn).語(yǔ)法規(guī)范的確立主要是通過(guò)合法的詞性語(yǔ)法規(guī)則以及詩(shī)歌的平仄和押韻來(lái)實(shí)現(xiàn)的.就唐詩(shī)而言,每種體裁下的句法都有固定的總句數(shù)、每一句都有固定的總字?jǐn)?shù)、每句話的最后一個(gè)字又或者是偶數(shù)句通常是押韻的.所以根據(jù)唐詩(shī)的這種語(yǔ)法要求,本系統(tǒng)通過(guò)對(duì)大量的唐詩(shī)進(jìn)行學(xué)習(xí)總結(jié)出了語(yǔ)法規(guī)則,具體語(yǔ)法規(guī)則如N(名詞)+V(動(dòng)詞)+N+N+V、N+V+A(形容詞)+N+V;還對(duì)此次生成的五言絕句在其第二行與第四行的最后一個(gè)字進(jìn)行了押韻操作,比如新生成詩(shī)的第二行的韻腳是平聲,那本首詩(shī)第四行的最后一個(gè)字必然也是押平聲.詞義相關(guān)度通過(guò)使用GloVe模型計(jì)算兩個(gè)單詞之間的語(yǔ)義相似性來(lái)實(shí)現(xiàn).
3.2基于演化算法的生成模塊的實(shí)現(xiàn)
仿唐詩(shī)的生成模塊是基于演化算法來(lái)實(shí)現(xiàn)的,具體算法的實(shí)現(xiàn)主要包括初始種群生成、交叉操作、變異操作、適應(yīng)度值計(jì)算和選擇操作這5個(gè)部分.
初始種群生成是根據(jù)輸入的主題詞,從數(shù)據(jù)庫(kù)中抽取與其相關(guān)的候選詞,隨機(jī)選擇滿足押韻要求的候選詞來(lái)填充詩(shī)歌需要押韻的位置,在滿足平仄押韻要求的基礎(chǔ)上,隨機(jī)抽取候選詞填充唐詩(shī)中剩余的位置來(lái)生成滿足唐詩(shī)詩(shī)歌的要求,重復(fù)此操作,直到最終能夠生成含有N個(gè)個(gè)體的初始種群.
則依據(jù)是否符合詞性組合規(guī)則(C)、是否符合押韻平仄規(guī)則(Y)以及詞義相關(guān)度(X)的加權(quán)來(lái)進(jìn)行計(jì)算的,重復(fù)此操作直至計(jì)算出整個(gè)種群的適應(yīng)度值.
選擇操作是基于錦標(biāo)賽算法,通過(guò)比較父代與子代的適應(yīng)度值,選擇適應(yīng)度高的個(gè)體留下繁殖下一代,適應(yīng)度值低的將被淘汰.因此,適應(yīng)度值計(jì)算和選擇操作的關(guān)系比較緊密.
交叉操作是隨機(jī)抽取父代X1,然后隨機(jī)在兩行詩(shī)中產(chǎn)生一個(gè)雜交點(diǎn)point,其中X1中的第一行雜交點(diǎn)point之前(包括雜交點(diǎn)point本身)的部分保留,雜交點(diǎn)point之后的部分被X1第二行雜交點(diǎn)point后的部分取代,就這樣X(jué)1經(jīng)過(guò)變異后產(chǎn)生了新的個(gè)體.
變異操作就是在每一首詩(shī)的每一行詩(shī)句中以概率p隨機(jī)抽取一個(gè)變異點(diǎn)point,變異點(diǎn)point前后部分繼續(xù)保留,但是變異點(diǎn)point則選用與其相關(guān)的候選詞進(jìn)行填充,如若抽取到韻腳,則要選取與韻腳聲調(diào)相同的字進(jìn)行填充,以保證詩(shī)歌的押韻規(guī)則不被破壞.
以上為基于演化算法機(jī)器自動(dòng)生成唐詩(shī)的具體實(shí)現(xiàn),下面給出機(jī)器生成唐詩(shī)的演化算法實(shí)現(xiàn)流程,算法主要包括初始種群生成、適應(yīng)度值計(jì)算、選擇操作、交叉操作和變異操作,具體實(shí)現(xiàn)見(jiàn)算法1.
上述算法實(shí)現(xiàn)中,g為根據(jù)給定關(guān)鍵詞產(chǎn)生的候選詞集合,N為初始種群中個(gè)體的數(shù)量,k為設(shè)置的最大進(jìn)化次數(shù),F(xiàn)為適應(yīng)度值,p為個(gè)體變異的概率.其主要計(jì)算由是否符合詞性組合規(guī)則(C)、是否符合押韻平仄規(guī)則(Y),以及詞義相關(guān)度(X)的加權(quán)和得到.
4實(shí)驗(yàn)結(jié)果與分析
4.1實(shí)驗(yàn)數(shù)據(jù)
針對(duì)本文的唐詩(shī)自動(dòng)生成系統(tǒng),采用以下參數(shù)進(jìn)行測(cè)試:①進(jìn)化次數(shù)分別為100次、200次、300次,相應(yīng)對(duì)比數(shù)據(jù)為500次、1000次、1500次;②初始種群數(shù)分別為20個(gè)、30個(gè)、40個(gè),相應(yīng)對(duì)比數(shù)據(jù)分別為40個(gè)、60個(gè)、80個(gè);③變異率(p)分別為0.1、0.3、0.5,相應(yīng)對(duì)比數(shù)據(jù)分別為0.2、0.4、0.6;④輸入的關(guān)鍵詞分別為“花、風(fēng)、秋、天、春”.具體測(cè)試數(shù)據(jù)如表2至表5所示.
4.2實(shí)驗(yàn)結(jié)果
本系統(tǒng)以關(guān)鍵字“花、風(fēng)、秋、天、春”為例.當(dāng)輸入這些關(guān)鍵詞,體裁為五言絕句時(shí),系統(tǒng)自動(dòng)提取關(guān)鍵詞并在數(shù)據(jù)庫(kù)中查找與關(guān)鍵詞相關(guān)的候選詞.部分候選詞如表6所示.
根據(jù)上述給定的關(guān)鍵詞以及設(shè)置的各種參數(shù),系統(tǒng)自動(dòng)生成的仿唐詩(shī)適應(yīng)度值如表7至表10所示.
根據(jù)上述實(shí)驗(yàn)結(jié)果數(shù)據(jù)顯示,比較表7和表8可知,初始種群和變異率相同時(shí),進(jìn)化次數(shù)越大,所有關(guān)鍵詞產(chǎn)生的詩(shī)歌整體質(zhì)量有所提升;比較表7和表9可知,進(jìn)化次數(shù)和變異率相同時(shí),初始種群越大,所有關(guān)鍵詞產(chǎn)生的詩(shī)歌整體質(zhì)量也有所提升;比較表7和表10可知,進(jìn)化次數(shù)和初始種群相同時(shí),初始種群數(shù)量較小,變異率增大時(shí),部分關(guān)鍵詞產(chǎn)生的詩(shī)歌整體質(zhì)量也有所提升,而當(dāng)初始種群數(shù)量較大,變異率增大時(shí),部分關(guān)鍵詞產(chǎn)生的詩(shī)歌整體質(zhì)量卻有所下降.
由上述結(jié)果可見(jiàn),進(jìn)化次數(shù)和初始種群的大小對(duì)詩(shī)歌整體質(zhì)量的影響呈正相關(guān),變異率在初始種群較小的時(shí)候?qū)φw詩(shī)歌的質(zhì)量正相關(guān),而在初始種群較大時(shí),其影響卻不明顯甚至部分關(guān)鍵詞產(chǎn)生的詩(shī)歌的質(zhì)量有所下降.
通過(guò)多次輸入關(guān)鍵詞“花、風(fēng)、秋、天、春”得到大量的仿唐詩(shī),雖然這些仿唐詩(shī)和真正的唐詩(shī)比起來(lái)還有一定的差距,但是經(jīng)過(guò)對(duì)詩(shī)詞創(chuàng)作風(fēng)格辨析的研究及人工篩選,還是能夠得到適應(yīng)度值較高且可讀性較強(qiáng)的仿唐詩(shī).生成仿唐詩(shī)的具體參數(shù)如表11所示.
5結(jié)論
在對(duì)國(guó)內(nèi)外現(xiàn)有的機(jī)器自動(dòng)生成詩(shī)歌方法研究的基礎(chǔ)上,本文給出了一種基于演化算法的唐詩(shī)自動(dòng)生成模型及其系統(tǒng)實(shí)現(xiàn).首先通過(guò)對(duì)唐詩(shī)格律的研究,建立含有的詞性、音韻、詞頻等屬性的唐詩(shī)語(yǔ)料庫(kù);然后根據(jù)全唐詩(shī)語(yǔ)料庫(kù)中詩(shī)歌的語(yǔ)法語(yǔ)義規(guī)則,判斷生成的仿唐詩(shī)的詞句語(yǔ)法合法性以及詞義的相關(guān)度;最后結(jié)合唐詩(shī)構(gòu)成特點(diǎn),設(shè)計(jì)了包含初始種群、適應(yīng)度函數(shù)、選擇、交叉和變異等優(yōu)勝劣汰操作在內(nèi)的演化算法模型,并加以系統(tǒng)實(shí)現(xiàn).實(shí)驗(yàn)結(jié)果表明,演化算法在唐詩(shī)自動(dòng)生成方面具有較好的通用性,基本上達(dá)到了研究目標(biāo).本研究將現(xiàn)代機(jī)器智能技術(shù)與到中國(guó)傳統(tǒng)文化進(jìn)行交叉融合,弘揚(yáng)了中國(guó)詩(shī)歌文化.但是研究工作也存在諸多不足之處,如系統(tǒng)的自學(xué)能力不足、生成詩(shī)句的好與壞的評(píng)測(cè)標(biāo)準(zhǔn)的定義缺乏、生成唐詩(shī)的評(píng)價(jià)體系欠缺等都將可以成為下一步研究的方向.