• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于統(tǒng)計分析的“中國風(fēng)”歌曲詞匯研究

      2018-09-26 10:43:34蔣彥廷張健鋮
      關(guān)鍵詞:中國風(fēng)特征詞宋詞

      蔣彥廷, 張健鋮

      (北京師范大學(xué) a.文學(xué)院 b.信息科學(xué)與技術(shù)學(xué)院,北京 100875)

      一、引言

      “中國風(fēng)”是21世紀初興起的一種音樂體式。自2003年由方文山作詞、臺灣歌手周杰倫演唱的《東風(fēng)破》獲得巨大成功起,華語流行樂壇刮起了聲勢浩大的“中國風(fēng)”。關(guān)于“中國風(fēng)”概念的界定說法頗多,目前的主流觀點由廣東音樂人黃曉亮提出,指“三古三新(古詩文、古文化、古旋律、新唱法、新編曲、新概念)”相結(jié)合的中國特色樂種[1]。具體而言,它結(jié)合中國傳統(tǒng)民間樂器與現(xiàn)代樂器,在曲調(diào)上以民族宮調(diào)式為主,最重要的是,其歌詞以傳統(tǒng)詩詞為辭藻風(fēng)格。

      在以往的研究中,研究者們注意到“中國風(fēng)”歌曲詞匯在多方面的特色。例如,楊杰[2]、張新標[3]從詞語選用、修辭技巧、意境營造、情感表露等方面,探尋了唐詩宋詞和現(xiàn)代歌詞的源流關(guān)系。劉芳智[4]3-10等則對某一“中國風(fēng)”歌詞作者的作品進行了題材分類、風(fēng)格評析,總的來看,現(xiàn)階段的研究主要是用傳統(tǒng)文學(xué)賞析的辦法,解讀個別歌曲中的具體字句,尚未運用統(tǒng)計方法展現(xiàn)“中國風(fēng)”歌詞的宏觀面貌。而且,研究對象或是籠統(tǒng)的“中國風(fēng)”歌曲,或是某位詞作者的歌詞,缺失不同作品之間的比較研究。

      在前人的基礎(chǔ)上,我們參考“計量風(fēng)格學(xué)”中的統(tǒng)計技術(shù),立足于文本詞匯,對“中國風(fēng)”歌詞進行全面的計量分析,比較其與唐宋詩詞、一般流行歌曲的異同。計量風(fēng)格學(xué)是以定量的手段,利用文本中可以統(tǒng)計的語言特征項來探索文本風(fēng)格的一門學(xué)科[5],具體包括“余弦相似性”等計算文本相似度的方法、“信息增益”等挖掘某一類別文本特征詞的方法,以及基于監(jiān)督學(xué)習(xí)的文本分類算法等。在古詩詞語料方面,我們以清代蘅塘退士《唐詩三百首》[6]選本(實收詩320首)和朱孝臧《宋詞三百首》[7](第三版選本,實收詞285首)為唐詩宋詞的代表;在“中國風(fēng)”歌曲的語料采集上,我們選取了2003年到2017年2月發(fā)行的來自62位作者的106首具有古典意味的歌曲歌詞;在一般流行歌曲方面,由于目前還沒有比較成熟、權(quán)威的中文歌詞語料庫,歌詞語料從網(wǎng)絡(luò)廣泛搜集得到,在排除其中屬于106首“中國風(fēng)”歌曲的語料后,共得5425首歌的歌詞。

      二、文本預(yù)處理

      文本預(yù)處理主要包括三項主要操作,一是停用詞(Stop Words)的選取,二是利用分詞系統(tǒng),三是去除標點。在計算文本相似度、選取特征詞任務(wù)中,三項均需進行;在文本分類任務(wù)中,則只進行第二、三項操作。

      (一)停用詞的選取

      停用詞指經(jīng)常出現(xiàn)在文本中,卻不承載較多信息量的詞語,它們對文本主題沒有太多貢獻度,最好的辦法就是在處理文本的過程中刪除它。我們主要把“有”“無”“來”等常用的動詞,“上”“下”“中”等方位名詞,“人”“天”等常見的名詞,“和”“及”等連詞,“的”“了”等助詞,“不”等副詞選為歌詞文本、《唐詩三百首》文本和《宋詞三百首》文本的停用詞。

      需說明的是,這些詞被停用后,只是不再以詞的身份單獨出現(xiàn),但仍可以構(gòu)詞語素的身份出現(xiàn),例如“無情”“佳人”。這樣的合成詞對于文本內(nèi)容仍具一定意義。

      (二)利用NLPIR / ICTCLAS系統(tǒng)分詞并去除標點

      分詞作為中文信息處理基礎(chǔ)工作,是后續(xù)環(huán)節(jié)的前提。一方面,唐宋詩詞正處于中古漢語到近古漢語的過渡時期,漢語主要的詞匯形式逐漸從單音節(jié)過渡到雙音節(jié)。加之每個人的語感不同,中古漢語語料庫常出現(xiàn)人工分詞不一致的現(xiàn)象[8]。這直接影響了建立在人工標記基礎(chǔ)上的機器分詞的準確率與認可度。因此就總體情況來看,目前還缺乏開源且公認性能較好的中古漢語分詞系統(tǒng)。

      另外,雖然與現(xiàn)代漢語相比,唐詩宋詞中的單音節(jié)詞較多,一字一詞地切分文本似乎可行。但是,據(jù)胡俊峰、俞士汶[9]等學(xué)者對語料的觀察,除多音節(jié)的聯(lián)綿詞、專有名詞外,如“麗人”“寶劍”“悲傷”等偏正、并列結(jié)構(gòu)的多音節(jié)詞已在唐宋詩詞中大量出現(xiàn)。另外,雖然“白云”“秋風(fēng)”等一般被看作詞組而非凝固的詞,但由于其在古詩詞中有特定的隱喻象征義,因此也具有詞的性質(zhì)。此外,古詩詞的許多詞在現(xiàn)代漢語書面語中也并不鮮見。

      最后,由于我們著重分析古詩詞與現(xiàn)代歌詞在詞匯方面的關(guān)系,在同一任務(wù)下,對它們使用統(tǒng)一的分詞系統(tǒng)是十分必要的,所以應(yīng)把古詩詞里處于中間狀態(tài)的組合都暫時作為詞來對待。

      基于上述考慮,我們采用中科院計算所基于多層隱馬爾可夫模型(Hidden Markov Model,HMM)的NLPIR/ICTCLAS2016詞法分析系統(tǒng)(1)來給各文本分詞。之后,我們?nèi)コ谋局胁槐匾目瞻鬃址?、標點,對文本作了清洗。

      三、“中國風(fēng)”歌詞與唐詩宋詞相似度的計算分析

      (一)余弦相似性方法

      余弦相似性(Cosine Similarity)是衡量文本相似度的重要方法之一。它基于Salton等人提出的文本向量空間模型(Vector Space Model, VSM)[10]。在VSM模型里,文本可以表示為由各詞語構(gòu)成的特征項集合,每個特征項都有一定權(quán)重。由此,一個含有n個不同詞語的文本可以轉(zhuǎn)化為一個n維向量d={t1,w1;t2,w2;…… ;ti,wi;……;tn,wn}。其中,ti為文本中的一個特征(即詞語);而ti所對應(yīng)的權(quán)重wi可以用TF-IDF(Term Frequency-Inverse Document Frequency)方法表示[11]:

      wi=tf(ti,d)·idf (ti,d)

      =tf(ti,d)·log(N/nt)

      tf(ti,d)為詞語ti在特定文本d中出現(xiàn)的頻次;idf(ti,d)為詞語ti的逆文本頻率指數(shù),公式為log(N/nt),N為文本總數(shù),nt是包含詞語ti的文本數(shù)量。

      以唐詩、宋詞中2個較長的文本與106首較短的“中國風(fēng)”歌詞文本并列作為idf值的影響因素,在計算歌詞與唐詩、宋詞余弦相似度的具體任務(wù)下有其合理性:古詩詞文本數(shù)為2,對idf值影響較??;影響它的關(guān)鍵就是106首歌詞文本。如果一個詞頻繁出現(xiàn)在許多歌詞文本中,那么它區(qū)別歌詞異質(zhì)性的能力就有所降低,對于歌詞與古詩詞之間相似度的貢獻值就應(yīng)降低。而“1唐詩+1宋詞+106歌詞”的文本分割方式就恰能通過idf方法實現(xiàn)這樣的權(quán)重調(diào)節(jié)機制,從而減少過于常見的詞語對文本相似度的干擾。

      在計算出所有詞的idf值后,我們以各詞的tf·idf值作為權(quán)重,將每個文本向量化??赏ㄟ^比較向量間的夾角來反映文本間的距離。向量夾角能較好地處理文本長度不一致的情況。如果兩個向量夾角很小,就說明它們共現(xiàn)詞較多,用詞趨勢接近。

      (二)相似度計算結(jié)果與實例分析

      我們把《唐詩三百首》《宋詞三百首》向量化后作為參照,計算每一個歌詞向量分別與這兩者的余弦相似度。試驗結(jié)果統(tǒng)計如下表1、2:

      表1 “中國風(fēng)”歌曲與《唐詩三百首》文本相似度前15位排序表

      表2 “中國風(fēng)”歌曲與《宋詞三百首》文本相似度前15位排序表

      綜合上面表1、2及有關(guān)實驗數(shù)據(jù),值得注意的有兩處:

      一是表1出現(xiàn)的15首歌曲有7首仍保留在表2;表1的前5首歌曲有4首在表2中仍保持在同樣區(qū)間,說明這些“中國風(fēng)”歌詞在創(chuàng)作中有意或無意地同時靠近唐詩、宋詞的用語。

      二是歌詞普遍更接近于《宋詞三百首》。一方面,若計算余弦相似度的平均值,表1的15首歌詞與唐詩的平均相似度為0.129,而表2中15首歌詞與宋詞的平均相似度卻達到0.153;另一方面,若將樣本元素擴大到106首“中國風(fēng)”歌詞,它們與《唐詩三百首》的平均相似度為0.073,與《宋詞三百首》則達到0.083;此外,與宋詞相似度超過與唐詩相似度的歌詞,在106例中達78例,占比超過73%。由于在去除停用詞、分詞環(huán)節(jié)之后,唐詩、宋詞的文本長度已較為接近(前者為17213字,后者為19299字),加之余弦相似度能較好地避免較大規(guī)模語料間在長度上細微差異的影響,由此可以認為,相較于唐詩,中國風(fēng)歌詞總體更傾向?qū)W習(xí)借鑒《宋詞三百首》中的詞匯。

      承續(xù)宋詞的典型,就是《長安憶》的歌詞。它在表1、2中均位居首位,在有限的篇幅里,將羈旅送別、思鄉(xiāng)懷人、邊塞戰(zhàn)爭等古詩詞經(jīng)典的類型場景描繪得精致細膩。歌詞與《宋詞三百首》文本的共現(xiàn)單音節(jié)詞41個,雙音節(jié)詞32個,總計73個,具體如下表3所示:

      表3 《長安憶》與《宋詞三百首》的共現(xiàn)詞

      歌詞用典、化用詩詞之處甚為豐富。其中的片段“落日孤城閉,燕然歸無計”“二十三弦急,落花人獨立”“長門又誤佳期,聲清凄”“知音稀,弦斷有誰來聽”明顯分別語出范仲淹《漁家傲》、晏幾道《臨江仙》、辛棄疾《摸魚兒》、岳飛《小重山》等詞作。歌詞里的“子規(guī)”即杜鵑鳥的別名,因其叫聲凄厲,在古詩詞中常作為借來抒發(fā)悲苦哀怨之情;“留意”表示“駐留的意愿”,與現(xiàn)代漢語中的同形動詞意義不同;除了借鑒實詞,語氣詞“兮”也帶有明顯的仿古色彩。

      四、“中國風(fēng)”歌曲借鑒自唐詩宋詞的特征詞匯提取

      該任務(wù)試圖挖掘“中國風(fēng)”歌曲承續(xù)自唐詩宋詞,且較能區(qū)別于一般流行歌曲的特色詞匯。具體步驟為,首先檢索出1936個“中國風(fēng)”歌詞與《唐詩三百首》《宋詞三百首》共現(xiàn)的不重復(fù)詞型;其次,從中過濾掉在5425首一般流行歌曲中分布頻率更高的詞匯,保留1651個詞型;最后,在“106個中國風(fēng)文本/5425個一般流行歌曲文本”兩個類別中提取包含在這些詞型中的特征詞。

      在文本分類中,常用的特征選擇方法有互信息(MI)、信息增益(IG)、文檔頻率(DF)和卡方檢驗(CHI)等。Yang等[13]比較了4種方法,認為卡方檢驗(CHI)和信息增益(IG)的效果最佳。單麗莉等[14]指出信息增益的不足之處,在于它考慮了詞語不出現(xiàn)在某類文檔中對類別的影響。雖然某個詞語不出現(xiàn)可能有助于判斷文本類別,但實驗證明,這種考慮的干擾性更大。為避免單一方法的片面性,我們采用卡方檢驗和改進后的信息增益兩種方法選擇特征詞。對于卡方檢驗,設(shè)文本總數(shù)為N,某詞語wi和某類別Ci之間的關(guān)聯(lián)度可由卡方值χ2體現(xiàn)。首先計算四個觀察值:包含特征詞wi且屬于類別Ci的文本數(shù),記為A;包含特征詞wi但不屬于類別Ci的文本數(shù),記為B;不含特征詞wi但屬于類別Ci的文本數(shù),記為C;不含特征詞wi且不屬于類別Ci的文本數(shù),記為D。則:

      對于改進后的信息增益方法,某詞語wi對于文本類別的區(qū)分能力可由IG(wi)衡量。有:

      其中m為文本類別數(shù);p(Ci)為某一類別的文本出現(xiàn)的概率;p(wi)是文本數(shù)據(jù)集中出現(xiàn)詞語wi的文本數(shù)除以總文本數(shù)的值;p(Ci/wi)是類型Ci中出現(xiàn)詞語wi的文本數(shù)除以出現(xiàn)詞語wi的總文本數(shù)。如上式所示,改進后的信息增益方法不考慮詞語在文本中未出現(xiàn)的情況。

      分別按照卡方檢驗、信息增益值,我們就得到兩份特征詞的降序排序表。其各自前20位特征詞如表4所示。對兩種方法所得的前300個特征取并集,就得到一個含有406個特征詞的集合U。

      由特征值位列前20的詞語可以管窺,盡管兩種特征選取的方法對詞語的排序有所不同,但都取得了良好效果,能把在“中國風(fēng)”歌詞與唐詩宋詞中共現(xiàn),且在“中國風(fēng)”歌曲中常見、在一般流行歌曲中不常見的詞語挖掘出來,相得益彰。綜合表4及相關(guān)數(shù)據(jù)我們可以看出,“中國風(fēng)”特征詞在詞類、話題等方面呈現(xiàn)如下特征:

      (一)雙音節(jié)詞占比較為可觀

      如表4所示的40個詞中,雙音節(jié)詞達12個,占比30%。在含406個特征詞的集合U中,雙音節(jié)詞達144個,占比約35%。由于這些詞也都出現(xiàn)在《唐詩三百首》《宋詞三百首》中,因此也可以佐證唐宋時期漢語詞匯雙音節(jié)化的趨勢。

      (二)名詞是特征詞中占比最高的詞類

      如表4所示,在卡方檢驗的前20位特征詞中,名詞有18個,占比90%;在信息增益的前20位特征詞中,名詞有15個,占比75%;視野擴大到含406個特征詞的集合U,名詞有263個,占比也超過64%。具體而言,“中國風(fēng)”歌詞偏好繼承古詩詞中以下幾大類名詞:

      表4 “中國風(fēng)”歌詞中特征值前20位的詞語表

      (1)自然景觀名詞。其包括兩大類,一是自然、氣候現(xiàn)象類,二是動植物尤其是花卉類。前者如表4中的“風(fēng)月”,以及集合U中的“江”“雪”“煙”“雨”“風(fēng)”“塵”“溪”“山水”“落日”“煙波”“月色”“月華”“殘雪”“風(fēng)露”等。后者如表4中的“苔”“梨花”“芳草”“落花”,以及集合U中的“鶯”“鴻”“鵲”“燕”“鶴”“柳”“桑”“荷”“鷓鴣”“柳絮”“飛絮”“芙蓉”“桃花”“寒梅”“幽篁”“芭蕉”等。這些詞作為古典文學(xué)作品中的意象,大都具有清新自然之美。

      (2)與時令、時間有關(guān)的詞。這一類以雙音節(jié)詞居多,如集合U中的“秋”“黃昏”“暮春”“歲歲”“時節(jié)”“三月”“今朝”“前朝”“當年”“今生”“千古”“三生”等。這些詞有的囊括較長的時間段乃至一生,以此表達感情之強烈,起到“作決絕語而妙”的表意效果;有的起到撫今追昔的功能,通過懷念過去,拓展歌詞意境的時間維度,展現(xiàn)情緒之綿長;而時令詞“秋”“暮春”和“黃昏”有蕭瑟的特征,易引起人的愁緒。

      (3)中國傳統(tǒng)文化物件。如表4中的“筆”“墨”“亭”“錦”“燭”“絲竹”“琵琶”,以及未上表的特征詞“玉”“琴”“硯”“觴”“舫”“弦”“笙”“劍”“紅燭”“羽扇”“燈花”“回廊”“樓閣”“錦屏”“錦瑟”“笙歌”“檀板”等。這些物品有的涉及琴棋書畫等技藝,或?qū)俟糯ㄖ揖拥慕M成部分,在現(xiàn)今不常見,屬于中國傳統(tǒng)文化物件,帶有精致、古雅的特色。

      (三)表現(xiàn)與形容離別羈旅等哀傷的情感和事件,是動詞形容詞語義的重要側(cè)重點

      例如表4中的“落”“斷”,以及集合U中的動詞“離”“泣”“嘆”“送別”“別離”“思量”“相思”“飲恨”“無眠”“落淚”“遙想”,形容詞“愁”“寒”“孤”“瘦”“悵然”“飄零”“倉皇”等。雖然哀傷的主題也常見于如今一般的流行歌曲,但它們對上述詞語的運用不及“中國風(fēng)”歌曲頻繁。

      (四)與美人、婚戀話題有關(guān)的詞成為特征詞的重要組成部分

      許多“中國風(fēng)”的歌詞均離不開美人、婚戀話題,也借鑒了古詩詞中的許多相關(guān)詞匯。具體而言包括三個方面,一是關(guān)于美人及其衣飾妝容的稱呼,如表4中及其他特征值較高的“眉”“裳”“伊”“妃”“佳人”“良人”“美人”“女子”“紅袖”“紅顏”“霓裳”;二是與女子日常起居有關(guān)的詞;三是形容女子心理、儀態(tài)、動作及其與戀人互動的詞。二、三類與前文所述的名詞、動詞、形容詞存在一定交叉,但又含獨具特色的部分。例如前者的“釵”“簾”“梳”“深閨”“畫屏”“脂粉”等。后者的“顰”“蹙(眉)”“嫣然”“心事”“脈脈”“回眸”“攜手”“多情”等。

      統(tǒng)觀“中國風(fēng)”歌詞與唐詩宋詞共現(xiàn)、且區(qū)別于一般流行歌曲的詞匯,“中國風(fēng)”歌曲的一大傾向,是以江南閨閣為背景,以婚戀離愁為題材,意境大多溫婉清雅,部分帶有蕭瑟清凄的色彩。它們主要繼承自唐詩宋詞中善于狀物寫情的婉約流派,而對具有宏闊、豪放風(fēng)格的一類詩詞承續(xù)較少。

      五、“中國風(fēng)”歌詞與一般流行歌詞的分類分析

      文本分類(text clustering)是通過比較一組文本的相似性,將比較相似的文本歸為同一組、差異較大的文本歸為不同組的過程。已知在第二節(jié)得到了各“中國風(fēng)”歌詞與唐詩宋詞的相似性,我們選取了與唐詩、宋詞相似度之和最高的前100首歌曲,以及通過隨機數(shù)抽樣的100首一般流行歌曲作為分類對象。

      分類的方法為K近鄰(K-nearest-neighbor,KNN)算法。其基本原理是,給定一個已經(jīng)具有分類標記的訓(xùn)練數(shù)據(jù)集并向量化,對于新的輸入實例,在向量空間中計算出與該實例距離最小的K個實例。若這K個實例多數(shù)屬于某類別,就應(yīng)把該實例歸入這個類中[15]38-40。

      我們令K值為8,選取兩項分類指標:一是利用上一節(jié)得到的含406個特征詞的集合U,計算歌詞里出現(xiàn)在集合U中的詞數(shù),占歌詞總詞數(shù)的比例;二是每個文本的助詞、連詞、介詞、語氣詞等虛詞的比例。為使對分類效果的評價更加準確,避免數(shù)據(jù)分布不均,進行五折交叉驗證(5-fold cross validation),即將200首歌曲分類對象均分為5份,輪流將其中4份作為訓(xùn)練集,剩下的1份(40首)作為測試集,分別記錄5次實驗的精確率(precision)、召回率(recall)、F值(2)。歷次實驗效果及平均效果如圖1所示:

      根據(jù)圖3,首先觀察5次實驗的平均性能。F平均值達到了92.49%,說明憑借虛詞和集合U中的406個詞(以下簡稱“古典詞”)的出現(xiàn)頻率2項指標,能夠大體上區(qū)分“中國風(fēng)”與“非中國風(fēng)”類別的歌詞。如前所述,“中國風(fēng)”歌詞與唐詩宋詞的詞匯同質(zhì)性頗為顯著。而古代文學(xué)家、評論家很早就表達了對古詩詞中使用虛詞(字)的審慎態(tài)度。唐代詩人盧延讓在《苦吟》中說詩“不同文賦易,為著者之乎”,即作詩不像文賦那樣可以相對自由地使用“者之乎”等意義較虛的字;明代謝榛也在《四溟詩話》卷一中引李西涯語:“詩用實字易,用虛字難……用之不善,則柔弱緩散,不復(fù)可振?!盵16]9傳統(tǒng)詩詞受到格律體式的限制,對虛詞的使用較為拘謹,“中國風(fēng)”歌曲要接近傳統(tǒng)語體風(fēng)格,亦需把虛詞維持在較低的比例。然而自新文化運動起,以胡適《嘗試集》為代表的新詩,在突破舊有詩詞體式規(guī)則的同時,也頻繁讓虛詞入詩,極大地改變了其原有詞類構(gòu)成[17]。以“古典詞”為代表的詞匯,也是“中國風(fēng)”富有古詩詞韻味、在紛繁的現(xiàn)代華語樂壇上獨樹一幟的重要計量特征。

      另外也需看到,個別驗證的精確率、召回率不高。除了語料相對較少、數(shù)據(jù)較為稀疏的因素,更主要的原因,第一,“中國風(fēng)”在追求仿古意境的同時,為避免晦澀不易為大眾接受,也不排斥文白夾雜的語句。即使是前文所列的與唐詩、宋詞相似度較高的《花滿樓》歌詞,其中也有“樓滿花香君知否”與“曾經(jīng)牽著我的手”這樣文言白話異質(zhì)語體共存的現(xiàn)象。

      第二,誠然此類歌曲總體上多有借鑒古詩詞中的典型意象和描摹情態(tài)的謂語,但具體到不同作者、不同歌詞,仿古擬古的程度也有所差異。例如許嵩在詞作中使用的傳統(tǒng)意象一般就比詞作者后弦的更加密集?!爸袊L(fēng)”歌詞作者的典型代表方文山認為,只要詞曲具備古典背景元素的用語及其他某些特征,“不論加入元素的多寡或比重為何,均可視同為所謂的‘中國風(fēng)’歌曲”[18]3-13。其論述是否完全合理固然有待商榷,但該觀點也從一個側(cè)面指出“中國風(fēng)”并非千篇一律。

      第三,在20世紀后半葉,樂曲層面上的“中國風(fēng)”概念尚未被明確提出,但一些流行歌曲的歌詞卻已帶有鮮明的傳統(tǒng)詩詞色彩。例如本分類實驗中的歌詞《梨渦淺笑》。它由香港填詞家黎彼得于1976年創(chuàng)作,古典詞占比高達24.03%,虛詞占比僅為7.69%,與大部分“中國風(fēng)”歌詞一樣具有較高古典詞比例和較低虛詞比例的表征,在分類測試中就被預(yù)測為“中國風(fēng)”類別。相似的歌曲還包括瓊瑤于1975年作詞的《在水一方》、陳小奇1993年作詞的《濤聲依舊》等??v然幾乎沒有人認為這些創(chuàng)作時間較早的作品亦屬“中國風(fēng)”范疇,但它們在歌詞層面的確已具備如今“中國風(fēng)”歌曲的某些突出特點。一些相關(guān)研究者曾注意到這種矛盾,提出通過添加時間、外來文化沖擊的背景等限制性條件,以更新“中國風(fēng)”的定義,縮小此概念的外延[18]6-7。這些限制性條件誠為一家之言,然已不再是本文的討論范疇,還有待今后學(xué)界對其合理性、可行性的進一步探究。

      六、結(jié)語

      本文從詞匯角度,運用計量風(fēng)格學(xué)的統(tǒng)計方法,探索了“中國風(fēng)”歌曲對《唐詩三百首》《宋詞三百首》的承續(xù)情況,以及它們區(qū)別于一般流行歌詞的顯著特征。通過余弦相似度,得到與《唐詩三百首》《宋詞三百首》相近的歌詞文本,得出中國風(fēng)歌詞更接近宋詞用語的結(jié)論;并基于古今文本詞匯的共現(xiàn)與進一步的特征選擇,梳理“中國風(fēng)”文本承續(xù)自古詩詞的重要詞類、話題,總結(jié)此類歌詞的風(fēng)格偏好;通過K-最近鄰分類實驗,發(fā)現(xiàn)較低的虛詞比率與較高的古典詞比率兩項指標能,大體上使“中國風(fēng)”歌曲從浩如煙海的現(xiàn)代華語樂曲中相對獨立出來。統(tǒng)計方法能使原本不引人注目、捉摸不定的文本風(fēng)格得以突顯,在傳統(tǒng)文本分析的基礎(chǔ)上獲得了實證數(shù)據(jù)的有力支撐,從而能更全面地反映出“中國風(fēng)”歌曲詞匯的面貌,討論它們與古詩詞、一般性的現(xiàn)代流行歌曲之間的關(guān)系,為今后相關(guān)文藝創(chuàng)作提供了一定的實證支持。

      不過,《唐詩三百首》《宋詞三百首》作為中國古典文學(xué)的精華,仍不能囊括古代文學(xué)的總體面貌?!爸袊L(fēng)”歌曲對其他作品的承續(xù)狀況尚未得呈現(xiàn)。另外,文本之間可能存在的少數(shù)同形異義詞還有待仔細甄別。最后,“中國風(fēng)”與早期(20世紀后半葉)一些具有鮮明傳統(tǒng)詩詞色彩的流行歌曲之間的異同還不及充分探索。這些問題有待在將來作更深入的研究與討論,從而使“中國風(fēng)”歌曲的面貌與定位更全面、清晰地揭示出來。

      注釋:

      (1)ICTCLAS/NLPIR詞法分析系統(tǒng)參見:http://ictclas.nlpir.org/。

      (2)精確率、召回率、F值是用于分類效果的三個指標。在二分類問題中,常以關(guān)注的類為正類;其余的為負類。

      精確率(P) = 將正類預(yù)測為正類的文檔數(shù) / 所有預(yù)測為正類的文檔數(shù)。

      召回率(R) = 將正類預(yù)測為正類的文檔數(shù) / 正類文檔的真實總數(shù)。

      F值是精確率和召回率的調(diào)和均值。有:2/F=1/P+1/R

      猜你喜歡
      中國風(fēng)特征詞宋詞
      宋詞里的中秋月
      華人時刊(2023年17期)2023-10-24 08:01:48
      半小時漫畫宋詞
      半小時漫畫宋詞
      品讀宋詞
      基于改進TFIDF算法的郵件分類技術(shù)
      產(chǎn)品評論文本中特征詞提取及其關(guān)聯(lián)模型構(gòu)建與應(yīng)用
      面向文本分類的特征詞選取方法研究與改進
      關(guān)于“方言特征詞”理論的回顧及思考
      延川县| 绥棱县| 新竹市| 师宗县| 舟曲县| 潮州市| 安陆市| 临夏市| 凤台县| 蒙山县| 彰武县| 贵溪市| 化德县| 云和县| 炉霍县| 略阳县| 扶风县| 承德县| 凌云县| 林周县| 长春市| 洮南市| 沙田区| 华安县| 龙泉市| 吉林市| 南宫市| 保亭| 志丹县| 许昌市| 如东县| 克什克腾旗| 遂宁市| 德保县| 宜州市| 县级市| 偏关县| 武山县| 建始县| 北票市| 大荔县|