陳 鑫,王素格,2,李德玉,2,譚紅葉,2,陳 千,2,王元龍,2
(1. 山西大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,山西 太原 030006;2. 山西大學(xué) 計(jì)算智能與中文信息處理教育部重點(diǎn)實(shí)驗(yàn)室,山西 太原 030006)
在信息革命的浪潮中,人工智能應(yīng)運(yùn)而生并蓬勃發(fā)展,極大推動(dòng)計(jì)算機(jī)語(yǔ)音識(shí)別、圖像分析及文本語(yǔ)義理解能力。為了檢驗(yàn)計(jì)算機(jī)對(duì)文本語(yǔ)義深層理解效力,國(guó)家863“超腦計(jì)劃”牽頭研制“高考機(jī)器人”,即利用人工智能程序模擬高考生,參與高考。高考語(yǔ)文考卷,不僅考察考生對(duì)文本理解的能力,還檢驗(yàn)其對(duì)文本的鑒賞能力,其中語(yǔ)言風(fēng)格是比較重要的考察內(nèi)容。由于語(yǔ)言風(fēng)格是說(shuō)話者個(gè)人語(yǔ)言情感的流露,其情感色彩相比任何其他語(yǔ)言現(xiàn)象更為豐富[1]。例如,語(yǔ)言風(fēng)格中“明朗”一般較多使用在情感色彩比較鮮明的詞語(yǔ)情感表達(dá)中,而“含蓄”語(yǔ)言風(fēng)格則用于描繪性辭格進(jìn)行情感表達(dá)[2]。因此,語(yǔ)言風(fēng)格類別的判別既能為鑒賞題解答技術(shù)提供支撐,也能為分析閱讀材料作者的情感奠定基礎(chǔ)。
由于語(yǔ)言風(fēng)格體系復(fù)雜,類別標(biāo)簽繁多,傳統(tǒng)的二元分類器(如SVM)對(duì)多分類問(wèn)題解決效果都不盡人意。利用語(yǔ)言風(fēng)格的層級(jí)化系統(tǒng)[3],研究基于層次結(jié)構(gòu)的語(yǔ)言風(fēng)格判別,既能緩解多分類對(duì)二元分類器帶來(lái)的挑戰(zhàn),也可以靈活選擇分類的層次,以滿足高考對(duì)語(yǔ)言風(fēng)格不同考察方式。例如:
題目1: 以③④段為例,簡(jiǎn)要分析本文語(yǔ)言的兩個(gè)主要特點(diǎn)。
題目2: 本文的細(xì)節(jié)描寫(xiě)細(xì)膩而生動(dòng),從多個(gè)角度抒發(fā)著作者的生命感悟。請(qǐng)選擇一個(gè)最打動(dòng)你的細(xì)節(jié)進(jìn)行語(yǔ)言特色分析。
題目1未提及特定的語(yǔ)言風(fēng)格,為提高判別準(zhǔn)確率,可進(jìn)行粗粒度分類。而題目2針對(duì)語(yǔ)言風(fēng)格“細(xì)膩”考察,則需進(jìn)行細(xì)粒度分類。
通常,層次分類依賴的類別層次結(jié)構(gòu)可由專家編制,也可通過(guò)聚類生成[4]。為了克服專家編制的類別層次結(jié)構(gòu)主觀性,Tang等[5]提出一種動(dòng)態(tài)結(jié)構(gòu)調(diào)整方法,該方法具有較高的時(shí)間復(fù)雜度,隨后,Nitta[6]對(duì)其時(shí)間開(kāi)銷進(jìn)行改進(jìn),但調(diào)整結(jié)構(gòu)受限于最初層次結(jié)構(gòu)。為了減小結(jié)構(gòu)生成過(guò)程對(duì)專家知識(shí)的依賴性,Phongwattana等[7]基于歐氏距離,利用層次聚類獲取類別層次結(jié)構(gòu),但歐氏距離僅能刻畫(huà)簇間空間距離,并未對(duì)其語(yǔ)義距離進(jìn)行度量。另外,Karypis等[8]提出一種動(dòng)態(tài)的層次聚類算法,首先利用K近鄰算法構(gòu)建圖,然后基于快速圖分割算法METIS[9]將數(shù)據(jù)圖劃分為多個(gè)子簇,最后基于簇間相對(duì)互連性與相對(duì)相似性,對(duì)簇進(jìn)行迭代合并,得到最終層次聚類結(jié)果。此層次聚類方法可對(duì)形狀各異、大小不一的子簇進(jìn)行動(dòng)態(tài)聚合,被應(yīng)用到文本、圖像及高鐵故障檢測(cè)任務(wù)中[10],并取得理想的效果。
本文綜合多名學(xué)者對(duì)語(yǔ)言風(fēng)格的類別劃分結(jié)果[1-3,11-16],結(jié)合高考對(duì)考生的考察要求,研究語(yǔ)言風(fēng)格類別標(biāo)簽的判別問(wèn)題。為了實(shí)現(xiàn)高效的語(yǔ)言風(fēng)格的類別判斷,將語(yǔ)言風(fēng)格鑒賞轉(zhuǎn)化為分類任務(wù),并利用識(shí)別結(jié)果輔助語(yǔ)言風(fēng)格鑒賞題解答。
本文第1節(jié)將確定語(yǔ)言風(fēng)格層次結(jié)構(gòu);第2節(jié)展現(xiàn)基于層次聚類的類別層次結(jié)構(gòu)獲取算法、基于層次分類的語(yǔ)言風(fēng)格識(shí)別及面向高考語(yǔ)言風(fēng)格鑒賞題解答流程;實(shí)驗(yàn)數(shù)據(jù)和評(píng)價(jià)指標(biāo)在第3節(jié)呈現(xiàn);第4節(jié)對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行詳細(xì)的分析;最后一節(jié)給出一個(gè)全文的結(jié)論與下一步的工作展望。
由于語(yǔ)言風(fēng)格體系復(fù)雜,語(yǔ)言學(xué)家研究粒度存在差異。宗世海[11]從多個(gè)角度劃分粒度,從篇幅劃分,可為單篇文檔、多篇文檔;從作品集角度劃分,可分為單個(gè)作者作品、某類作者作品、一個(gè)語(yǔ)體。丁金國(guó)[12]認(rèn)為語(yǔ)言風(fēng)格粒度具有層級(jí)化,可分為語(yǔ)體-文體-語(yǔ)篇三個(gè)層次,其中最小粒度的語(yǔ)篇可為一個(gè)句群、一個(gè)段落、一篇文章等。而高考對(duì)語(yǔ)言風(fēng)格鑒賞是面向單篇文檔或單個(gè)段落,因此本文的研究粒度設(shè)定為單個(gè)段落。
由于同一時(shí)期的不同學(xué)者對(duì)語(yǔ)言風(fēng)格定義迥異,而同一學(xué)者在不同時(shí)期的語(yǔ)義風(fēng)格定義也不完全相同[13],因此,語(yǔ)言學(xué)家對(duì)語(yǔ)言風(fēng)格的類別劃分差異較大。依據(jù)文獻(xiàn) [1-3]和文獻(xiàn)[11-16],我們將語(yǔ)言風(fēng)格的表達(dá)方式分為平面劃分、對(duì)立劃分、層次劃分,其具體劃分結(jié)果見(jiàn)表1。
根據(jù)表1,綜合多名學(xué)者對(duì)語(yǔ)言風(fēng)格的類別劃分結(jié)果[1-3,11-16],結(jié)合高考對(duì)考生考察要求,本文將語(yǔ)言風(fēng)格劃分為12個(gè)類別,分別為幽默詼諧、細(xì)膩雋永、樸素自然、華麗典雅、含蓄深沉、簡(jiǎn)潔明快、雄渾豪放、清新婉約、率性曠達(dá)、嚴(yán)謹(jǐn)工整、舒緩和平、急驟猛烈。
表1 語(yǔ)言風(fēng)格劃分結(jié)果
續(xù)表
由于語(yǔ)言風(fēng)格中存在對(duì)立類別,為了防止層次聚類中對(duì)立類別簇聚合,本文參考語(yǔ)言學(xué)家的對(duì)立劃分結(jié)果[3,11,13,15-16],建立對(duì)立集R,即: {雄渾豪放—清新婉約,雄渾豪放—細(xì)膩雋永,急驟猛烈—舒緩和平,華麗典雅—樸素自然,含蓄深沉—簡(jiǎn)潔明快,率性曠達(dá)—含蓄深沉,率性曠達(dá)—嚴(yán)謹(jǐn)工整}。另外,依據(jù)丁金國(guó)[12]定義的類別層次結(jié)構(gòu)(見(jiàn)圖1),結(jié)合本文確定的類別標(biāo)簽,修改后的類別層次結(jié)構(gòu)MH見(jiàn)圖2。
圖1 專家編制層次結(jié)構(gòu)圖圖2 修改后專家編制類別層次結(jié)構(gòu)MH
為了適應(yīng)高考不同考察要求,本文利用層次分類法判別語(yǔ)言風(fēng)格,其分類策略可劃分為全局處理策略、化繁為簡(jiǎn)策略、分而治之策略[4]。全局處理策略基于整個(gè)層次結(jié)構(gòu)優(yōu)化分類器,有較大的時(shí)間開(kāi)銷?;本秃?jiǎn)策略首先篩選與待分類樣本相關(guān)的候選類別,然后利用對(duì)應(yīng)分類器進(jìn)行分類,雖可以靈活選擇分類類別及分類器,但計(jì)算開(kāi)銷較大。分而治之策略依據(jù)層次結(jié)構(gòu)逐層分類,雖存在錯(cuò)誤累計(jì)問(wèn)題,但時(shí)間開(kāi)銷較小。因此,本文采用分而治之的分類策略,用于語(yǔ)言風(fēng)格的類別判別。
基于層次結(jié)構(gòu)的語(yǔ)言風(fēng)格判別,主要由獲取類別的層次結(jié)構(gòu)、判別語(yǔ)言風(fēng)格兩部分組成,具體流程見(jiàn)圖3。
在語(yǔ)言風(fēng)格類別層次結(jié)構(gòu)確定過(guò)程中,為減少對(duì)專家知識(shí)的依賴,本文利用層次聚類方法[8]獲取語(yǔ)言風(fēng)格類別層次結(jié)構(gòu)。
圖3 基于層次結(jié)構(gòu)語(yǔ)言風(fēng)格判別方法流程圖
其中,#ct(MfC)為MfC映射關(guān)系中ct的特征值。
在層次聚類過(guò)程中,本文采用Karypis[8]提出的算法,綜合簇間相對(duì)互連性[見(jiàn)式(2)]、相對(duì)近似性[見(jiàn)式(3)]度量簇間相似性[見(jiàn)式(4)],迭代完成簇間合并。
其中,sci、scj代表兩個(gè)簇,EC{sci,scj}為簇sci、scj的連接邊,ECsci為簇sci的二等分極小割邊。
RC(sci,scj)
(3)
其中,α代表比例參數(shù),用來(lái)度量簇間相似度計(jì)算過(guò)程中相對(duì)互聯(lián)性與相對(duì)相似性的重要程度。
依據(jù)特征集FC,將語(yǔ)言風(fēng)格樣本表征為向量,采用KNN算法構(gòu)造樣本圖,并利用圖分割算法獲取樣本標(biāo)簽原始簇,最后利用層次聚類確定類別層次結(jié)構(gòu),具體見(jiàn)算法1。
算法1:語(yǔ)言風(fēng)格類別層次結(jié)構(gòu)獲取算法
為了對(duì)文本語(yǔ)言風(fēng)格實(shí)時(shí)、高效地進(jìn)行判別,并將類別層級(jí)結(jié)構(gòu)信息保留于判別結(jié)果,本文基于2.1節(jié)確定的語(yǔ)言風(fēng)格類別層次結(jié)構(gòu),采用“分而治之”的層次分類方法識(shí)別語(yǔ)言風(fēng)格。另外,SVM作為一個(gè)以間隔最大化為學(xué)習(xí)策略的二元分類器,與2.1節(jié)中確定的二叉語(yǔ)言風(fēng)格層次結(jié)構(gòu)相吻合。因此,本文基于SVM層次分類,實(shí)現(xiàn)對(duì)語(yǔ)言風(fēng)格的識(shí)別,具體流程見(jiàn)圖4。
層次分類過(guò)程中,首先利用第1層分類器對(duì)數(shù)據(jù)集D進(jìn)行分類,獲得分類結(jié)果;然后依據(jù)分類結(jié)果, 尋找對(duì)應(yīng)SVM分類器, 進(jìn)行第2層分類; ……;直到獲取最終的語(yǔ)言風(fēng)格標(biāo)簽類別ck(1≤k≤m)。
圖4 基于SVM層次分類流程圖
為了應(yīng)對(duì)高考對(duì)語(yǔ)言風(fēng)格的考察,本文將利用2.2節(jié)中訓(xùn)練的層次SVM分類器,完成對(duì)文本語(yǔ)言風(fēng)格的識(shí)別。在高考鑒賞題解答過(guò)程中,根據(jù)題干選擇分類層次,即若題干包括特定的語(yǔ)言風(fēng)格,則確定分類層次為葉節(jié)點(diǎn);如果題干未提及具體的語(yǔ)言風(fēng)格,為提高識(shí)別準(zhǔn)確率,則分類層次確定為葉節(jié)點(diǎn)的父節(jié)點(diǎn)。然后,基于2.1節(jié)確定的類別層次結(jié)構(gòu)AH,利用2.2節(jié)中SVM層次分類器識(shí)別閱讀材料段落語(yǔ)言風(fēng)格,并結(jié)合語(yǔ)言風(fēng)格作用知識(shí)庫(kù),生成答案,具體流程見(jiàn)圖5。
圖5 面向高考閱讀理解的語(yǔ)言風(fēng)格鑒賞題解答流程
數(shù)據(jù)集1收集人教版高中課文、全國(guó)高考(2002—2016)閱讀理解材料,共計(jì)484篇,6 646段。利用第2節(jié)確定的類別標(biāo)簽進(jìn)行人工標(biāo)注,12種類別在數(shù)據(jù)集中的具體比例見(jiàn)表2。
數(shù)據(jù)集2為了避免數(shù)據(jù)不平衡性對(duì)類別層次結(jié)構(gòu)獲取造成影響,從數(shù)據(jù)集1中12個(gè)類別標(biāo)注數(shù)據(jù)中分別選取36條數(shù)據(jù),共計(jì)432條,作為類別層次結(jié)構(gòu)確定方法驗(yàn)證數(shù)據(jù)。
語(yǔ)言風(fēng)格判別整個(gè)過(guò)程由類別層次結(jié)構(gòu)獲取、基于SVM層次分類兩部分構(gòu)成。類別層次獲取過(guò)程中類別原始簇利用熵、純度度量;層次分類結(jié)果則采用正確率A(accuracy)、準(zhǔn)確率P(precision)、召回率R(recall)及F值度量。
(1) 生成原始簇的評(píng)價(jià)指標(biāo)
表2 語(yǔ)言風(fēng)格標(biāo)注語(yǔ)料類別占比
(5)
(6)
其中,l代表簇的個(gè)數(shù),u代表整個(gè)聚類劃分樣本數(shù)。
其熵值越大,說(shuō)明原始簇分布在各個(gè)類別越均勻,原始簇對(duì)類別刻畫(huà)能力越弱。
簇的純度度量: 簇的純度為簇中最大類別所占比值,即純度值越大,簇對(duì)單個(gè)類別刻畫(huà)能力越強(qiáng)。聚類簇i的純度計(jì)算見(jiàn)式(7),整個(gè)聚類劃分的純度計(jì)算見(jiàn)式(8)。
(2) 層次分類的評(píng)價(jià)指標(biāo)
正確率A(accuracy)為測(cè)試集正確分類的樣本數(shù)與測(cè)試集總樣本數(shù)占比,其刻畫(huà)層次分類總體分類準(zhǔn)確性。除此之外,本文還利用準(zhǔn)確率P(precision)、召回率R(recall)及F1值度量每個(gè)類別的分類效果。
本節(jié)針對(duì)語(yǔ)言風(fēng)格判別過(guò)程中的類別層次結(jié)構(gòu)生成、基于SVM語(yǔ)言風(fēng)格層次分類進(jìn)行實(shí)驗(yàn),用于驗(yàn)證本文語(yǔ)言風(fēng)格判別的有效性。
實(shí)驗(yàn)1語(yǔ)言風(fēng)格類別層次結(jié)構(gòu)的獲取
語(yǔ)言風(fēng)格類別是由多種因素決定的,其中詞匯表達(dá)占有重要的地位[1,17]。例如,“丟掉、拿手、腦袋”這些詞為口語(yǔ)詞語(yǔ),體現(xiàn)出“樸素自然”語(yǔ)言風(fēng)格,而書(shū)面語(yǔ)“遺棄、擅長(zhǎng)、頭顱”則能表現(xiàn)出“華麗典雅”的語(yǔ)言風(fēng)格。因此,我們選取詞袋特征作為其表征單元,使用3.1節(jié)的層次聚類,設(shè)計(jì)了三組特征表征實(shí)驗(yàn)方案,用于獲取類別層次結(jié)構(gòu),具體如下:
方案1僅使用詞袋模型表征文本,記作baseline;
方案2在詞袋模型的基礎(chǔ)上,增加12維one-hot類別特征,指導(dǎo)層次結(jié)構(gòu)生成;
利用2.1節(jié)介紹的算法,基于圖分割的原始簇生成結(jié)果見(jiàn)表3、表4,層次聚類結(jié)果見(jiàn)圖6。
表3 聚類原始簇熵值
表4 聚類原始簇純度
觀察表3和表4,隨著將類別信息加入到特征后,圖聚類生成的原始簇的熵值降低,純度增加;并且方案3比方案2熵值更低,純度更高,說(shuō)明類別特征對(duì)圖聚類原始簇生成有指導(dǎo)作用,并且一維特征優(yōu)于“one-hot”方式,分析其中原因如下:
(1) 方案1圖分割原始簇生成過(guò)程,由于缺少類別標(biāo)簽的指導(dǎo),每個(gè)原始簇中包含多個(gè)類別,且各個(gè)類別比例差異不大,熵值大,純度低,即初始簇不能刻畫(huà)語(yǔ)言風(fēng)格特定類別。
(2) 一維特征比one-hot特征區(qū)分類別能力強(qiáng)。
由于方案1及方案2圖分割生成原始簇有較高的熵值、較低的純度,皆無(wú)法明確表達(dá)簇與類別間對(duì)應(yīng)關(guān)系。因此,將方案3生成的類別層次結(jié)構(gòu)AH(見(jiàn)圖6)作為之后層次分類依賴的層次結(jié)構(gòu)。
實(shí)驗(yàn)2基于類別層次結(jié)構(gòu)的層次SVM分類
在數(shù)據(jù)集1上,選取詞袋為特征,詞頻為特征值,分別基于專家編制層次結(jié)構(gòu)MH(見(jiàn)圖2)、自動(dòng)生成層次結(jié)構(gòu)AH(見(jiàn)圖6)、平面結(jié)構(gòu)(即一層結(jié)構(gòu),baseline),采用5次交叉驗(yàn)證對(duì)語(yǔ)言風(fēng)格進(jìn)行判別。針對(duì)實(shí)驗(yàn)結(jié)果,本文從節(jié)點(diǎn)分類、整體分類兩個(gè)角度分析實(shí)驗(yàn)結(jié)果。
圖6 自動(dòng)生成語(yǔ)言風(fēng)格類別層次結(jié)構(gòu)AH
(1) 節(jié)點(diǎn)分類結(jié)果
為了驗(yàn)證層次分類過(guò)程中節(jié)點(diǎn)分類效果,又鑒于分而治之策略層次分類方法有錯(cuò)誤累計(jì)的缺點(diǎn),本文利用正確率A(accuracy)度量層次結(jié)構(gòu)中每個(gè)節(jié)點(diǎn)的分類效果,具體結(jié)果見(jiàn)圖7、圖8。
圖7 MH節(jié)點(diǎn)SVM分類正確率
對(duì)比圖7、圖8中每個(gè)節(jié)點(diǎn)SVM分類正確率,除第一層外,AH最低正確率為76.11%, 最高正確率為98.12%,而MH中最低正確率為71.12%,最高正確率為97.96%。從而證明AH細(xì)粒度分類效果優(yōu)于MH。另外,從圖8中發(fā)現(xiàn),“簡(jiǎn)潔明快”與“樸素自然”的分類正確率低,只有79.93%,這是由于兩種語(yǔ)言風(fēng)格用詞一致性高造成的。
(2) 整體分類結(jié)果
為了驗(yàn)證層次分類過(guò)程中,結(jié)構(gòu)對(duì)整體分類結(jié)果的影響,本文將利用正確率(accuracy)、宏準(zhǔn)確率(Macro-Precision)、宏召回率(Macro-Recall)及宏F值(Macro-F)對(duì)分類結(jié)果進(jìn)行評(píng)價(jià),具體結(jié)果見(jiàn)表5。
表5 語(yǔ)言風(fēng)格分類accuracy、Macro-Precision、Macro-recall及Macro-F
圖8 AH節(jié)點(diǎn)SVM分類正確率
觀察表5可以看出:
(1) AH 的Macro-Precision、Macro-recall、Macro-F均超過(guò)MH,即證明自動(dòng)生成層次結(jié)構(gòu)過(guò)程中,本文方法對(duì)語(yǔ)言風(fēng)格類別間關(guān)聯(lián)認(rèn)識(shí)優(yōu)于專家知識(shí),說(shuō)明本方法的層次結(jié)構(gòu)劃分由具體數(shù)據(jù)決定,可以根據(jù)數(shù)據(jù)的不同實(shí)現(xiàn)層次結(jié)構(gòu)的動(dòng)態(tài)調(diào)整。
(2) 語(yǔ)言風(fēng)格識(shí)別過(guò)程中,類別層次結(jié)構(gòu)確定與層次分類獨(dú)立實(shí)現(xiàn),未考慮兩個(gè)子任務(wù)的關(guān)聯(lián)關(guān)系,造成AH的Macro-Precision、Macro-Recall、Macro-F都低于平面結(jié)構(gòu)。但AH結(jié)構(gòu)具有層次性,在語(yǔ)言風(fēng)格識(shí)別過(guò)程中能自由選擇分類的層次,如第1節(jié)題目1,為提高準(zhǔn)確率,分類過(guò)程中可以將其分類至葉節(jié)點(diǎn)上一層。從表5所示結(jié)果可以看出,AH第三層之前正確率均高于平面分類。
(3) 最終葉節(jié)點(diǎn)的分類的正確率,MH略優(yōu)于AH。但在第二、三層分類正確率中,AH高于MH。結(jié)合圖7、圖8發(fā)現(xiàn),AH中細(xì)粒度的分類效果也好于MH。
實(shí)驗(yàn)3基于語(yǔ)言風(fēng)格識(shí)別高考語(yǔ)文鑒賞題解答
利用2.3節(jié)中語(yǔ)言風(fēng)格鑒賞題解答流程,針對(duì)第1節(jié)題目1分別基于平面結(jié)構(gòu)、基于MH、基于AH解答語(yǔ)言風(fēng)格鑒賞題,記為方案1(baseline)、方案2、方案3。為了驗(yàn)證AH層次信息在答題過(guò)程中的有效性,設(shè)計(jì)方案4、方案5,即分別在MH第二層、AH第三層完成語(yǔ)言風(fēng)格分類,實(shí)驗(yàn)結(jié)果見(jiàn)表6。
從表6結(jié)果看出,方案1與方案2分別從兩段話中識(shí)別出一種正確的語(yǔ)言風(fēng)格,方案3識(shí)別出“細(xì)膩雋永”與“含蓄深沉”兩種正確語(yǔ)言風(fēng)格,效果優(yōu)于平面結(jié)構(gòu)及MH結(jié)構(gòu)。
方案4、5分別相對(duì)于方案2、3擴(kuò)充識(shí)別語(yǔ)言風(fēng)格的兄弟節(jié)點(diǎn),然而方案4擴(kuò)充的語(yǔ)言風(fēng)格是錯(cuò)誤的,方案5擴(kuò)充的兩種語(yǔ)言風(fēng)格中“華麗典雅”為正確的語(yǔ)言風(fēng)格,從而說(shuō)明AH結(jié)構(gòu)優(yōu)于MH,且AH較平面分類能自由選擇分類的粒度。
表6 2012年山東卷高考試題解答結(jié)果
語(yǔ)言風(fēng)格作為高考重要考察點(diǎn),為應(yīng)對(duì)高考不同考察方式所需分類層次差異,緩解多分類對(duì)二分類器帶來(lái)的挑戰(zhàn),本文利用層次分類方法識(shí)別語(yǔ)言風(fēng)格,并結(jié)合知識(shí)庫(kù),完成語(yǔ)言風(fēng)格鑒賞題的解答。實(shí)驗(yàn)證明,層次分類比平面分類具有更強(qiáng)的靈活性,并且基于自動(dòng)獲取結(jié)構(gòu)分類效果好于專家編制結(jié)構(gòu)。但層次分類葉節(jié)點(diǎn)的準(zhǔn)確率低于平面分類,這是由層次結(jié)構(gòu)獲取與基于層次結(jié)構(gòu)分類獨(dú)立進(jìn)行,未考慮其關(guān)聯(lián)性造成。接下來(lái)的工作中,我們將綜合考慮結(jié)構(gòu)獲取與層次分類,完成層次多分類任務(wù),進(jìn)一步提高語(yǔ)言風(fēng)格識(shí)別效果。
[1] 丁金國(guó). 關(guān)于語(yǔ)言風(fēng)格學(xué)的幾個(gè)問(wèn)題[J]. 河北大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版), 1984(3):45-57.
[2] 鄭榮馨. 語(yǔ)言表現(xiàn)風(fēng)格論:語(yǔ)言美的探索[M]. 合肥: 安徽大學(xué)出版社,1999.
[3] 黎運(yùn)漢. 語(yǔ)言風(fēng)格系統(tǒng)論[J]. 渤海大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版),1996(3):100-105.
[4] 何力, 賈焰, 韓偉紅,等. 大規(guī)模層次分類問(wèn)題研究及其進(jìn)展[J]. 計(jì)算機(jī)學(xué)報(bào), 2012, 35(10):2101-2115.
[5] Tang L, Zhang J, Liu H. Acclimatizing taxonomic semantics for hierarchical content classification[C]//Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2006:384-393.
[6] Nitta K. Improving taxonomies for large-scale hierarchical classifiers of web documents[C]//Proceedings of the ACM Conference on Information and Knowledge Management, 2010:1649-1652.
[7] Phongwattana T, Engchuan W, Chan J H. Clustering-based multi-class classification of complex disease[C]//Proceedings of the International Conference on Knowledge and Smart Technology. IEEE, 2015:25-29.
[8] Karypis G, Han E H, Kumar V. CHAMELEON: a hierarchical clustering algorithm using dynamic modeling[J]. Computer, 1999, 32(8):68-75.
[9] Karypis G, Kumar V. A fast and high quality multilevel scheme for partitioning irregular graphs[J]. Siam Journal on Scientific Computing, 2006, 20(1):359-392.
[10] Xiao W, Yang Y, Wang H, et al. Semi-supervised hierarchical clustering ensemble and its application [J]. Neurocomputing, 2016,(173):1362-1376.
[11] 宗世海. 論言語(yǔ)風(fēng)格的分類[J]. 語(yǔ)文研究, 2003,(3):42-46.
[12] 丁金國(guó). 語(yǔ)言風(fēng)格的研究平面[J]. 煙臺(tái)大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版), 1991,(4):65-73.
[13] 黎運(yùn)漢. 1949年以來(lái)語(yǔ)言風(fēng)格定義研究述評(píng)[J]. 語(yǔ)言文字應(yīng)用, 2002,(1):100-106.
[14] 陳繼民. 品鑒散文的語(yǔ)言風(fēng)格[J]. 中文自修, 1995,(12):17.
[15] 宋振華, 吳士文, 張國(guó)慶,等. 現(xiàn)代漢語(yǔ)修辭學(xué)[M]. 天津: 天津人民出版社, 1963.
[16] 戈娟. 初中現(xiàn)代散文語(yǔ)文教學(xué)研究[D]. 杭州: 杭州師范大學(xué), 2016.
[17] 馬琳. 論以語(yǔ)言要素為手段的語(yǔ)言風(fēng)格構(gòu)建[J]. 長(zhǎng)江師范學(xué)院學(xué)報(bào), 2004, 20(6):48-50.