面向高考閱讀理解鑒賞題語(yǔ)言風(fēng)格判別方法

2017-03-12 08:48:32王素格李德玉譚紅葉王元龍

中文信息學(xué)報(bào) 2017年6期

陳鑫,王素格,2,李德玉,2,譚紅葉,2,陳千,2,王元龍,2

(1. 山西大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院，山西太原 030006；2. 山西大學(xué) 計(jì)算智能與中文信息處理教育部重點(diǎn)實(shí)驗(yàn)室，山西太原 030006)

0 引言

在信息革命的浪潮中，人工智能應(yīng)運(yùn)而生并蓬勃發(fā)展，極大推動(dòng)計(jì)算機(jī)語(yǔ)音識(shí)別、圖像分析及文本語(yǔ)義理解能力。為了檢驗(yàn)計(jì)算機(jī)對(duì)文本語(yǔ)義深層理解效力，國(guó)家863“超腦計(jì)劃”牽頭研制“高考機(jī)器人”，即利用人工智能程序模擬高考生，參與高考。高考語(yǔ)文考卷，不僅考察考生對(duì)文本理解的能力，還檢驗(yàn)其對(duì)文本的鑒賞能力，其中語(yǔ)言風(fēng)格是比較重要的考察內(nèi)容。由于語(yǔ)言風(fēng)格是說(shuō)話者個(gè)人語(yǔ)言情感的流露，其情感色彩相比任何其他語(yǔ)言現(xiàn)象更為豐富[1]。例如，語(yǔ)言風(fēng)格中“明朗”一般較多使用在情感色彩比較鮮明的詞語(yǔ)情感表達(dá)中，而“含蓄”語(yǔ)言風(fēng)格則用于描繪性辭格進(jìn)行情感表達(dá)[2]。因此，語(yǔ)言風(fēng)格類別的判別既能為鑒賞題解答技術(shù)提供支撐，也能為分析閱讀材料作者的情感奠定基礎(chǔ)。

由于語(yǔ)言風(fēng)格體系復(fù)雜，類別標(biāo)簽繁多，傳統(tǒng)的二元分類器(如SVM)對(duì)多分類問(wèn)題解決效果都不盡人意。利用語(yǔ)言風(fēng)格的層級(jí)化系統(tǒng)[3]，研究基于層次結(jié)構(gòu)的語(yǔ)言風(fēng)格判別，既能緩解多分類對(duì)二元分類器帶來(lái)的挑戰(zhàn)，也可以靈活選擇分類的層次，以滿足高考對(duì)語(yǔ)言風(fēng)格不同考察方式。例如：

題目1：以③④段為例，簡(jiǎn)要分析本文語(yǔ)言的兩個(gè)主要特點(diǎn)。

題目2：本文的細(xì)節(jié)描寫(xiě)細(xì)膩而生動(dòng)，從多個(gè)角度抒發(fā)著作者的生命感悟。請(qǐng)選擇一個(gè)最打動(dòng)你的細(xì)節(jié)進(jìn)行語(yǔ)言特色分析。

題目1未提及特定的語(yǔ)言風(fēng)格，為提高判別準(zhǔn)確率，可進(jìn)行粗粒度分類。而題目2針對(duì)語(yǔ)言風(fēng)格“細(xì)膩”考察，則需進(jìn)行細(xì)粒度分類。

通常，層次分類依賴的類別層次結(jié)構(gòu)可由專家編制，也可通過(guò)聚類生成[4]。為了克服專家編制的類別層次結(jié)構(gòu)主觀性，Tang等[5]提出一種動(dòng)態(tài)結(jié)構(gòu)調(diào)整方法，該方法具有較高的時(shí)間復(fù)雜度，隨后，Nitta[6]對(duì)其時(shí)間開(kāi)銷進(jìn)行改進(jìn)，但調(diào)整結(jié)構(gòu)受限于最初層次結(jié)構(gòu)。為了減小結(jié)構(gòu)生成過(guò)程對(duì)專家知識(shí)的依賴性，Phongwattana等[7]基于歐氏距離，利用層次聚類獲取類別層次結(jié)構(gòu)，但歐氏距離僅能刻畫(huà)簇間空間距離，并未對(duì)其語(yǔ)義距離進(jìn)行度量。另外，Karypis等[8]提出一種動(dòng)態(tài)的層次聚類算法，首先利用K近鄰算法構(gòu)建圖，然后基于快速圖分割算法METIS[9]將數(shù)據(jù)圖劃分為多個(gè)子簇，最后基于簇間相對(duì)互連性與相對(duì)相似性，對(duì)簇進(jìn)行迭代合并，得到最終層次聚類結(jié)果。此層次聚類方法可對(duì)形狀各異、大小不一的子簇進(jìn)行動(dòng)態(tài)聚合，被應(yīng)用到文本、圖像及高鐵故障檢測(cè)任務(wù)中[10]，并取得理想的效果。

本文綜合多名學(xué)者對(duì)語(yǔ)言風(fēng)格的類別劃分結(jié)果[1-3,11-16]，結(jié)合高考對(duì)考生的考察要求，研究語(yǔ)言風(fēng)格類別標(biāo)簽的判別問(wèn)題。為了實(shí)現(xiàn)高效的語(yǔ)言風(fēng)格的類別判斷，將語(yǔ)言風(fēng)格鑒賞轉(zhuǎn)化為分類任務(wù)，并利用識(shí)別結(jié)果輔助語(yǔ)言風(fēng)格鑒賞題解答。

本文第1節(jié)將確定語(yǔ)言風(fēng)格層次結(jié)構(gòu)；第2節(jié)展現(xiàn)基于層次聚類的類別層次結(jié)構(gòu)獲取算法、基于層次分類的語(yǔ)言風(fēng)格識(shí)別及面向高考語(yǔ)言風(fēng)格鑒賞題解答流程；實(shí)驗(yàn)數(shù)據(jù)和評(píng)價(jià)指標(biāo)在第3節(jié)呈現(xiàn)；第4節(jié)對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行詳細(xì)的分析；最后一節(jié)給出一個(gè)全文的結(jié)論與下一步的工作展望。

1 語(yǔ)言風(fēng)格類別的層次劃分

由于語(yǔ)言風(fēng)格體系復(fù)雜，語(yǔ)言學(xué)家研究粒度存在差異。宗世海[11]從多個(gè)角度劃分粒度，從篇幅劃分，可為單篇文檔、多篇文檔；從作品集角度劃分，可分為單個(gè)作者作品、某類作者作品、一個(gè)語(yǔ)體。丁金國(guó)[12]認(rèn)為語(yǔ)言風(fēng)格粒度具有層級(jí)化，可分為語(yǔ)體-文體-語(yǔ)篇三個(gè)層次，其中最小粒度的語(yǔ)篇可為一個(gè)句群、一個(gè)段落、一篇文章等。而高考對(duì)語(yǔ)言風(fēng)格鑒賞是面向單篇文檔或單個(gè)段落，因此本文的研究粒度設(shè)定為單個(gè)段落。

由于同一時(shí)期的不同學(xué)者對(duì)語(yǔ)言風(fēng)格定義迥異，而同一學(xué)者在不同時(shí)期的語(yǔ)義風(fēng)格定義也不完全相同[13]，因此，語(yǔ)言學(xué)家對(duì)語(yǔ)言風(fēng)格的類別劃分差異較大。依據(jù)文獻(xiàn) [1-3]和文獻(xiàn)[11-16]，我們將語(yǔ)言風(fēng)格的表達(dá)方式分為平面劃分、對(duì)立劃分、層次劃分，其具體劃分結(jié)果見(jiàn)表1。

根據(jù)表1，綜合多名學(xué)者對(duì)語(yǔ)言風(fēng)格的類別劃分結(jié)果[1-3，11-16]，結(jié)合高考對(duì)考生考察要求，本文將語(yǔ)言風(fēng)格劃分為12個(gè)類別，分別為幽默詼諧、細(xì)膩雋永、樸素自然、華麗典雅、含蓄深沉、簡(jiǎn)潔明快、雄渾豪放、清新婉約、率性曠達(dá)、嚴(yán)謹(jǐn)工整、舒緩和平、急驟猛烈。

表1 語(yǔ)言風(fēng)格劃分結(jié)果

續(xù)表

由于語(yǔ)言風(fēng)格中存在對(duì)立類別，為了防止層次聚類中對(duì)立類別簇聚合，本文參考語(yǔ)言學(xué)家的對(duì)立劃分結(jié)果[3,11,13,15-16]，建立對(duì)立集R，即： {雄渾豪放—清新婉約，雄渾豪放—細(xì)膩雋永，急驟猛烈—舒緩和平，華麗典雅—樸素自然，含蓄深沉—簡(jiǎn)潔明快，率性曠達(dá)—含蓄深沉，率性曠達(dá)—嚴(yán)謹(jǐn)工整}。另外，依據(jù)丁金國(guó)[12]定義的類別層次結(jié)構(gòu)(見(jiàn)圖1)，結(jié)合本文確定的類別標(biāo)簽，修改后的類別層次結(jié)構(gòu)MH見(jiàn)圖2。

圖1 專家編制層次結(jié)構(gòu)圖圖2 修改后專家編制類別層次結(jié)構(gòu)MH

2 基于層次結(jié)構(gòu)的語(yǔ)言風(fēng)格判別方法

為了適應(yīng)高考不同考察要求，本文利用層次分類法判別語(yǔ)言風(fēng)格，其分類策略可劃分為全局處理策略、化繁為簡(jiǎn)策略、分而治之策略[4]。全局處理策略基于整個(gè)層次結(jié)構(gòu)優(yōu)化分類器，有較大的時(shí)間開(kāi)銷?；本秃?jiǎn)策略首先篩選與待分類樣本相關(guān)的候選類別，然后利用對(duì)應(yīng)分類器進(jìn)行分類，雖可以靈活選擇分類類別及分類器，但計(jì)算開(kāi)銷較大。分而治之策略依據(jù)層次結(jié)構(gòu)逐層分類，雖存在錯(cuò)誤累計(jì)問(wèn)題，但時(shí)間開(kāi)銷較小。因此，本文采用分而治之的分類策略，用于語(yǔ)言風(fēng)格的類別判別。

基于層次結(jié)構(gòu)的語(yǔ)言風(fēng)格判別，主要由獲取類別的層次結(jié)構(gòu)、判別語(yǔ)言風(fēng)格兩部分組成，具體流程見(jiàn)圖3。

2.1 語(yǔ)言風(fēng)格類別層次結(jié)構(gòu)獲取算法

在語(yǔ)言風(fēng)格類別層次結(jié)構(gòu)確定過(guò)程中，為減少對(duì)專家知識(shí)的依賴，本文利用層次聚類方法[8]獲取語(yǔ)言風(fēng)格類別層次結(jié)構(gòu)。

圖3 基于層次結(jié)構(gòu)語(yǔ)言風(fēng)格判別方法流程圖

其中，#ct(MfC)為MfC映射關(guān)系中ct的特征值。

在層次聚類過(guò)程中，本文采用Karypis[8]提出的算法，綜合簇間相對(duì)互連性[見(jiàn)式(2)]、相對(duì)近似性[見(jiàn)式(3)]度量簇間相似性[見(jiàn)式(4)]，迭代完成簇間合并。

其中，sci、scj代表兩個(gè)簇，EC{sci,scj}為簇sci、scj的連接邊，ECsci為簇sci的二等分極小割邊。

RC(sci,scj)

(3)

其中，α代表比例參數(shù)，用來(lái)度量簇間相似度計(jì)算過(guò)程中相對(duì)互聯(lián)性與相對(duì)相似性的重要程度。

依據(jù)特征集FC，將語(yǔ)言風(fēng)格樣本表征為向量，采用KNN算法構(gòu)造樣本圖，并利用圖分割算法獲取樣本標(biāo)簽原始簇，最后利用層次聚類確定類別層次結(jié)構(gòu)，具體見(jiàn)算法1。

算法1：語(yǔ)言風(fēng)格類別層次結(jié)構(gòu)獲取算法

2.2 基于SVM層次分類的語(yǔ)言風(fēng)格識(shí)別方法

為了對(duì)文本語(yǔ)言風(fēng)格實(shí)時(shí)、高效地進(jìn)行判別，并將類別層級(jí)結(jié)構(gòu)信息保留于判別結(jié)果，本文基于2.1節(jié)確定的語(yǔ)言風(fēng)格類別層次結(jié)構(gòu)，采用“分而治之”的層次分類方法識(shí)別語(yǔ)言風(fēng)格。另外，SVM作為一個(gè)以間隔最大化為學(xué)習(xí)策略的二元分類器，與2.1節(jié)中確定的二叉語(yǔ)言風(fēng)格層次結(jié)構(gòu)相吻合。因此，本文基于SVM層次分類，實(shí)現(xiàn)對(duì)語(yǔ)言風(fēng)格的識(shí)別，具體流程見(jiàn)圖4。

層次分類過(guò)程中，首先利用第1層分類器對(duì)數(shù)據(jù)集D進(jìn)行分類，獲得分類結(jié)果；然后依據(jù)分類結(jié)果，尋找對(duì)應(yīng)SVM分類器，進(jìn)行第2層分類； ……；直到獲取最終的語(yǔ)言風(fēng)格標(biāo)簽類別ck(1≤k≤m)。

圖4 基于SVM層次分類流程圖

2.3 基于語(yǔ)言風(fēng)格識(shí)別的鑒賞題解答

為了應(yīng)對(duì)高考對(duì)語(yǔ)言風(fēng)格的考察，本文將利用2.2節(jié)中訓(xùn)練的層次SVM分類器，完成對(duì)文本語(yǔ)言風(fēng)格的識(shí)別。在高考鑒賞題解答過(guò)程中，根據(jù)題干選擇分類層次，即若題干包括特定的語(yǔ)言風(fēng)格，則確定分類層次為葉節(jié)點(diǎn)；如果題干未提及具體的語(yǔ)言風(fēng)格，為提高識(shí)別準(zhǔn)確率，則分類層次確定為葉節(jié)點(diǎn)的父節(jié)點(diǎn)。然后，基于2.1節(jié)確定的類別層次結(jié)構(gòu)AH，利用2.2節(jié)中SVM層次分類器識(shí)別閱讀材料段落語(yǔ)言風(fēng)格，并結(jié)合語(yǔ)言風(fēng)格作用知識(shí)庫(kù)，生成答案，具體流程見(jiàn)圖5。

圖5 面向高考閱讀理解的語(yǔ)言風(fēng)格鑒賞題解答流程

3 實(shí)驗(yàn)數(shù)據(jù)集及評(píng)價(jià)指標(biāo)

3.1 實(shí)驗(yàn)數(shù)據(jù)集

數(shù)據(jù)集1收集人教版高中課文、全國(guó)高考(2002—2016)閱讀理解材料，共計(jì)484篇，6 646段。利用第2節(jié)確定的類別標(biāo)簽進(jìn)行人工標(biāo)注，12種類別在數(shù)據(jù)集中的具體比例見(jiàn)表2。

數(shù)據(jù)集2為了避免數(shù)據(jù)不平衡性對(duì)類別層次結(jié)構(gòu)獲取造成影響，從數(shù)據(jù)集1中12個(gè)類別標(biāo)注數(shù)據(jù)中分別選取36條數(shù)據(jù)，共計(jì)432條，作為類別層次結(jié)構(gòu)確定方法驗(yàn)證數(shù)據(jù)。

3.2 評(píng)價(jià)指標(biāo)

語(yǔ)言風(fēng)格判別整個(gè)過(guò)程由類別層次結(jié)構(gòu)獲取、基于SVM層次分類兩部分構(gòu)成。類別層次獲取過(guò)程中類別原始簇利用熵、純度度量；層次分類結(jié)果則采用正確率A(accuracy)、準(zhǔn)確率P(precision)、召回率R(recall)及F值度量。

(1) 生成原始簇的評(píng)價(jià)指標(biāo)

表2 語(yǔ)言風(fēng)格標(biāo)注語(yǔ)料類別占比

(5)

(6)

其中，l代表簇的個(gè)數(shù)，u代表整個(gè)聚類劃分樣本數(shù)。

其熵值越大，說(shuō)明原始簇分布在各個(gè)類別越均勻，原始簇對(duì)類別刻畫(huà)能力越弱。

簇的純度度量：簇的純度為簇中最大類別所占比值，即純度值越大，簇對(duì)單個(gè)類別刻畫(huà)能力越強(qiáng)。聚類簇i的純度計(jì)算見(jiàn)式(7)，整個(gè)聚類劃分的純度計(jì)算見(jiàn)式(8)。

(2) 層次分類的評(píng)價(jià)指標(biāo)

正確率A(accuracy)為測(cè)試集正確分類的樣本數(shù)與測(cè)試集總樣本數(shù)占比，其刻畫(huà)層次分類總體分類準(zhǔn)確性。除此之外，本文還利用準(zhǔn)確率P(precision)、召回率R(recall)及F1值度量每個(gè)類別的分類效果。

4 實(shí)驗(yàn)結(jié)果與分析

本節(jié)針對(duì)語(yǔ)言風(fēng)格判別過(guò)程中的類別層次結(jié)構(gòu)生成、基于SVM語(yǔ)言風(fēng)格層次分類進(jìn)行實(shí)驗(yàn)，用于驗(yàn)證本文語(yǔ)言風(fēng)格判別的有效性。

實(shí)驗(yàn)1語(yǔ)言風(fēng)格類別層次結(jié)構(gòu)的獲取

語(yǔ)言風(fēng)格類別是由多種因素決定的，其中詞匯表達(dá)占有重要的地位[1,17]。例如，“丟掉、拿手、腦袋”這些詞為口語(yǔ)詞語(yǔ)，體現(xiàn)出“樸素自然”語(yǔ)言風(fēng)格，而書(shū)面語(yǔ)“遺棄、擅長(zhǎng)、頭顱”則能表現(xiàn)出“華麗典雅”的語(yǔ)言風(fēng)格。因此，我們選取詞袋特征作為其表征單元，使用3.1節(jié)的層次聚類，設(shè)計(jì)了三組特征表征實(shí)驗(yàn)方案，用于獲取類別層次結(jié)構(gòu)，具體如下：

方案1僅使用詞袋模型表征文本，記作baseline；

方案2在詞袋模型的基礎(chǔ)上，增加12維one-hot類別特征，指導(dǎo)層次結(jié)構(gòu)生成；

利用2.1節(jié)介紹的算法，基于圖分割的原始簇生成結(jié)果見(jiàn)表3、表4，層次聚類結(jié)果見(jiàn)圖6。

表3 聚類原始簇熵值

表4 聚類原始簇純度

觀察表3和表4，隨著將類別信息加入到特征后，圖聚類生成的原始簇的熵值降低，純度增加；并且方案3比方案2熵值更低，純度更高，說(shuō)明類別特征對(duì)圖聚類原始簇生成有指導(dǎo)作用，并且一維特征優(yōu)于“one-hot”方式，分析其中原因如下：

(1) 方案1圖分割原始簇生成過(guò)程，由于缺少類別標(biāo)簽的指導(dǎo)，每個(gè)原始簇中包含多個(gè)類別，且各個(gè)類別比例差異不大，熵值大，純度低，即初始簇不能刻畫(huà)語(yǔ)言風(fēng)格特定類別。

(2) 一維特征比one-hot特征區(qū)分類別能力強(qiáng)。

由于方案1及方案2圖分割生成原始簇有較高的熵值、較低的純度，皆無(wú)法明確表達(dá)簇與類別間對(duì)應(yīng)關(guān)系。因此，將方案3生成的類別層次結(jié)構(gòu)AH(見(jiàn)圖6)作為之后層次分類依賴的層次結(jié)構(gòu)。

實(shí)驗(yàn)2基于類別層次結(jié)構(gòu)的層次SVM分類

在數(shù)據(jù)集1上，選取詞袋為特征，詞頻為特征值，分別基于專家編制層次結(jié)構(gòu)MH(見(jiàn)圖2)、自動(dòng)生成層次結(jié)構(gòu)AH(見(jiàn)圖6)、平面結(jié)構(gòu)(即一層結(jié)構(gòu)，baseline)，采用5次交叉驗(yàn)證對(duì)語(yǔ)言風(fēng)格進(jìn)行判別。針對(duì)實(shí)驗(yàn)結(jié)果，本文從節(jié)點(diǎn)分類、整體分類兩個(gè)角度分析實(shí)驗(yàn)結(jié)果。

圖6 自動(dòng)生成語(yǔ)言風(fēng)格類別層次結(jié)構(gòu)AH

(1) 節(jié)點(diǎn)分類結(jié)果

為了驗(yàn)證層次分類過(guò)程中節(jié)點(diǎn)分類效果，又鑒于分而治之策略層次分類方法有錯(cuò)誤累計(jì)的缺點(diǎn)，本文利用正確率A(accuracy)度量層次結(jié)構(gòu)中每個(gè)節(jié)點(diǎn)的分類效果，具體結(jié)果見(jiàn)圖7、圖8。

圖7 MH節(jié)點(diǎn)SVM分類正確率

對(duì)比圖7、圖8中每個(gè)節(jié)點(diǎn)SVM分類正確率，除第一層外，AH最低正確率為76.11%，最高正確率為98.12%，而MH中最低正確率為71.12%，最高正確率為97.96%。從而證明AH細(xì)粒度分類效果優(yōu)于MH。另外，從圖8中發(fā)現(xiàn)，“簡(jiǎn)潔明快”與“樸素自然”的分類正確率低，只有79.93%，這是由于兩種語(yǔ)言風(fēng)格用詞一致性高造成的。

(2) 整體分類結(jié)果

為了驗(yàn)證層次分類過(guò)程中，結(jié)構(gòu)對(duì)整體分類結(jié)果的影響，本文將利用正確率(accuracy)、宏準(zhǔn)確率(Macro-Precision)、宏召回率(Macro-Recall)及宏F值(Macro-F)對(duì)分類結(jié)果進(jìn)行評(píng)價(jià)，具體結(jié)果見(jiàn)表5。

表5 語(yǔ)言風(fēng)格分類accuracy、Macro-Precision、Macro-recall及Macro-F

圖8 AH節(jié)點(diǎn)SVM分類正確率

觀察表5可以看出：

(1) AH 的Macro-Precision、Macro-recall、Macro-F均超過(guò)MH，即證明自動(dòng)生成層次結(jié)構(gòu)過(guò)程中，本文方法對(duì)語(yǔ)言風(fēng)格類別間關(guān)聯(lián)認(rèn)識(shí)優(yōu)于專家知識(shí)，說(shuō)明本方法的層次結(jié)構(gòu)劃分由具體數(shù)據(jù)決定，可以根據(jù)數(shù)據(jù)的不同實(shí)現(xiàn)層次結(jié)構(gòu)的動(dòng)態(tài)調(diào)整。

(2) 語(yǔ)言風(fēng)格識(shí)別過(guò)程中，類別層次結(jié)構(gòu)確定與層次分類獨(dú)立實(shí)現(xiàn)，未考慮兩個(gè)子任務(wù)的關(guān)聯(lián)關(guān)系，造成AH的Macro-Precision、Macro-Recall、Macro-F都低于平面結(jié)構(gòu)。但AH結(jié)構(gòu)具有層次性，在語(yǔ)言風(fēng)格識(shí)別過(guò)程中能自由選擇分類的層次，如第1節(jié)題目1，為提高準(zhǔn)確率，分類過(guò)程中可以將其分類至葉節(jié)點(diǎn)上一層。從表5所示結(jié)果可以看出，AH第三層之前正確率均高于平面分類。

(3) 最終葉節(jié)點(diǎn)的分類的正確率，MH略優(yōu)于AH。但在第二、三層分類正確率中，AH高于MH。結(jié)合圖7、圖8發(fā)現(xiàn)，AH中細(xì)粒度的分類效果也好于MH。

實(shí)驗(yàn)3基于語(yǔ)言風(fēng)格識(shí)別高考語(yǔ)文鑒賞題解答

利用2.3節(jié)中語(yǔ)言風(fēng)格鑒賞題解答流程，針對(duì)第1節(jié)題目1分別基于平面結(jié)構(gòu)、基于MH、基于AH解答語(yǔ)言風(fēng)格鑒賞題，記為方案1(baseline)、方案2、方案3。為了驗(yàn)證AH層次信息在答題過(guò)程中的有效性，設(shè)計(jì)方案4、方案5，即分別在MH第二層、AH第三層完成語(yǔ)言風(fēng)格分類，實(shí)驗(yàn)結(jié)果見(jiàn)表6。

從表6結(jié)果看出，方案1與方案2分別從兩段話中識(shí)別出一種正確的語(yǔ)言風(fēng)格，方案3識(shí)別出“細(xì)膩雋永”與“含蓄深沉”兩種正確語(yǔ)言風(fēng)格，效果優(yōu)于平面結(jié)構(gòu)及MH結(jié)構(gòu)。

方案4、5分別相對(duì)于方案2、3擴(kuò)充識(shí)別語(yǔ)言風(fēng)格的兄弟節(jié)點(diǎn)，然而方案4擴(kuò)充的語(yǔ)言風(fēng)格是錯(cuò)誤的，方案5擴(kuò)充的兩種語(yǔ)言風(fēng)格中“華麗典雅”為正確的語(yǔ)言風(fēng)格，從而說(shuō)明AH結(jié)構(gòu)優(yōu)于MH，且AH較平面分類能自由選擇分類的粒度。

表6 2012年山東卷高考試題解答結(jié)果

5 結(jié)論與展望

語(yǔ)言風(fēng)格作為高考重要考察點(diǎn)，為應(yīng)對(duì)高考不同考察方式所需分類層次差異，緩解多分類對(duì)二分類器帶來(lái)的挑戰(zhàn)，本文利用層次分類方法識(shí)別語(yǔ)言風(fēng)格，并結(jié)合知識(shí)庫(kù)，完成語(yǔ)言風(fēng)格鑒賞題的解答。實(shí)驗(yàn)證明，層次分類比平面分類具有更強(qiáng)的靈活性，并且基于自動(dòng)獲取結(jié)構(gòu)分類效果好于專家編制結(jié)構(gòu)。但層次分類葉節(jié)點(diǎn)的準(zhǔn)確率低于平面分類，這是由層次結(jié)構(gòu)獲取與基于層次結(jié)構(gòu)分類獨(dú)立進(jìn)行，未考慮其關(guān)聯(lián)性造成。接下來(lái)的工作中，我們將綜合考慮結(jié)構(gòu)獲取與層次分類，完成層次多分類任務(wù)，進(jìn)一步提高語(yǔ)言風(fēng)格識(shí)別效果。

[1] 丁金國(guó). 關(guān)于語(yǔ)言風(fēng)格學(xué)的幾個(gè)問(wèn)題[J]. 河北大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版), 1984(3):45-57.

[2] 鄭榮馨. 語(yǔ)言表現(xiàn)風(fēng)格論:語(yǔ)言美的探索[M]. 合肥：安徽大學(xué)出版社，1999.

[3] 黎運(yùn)漢. 語(yǔ)言風(fēng)格系統(tǒng)論[J]. 渤海大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版)，1996(3):100-105.

[4] 何力, 賈焰, 韓偉紅,等. 大規(guī)模層次分類問(wèn)題研究及其進(jìn)展[J]. 計(jì)算機(jī)學(xué)報(bào), 2012, 35(10):2101-2115.

[5] Tang L, Zhang J, Liu H. Acclimatizing taxonomic semantics for hierarchical content classification[C]//Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2006:384-393.

[6] Nitta K. Improving taxonomies for large-scale hierarchical classifiers of web documents[C]//Proceedings of the ACM Conference on Information and Knowledge Management, 2010:1649-1652.

[7] Phongwattana T, Engchuan W, Chan J H. Clustering-based multi-class classification of complex disease[C]//Proceedings of the International Conference on Knowledge and Smart Technology. IEEE, 2015:25-29.

[8] Karypis G, Han E H, Kumar V. CHAMELEON: a hierarchical clustering algorithm using dynamic modeling[J]. Computer, 1999, 32(8):68-75.

[9] Karypis G, Kumar V. A fast and high quality multilevel scheme for partitioning irregular graphs[J]. Siam Journal on Scientific Computing, 2006, 20(1):359-392.

[10] Xiao W, Yang Y, Wang H, et al. Semi-supervised hierarchical clustering ensemble and its application [J]. Neurocomputing, 2016,(173):1362-1376.

[11] 宗世海. 論言語(yǔ)風(fēng)格的分類[J]. 語(yǔ)文研究, 2003,(3):42-46.

[12] 丁金國(guó). 語(yǔ)言風(fēng)格的研究平面[J]. 煙臺(tái)大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版), 1991,(4):65-73.

[13] 黎運(yùn)漢. 1949年以來(lái)語(yǔ)言風(fēng)格定義研究述評(píng)[J]. 語(yǔ)言文字應(yīng)用, 2002,(1):100-106.

[14] 陳繼民. 品鑒散文的語(yǔ)言風(fēng)格[J]. 中文自修, 1995,(12):17.

[15] 宋振華, 吳士文, 張國(guó)慶,等. 現(xiàn)代漢語(yǔ)修辭學(xué)[M]. 天津：天津人民出版社, 1963.

[16] 戈娟. 初中現(xiàn)代散文語(yǔ)文教學(xué)研究[D]. 杭州：杭州師范大學(xué), 2016.

[17] 馬琳. 論以語(yǔ)言要素為手段的語(yǔ)言風(fēng)格構(gòu)建[J]. 長(zhǎng)江師范學(xué)院學(xué)報(bào), 2004, 20(6):48-50.