• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      多向度計量語體特征下的對外漢語教材可讀性自動評估研究

      2020-11-30 02:49:34孫未未
      華中學(xué)術(shù) 2020年2期
      關(guān)鍵詞:可讀性語義詞語

      夏 菁 孫未未

      (華中師范大學(xué)國際文化交流學(xué)院,湖北武漢,430079;溫州醫(yī)科大學(xué)信息技術(shù)中心,浙江溫州,325035)

      一、引言

      對外漢語教材的可讀性評估屬于計量語言學(xué)范疇[1]。計量語言學(xué)的根本任務(wù)是采用數(shù)量關(guān)系描述與理解語言系統(tǒng)及其組成成分的發(fā)展和運(yùn)作規(guī)律[2]。這樣的研究理論認(rèn)為,抽象出的特征及其數(shù)量與閱讀材料可讀性評估之間存在著相關(guān)性,并且這種關(guān)聯(lián)性是可計算的。語料的可讀性度量研究源于國外,早期的代表性研究成果有Flesch可讀性公式[3],這類公式中的重點(diǎn)是將詞頻和句長特征作為可讀性評估指標(biāo)。Takehiko Yoshimi等人在對英語語料可讀性評估研究中發(fā)現(xiàn)了支持向量機(jī)(SVM)回歸方法整合多種特征的評估結(jié)果優(yōu)于單個特征[4]。Fran?ois和Fairon針對法語為第二語言的語料進(jìn)行了六個不同等級的可讀性研究,他們應(yīng)用SVM算法結(jié)合四個層次的46個文本特征創(chuàng)建了可讀性公式[5]。

      隨著計量語體特征在語料可讀性評估中的應(yīng)用和推廣,語料可讀性的度量研究在對外漢語語料的可讀性評估中越來越被矚目。迄今為止,對外漢語教材的可讀性評估方法主要有可讀性公式法和特征結(jié)合機(jī)器學(xué)習(xí)法。代表性的研究有:張志寧在區(qū)分中高級語料難度的研究中改進(jìn)愛德華·弗萊提出的“句長-音節(jié)數(shù)”測量法,將音節(jié)數(shù)換成每句子字?jǐn)?shù)[6];王蕾針對初中級日韓學(xué)生制定了一個可讀性公式[7];楊金余主要通過統(tǒng)計丙級、丁級、超綱詞語頻數(shù)和固定詞組來實現(xiàn)對高級精讀教材在詞匯層面上的難度測定[8]。通??勺x性公式的構(gòu)建依賴于廣義線性模型,線性回歸和分類的效果并不是十分理想。特征結(jié)合機(jī)器學(xué)習(xí)方法在一定程度上能夠提高評估效果,相關(guān)的研究主要有Yao Ting Sung,Ju Ling Chen等人提出的特征結(jié)合SVM算法分類方法[9],以及Yao Ting Sung,Wei Chun Lin等人在3套教材386篇漢語文章中提取31個不同特征結(jié)合SVM算法構(gòu)建不同向度評估模型[10],然而多向度計量特征結(jié)合機(jī)器學(xué)習(xí)方法在對外漢語教材中的應(yīng)用研究仍然比較稀缺。目前常見的主要從語料特定的幾個特征來預(yù)測文本的可讀性,比如左虹、朱勇等人從詞語向度考量,根據(jù)甲乙丙丁詞語等級和固定詞組來測定教材詞匯層面上的可讀性[11];也有學(xué)者從語義出發(fā)來考察和評估語料的難易度,如莫彭齡、單青通過三大類實詞充當(dāng)句子成分的統(tǒng)計數(shù)據(jù)來預(yù)測文本的可讀性[12]。我們知道,字詞句以及語義都是閱讀文本難易的重要影響因素,在對語料的可讀性評估研究中應(yīng)該全面考慮,否則就有失可信度,同時我們也應(yīng)看到,由于考慮的特征類型較為單一,也無法詮釋文本閱讀理解的復(fù)雜和漸進(jìn)過程。

      有鑒于此,挖掘多向度特征數(shù)量與可讀性評估之間的關(guān)系是我們應(yīng)該尋找的方向。相比傳統(tǒng)的可讀性評估方法其優(yōu)勢在于能更客觀地揭示出隱藏在文本之間的可讀性因素以及影響因素的等級。同時我們意識到學(xué)習(xí)是一個漸進(jìn)的過程,獲得知識是一個漸進(jìn)的過程,因此在對對外漢語語料可讀性的評估中要遵循第二語言習(xí)得規(guī)律和認(rèn)知規(guī)律,遵循其規(guī)律有利于可讀性評估的科學(xué)性和客觀性??死晏岢鲋摹拜斎爰僬f”i+1公式(i代表學(xué)習(xí)者已有水平,1代表略高于現(xiàn)有水平的學(xué)習(xí)內(nèi)容),就在于強(qiáng)調(diào)了第二語言習(xí)得過程中輸入信息的可理解性,這一公式映射到可讀性評估研究中很好地反映了評估特征的可解釋性和文本可讀性設(shè)置的循序漸進(jìn)原則[13]。因此我們認(rèn)為從詞語、語義、篇章多向度的語言特征度量閱讀文本的難易度,符合語言學(xué)習(xí)的漸進(jìn)原則和認(rèn)知規(guī)律,比傳統(tǒng)公式中使用的單一表面特征更有利于可讀性評估。比如黃偉和劉海濤在《漢語語體的計量特征在文本聚類中的應(yīng)用》一文中強(qiáng)調(diào)語體特征,采用16個顯著分布差異的語體特征對《新聞聯(lián)播》《實話實說》兩個文本進(jìn)行聚類分析,就很大程度上克服了單一的思維模型在評估中的局限,加強(qiáng)了聚類和分類研究的可解釋性[14]。

      沿著上述思考,本研究遵循第二語言學(xué)習(xí)的理論和原則,從計量語言學(xué)視角出發(fā),應(yīng)用機(jī)器學(xué)習(xí)算法SVM和特征選擇技術(shù),從詞語、語義、篇章等多向度選取特征構(gòu)成對外漢語教材可讀性的評估指標(biāo)體系。具體設(shè)想為:其一,詞語向度特征主要體現(xiàn)在詞語等級特征和生詞特征。由于漢語作為第二語言的學(xué)習(xí)是通過HSK測試來確定學(xué)習(xí)者的語言掌握等級,教材中的詞語等級難度應(yīng)該對應(yīng)于HSK詞匯等級標(biāo)準(zhǔn)大綱,所以我們依循HSK等級標(biāo)準(zhǔn)大綱來劃定閱讀教材中不同等級的詞語以及難易度。我們在詞語等級頻數(shù)統(tǒng)計中排除了《HSK詞匯等級標(biāo)準(zhǔn)大綱》中的“同形多等級字”和“重復(fù)同等級字”數(shù)據(jù)干擾以確保數(shù)據(jù)純度。其二,語義向度特征主要由22個不同的詞性構(gòu)成,根據(jù)中科院計算所漢語詞性標(biāo)記集,我們選擇一級詞性12個,見表1中的序號20—31號特征。二級詞性10個,見表1中的序號32—41號特征。之所以選擇這22個詞性是因為它們在句子中充當(dāng)著特定和重要的成分。詞語理解的一個重要影響因素是詞匯的語義學(xué)屬性,其中詞性在詞語理解中存在一定程度的關(guān)聯(lián)。不同的詞性在句子中充當(dāng)不同的成分,不同的詞性反映句子的結(jié)構(gòu)和語義之間的關(guān)系,因此本文通過詞性充當(dāng)句子成分的統(tǒng)計數(shù)據(jù)預(yù)測閱讀文本的難易度。其三,除了上述考慮因素外,我們認(rèn)為篇章向度是不可盲視的因素。一般情況下,閱讀材料難度等級越高,總字符數(shù)、句子長度、段落數(shù)的數(shù)量相對越大,因此我們在篇章向度上選取的特征主要有句子段落、總字符特征等。

      表1 單個特征(包括解釋)可讀性評估正確率結(jié)果表

      續(xù)表

      總體而言,本研究遵循漢語作為第二語言的學(xué)習(xí)規(guī)律,從計量語言學(xué)的角度針對6套在高等教育院校廣泛運(yùn)用的對外漢語教材600篇文章提取詞語、語義、篇章等48個不同的語言特征(見表1),并應(yīng)用SVM算法結(jié)合特征選擇技術(shù)構(gòu)建詞語向度、語義向度、篇章向度和整體向度的可讀性評估模型,評估材料的可讀性與挖掘可讀性影響因素之間的關(guān)系。

      本研究重在體現(xiàn)在文本的真實性,甄選和收集的對外漢語教材全部來自高等教育中實際應(yīng)用的教材。學(xué)習(xí)是循序漸進(jìn)的過程,因此,理想的對外漢語教材應(yīng)該符合學(xué)習(xí)的內(nèi)在規(guī)律,在文本編排的可解釋性和可讀性(難度設(shè)置)中的循序漸進(jìn)。本研究遵循循序漸進(jìn)原則,從詞語、語義、篇章以及整體向度不同層次建構(gòu)多向度的評估體系,對構(gòu)成教材的各個要素實施科學(xué)的考察評估,極大地避免了由于可讀性評估所選擇的語體特征過于簡單和單一,在一定程度上遮蔽了文本可讀性設(shè)置的隱含的知識關(guān)聯(lián)。再者,利用機(jī)器學(xué)習(xí)算法構(gòu)建和驗證單向度和多向度特征評估模型,更全面的描述和驗證專家編制教材可讀性設(shè)置的漸變規(guī)律,根據(jù)不同向度的特征評估模型結(jié)果,分別從文章的詞語、語義、篇章角度分析和解釋專家編制教材的特點(diǎn)和不足。因此,本研究為教材的編寫和完善提供了可靠的參考。

      二、路徑與方法

      本研究總體架構(gòu)圖如圖1所示,說明了應(yīng)用SVM算法構(gòu)建與驗證單向度和多向度特征可讀性評估模型的過程。首先我們甄選了6套不同的對外漢語教材文章600篇,然后通過自然語言處理技術(shù)和數(shù)據(jù)庫技術(shù)提取每篇文章的48個特征數(shù)量值。進(jìn)而在所有特征數(shù)據(jù)中分別選擇4套教材特征數(shù)據(jù)作為評估模型的訓(xùn)練集,另外2套教材的特征數(shù)據(jù)用來測試模型,根據(jù)組合原理總共重復(fù)15次,最后求得這15次測試結(jié)果的平均值。

      圖1 利用多向度特征評估課文可讀性主要步驟的關(guān)系圖

      (一)對外漢語教材介紹

      本研究的對象是具有一定代表性的6套不同的在高等院校普遍使用的對外漢語教材系列,分別是《大學(xué)漢語精讀》《漢語閱讀教程》《實踐漢語》《感悟漢語》《漢語閱讀與寫作教程》《發(fā)展?jié)h語》和《成功之路》漢語系列,主要提取教材中的文本而不是圖片和插圖。每一套教材都有中級上冊、中級下冊、高級上冊和高級下冊四個不同的等級。除了《漢語閱讀教程》中級和高級文章數(shù)量相差較大之外,其他的5套教材中級和高級文章數(shù)量比較接近。這些教材中的文章數(shù)目情況見表2。

      表2 中高級對外漢語教材系列文本樣本數(shù)據(jù)統(tǒng)計表

      (二)提取對外漢語教材文本多向度的語言特征

      通過自然語言處理技術(shù)和數(shù)據(jù)庫技術(shù)將甄選和收集的對外漢語教材文本進(jìn)行各個向度特征的提取,將特征值經(jīng)過總和,求平均,比率的處理方法總共提取了48個不同的特征。在提取詞語向度特征的過程如圖2。本研究使用分詞工具是中科院NLPIR漢語分詞系統(tǒng),它的漢語詞性標(biāo)記集共計99個;然后將每篇文章進(jìn)行詞頻統(tǒng)計,將得到的每個詞語和詞頻與《HSK詞匯等級標(biāo)準(zhǔn)大綱》進(jìn)行匹配,相比較王蕾、Yao Ting Sung、Ju Ling Chen等人相關(guān)的研究中使用的CRIE特征提取系統(tǒng)[15],我們重點(diǎn)考慮到《HSK詞匯等級標(biāo)準(zhǔn)大綱》中的“同形多等級字”和“重復(fù)同等級字”的影響,應(yīng)用了數(shù)據(jù)庫技術(shù)將這些數(shù)據(jù)刪除并且避免了重復(fù)數(shù)據(jù)的干擾,最終得到每一篇文章的詞語所對應(yīng)的甲乙丙丁不同的等級數(shù)量和詞頻。在語義的特征提取上是通過提取22個不同詞性來代表語義向度特征,因為不同的詞性反映句子的結(jié)構(gòu)和語義之間的關(guān)系。將需要提取的詞性與每一篇經(jīng)過分詞過后的文章詞語進(jìn)行匹配,然后增加該詞性的統(tǒng)計值得到22個不同詞性的頻數(shù)。對于篇章向度特征的提取主要是通過統(tǒng)計每一篇文章“,”“。”“!”“?”“……”的詞頻總數(shù)和“?!薄埃 薄??”“……”的詞頻總數(shù),得出句子總數(shù)的兩種不同表示形式(有無逗號)的特征值。在Microsoft Word中的“審閱——字?jǐn)?shù)統(tǒng)計”中可以得到字符總數(shù)、段落數(shù)這兩個特征值。最后我們分別提取了19個詞語向度特征,22個詞性向度特征和7個篇章向度特征。

      圖2 詞語等級特征獲取方法流程圖

      (三)構(gòu)建與驗證單向度和多向度特征可讀性評估模型

      我們構(gòu)建三個單向度SVM評估模型和一個多向度SVM評估模型。單向度SVM評估模型主要是從詞語、語義、篇章多向度特征分別對對外漢語教材文本進(jìn)行獨(dú)立評估;多向度SVM評估模型是整合詞語、語義、篇章向度所有特征對對外漢語教材文本進(jìn)行綜合評估,由此形成了四種評估模型。在四個評估模型中均使用了特征選擇技術(shù),評估指標(biāo)均選擇正確率指標(biāo),使用的評估算法均是采用RBF核函數(shù)的SVM算法;我們在Rapidminer數(shù)據(jù)挖掘工具中構(gòu)建和測試自動評估模型。所謂Rapidminer是用于預(yù)測性分析和數(shù)據(jù)挖掘軟件,其中包括SVM、決策樹、貝葉斯等機(jī)器學(xué)習(xí)算子,具有分類回歸建模,或者關(guān)聯(lián)分析、聚類分析、多重交叉檢驗等功能[16]。我們在Rapidminer中選擇LibSVM算子中的C-SVC,是因為SVM算法被認(rèn)為是在分類中效果最好的機(jī)器學(xué)習(xí)算法之一,它具有在訓(xùn)練樣本數(shù)很小的情況下達(dá)到很好的分類推廣能力。SVM算法采用結(jié)構(gòu)風(fēng)險最小化原理,能夠在數(shù)據(jù)線性不可分的情況下,通過核函數(shù)將數(shù)據(jù)映射到高維空間,選擇一個最優(yōu)超平面達(dá)到更好的分類效果,見圖3。

      圖3 核函數(shù)將線性不可分?jǐn)?shù)據(jù)投影到高維空間的示意圖

      常見的核函數(shù)有線性函數(shù),徑向基RBF函數(shù),Sigmoid函數(shù)等。我們在評估模型中選擇RBF函數(shù),因為它能使得分類效果優(yōu)于其他核函數(shù)。另外我們在參數(shù)選擇上重復(fù)多次實驗比較結(jié)果,確定了懲罰系數(shù)C值為1.0,gamma值為1.0,epsilon參數(shù)指定終止條件容差設(shè)定為0.001。在SVM算法評估時結(jié)合啟發(fā)式特征選擇技術(shù),啟發(fā)式特征選擇技術(shù)中的序列前向搜索過程是:

      第一步:在n個特征中創(chuàng)建初始種群,n為輸入的ExampleSet的屬性數(shù);每一個特征集在SVM算法下輸出一個評估指標(biāo)值,選擇指標(biāo)最好的K個特征集;

      第二步:在K個特征集中操作,如果有j個特征沒有加入,在j個特征中選擇一個未添加過的特征,將之拷貝到特征集中;

      第三步:只要在最后一次迭代中性能得到改善,轉(zhuǎn)到第二步。

      序列前向搜索的主要思想是以某個特征的加入是否提升算法性能為依據(jù)來決定該特征的去留從而找到最優(yōu)的特征新子集[17],見圖4。特征權(quán)重設(shè)置分別是0或者1,這樣考慮的原因是使評估模型中的特征選擇具有解釋性,解釋為編寫教材的專家是否考慮到該特征,而不是一個特征的中間值。該過程體現(xiàn)的是專家編制教材統(tǒng)一、合理、科學(xué)的可讀性設(shè)置與哪些具體特征相關(guān)。

      圖4 為SVM選擇最優(yōu)特征集的流程圖

      為了驗證單向度和多向度可讀性評估模型的準(zhǔn)確性,我們將6套教材中選擇的兩套教材特征數(shù)據(jù)作為測試集,另外4套教材特征數(shù)據(jù)作為訓(xùn)練集,根據(jù)組合原理共有15種不同的選擇方案,見圖5。

      圖5 交叉驗證教材特征數(shù)據(jù)選擇與測試結(jié)果對應(yīng)表

      在構(gòu)建詞語、語義、篇章單向度上的可讀性評估模型中,我們分別使用對應(yīng)的對外漢語教材的文本特征值。在詞語向度對外漢語教材可讀性評估模型測試1中,將D1—D4中的教材文本詞語特征值作為訓(xùn)練集,D5—D6中的教材文本詞語特征值作為測試集。我們選擇上述的算法和核函數(shù)以及對應(yīng)的參數(shù)值,結(jié)合啟發(fā)式特征選擇技術(shù)得出正確率結(jié)果。然后選擇不同的教材進(jìn)行測試2,同樣的過程重復(fù)15次。在基于測試1評估模型中建立的決策函數(shù)為:

      (1)在線性不可分的情況下,決策函數(shù)為

      (1)

      (2)在非線性可分的情況下,實驗中使用了RBF核函數(shù),決策函數(shù)為

      (2)

      該判定過程適用于剩下的14次交叉驗證,我們求得15次交叉驗證結(jié)果的平均值。以上是詞語向度上的文本可讀性評估過程,在語義、篇章向度上的文本可讀性評估模型的建立和驗證均參照上面的流程。相比其他學(xué)者的研究,我們使用的實驗數(shù)據(jù)不一樣而且在評估過程中使用了啟發(fā)式特征選擇技術(shù)[18]。

      在構(gòu)建多向度特征對外漢語教材可讀性評估模型中,我們使用上述三個向度上的文章所有特征值。比如在測試6中,D1、D2、D3、D6教材的所有特征值作為訓(xùn)練集,D4、D5教材的所有特征值作為測試集。選擇的算法和核函數(shù)以及對應(yīng)的參數(shù)值與單向度文本可讀性評估模型中保持一致,同樣結(jié)合啟發(fā)式特征選擇技術(shù)得到評估結(jié)果,這樣的測試過程如上圖重復(fù)15次。SVM算法中的參數(shù)c=1.0,gamma=1.0,在基于測試6評估模型中建立的決策函數(shù)為

      (3)

      決策函數(shù)(3)正確地判定《成功之路》教材中的文章《誰是最辛苦的人》為中級上冊等級。

      每一次測試實驗中選擇兩套教材能夠針對性的解釋具體文章在可讀性上存在的偏差,另外結(jié)合15次交叉驗證實驗增加對外漢語教材可讀性評估模型的穩(wěn)定性。構(gòu)建和驗證對外漢語教材文本可讀性評估模型的過程不僅體現(xiàn)單向度特征的不同評估效果,也是深度挖掘?qū)ν鉂h語教材文本不同向度特征與可讀性之間的隱含關(guān)系。

      三、多向度特征可讀性評估結(jié)果與分析

      基于機(jī)器學(xué)習(xí)SVM算法構(gòu)建的單向度和多向度對外漢語教材文本可讀性評估正確率結(jié)果如表3所示??勺x性評估正確率體現(xiàn)的是一套新教材中的新文章與基于以特征形式代表的多套專家編制教材難易程度漸變規(guī)律的符合程度。結(jié)合評估模型的15次交叉驗證,平均正確率越高說明專家編制教材在詞語、語義、篇章等向度上越客觀且越趨向于同一標(biāo)準(zhǔn)。

      表3 對應(yīng)于不同向度特征的可讀性測試結(jié)果表

      在單向度可讀性評估結(jié)果中發(fā)現(xiàn),詞語向度的文本評估正確率結(jié)果在60.78%到83.05%之間,語義向度的文本評估正確率結(jié)果在58.82%到78.57%之間,篇章向度的文本評估正確率結(jié)果在48.91%到65.62%之間。正確率數(shù)值越大,說明其對文本可讀性的影響力和貢獻(xiàn)越大。詞語特征在可讀性評估中最具影響力,其次是語義特征。說明在閱讀理解過程中,詞語和語義的可讀性設(shè)置比較適合學(xué)習(xí)者的認(rèn)知規(guī)律。而篇章向度特征是文章可讀性的影響因素,其效果相比較其他兩個向度特征的影響力略低,可能是文章或者句子的長短對文本的可讀性影響力不大。在綜合多向度特征的可讀性評估模型中,其平均正確率為74.05%,顯然高于單向度可讀性評估結(jié)果。相比于SUNG和Scott A.Crossley等人的研究,我們的研究結(jié)果證明了多向度可讀性評估結(jié)果更好地解釋了文本和閱讀理解過程的復(fù)雜性,對于文本可讀性評估中影響越大的特征說明在教材編制中越遵循學(xué)生的認(rèn)知規(guī)律。

      不同等級的閱讀教材文本在不同向度特征上的可讀性評估結(jié)果見表4,比如數(shù)據(jù)766/809/801/812和209/163/168/163分別代表15次交叉驗證中在詞語、語義、篇章、整體四大向度上被正確預(yù)測為中級上冊文本的數(shù)量之和以及被正確預(yù)測為中級下冊文本的數(shù)量之和;正確率代表文本等級被正確預(yù)測的概率,比如在詞語、語義、篇章、整體向度上中級上冊文本被正確預(yù)測的概率分別為77.61%、81.97%、81.16%、82.27%。

      表4 不同等級閱讀教材文本對應(yīng)于不同向度特征的可讀性評估結(jié)果表

      通過分析表4中的數(shù)據(jù)同樣可以反映出上述表3得出的研究結(jié)果。除此之外,我們發(fā)現(xiàn)各個向度的特征在各個不同等級上的可讀性評估結(jié)果不同。中級上冊和高級下冊在各個向度上的可讀性評估結(jié)果均優(yōu)于中級下冊和高級上冊,原因可能是中級下冊和高級上冊的文本可讀性設(shè)置區(qū)分仍然不是很清晰。

      四、總結(jié)

      在詞語、語義、篇章方面的不同難度設(shè)置對于對外漢語閱讀文本可讀性影響各有不同,為了更加全面地分析專家對于對外漢語閱讀文本可讀性設(shè)置的影響因素,本文通過將600篇文章進(jìn)行自然語言處理和詞頻統(tǒng)計提取出每個特征的數(shù)量值并將之標(biāo)準(zhǔn)化,另外結(jié)合SVM算法和特征選擇技術(shù)分別構(gòu)建和驗證詞語、語義、篇章、整體不同向度特征可讀性評估模型。根據(jù)不同向度特征可讀性評估結(jié)果,在詞匯、語義、篇章各個向度上發(fā)現(xiàn)不同向度特征對文章可讀性區(qū)分的貢獻(xiàn)程度不同,其中詞語向度特征對文章可讀性的影響最大,其中一組實驗驗證結(jié)果正確率達(dá)到83.05%;其次是語義特征,最佳正確率為78.57%。整合多向度特征的最佳可讀性評估結(jié)果達(dá)到87.76%,優(yōu)于單向度特征實驗結(jié)果并且優(yōu)于Yao Ting Sung、Wei Chun Lin等人針對臺灣三套出版教材可讀性評估結(jié)果[19],說明多向度特征對教材文本的可讀性設(shè)置影響最大,實質(zhì)上反映出專家編制教材同時考慮多向度特征的循序漸進(jìn),而且反映出實驗選取的教材比較符合學(xué)習(xí)者“最近發(fā)展區(qū)”的認(rèn)知規(guī)律。另外實驗結(jié)果還顯示教材可讀性設(shè)置的兩極簡單與困難比較清晰的區(qū)分,然而中間難度的教材編排仍有待進(jìn)一步的規(guī)劃。通過特征選擇技術(shù)優(yōu)化SVM算法與特征組合一定程度上提高了可讀性評估模型的正確率以及十五次交叉驗證最大程度上保證了可讀性評估模型的穩(wěn)定性。我們根據(jù)教材等級來衡量文本可讀性的標(biāo)準(zhǔn)具有實際意義,一定程度上節(jié)省了專家打標(biāo)的人力物力。由于特定的文本具有不同的代表性特征,其對學(xué)習(xí)者提高閱讀能力和水平具有重要影響力。因此,針對不同年齡段和年級段的學(xué)習(xí)者,筆者建議針對不同的教材建立不同的特征評估模型使其適用于相應(yīng)的學(xué)習(xí)者具有一定的現(xiàn)實意義和實際價值。

      注釋:

      [1] 馮志偉:《用計量方法研究語言》,《外語教學(xué)與研究》2012年第2期,第256~269頁;又見劉海濤、林燕妮:《大數(shù)據(jù)時代語言研究的方法和趨向》,《新疆師范大學(xué)學(xué)報》(哲學(xué)社會科學(xué)版)2018年第1期,第72~83頁。

      [2] 劉海濤、黃偉:《計量語言學(xué)的現(xiàn)狀、理論與方法》,《浙江大學(xué)學(xué)報》(人文社會科學(xué)版)2012年第2期,第178~192頁。

      [3] R.Flesch,“A New Readability Yardstick”,JournalofAppliedPsychology,32(3),1948,pp.221-233.

      [4] Yoshimi,Katsunori Kotani & Hitoshi Isahara,“Use of A New Set of Linguistic Features to Improve Automatic Assessment of Text Readability”,US-ChinaEducation,1,2012,pp.55-62.

      [5] T.Francois,C.Fairon,“An ‘AI readability’ Formula for French as A Foreign Language”.[2017-6-17]http://www.researchgate.net/publication/262409316_An_AI_readability_formula_for_French_as_a_foreign_language.

      [6] 張寧志:《漢語教材語料難度的定量分析》,《世界漢語教學(xué)》2000年第3期,第83~88頁。

      [7] 王蕾:《初中級日韓學(xué)習(xí)者漢語文本可讀性公式研究》,《語言教學(xué)與研究》2017年第5期,第15~25頁。

      [8] 楊金余:《高級漢語精讀教材語言難度測定研究》,北京大學(xué)碩士學(xué)位論文,2008年。

      [9] Yao Ting Sung,Ju Ling Chen,Ji Her Cha,etc.,“Constructing and Validating Readability Models:The Method of Integrating Multilevel Linguistic Features with Machine Learning”,BehaviorResearchMethods,47(2),2015,pp.1-15.

      [10] Yao Ting Sung,Wei Chun Lin,Scott Benjamin Dyson,etc.,“Leveling 12 Texts Through Readability:Combining Multilevel Linguistic Features with the CEFR”,ModernLanguageJournal,99(2),2015,pp.371-391.

      [11] 左虹、朱勇:《中級歐美留學(xué)生漢語文本可讀性公式研究》,《世界漢語教學(xué)》2014年第2期,第263~276頁;又見楊金余:《高級漢語精讀教材語言難度測定研究》,北京大學(xué)碩士學(xué)位論文,2008年。

      [12] 莫彭齡、單青:《三大類實詞句法功能的統(tǒng)計分析》,《南京師大學(xué)報》1985年第3期,第55~63頁。

      [13] 王建勤:《第二語言習(xí)得研究》,北京:商務(wù)印書館,2009年;又見張?;?、魏惠琳:《最近發(fā)展區(qū)在二語習(xí)得研究中的詮釋》,《東北師大學(xué)報》(哲學(xué)社會科學(xué)版) 2010年第4期,第97~100頁;又見吳叔良:《論對外漢語教學(xué)的學(xué)習(xí)、習(xí)得整合觀——由克拉申的第二語言習(xí)得理論說起》,《上海師范大學(xué)學(xué)報》(哲學(xué)社會科學(xué)版) 1993年第4期,第123~126頁。

      [14] 黃偉、劉海濤:《漢語語體的計量特征在文本聚類中的應(yīng)用》,《計算機(jī)工程與應(yīng)用》2009年第29期,第25~27頁。

      [15] 王蕾:《初中級日韓學(xué)習(xí)者漢語文本可讀性公式研究》,《語言教學(xué)與研究》2017年第5期,第15~25頁;又見Yao Ting Sung,Ju Ling Chen,Ji Her Cha,etc.,“Constructing and Validating Readability Models:The method of Integrating Multilevel Linguistic Features with Machine Learning”,BehaviorResearchMethods,47(2),2015,pp.1-15.

      [16] Dr.M.North,DataMiningfortheMasses,Global Text Project,2012.

      [17] 孫未未:《對外漢語閱讀材料的可讀性自動評估研究》,華中師范大學(xué)碩士學(xué)位論文,2018年。

      [18] 張?;?、魏惠琳:《最近發(fā)展區(qū)在二語習(xí)得研究中的詮釋》,《東北師大學(xué)報》(哲學(xué)社會科學(xué)版) 2010年第4期,第97~100頁。

      [19] Yao Ting Sung,Wei Chun Lin,Scott Benjamin Dyson,etc.,“Leveling 12 Texts Through Readability:Combining Multilevel Linguistic Features with the CEFR”,ModernLanguageJournal,99(2),2015,pp.371-391.

      猜你喜歡
      可讀性語義詞語
      容易混淆的詞語
      找詞語
      語言與語義
      詞語欣賞
      “上”與“下”語義的不對稱性及其認(rèn)知闡釋
      對增強(qiáng)吸引力可讀性引導(dǎo)力的幾點(diǎn)思考
      新聞傳播(2015年11期)2015-07-18 11:15:03
      淺談對提高黨報可讀性的幾點(diǎn)看法
      新聞傳播(2015年9期)2015-07-18 11:04:12
      一枚詞語一門靜
      認(rèn)知范疇模糊與語義模糊
      在增強(qiáng)地方時政新聞可讀性上用足心思
      中國記者(2014年2期)2014-03-01 01:38:34
      长阳| 安阳县| 湾仔区| 炉霍县| 商水县| 福清市| 淳化县| 奉新县| 公安县| 桑植县| 梅河口市| 静安区| 商都县| 子洲县| 永寿县| 宁阳县| 高淳县| 香河县| 隆林| 高清| 商南县| 巴南区| 星子县| 汾阳市| 江城| 石屏县| 金乡县| 景东| 称多县| 大港区| 北票市| 增城市| 海晏县| 镇江市| 临沭县| 乌鲁木齐县| 类乌齐县| 凤冈县| 衡山县| 读书| 安国市|