• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      學(xué)術(shù)文本可讀性和復(fù)雜度評價研究*

      2018-05-30 06:56:03陳練文李信趙超燁
      數(shù)字圖書館論壇 2018年5期
      關(guān)鍵詞:可讀性學(xué)術(shù)論文句法

      陳練文 李信 趙超燁

      (1.武漢大學(xué)文學(xué)院中國語情與社會發(fā)展研究中心,武漢 430072;2. 武漢大學(xué)信息管理學(xué)院,武漢 430072)

      1 學(xué)術(shù)文本可讀性研究現(xiàn)狀

      學(xué)術(shù)論文作為科研活動的主要成果展現(xiàn)形式,是科研人員學(xué)術(shù)水平和研究工作最直接的體現(xiàn),同時也是反映高等學(xué)校和科研院所科研水平、辦學(xué)能力的重要指標(biāo)[1]。學(xué)術(shù)文本的復(fù)雜度直接關(guān)系到學(xué)術(shù)成果的傳播、展示和科研人員間的溝通交流,是學(xué)術(shù)論文評價不可忽略的部分。然而,調(diào)研發(fā)現(xiàn),目前國內(nèi)外關(guān)于學(xué)術(shù)文本復(fù)雜度評估的研究很少,基本處于空白狀態(tài)[2]。因此,本文擬從文本可讀性和句法復(fù)雜度兩個角度對學(xué)術(shù)文本的復(fù)雜度進行定量研究,以期為完善學(xué)術(shù)論文評價體系提供借鑒。

      可讀性,也被稱為易讀度或易讀性,指文本易于閱讀和理解的程度或性質(zhì)[3],主要用來評價閱讀材料能被讀者閱讀和理解的容易程度[4]。影響可讀性的因素主要有句子的平均長度、陌生詞匯的數(shù)量、所用語法的復(fù)雜程度[5]。雖然可讀性研究已有一定的歷史,但相關(guān)研究主要關(guān)注的是可讀性與語言教育的關(guān)系,如Ortega[6]和Persson[7]對語言教育材料可讀性的相關(guān)研究。有關(guān)學(xué)術(shù)文本可讀性的研究還較少,主要集中在可讀性與其學(xué)術(shù)影響力的關(guān)系上,如Armstrong[8]、Stremersch等[9]對Dr.Fox phenomenon現(xiàn)象的證明,Sawyer等[10]發(fā)現(xiàn)獲獎的學(xué)術(shù)論文更容易閱讀,Dolnicar等[11]對旅游期刊論文進行可讀性研究,Sun[12]認為低可讀性文本的剽竊概率更高等。學(xué)術(shù)文本不同結(jié)構(gòu)通常有不同的語義功能[13],因此,一部分學(xué)者著力評估學(xué)術(shù)文本某一方面的可讀性,如Plavén-Sigray等[14]指出學(xué)術(shù)文本可讀性隨時間逐漸下降,Gazni[15]和Lei等[16]認為學(xué)術(shù)文本摘要比正文的可讀性低。句法復(fù)雜度指語言產(chǎn)出中句法結(jié)構(gòu)的多樣性及復(fù)雜性[17]。句法復(fù)雜度關(guān)系到語法結(jié)構(gòu)的掌握和產(chǎn)出,雖然已有學(xué)者意識到學(xué)術(shù)論文評價在內(nèi)容認知層面的不足[18-19],但將可讀性、復(fù)雜度和學(xué)術(shù)文本相結(jié)合的學(xué)術(shù)論文評價實踐研究還較少[20]。

      通過以上分析可知,學(xué)術(shù)文本的可讀性和句法復(fù)雜度研究尚未獲得足夠重視,相關(guān)成果較少。相對來說,可讀性研究比句法復(fù)雜度研究成果更多,但都存在以下不足:①現(xiàn)有研究僅針對單一學(xué)科的學(xué)術(shù)文本,缺乏不同學(xué)科、不同影響力學(xué)術(shù)文本的對比研究;②以往研究大多采用單一的公式或指標(biāo),得到的結(jié)果可靠性不高;③已有研究成果的評估粒度主要停留在文章層面,缺乏對文章不同結(jié)構(gòu)(如摘要、正文等)、組成成分(如句子)的細粒度評估;④現(xiàn)有研究主要針對特定人群(如外語學(xué)習(xí)者、某國學(xué)者)的學(xué)術(shù)文本,研究成果缺乏普遍性。因此,本文擬從文本可讀性和句法復(fù)雜度兩個方面,采用多種評價公式和工具,全方位、多角度對學(xué)術(shù)文本的可讀性和句法復(fù)雜度進行分析。

      2 數(shù)據(jù)來源和研究方法

      2.1 數(shù)據(jù)來源

      本文以計算機和圖書情報學(xué)科的學(xué)術(shù)論文為例,探討不同類型文本可讀性的異同。2016年7月1日—8月31日,自主采集Springer數(shù)據(jù)庫中113本計算機(Computer Science,CS)學(xué)科和6本圖書情報(Library and Information Science,LIS)學(xué)科期刊論文全文數(shù)據(jù),共得到全文HTML網(wǎng)頁數(shù)據(jù)294 332條,其中圖書情報學(xué)科數(shù)據(jù)11 956條。

      針對每篇學(xué)術(shù)論文,區(qū)分論文摘要(ABS)和正文(PASS),最終得到4組數(shù)據(jù),CS_ABS、CS_PASS、LIS_ABS和LIS_PASS分別表示計算機學(xué)科學(xué)術(shù)論文摘要、計算機學(xué)科學(xué)術(shù)論文正文、圖書情報學(xué)科學(xué)術(shù)論文摘要及圖書情報學(xué)科學(xué)術(shù)論文正文。以上數(shù)據(jù)的統(tǒng)計信息見表1。

      表1 學(xué)術(shù)文本數(shù)據(jù)的統(tǒng)計信息

      2.2 研究方法

      2.2.1 可讀性評估方法與指標(biāo)

      本文從文本類型、所屬學(xué)科、結(jié)構(gòu)位置和期刊等級的視角出發(fā),通過對學(xué)術(shù)文本的可讀性進行定量測評、比較分析和相關(guān)性分析,以探索學(xué)術(shù)論文可讀性規(guī)律。主要使用Simple Measure of Gobbledygook(SMOG)、Flesch-Kincaid Grade Level(FKG)、Automated Readability Index(ARI)和Guning-FOG(FOG)這4個可讀性測評公式進行評估。

      另外,本文將每一個數(shù)據(jù)集的文本可讀性定義為數(shù)據(jù)集中所有文本可讀性得分的平均值。需要注意的是,SMOG公式只適用于文本長度大于30的文本,因此除LIS_PASS和CS_PASS外,其余文本均不計算SMOG得分。

      2.2.2 句法復(fù)雜度評估方法與指標(biāo)

      本文對句法復(fù)雜度的測量工具是L2SCA[17],主要從平均句長、平均小句長、平均T單位長等14個指標(biāo)對文本的句法復(fù)雜度進行評估。實驗數(shù)據(jù)與文本可讀性分析保持一致,考慮到學(xué)術(shù)文本的摘要和正文在復(fù)雜度上可能表現(xiàn)不一致,本文將其分開為兩個樣本進行分析。

      3 學(xué)術(shù)文本可讀性分析

      3.1 學(xué)術(shù)文本內(nèi)部要素的可讀性分析

      學(xué)術(shù)文本不同學(xué)科之間可能因研究內(nèi)容、表達方式不同而產(chǎn)生可讀性差異,學(xué)術(shù)文本摘要部分需要對正文提綱挈領(lǐng),語言使用也可能不同。本文選取計算機學(xué)科(CS)和圖書情報學(xué)科(LIS)的英文期刊論文,將摘要(ABS)與正文(PASS)分開,用SMOG、FKG、ARI、FOG 4個可讀性指標(biāo)進行計算,得出其平均值,結(jié)果如圖1所示。摘要平均句子數(shù)量少于30,不適用SMOG公式。

      圖1 學(xué)術(shù)文本不同學(xué)科、不同結(jié)構(gòu)的可讀性得分

      從不同學(xué)科分析,LIS得分均明顯高于CS。CS各公式得分平均值為17.72,LIS為19.31,差值為1.59。ARI公式得分差值最大,F(xiàn)KG最小。在不考慮文本內(nèi)容的情況下,僅從語言層面分析,LIS學(xué)術(shù)文本比CS可讀性差,即讀者閱讀時可能有更大的語言障礙,會遇到更多難詞生詞,更難以理解其中的長段落、長句子或短語等。

      從不同結(jié)構(gòu)上分析,兩個學(xué)科的期刊論文正文文本得分都高于摘要。CS、LIS正文的可讀性平均得分(后3個指標(biāo)計算結(jié)果)為18.36和20.30,摘要為17.38和18.45,ARI公式得分差值最大,F(xiàn)OG最小。相對而言,CS與LIS相比,CS的正文和摘要得分差值更小。由此可知,學(xué)術(shù)文本正文可讀性不如摘要,在圖書情報學(xué)科這一特點更加明顯。

      對于以上數(shù)值呈現(xiàn)的實際含義,本文仍然采用兩獨立樣本t檢驗來驗證。從學(xué)科比較來看,該檢驗的F統(tǒng)計量的觀察值為0.001,對應(yīng)的概率p值為0.970,大于0.05,可以認為兩總體方差無顯著差異。進一步考察t檢驗結(jié)果,發(fā)現(xiàn)t統(tǒng)計量的觀測值為--1.697,對應(yīng)的雙尾概率p值為0.141,大于0.05,可知CS和LIS的可讀性得分在平均值上有差異,但不顯著。

      從文本結(jié)構(gòu)來看,CS、LIS檢驗的F統(tǒng)計量的觀察值分別為0.379、0.734,對應(yīng)的概率p值分別為0.538、0.397,均大于0.05,可以認為兩總體方差無顯著差異。進一步考察t檢驗的結(jié)果,發(fā)現(xiàn)t統(tǒng)計量的觀測值分別為6.865、1.206,對應(yīng)的雙尾概率p值CS近似為0,LIS為0.236。如果顯著性水平為0.05,由于CS概率p小于0.05,應(yīng)該拒絕零假設(shè),即CS英文期刊的正文和摘要可讀性具有顯著性差異;而LIS概率p大于0.05,不應(yīng)該拒絕零假設(shè),即LIS英文期刊的正文和摘要可讀性雖有差異,但并不顯著。

      由于采用多個可讀性公式進行計算,公式所得結(jié)果的一致性關(guān)系到對數(shù)據(jù)結(jié)果的分析是否準確合理。因此,本文用皮爾森相關(guān)系數(shù)評價選取的4個可讀性公式的一致性。樣本選取的是4個公式在113本CS期刊和6本LIS期刊中正文的可讀性得分,共計119個。

      由表2可知,各個公式之間的簡單相關(guān)系數(shù)在0.7~1.0,說明4個可讀性公式之間是正相關(guān),對文本可讀性評價方向上具有一致性,選取公式可信賴;相關(guān)系數(shù)檢驗的概率p值都近似為0,因此,當(dāng)顯著性水平為0.01時,都應(yīng)拒絕零假設(shè),認為它們總體上存在線性關(guān)系;相關(guān)系數(shù)大于0.8時,證明兩者強相關(guān),以上公式指標(biāo)之間既有強相關(guān)關(guān)系,也有相對較弱關(guān)系,客觀上正好反映本文所選取公式的全面性與合理性。

      3.2 不同影響因子的期刊學(xué)術(shù)文本可讀性分析

      影響因子對學(xué)術(shù)文本非常重要,甚至成為衡量學(xué)術(shù)文本學(xué)術(shù)價值的重要標(biāo)準。為比較不同影響因子期刊的學(xué)術(shù)文本可讀性之間的差異,本文選取計算機學(xué)科的期刊論文,以期刊當(dāng)年影響因子(Impact Factor,IF)和期刊5年影響因子(5 Year Impact Factor,5 IF)為依據(jù),將兩者數(shù)值相加后排序,從113本CS期刊中分別選取排名靠前和靠后的10本期刊作為計算數(shù)據(jù),相關(guān)情況見表3。

      圖2展示了CS學(xué)科不同影響因子期刊學(xué)術(shù)論文的摘要、正文在不同可讀性指標(biāo)上的得分。

      表2 計算機學(xué)科和圖書情報學(xué)科可讀性公式的簡單相關(guān)系數(shù)矩陣

      表3 不同影響因子的期刊學(xué)術(shù)文本

      圖2 CS學(xué)科不同影響因子期刊論文可讀性得分

      A類論文的得分均高于B類論文,其中摘要最為明顯,平均相差0.7左右;但A類正文得分與B類差別很小,除SMOG的0.71外,其他情況下最多相差0.1,甚至在FKG上完全相等。用兩獨立樣本t檢驗進行驗證,發(fā)現(xiàn)兩者雙尾概率p值分別為0.670和0.864,都大于顯著性水平0.05,說明兩者差異并不明顯。

      因此,在不考慮研究內(nèi)容、讀者背景等情況下,僅從語言層面上進行分析,高被引期刊、低被引期刊的摘要、正文的可讀性均不同,但從統(tǒng)計角度來看,這種差異并不明顯。以CS期刊為例,高被引期刊刊載論文的摘要、正文內(nèi)容的可讀性得分均高于低被引期刊的得分,即相較于低被引期刊而言,高被引期刊刊載論文對讀者的語言能力要求稍高,且這種差異在摘要上體現(xiàn)得更加明顯。

      Gazni[15]在研究文獻摘要和可讀性關(guān)系時,選取文章被引量最多的哈佛大學(xué)、斯坦福大學(xué)等5家機構(gòu)的文獻,發(fā)現(xiàn)文章被引和可讀性間呈正相關(guān)關(guān)系,即文本越難以閱讀,被引量越高,最高的相關(guān)系數(shù)甚至達到0.786。該趨勢與本文結(jié)論一致,區(qū)別在于Gazni只使用了一個可讀性公式,且在樣本選擇上,選擇被引量最多的5家機構(gòu)的22個學(xué)科文獻,與本文的某一學(xué)科大量論文還略有區(qū)別。據(jù)此推測,可讀性越低,被引越高的趨勢,在高質(zhì)量的文章中更明顯。

      4 學(xué)術(shù)文本句法復(fù)雜度分析

      4.1 不同樣本句法復(fù)雜度比較分析

      經(jīng)過L2SCA測量,得出不同學(xué)科學(xué)術(shù)文本句法復(fù)雜度的結(jié)果。

      從平均數(shù)值上看,CS和LIS兩個不同學(xué)科的對比,在摘要和正文兩種結(jié)構(gòu)上呈現(xiàn)出相反的趨勢。LIS的正文得分有7項比CS高(如小句與句子比、小句與T單位比等),但是其摘要得分除T單位與句子比低0.002外,其余13項全部高于CS。由此可知,LIS論文正文比CS復(fù)雜度更高,但摘要反而更簡單。

      從文本內(nèi)部結(jié)構(gòu)來看,兩個學(xué)科的正文與各自的摘要比較,正文得分基本高于摘要,只有并列短語與小句比、復(fù)雜名詞性短語與小句比結(jié)果相反。因此,總體來看,學(xué)術(shù)文本正文比摘要句法復(fù)雜度更高,更傾向于使用長句和復(fù)雜語言。

      4.2 學(xué)術(shù)文本句法復(fù)雜度指標(biāo)雙尾檢驗

      為驗證所得結(jié)果的準確度,本文也對所有指標(biāo)進行雙尾檢驗,結(jié)果見表4。

      表4 計算機學(xué)科、圖書情報學(xué)科學(xué)術(shù)文本不同結(jié)構(gòu)句法復(fù)雜度指標(biāo)雙尾檢驗結(jié)果

      雖然同屬一個學(xué)科,但由于摘要和正文承擔(dān)的功能不同,因此在語言使用上可能依然存在差異性。

      從雙尾檢驗的概率p值看,只有計算機學(xué)科平均小句長的值大于0.05,即在這一指標(biāo)上摘要和正文差異不顯著,其他指標(biāo)幾乎接近于0,即都具有顯著差異。具體從均值看,句子長度方面,正文比摘要長6~9個單位,這符合預(yù)期和實際情況,但在LIS學(xué)科,摘要在小句長度方面大于正文。從句使用方面,正文使用比例大于摘要,在T單位上的差距最大。特定短語結(jié)構(gòu)方面,CS學(xué)科復(fù)雜性名詞短語在小句上幾乎沒有差距,LIS學(xué)科則摘要使用更多;在T單位上正文比摘要明顯要大,正文使用更多。動詞短語在T單位中出現(xiàn)的比例也是正文大于摘要??傮w而言,兩個學(xué)科的學(xué)術(shù)文本正文在大多數(shù)指標(biāo)上都比摘要更復(fù)雜。

      5 結(jié)語

      本文綜合利用FOG、SMOG、FKG、ARI4種可讀性公式和句法復(fù)雜度測量工具L2SCA,從學(xué)科、文本結(jié)構(gòu)和期刊影響力等方面對學(xué)術(shù)文本的可讀性和句法復(fù)雜度進行探索。研究結(jié)果表明,不同學(xué)科學(xué)術(shù)文本間的可讀性差異不明顯,而正文部分的可讀性顯著低于摘要部分;高被引期刊的可讀性得分高于低被引期刊,這一點在摘要上表現(xiàn)得更為明顯;在句法復(fù)雜度方面,不同學(xué)科的學(xué)術(shù)文本句法復(fù)雜度有一定差別,且正文在大多數(shù)指標(biāo)上都比摘要更復(fù)雜。

      [1]李沂濛,趙良英,柯嵐馨,等. 國內(nèi)人文社會科學(xué)評價研究評析[J].情報科學(xué),2017,35(7):107-113.

      [2]李信,李旭暉,陸偉,等. 大數(shù)據(jù)驅(qū)動下的圖書情報學(xué)科熱點領(lǐng)域挖掘——面向WOS題錄數(shù)據(jù)的實證視角[J]. 圖書館論壇,2017,37(4):49-57.

      [3]李紹山. 易讀性研究概述[J]. 解放軍外國語學(xué)院學(xué)報,2000,23(4):1-5.

      [4]陳潔. 國內(nèi)可讀性研究概述[J]. 黑龍江史志,2013(9):212-213.

      [5]RICHARDS J C,PLATT F,PLATT H. 朗文語言教學(xué)及應(yīng)用語言學(xué)辭典(英英·英漢雙解)[M]. 北京:外語教學(xué)與研究出版社,2000.

      [6]ORTEGA L. Syntactic complexity measurement and its relationship with second language acquisition:a review of the studies of university second level writing[J]. Applied Linguistics,2003,24(4):492-518.

      [7]PERSSON T. Scientific language and readability:the correlation between the linguistic features of the TIMSS science project and the performance of different groups of grade 8 Swedish students[J].Nordic Journal of Literacy Research,2016(2):21-27.

      [8]ARMSTRONG J S. Unintelligible management research and academic prestige[J]. Interfaces,1980,10(2):80-86.

      [9]STREMERSCH S,VERNIERS I,VERHOEF P C. The quest for citations:drivers of article impact[J]. Social Science Journal of Marketing,2007,71(3):171-193.

      [10]SAWYER A G,LARAN J,XU J. The readability of marketing journals:are award-winning articles better written?[J].Journal of Marketing,2014,72(1):108-117.

      [11]DOLNICAR S,CHAPPLE A. The readability of articles in tourism journals[J]. Annals of Tourism Research,2015,52:161-166.

      [12]SUN Y C. Does text readability matter? A study of paraphrasing and plagiarism in English as a foreign language writing context[J].Asia-Pacific Education Researcher,2012,21(2):296-306.

      [13]方龍,李信,黃永,等. 學(xué)術(shù)文本的結(jié)構(gòu)功能識別——在關(guān)鍵詞自動抽取中的應(yīng)用[J]. 情報學(xué)報,2017,36(6):599-605.

      [14]PLAVéN-SIGRAY P,MATHESON G J,SCHIFFLER B C,et al. The readability of scientific texts is decreasing over time[EB/OL].(2017-04-28)[2018-04-03]. https://doi.org/10.1101/119370.

      [15]GAZNI A. Are the abstracts of high impact articles more readable? Investigating the evidence from top research institutions in the world[J]. Journal of Information Science,2011,37(3):273-281.

      [16]LEI L,YAN S. Readability and citations in information science:evidence from abstracts and articles of four journals(2003—2012)[J]. Scientometrics,2016,108(3):1-15.

      [17]陸小飛,許琪. 二語句法復(fù)雜度分析器及其在二語寫作研究中的應(yīng)用[J]. 外語教學(xué)與研究,2016,48(3):409-420.

      [18]索傳軍,蓋雙雙,周志超. 認知計算——單篇學(xué)術(shù)論文評價的新視角[J]. 中國圖書館學(xué)報,2018,44(1):50-61.

      [19]李力,劉德洪,張燦影. 基于知識流動理論的科技論文學(xué)術(shù)影響力評價研究[J]. 情報科學(xué),2016,V34(7):113-119.

      [20]徐峰,冷伏海. 認知計算及其對情報科學(xué)的影響[J]. 情報雜志,2009,28(6):20-23.

      猜你喜歡
      可讀性學(xué)術(shù)論文句法
      學(xué)術(shù)論文征集啟事
      學(xué)術(shù)論文征集啟事
      學(xué)術(shù)論文征集啟示
      學(xué)術(shù)論文征集啟事
      句法與句意(外一篇)
      中華詩詞(2021年3期)2021-12-31 08:07:22
      述謂結(jié)構(gòu)與英語句法配置
      句法二題
      中華詩詞(2018年3期)2018-08-01 06:40:40
      詩詞聯(lián)句句法梳理
      中華詩詞(2018年11期)2018-03-26 06:41:32
      對增強吸引力可讀性引導(dǎo)力的幾點思考
      新聞傳播(2015年11期)2015-07-18 11:15:03
      淺談對提高黨報可讀性的幾點看法
      新聞傳播(2015年9期)2015-07-18 11:04:12
      即墨市| 什邡市| 老河口市| 桂平市| 尉氏县| 旬邑县| 上高县| 莱阳市| 余江县| 延寿县| 汝南县| 临洮县| 太谷县| 铜山县| 安顺市| 阿克陶县| 平山县| 五河县| 许昌市| 焉耆| 扎兰屯市| 仙桃市| 惠东县| 罗甸县| 霍山县| 巍山| 冕宁县| 安阳市| 双江| 福安市| 禄劝| 肃南| 新晃| 章丘市| 巴马| 景德镇市| 平利县| 崇明县| 含山县| 浙江省| 上思县|