• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      文本情感計算系統(tǒng)“小菲”的設計及其在教育領域文本分析中的應用

      2016-11-03 10:49:45賈積有楊柏潔
      中國教育信息化·基礎教育 2016年7期
      關鍵詞:小菲文本分析

      賈積有+楊柏潔

      摘 要:文本情感計算是近年來人工智能、教育技術(shù)與學習科學等領域出現(xiàn)的一個研究熱點。文章在界定相關概念、分析相關研究的基礎上,設計并實現(xiàn)了一個基于漢語文本的情感計算系統(tǒng)“小菲”。該系統(tǒng)依照Ekman心理模型將情感分為6種類別:氣憤、厭惡、恐懼、愉悅、悲傷和驚訝;每種情感的強度取值范圍為[-18,18];構(gòu)建了擁有32879條情感詞語的情感詞典《小菲詞典》,每條詞語標注了6種情感極性和相應的情感強度;然后建構(gòu)了詞語和短語、句子三個級別的情感計算模型,可以判別情感極性和計算情感強度。作為嘗試,該系統(tǒng)處理了一次慕課中產(chǎn)生的377條調(diào)查問卷反饋數(shù)據(jù),計算F值(查準率和召回率的加權(quán)幾何平均值)為88.7%。該結(jié)果初步證明:該系統(tǒng)可以用于慕課等在線學習產(chǎn)生的大規(guī)模交互文本的自動情感識別,具有較好的應用情景。

      關鍵詞:文本情感計算;情感詞典;教育文本;文本分析

      中圖分類號:TP391 文獻標志碼:A 文章編號:1673-8454(2016)14-0074-05

      一、情感與學習

      情感(sentiment)是由非中性事物引起的并反作用于這個事物的非中性的意圖和行為[1],是人類最慣常、最重要的體驗。人類的認知和情感是相互影響和作用的,對兩者的研究密不可分。

      情感及情感信息對于學習者的學習效果有重要的影響。積極的情感可以提高學習效率,而消極的情感卻可能造成學習的失敗[2]。許多學習行為是從好奇心和入迷開始的,人在處于“興趣”與“愉悅”的情感狀態(tài)下,學習效率最高,學習效果最好;積極的情感促進大腦的活動性,在學習過程中表現(xiàn)為學習動力,從而還可以產(chǎn)生一系列積極情感狀態(tài),如興趣、關注以及參與行為,它們在學習過程中都起著重要的作用。而在“乏味”與“厭倦”的情感下,學習多數(shù)則是會失敗的,尤其學習的孤獨感和焦慮常常影響學習者的信心[3]。消極的情感抑制大腦的機動性,在學習的過程中表現(xiàn)為學習的阻力,如厭倦、疲勞、無聊等都會影響學習的認知過程。

      認知心理學家Simon[4]和Norman[5]認識到了情感在學習效果方面發(fā)揮著重要作用。他們發(fā)現(xiàn)哪怕只有很少的一點積極情緒,不僅可以讓人感覺良好,而且還可以產(chǎn)生一種思維,這種思維會更有創(chuàng)造性更靈活地解決問題以及更有效更果斷地做出決定。這項研究在不同年齡不同職業(yè)的人群中得到了驗證。

      在學習過程中,教師如果能夠識別學生的情感狀態(tài),并做出相應的反饋,就可以激發(fā)其積極的情感,使學生內(nèi)心產(chǎn)生對教師的好感、依賴和敬慕,進而產(chǎn)生學習熱情,使其處于興奮狀態(tài),促進學習水平的提高,從而達到最好的學習效果[6]。

      網(wǎng)絡學習具有特殊性,師生在物理空間上的分離,導致師生之間不能通過傳統(tǒng)的表情、眼神和肢體等方式進行情感交流和反饋。教師得不到學生的情感狀態(tài)信息,學生得不到教師的反饋,學生學習效果就會受到影響。因此,在網(wǎng)絡教學系統(tǒng)中如何獲得學習者的情感,具有重要的研究價值[7]。

      網(wǎng)絡學習環(huán)境下,獲取學習者情感的技術(shù)包括語音識別、人臉表情識別、身體姿勢和運動的識別等[8]。這些技術(shù)一般需要使用特殊的傳感器來采集學習者數(shù)據(jù)[9][10]。當然,慕課等大規(guī)模在線學習方式中能快速直接獲得學習情感信息的介質(zhì)仍然是文本,如討論區(qū)、BBS、博客、調(diào)查反饋等交流活動中的文本。這些文本情感信息反映了學習者在學習過程中的情感狀態(tài)。

      慕課等在線學習平臺學員數(shù)量眾多,討論區(qū)產(chǎn)生的文本數(shù)據(jù)龐大。而人數(shù)有限的教師和助教很難實時、準確地辨別文本的情感狀態(tài),并給出恰當?shù)姆答?。因此,很有必要設計一個文本情感計算系統(tǒng),它能自動或半自動地分析文本情感、篩選文本信息,幫助教師針對學習者的情感狀態(tài)快速做出恰當?shù)姆答仭?/p>

      二、文本情感計算

      1.概念

      情感計算(Affective Computing)是人工智能的一個分支領域。美國麻省理工學院Picard于1997年首先提出了“情感計算”的概念[11],并將其定義為關于情感、情感產(chǎn)生以及影響情感方面的計算。情感計算的目的在于使設計的系統(tǒng)和設備能夠識別、理解和處理情感。

      認知語言學認為人類能夠通過語言的表達反映出認知的過程和結(jié)果,同時反映出真實的情感。既然語言能夠反映出情感,那么文本也當然可以[12]。因此,從認知語言學的理論上來講,文本中包含了一定的情感信息。

      文本情感計算是情感分析領域的核心問題之一,其任務是借助計算機幫助用戶快速獲取、整理和分析相關文本信息,對帶有情感色彩的主觀性文本進行分析、處理、歸納和推理[13]。文本情感計算的研究包括極性分類(Polarity Classification)和強度計算(Intensity Classificaiton)兩個方面。

      2.情感極性分類

      情感極性分類的工作就是判別情感的種類。情感種類的集合構(gòu)成了情感模型。在多種情感模型中,OCC模型和Ekman模型被廣泛使用。

      Ortony、Clore和Collins于1988年提出了著名的認識評價情感模型OCC( Ortony, Clore, Collins)模型[14]。這個模型根據(jù)三類起因和事件的結(jié)果,提出了22種情感類別:高興,幸災樂禍,妒忌,遺憾,充滿希望,害怕,快樂,悲傷,驕傲,羨慕,害羞,責備,喜歡,討厭,自滿,感激,悔恨,生氣,滿意,悲觀,放松和失望。但是OCC模型被實際應用的情況并不多,主要是因為情感分類過于復雜。Ekman于1992年提出可以將情感分為氣憤(Anger)、厭惡(Disgust)、恐懼(Fear)、愉悅(Happiness)、悲傷(Sadness)和驚訝(Surprise)六種類型[15]。這6種情感是組成所有情感的基本單位,人類的所有情感均可由這6種情感衍生而來。同時,相較OCC模型的22種類別劃分,Ekman模型的情感極性維度相對較少,實際應用時相對簡單。因此,我們也采用Ekman情感模型來為文本分類。

      3.情感強度

      情感強度計算是能夠反映文本情感極性的強弱程度的一個指標,因為在每一種情感種類內(nèi),會有情感程度強弱之分。目前在文本情感計算領域,針對情感強度計算的量化問題并沒有一個統(tǒng)一的標準。Wilson和Wiebe將情感強度標注為3個級別:低、中、高[16]。Choi和Cardie將情感強度以具體數(shù)值計算,取值范圍為[0,10],數(shù)值越高,情感表達越強烈[17]。我們設定情感的強弱取值范圍為區(qū)間[-18,18]。在區(qū)間[0,18],數(shù)值越大表明該情感越強烈;數(shù)值為0時,表示沒有情感;在[-18,0)區(qū)間,數(shù)值負號表示情感極性相反,即為取“非”操作。例如“anger”的非為“not anger”,即為“不憤怒”。數(shù)值絕對值越大表明該情感的相反極性情感越強烈。我們規(guī)定,取非操作的情感與原有6種情感之間相互獨立,不存在關聯(lián)。例如,“不憤怒”不一定為“高興”,而“高興”一定是“不憤怒”。

      4.文本情感計算的層次性

      文本情感計算層次代表情感計算的研究領域和范圍。根據(jù)文本信息的語法結(jié)構(gòu)可以將其分成4個層次:詞語、短語、句子和篇章。4個層次之間具有強烈的繼承關系,詞語是短語的基礎,短語是句子的基礎,而句子又是篇章的基礎。文本情感計算的研究是由最底層的詞語層次開始,逐漸過渡到篇章層次,環(huán)環(huán)相扣。

      因為網(wǎng)絡學習的文本大都較短,少于150字;文本內(nèi)容一般由兩三句話構(gòu)成,句子層次的文本情感計算可以滿足研究分析要求。又因為詞語層次和短語層次是句子層次的研究基礎,我們的情感分類工作集中在三個層次進行:詞語、短語和句子。

      詞語層次是文本情感計算的基礎,主要任務是發(fā)現(xiàn)并提取文本中帶有情感色彩的詞語,并且確定其情感極性和情感強度值。詞語層次的工作主要圍繞情感詞典的構(gòu)建來進行。詞典中詞語的數(shù)量和詞語的屬性直接決定了系統(tǒng)的性能。詞語的屬性是指情感極性和情感強度。為大規(guī)模的詞語標識出其情感極性和強度的最原始的方法就是人工標注,雖然準確但耗時耗力。使用基于統(tǒng)計的有監(jiān)督和無監(jiān)督的機器學習方法可以實現(xiàn)詞語情感的半自動標注。

      用已有詞典擴充構(gòu)建詞典的方法就是有監(jiān)督的詞典擴展方法。大部分國外的詞典擴充研究都是基于WordNet(http://wordnet.princeton.edu)和 General Inquirer(http://wjh.harvard.edu/~inquirer)兩種詞典,而大部分國內(nèi)的詞典研究是基于《知網(wǎng)》(http://www.keenage.com)和《同義詞詞林》兩種詞典。

      Turney和Littman的無監(jiān)督學習法使用一種點互信息和信息檢索相結(jié)合的計算方法,來判定待定詞與種子詞之間的信息量。種子集合是由具有正面情感極性和具有負面情感極性的示例詞構(gòu)成[18]。在中文處理方面,Zhang等人利用情感標注語料中抽取的上下文模板,在未知語料中計算模板與詞語之間的關系,進而判斷詞語的情感極性[19]。

      由于名詞、動詞、形容詞和副詞等不同詞性的組合能夠產(chǎn)生不同種類的短語,短語層次的情感分析主要關注短語具有何種情感極性以及其強度如何。

      句子的分析包括兩種方式: 基于規(guī)則的方法和基于統(tǒng)計的方法。基于規(guī)則的情感計算主要依靠語法規(guī)則完成,常見的語法規(guī)則有兩類:一類是通過語法分析器得到句子的語法關系樹,利用語法關系樹制定相關規(guī)則。另一類是使用短語模板,依據(jù)不同短語模板的組合形成規(guī)則來計算句子的情感。

      Turney的研究表明英文中某些短語模式的形容詞和副詞攜帶情感信息[20]。這一重要結(jié)論推動了基于規(guī)則的研究方法的發(fā)展。宋光鵬依據(jù)Turney的結(jié)論,并在其5種短語模板的基礎上進行了改進,加入了判斷否定情感傾向的詞和相應的語句連詞。最終歸納形成了適合中文的短語模板語法規(guī)則。通過語法規(guī)則模板直接進行匹配,就能夠計算出句子的情感極性和強度[21]。

      基于統(tǒng)計的情感計算需要通過訓練集找到相關特征項,使用貝葉斯分類、最大熵分類和支持向量機等統(tǒng)計方法計算句子情感極性。在中文方面,F(xiàn)ei等通過無監(jiān)督機器學習算法得到短語模式,利用短語模式對文本情感極性進行分類[22]。

      三、系統(tǒng)設計

      在情感計算領域中,基于統(tǒng)計和基于規(guī)則的兩大方法都各有所長。因此,我們以基于規(guī)則的方法為主,配合基于統(tǒng)計的方法,構(gòu)造一個文本情感計算系統(tǒng),并將之命名為“小菲”(英語單詞Feeling的音譯)。該系統(tǒng)擁有自己的情感詞典,按照詞語、短語和句子三個層次進行情感識別和綜合計算。下面介紹這些模塊。

      1.情感詞典建構(gòu)

      情感詞典建構(gòu)包括整合專業(yè)研究機構(gòu)發(fā)布的詞典,擴充已有詞典容量和手動標注詞語情感強度三項工作。詞典來源包括《知網(wǎng)》、《中文通用情感詞典》、《同義詞詞林擴展版》、《學生褒貶義詞典》和《中文情感詞匯本體庫》。通過整理這些專業(yè)詞典的內(nèi)容,將它們?nèi)诤蠟橐徊吭~典,包含27561詞條。

      擴充詞典容量使用基于統(tǒng)計的方法完成,利用有監(jiān)督的機器學習方法從《同義詞林擴展版》擴展詞典的褒貶詞語,利用無監(jiān)督的機器學習方法從網(wǎng)絡中擴展詞典的網(wǎng)絡詞語。由四名研究助理完成手動標注詞語情感極性和情感強度的工作,手動共標注了8589條詞語。最終將32879條詞語整合到一部情感詞典中,并命名為《小菲詞典》。

      2.系統(tǒng)流程

      按照情感計算的發(fā)展模式,從詞語級別開始,經(jīng)過短語級別,最后到達句子級別,從而實現(xiàn)句子情感極性分類和情感強度計算的功能。

      系統(tǒng)在情感計算之前,需要對句子做初步整理,例如刪除多余的空格、逗號標點等。然后使用中科院計算所分詞軟件ICTCLAS(http://www.ictclas.org)對句子分詞,獲得構(gòu)成句子的若干短語。

      短語級別的主要工作是使用基于規(guī)則的方法構(gòu)造短語情感模板。有一些短語能夠攜帶情感信息,可以構(gòu)造為短語情感模板。

      副詞對詞語也有修飾作用,會導致情感強度和情感極性發(fā)生變化。所以將副詞分為程度副詞和否定副詞兩類進行處理。程度副詞不改變情感極性,而是影響情感強度。否定副詞既改變情感極性,又影響情感強度。

      當句子長度較短的時候,語法省略現(xiàn)象嚴重,不宜使用過于復雜的判斷模型。直接使用詞語、短語匹配的方法計算情感反而較為準確。對于較長的句子,就使用簡單句的情感計算模型和句子關系模型來計算句子的情感。

      句子包括復合句和簡單句。復合句是由簡單句和關系連詞構(gòu)成,不同的關系連詞構(gòu)成了不同的句子關系類型,如“并列”、“轉(zhuǎn)折”和“遞進”等關系。不同的句子關系類型情感的計算方法也不盡相同。比如轉(zhuǎn)折關系,句子的主要情感是靠轉(zhuǎn)折詞之后的簡單句表達。因此,句子級別的情感計算,首先判斷該句子是否是復合句。如果是的話,就找出其中的連詞,根據(jù)連詞確定句子關系,根據(jù)該關系和簡單句的情感計算結(jié)果確定復合句的情感極性和強度值。

      簡單句的情感計算是使用語法分析器Stanford Parser(http://nlp.stanford.edu/software/lex-parser.shtml)來分析分詞之后的句子,得到句子各個成分,也就是短語。然后根據(jù)短語情感模板和短語之間的組合方式確定簡單句的情感計算模型。

      3.編程語言

      系統(tǒng)使用JAVA、Mysql、ICTCLAS和Stanford Parser等開源環(huán)境和工具構(gòu)建。JAVA語言是通用的編程語言,不受操作系統(tǒng)的限制,與其他各類系統(tǒng)的接口支持都很完善。因此,本系統(tǒng)使用JAVA語言實現(xiàn)文本情感計算模型和各系統(tǒng)之間的數(shù)據(jù)交換處理。Mysql是一個關系型數(shù)據(jù)庫管理器,情感詞典和句子類型等表格都保存在Mysql數(shù)據(jù)庫中,通過JAVA語言進行調(diào)用。ICTCLAS是中科院提供的支持JAVA調(diào)用的分析系統(tǒng)。為更好地識別情感詞和句子關聯(lián)詞,我們擴展了ICTCLAS的自定義詞典,將《副詞詞典》、《小菲詞典》和句子關系類型導入到ICTCLAS的自定義詞典中。Stanford Parser是依存語法關系分析器,輸入的數(shù)據(jù)是經(jīng)過分詞后的簡單句,輸出的結(jié)果是簡單句的依存語法關系數(shù)據(jù)。它本身是用Java語言實現(xiàn)的,方便調(diào)用。

      四、在教育領域文本情感分析的初步嘗試

      關于文本分析的性能,有一系列評測指標,包括查準率P(Precision)、召回率R(Recall)和F值等。

      P為查準率,是衡量某一檢索系統(tǒng)的信號噪聲比的一種指標,即檢出的正確數(shù)據(jù)數(shù)目與檢出的全部數(shù)據(jù)數(shù)目的百分比。R為召回率,是檢索系統(tǒng)從數(shù)據(jù)集中檢出的正確數(shù)據(jù)數(shù)目和數(shù)據(jù)集中所有正確數(shù)據(jù)數(shù)目的比率。

      F值是查準率和召回率的加權(quán)幾何平均值,是情感計算系統(tǒng)最重要的評測指標之一。F值計算方法如下:

      F=

      為測試該系統(tǒng)的性能,我們選取了一個小樣本的文本,以便既可以人工標注,又可以讓系統(tǒng)自動識別,并比較兩者的結(jié)果。2013年北京大學“新媒體與教育”暑期學校創(chuàng)新教學模式,使用慕課的方式展開學習[23]。在課程結(jié)束時,通過MOOC平臺收集了學員對本次暑期學校的反饋和建議,共377條,其中來自面授學員的201條,來自在線學習學員的176條。我們先人工標注了這些反饋的情感極性和強度,然后使用“小菲”系統(tǒng)進行了自動計算;測評結(jié)果算得F=88.7%,在文本情感分析領域?qū)儆谳^好的結(jié)果。

      五、在教育領域的應用前景

      盡管本系統(tǒng)在小樣本的教育文本情感計算測試中結(jié)果很好,但是它仍然存在一些缺陷,需要進一步完善提高:目前的三萬多條情感詞還不能完全覆蓋浩瀚的中文詞語,應該持續(xù)添加新詞,比如新出現(xiàn)的網(wǎng)絡語言,改善ICTCLAS分詞結(jié)果,增加關于世界的常識性知識,等等。

      隨著人工智能技術(shù)的發(fā)展,文本情感計算技術(shù)逐步成熟,可以廣泛應用于慕課等在線教育的多種文本交互區(qū)域的情感分析,如討論區(qū)、調(diào)查反饋、聊天室、BBS等??梢詫崟r監(jiān)控參與者的情感變化,及早發(fā)現(xiàn)學生反映的問題并及時給予恰當?shù)姆答?;也可以用于事后分析學生在學習活動和過程中的情感變化,因材施教,實施個性化教學。這也必然減少教師和助教的大量寶貴時間和精力,提高在線學習的教學效率。我們將在這些方面繼續(xù)探索,深入研究。

      參考文獻:

      [1]楊巍峰.對情緒情感定義的管見——兼與楊澤民同志商榷[J].心理學探新, 1986 (3): 35-39.

      [2]盧家嵋.情感教學心理學[M].上海:上海教育出版社, 2000.

      [3]A.C.Graesser, B.Medaniel, P.Chipma,ect.Detetion of Emotions during learning with AutoTutor [R]. Department of Psychology, 2006: 285-290.

      [4]H.Simon.Motivational and emotional controls of cognition:in Models of Thought[M]. New Haven:Yale University Press,1967.

      [5]D.Norman.Twelve issues for cognitive science[A].In Norman DA(Ed): Perspectives on cognitive seience[C]. Erlbaum, Hillsdale, NJ. 1981.

      [6]R.W.Picard, S.Papert,ect. Affective leaming- a manifesto[J].BT Technology Joumal, 2004, 22(4): 253-269.

      [7]唐偉志,賈云.遠程教育中情感缺失問題的對策研究[J].甘肅廣播電視大學學報, 2012 (2): 1-4.

      [8]J.Tao,T.Tan and R.W.Picard.Affective Computing: A Review[A].LNCS3784. German: Springer-Verlag Berlin/Heidelberg[C], 981~995. 2005.

      [9]傅小蘭.電子學習中的情感計算[J].計算機教育, 2004 (12): 27-30.

      [10]付彥飛,牛秦洲,閾小梅.基于情感計算的個性化E-Learning系統(tǒng)的研究[J].微計算機信息, 2010 (36): 241-244.

      [11]R. Picard. Affective Computing[M]. Cambridge: MIT Press,1997.

      [12]陳文萃.從認知看情感表達的隱喻概念[J].南華大學學報,2009(9): 112-142.

      [13]B.Pang,L.Lee.Opinion Mining and Sentiment Analysis[J].Foundations and Trends in Information Retrieval,2008(1-2):1-135.

      [14]A.Ortony,G.Clore,A.Collins.The Cognitive Structure of Emotions[M]. Cambridge: Cambridge University Press,1988.

      [15]P. Ekman. An argument for basic emotions[J]. Cognition and Emotion, 1992, 6(3-4):169-200.

      [16]T.Wilson,J.Wiebe.Annotating Opinions in the World Press[A].In: Proceedings of the 4th ACLSIGdial Workshop on Discourse and Dialogue (SIGdial2003) [C]. 13-22, 2003.

      [17]Choi, Y., and Cardie, C. Learning with Compositional Semantics as Structural Inferencefor Subsentential Sentiment Analysis [A]. In Proceedings of the Conference on Empirical Methods in Natural Language Processing[C]. pp. 793–801. 2008.

      [18]P.D.Turney and M.L.Littman.Measuring praise and criticism: Inference ofsemantic orientation from association[J].ACM Transactions on Information Systems,2003 (4):315-346.

      [19]C.Zhang,W.Zuo,T. Peng, F.He.Sentiment Classification of Chinese Reviews Using Machine Learning Methods Based on String Kernel[A].Third International Conference on Convergence and Hybrid Information Technology[C]. 2008.

      [20]Turney, P D. Thumbs Up or Thumbs Down? Semantic Orientation Applied to Unsupervised Classification of Reviews[DB/OL]. http://arxiv.org/abs/cs/0212032.

      [21]宋光鵬.文本的情感傾向分析研究[D].北京:北京郵電大學,2008.

      [22]Z.Fei,J.Liu,G.Wu.Sentiment Classification Using Phrase Patterns[A].In: Proceedings of Fouth International Conference onComputer and Information Technology[C]. 2004.

      [23]賈積有,王愛華,吳筱萌,等.一次中規(guī)模在線開放式課程的設計與實踐[A].第十屆北京論壇教育分論壇“高等教育的全球參與和知識共享”論文集(2013年11月)[C],141-156.(編輯:魯利瑞)

      猜你喜歡
      小菲文本分析
      媽媽的秘密
      感謝老公的情人
      感謝老公的情人
      感謝老公的情人
      短篇小說(2017年6期)2017-07-15 10:02:52
      投資者情緒短期對股票市場的影響研究
      維護正統(tǒng)還是觀念復辟?
      戲劇之家(2016年22期)2016-11-30 16:49:57
      德語小說《布登勃洛克一家》中的家文化與中國傳統(tǒng)家庭觀念比較
      我國地方紀錄片的出路研究
      初中英語聽說課教學實踐探索
      考試周刊(2016年45期)2016-06-24 13:48:11
      為夢而生
      长寿区| 科尔| 宿州市| 旺苍县| 南召县| 衡阳县| 乐都县| 涿州市| 水城县| 宣威市| 浮梁县| 辽阳市| 秦皇岛市| 扎赉特旗| 石家庄市| 会泽县| 苍山县| 浮梁县| 嘉峪关市| 西丰县| 广东省| 津南区| 洞头县| 桂林市| 柳江县| 资源县| 遂溪县| 临泽县| 平江县| 石景山区| 青海省| 凤翔县| 兰州市| 当阳市| 商南县| 五河县| 云安县| 宜兰县| 延安市| 寻甸| 万山特区|