• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于多層次細(xì)粒度評論挖掘的圖書影響力評價研究

      2020-04-06 03:25周清清章成志
      圖書與情報 2020年6期
      關(guān)鍵詞:在線評論

      周清清 章成志

      摘? ?要:海量的在線評論表達(dá)了用戶對于圖書整體及其內(nèi)容、印刷等屬性的觀點(diǎn)與態(tài)度,能夠反映圖書的影響力。文章對圖書在線評論進(jìn)行多層次細(xì)粒度挖掘從而評價圖書影響力。首先獲取圖書的在線評論數(shù)據(jù),然后細(xì)粒度挖掘圖書評論以獲取評價指標(biāo),并且通過比較多個文本表示方法及構(gòu)建領(lǐng)域情感詞典提高指標(biāo)挖掘的性能,最后整合評價指標(biāo)獲取圖書影響力結(jié)果。實(shí)驗(yàn)結(jié)果表明,雖然存在學(xué)科差異,但是圖書的在線評論可以作為圖書影響力評價的有效資源。此外,在研究語料中,基于One-hot文本表示方法的評論情感判斷性能優(yōu)于基于主題模型與基于深度學(xué)習(xí)的方法,同時,考慮模糊情感詞的情感詞典能夠有效提升情感判斷的性能。

      關(guān)鍵詞:圖書影響力評價;在線評論;評論挖掘;文本表示;情感詞典

      Abstract Massive online reviews express users' opinions and attitudes towards books and their aspects (e.g. content, printing etc.), thus reflecting the impacts of books. This paper conducted multi-level fine-grained mining of online book reviews to evaluate the impacts of books. This paper first collected books' online reviews. Then, fine-grained book review mining was conducted to get evaluation metrics, and multiple text representation methods were compared and domain sentiment lexicons were constructed to improve the performance of metric mining. Finally, evaluation metrics were integrated to identify book impacts. The experimental results show that although there are disciplines differences, online book reviews can be used as an effective resource for book impact assessment. In addition, in this corpus, the performance of one-hot text representation is superior to that of topic model based methods and the deep learning based method. Meanwhile, sentiment lexicon with fuzzy sentiment words can effectively improve the performance of sentiment classification.

      Key words book impact assessment; online reviews; review mining; text representation; sentiment lexicon

      圖書影響力評價研究能夠推薦優(yōu)秀作品,為大眾讀者提供信息參考,為科研人員提供信息指導(dǎo),幫助了解學(xué)科發(fā)展趨勢與前沿方向。同時能夠指導(dǎo)科研成果的評定,幫助識別高影響力作者,并為評價科研機(jī)構(gòu)的學(xué)術(shù)競爭力提供依據(jù)。因此,判斷圖書的影響力是非常有意義的?,F(xiàn)有研究多數(shù)利用圖書的被引頻次評價圖書影響力[1-2]。此外,大量的替代計量資源也被廣泛用于評價圖書的影響力,如館藏信息[3]、借閱信息[4]等。然而,被引頻次與替代計量指標(biāo)均忽略了內(nèi)容層面的信息,無法識別用戶的真實(shí)意圖。

      與此同時,隨著Web 2.0的迅速發(fā)展,人們越來越傾向于在線購買圖書,并留下了海量的在線圖書評論。這些在線評論表達(dá)了用戶對于圖書的觀點(diǎn),能夠用于評價圖書的影響力。因此,本文將對圖書的在線評論進(jìn)行多層次細(xì)粒度的挖掘,識別用戶對圖書整體及其各個屬性的態(tài)度,從而用于判斷圖書的影響力。具體而言,我們首先獲取圖書的在線評論數(shù)據(jù)。其次,細(xì)粒度挖掘圖書評論獲取基于在線評論的圖書評價指標(biāo),并且通過比較不同的文本表示方法及構(gòu)建基于語料的情感詞典確保指標(biāo)挖掘的性能。最后,整合評價指標(biāo)獲取圖書影響力結(jié)果。實(shí)驗(yàn)結(jié)果表明,雖然存在學(xué)科差異,圖書的在線評論能夠作為圖書影響力評價有效的補(bǔ)充資源。

      1? ?相關(guān)工作

      1.1? ? 圖書影響力評價

      傳統(tǒng)的學(xué)術(shù)出版物評價主要基于被引頻次。如蘇新寧[1]借助中國社會科學(xué)引文索引(CSSCI)對中國人文社會科學(xué)圖書學(xué)術(shù)影響進(jìn)行了分析,給出了人文社會科學(xué)各學(xué)科最有學(xué)術(shù)影響力的前5種國內(nèi)學(xué)術(shù)著作;Ye[5]基于BKCI 提出了Chinese Book Citation Index數(shù)據(jù)庫;Zuccala和Cornacchia[6]利用Scopus數(shù)據(jù)中的被引數(shù)據(jù)評價圖書影響力。傳統(tǒng)的基于引用頻次的評價方法越來越不適用于Web2.0時代,許多研究人員開始嘗試用替代指標(biāo)進(jìn)行圖書的影響力評價。如White等[7]提出利用圖書的館藏資源評價圖書影響力;Shema等[8]分析了發(fā)布在ResearchBlogging.org的博客信息,并證明了博客被引頻次也可作為評價影響力的替代資源;Zuccala[9]通過計算Goodreads中的讀者等級從而計量歷史領(lǐng)域?qū)W術(shù)著作的廣義影響力。

      總結(jié)而言,基于頻次指標(biāo)的評價方法具有可行性,且操作簡單。然而,許多圖書并未被BKCI等數(shù)據(jù)庫收錄。因此,難以利用被引頻次的方法對這類圖書進(jìn)行影響力評價。同時,替代計量的方法雖然眾多,但缺乏內(nèi)容信息無法識別虛假引證與負(fù)面引證。因此,頻次信息確實(shí)是評價圖書的一種有效的方式,但其缺點(diǎn)也是不能忽視的。

      為彌補(bǔ)基于頻次方法的不足,已有研究嘗試?yán)脠D書相關(guān)的內(nèi)容信息進(jìn)行圖書的影響力評價,如圖書的評論內(nèi)容、引文內(nèi)容等。Gorraiz等[10]發(fā)現(xiàn)圖書評論能夠作為引用指標(biāo)一個替代指標(biāo);Kousha和Thelwall[11]驗(yàn)證了來自Choice網(wǎng)站的學(xué)術(shù)評論能否系統(tǒng)地用于評價圖書學(xué)術(shù)影響力、理解力以及教育價值的指標(biāo)。Kayvan和Mike[12]利用亞馬遜評論進(jìn)行圖書的影響力評價;Zhou等[13]通過多粒度的挖掘在線評論從而評價學(xué)術(shù)著作的影響力;章成志等[14]基于引文內(nèi)容分析中文圖書的被引行為,從而用于優(yōu)化基于被引頻次的圖書影響力評價研究。

      從以上分析可以看出,已有研究基于內(nèi)容層面的信息進(jìn)行圖書的影響力分析,但仍存在明顯不足。如基于在線評論挖掘的影響力評價方法多數(shù)只進(jìn)行了粗粒度的情感分析,并未對用戶的評論內(nèi)容進(jìn)行深度挖掘。

      1.2? ? 評論挖掘

      評論挖掘即從海量評論信息中挖掘出用戶關(guān)注的信息,其中最主要的技術(shù)為情感分析。本文主要涉及篇章級情感分析與屬性級情感分析。

      篇章級情感分析的目的是判斷整篇文檔的情感傾向。研究方法主要可以分為兩類:監(jiān)督學(xué)習(xí)方法與非監(jiān)督學(xué)習(xí)方法。監(jiān)督學(xué)習(xí)方面, Dey等[15]整合樸素貝葉斯與決策樹判斷產(chǎn)品評論的情感極性;Al-Amrani等[16]比較了五種不同的分類器,包括PART、支持向量機(jī)、決策樹、樸素貝葉斯和logistic回歸,用于識別最優(yōu)分類器。在非監(jiān)督學(xué)習(xí)方面,Mandal和Gupta[17]利用基于詞典的文本分類算法來分析和預(yù)測在線評論中用戶的情感極性;Almatarneh[18]基于自動構(gòu)建的,包含最消極和最積極詞匯的情感詞典來識別極端情感。

      屬性層情感分析致力于更細(xì)粒度的評論分析,識別屬性及其情感,包括屬性識別與屬性情感判斷。在基于監(jiān)督學(xué)習(xí)的屬性抽取方面,Kobayashi等[19]利用監(jiān)督學(xué)習(xí)方法同時抽取屬性、屬性間關(guān)系并識別產(chǎn)品類型;Jin和Ho[20]利用詞匯化HMM抽取屬性。該方法自然地整合了語言特征,如詞性和上下文線索進(jìn)行自動學(xué)習(xí)。在基于非監(jiān)督學(xué)習(xí)的屬性抽取方面,Hu和Liu[21]認(rèn)為用戶多次提及的詞匯即為屬性詞,因此該方法利用詞頻抽取熱門屬性。Popescu和Etzioni[22]通過計算候選屬性詞的PMI,從而過濾非屬性詞,提高屬性抽取的性能。屬性情感分類即確定每個屬性在句中的情感傾向。Boiy和Moens[23]以及Jiang等[24]利用解析器來生成屬性集并對其進(jìn)行分類。Thet等[25]提出了一種細(xì)粒度的情感分析方法,該方法借助情感詞典SentiWordNet確定評論中各個屬性的情感傾向和情感強(qiáng)度。

      總結(jié)而言,目前多數(shù)屬性抽取研究主要挖掘產(chǎn)品的主要屬性,忽略了同義屬性聚類,難以全面挖掘產(chǎn)品屬性。在情感分析方面,監(jiān)督學(xué)習(xí)方法的標(biāo)注成本高,而基于詞典的方法針對模糊搭配的屬性情感分析研究相對較少,且算法相對復(fù)雜。

      綜上所述,可以看出圖書影響力評價研究中基于頻次的方法是目前主要研究方法,該方法利用與期刊評價、論文評價類似的方法,主要依靠一些傳統(tǒng)的評價指標(biāo),如借閱量、被引量等,這在一定程度上確實(shí)能反映出圖書的影響力。然而,由于圖書存在特殊性,傳統(tǒng)的學(xué)術(shù)影響力評價指標(biāo)尚不能全面和深入地反映其影響力。當(dāng)前,互聯(lián)網(wǎng)上比較容易獲取圖書相關(guān)的內(nèi)容層面的信息,如用戶在社交網(wǎng)絡(luò)上產(chǎn)生的海量評論,為圖書的評價提供了新的契機(jī)。因此,本文將利用細(xì)粒度情感分析進(jìn)行基于在線評論的圖書影響力評價研究,比較多種不同的文本表示方式獲取精準(zhǔn)的用戶態(tài)度,同時構(gòu)建基于語料的情感詞典準(zhǔn)確判斷屬性情感傾向,從而得到更加細(xì)粒度的圖書影響力評價結(jié)果。

      2? ?研究框架

      2.1? ? 圖書影響力評價

      基于圖書的在線評論進(jìn)行圖書的影響力評價,可以得出圖書影響力評價研究框架(見圖1)。首先獲取圖書及其在線評論作為研究數(shù)據(jù);其次利用多層次細(xì)粒度的情感分析獲取基于在線評論的評價指標(biāo),具體而言,即比較幾種不同的文本表示方法用于判斷評論的情感極性。同時,抽取評論中提及的圖書屬性,并構(gòu)建領(lǐng)域情感詞典識別各個屬性在評論中的情感傾向,從而得到基于在線評論的圖書評價指標(biāo);然后對評價指標(biāo)進(jìn)行處理,包括歸一化及權(quán)重計算,從而得到圖書影響力得分;最后對評價結(jié)果進(jìn)行分析,并與現(xiàn)有的評價指標(biāo)進(jìn)行相關(guān)性分析,從而驗(yàn)證本文方法的可靠性。

      2.2? ? 實(shí)驗(yàn)數(shù)據(jù)

      本文以圖書的在線評論作為實(shí)驗(yàn)數(shù)據(jù),首先,通過比較亞馬遜的中文圖書類目與中國學(xué)科類目確定了圖書的學(xué)科,包括計算機(jī)科學(xué)、文學(xué)、法學(xué)、醫(yī)學(xué)以及體育學(xué);其次,采集了這五個學(xué)科下圖書在亞馬遜的評論,共采集了6282冊圖書的50798條評論,包括圖書的ISBN、評論者、評論星級以及評論內(nèi)容數(shù)據(jù)。

      同時,還需采集用于圖書評價的其他數(shù)據(jù),包括圖書的被引頻次、銷量及館藏信息。首先,通過百度學(xué)術(shù)[26],匹配圖書的題名、作者、發(fā)表年份獲取對應(yīng)圖書的被引信息;其次,通過亞馬遜匹配圖書的ISBN信息獲取圖書的銷量信息;然后,通過OCLC獲取圖書的館藏信息,包括圖書的館藏總量以及圖書在各個地區(qū)的館藏信息。

      2.3? ? 篇章層情感分析

      篇章層情感分析旨在識別用戶評論中表達(dá)的對于圖書的整體情感傾向,包括正面情感與負(fù)面情感。本文采用監(jiān)督學(xué)習(xí)方法識別評論的整體情感極性。

      2.3.1? ?篇章層情感分析關(guān)鍵技術(shù)

      現(xiàn)有研究表明,監(jiān)督學(xué)習(xí)方法的關(guān)鍵是抽取有效的特征[27]。換言之,本文中篇章層情感分析的關(guān)鍵任務(wù)是合理地抽取文本特征,從而將文本表示為向量形式。因此,本文比較了幾種不同的文本表示方法,包括One-hot表示模型[28]、LSA(Latent Semantic Analysis)矩陣分解模型[29]、LDA(Latent Dirichlet Allocation)文檔生成模型[30]以及Doc2Vec模型[31]。

      (1)基于One-hot表示模型的文本表示。目前,最常用的文本表示方法是One-hot表示。這種方法把每個文本表示為一個很長的向量。這個向量的維度是詞典大小。因此,可以首先通過特征選擇構(gòu)建詞典;然后計算詞典中每個特征詞在各個文本中的特征權(quán)重;最后得到每個文本的向量表示。在研究中,我們采用CHI方法抽取特征構(gòu)成特征詞典[32]。根據(jù)特征詞典計算各個特征詞在文本中的特征權(quán)重。本文采用TF-IDF(Term Frequency–Inverse Document Frequency)進(jìn)行特征權(quán)重計算[33]。

      (2)基于LSA矩陣分解模型的文本表示。LSA也被稱為LSI(latent semantic index),基本思想就是把高維的文檔降到低維空間。即利用Gensim的LSI模型[34]進(jìn)行基于LSI的文本表示。首先選定主題數(shù)N,然后利用LSI模型判斷每個文本隸屬于各個主題的概率,從而獲得文本-主題矩陣,最終獲得各個文本的主題概率表示。

      (3)基于LDA文檔生成模型的文本表示。LDA,即隱含狄利克雷分布,按照文本生成的過程,使用貝葉斯估計的統(tǒng)計學(xué)方法,將文本集中每篇文本的主題按照概率分布的形式給出。本文利用Gensim的LDA模型[35]進(jìn)行基于LDA的文本表示。首先確定主題數(shù)N,然后利用LDA模型判斷每個文本隸屬于各個主題的概率,從而獲得文本-主題矩陣,最終獲得各個文本的主題概率表示。

      (4)基于Doc2Vec模型的文本表示。Doc2Vec是從Word2Vec的基礎(chǔ)上發(fā)展而來。Word2vec[36]是將詞表示為實(shí)數(shù)值向量的一種高效的算法模型。然而,Word2Vec模型是基于詞的維度進(jìn)行語義分析的,不考慮上下文和單詞順序信息,因此在進(jìn)行文本分析時會丟失重要信息,所以在進(jìn)行文本分析時需要采用基于Doc2Vec的模型[31]。本文使用Gensim的Doc2Vec模型[37]進(jìn)行基于Doc2Vec的文本表示。首先確定文本向量的維度L,然后利用Doc2Vec模型中的Distributed Memory算法將文本表示為向量,最終獲得各個文本的向量表示。

      2.3.2? ?篇章層情感分析數(shù)據(jù)標(biāo)注及分類性能評估指標(biāo)

      (1)數(shù)據(jù)標(biāo)注。由于本文采用監(jiān)督學(xué)習(xí)方法進(jìn)行篇章層情感分析,所以需要人工標(biāo)注訓(xùn)練語料。在研究中,我們共標(biāo)注了10000條評論語料。其中,8000條作為訓(xùn)練集(包括4000條正面評論與4000條負(fù)面評論),2000條作為測試集(包括1000條正面評論與1000條負(fù)面評論)。

      (2)分類性能評估指標(biāo)。我們利用以下指標(biāo)進(jìn)行分類性能的評估,包括:宏平均精度、宏平均召回率以及F1值[33],可以得出評估指標(biāo)表(見表1)及計算公式:

      2.4? ? 屬性層情感分析

      屬性層情感分析包括屬性抽取與屬性情感判斷兩個子任務(wù)。其中,屬性抽取的目的在于識別評論中提及的圖書屬性,如:內(nèi)容、價格、印刷等。同時,將同義屬性聚類,如“價格”“售價”“價錢”等。依據(jù)文獻(xiàn)[38]可以獲取圖書屬性,共獲得12類屬性,包括內(nèi)容、作者、紙張、包裝、封面、物流、價格、插圖、印刷、版本、字體、文筆。屬性情感判斷是指判斷用戶對屬性的情感傾向。本文采用基于情感詞典的方法判斷屬性的情感傾向。因此,本節(jié)的關(guān)鍵任務(wù)即為情感詞典的構(gòu)建。

      2.4.1? ?情感詞典構(gòu)建

      本文采用基于情感詞典的方法判斷屬性的情感傾向,而現(xiàn)有通用情感詞典難以識別特定領(lǐng)域情感詞和模糊情感詞的情感傾向,如大、小、高、低等。不同的模糊情感詞搭配不同的屬性將會表達(dá)不同的情感傾向,如“價格高”與“清晰度高”為相反的情感極性。因此,本文將構(gòu)建基于語料的領(lǐng)域情感詞典,以現(xiàn)有的通用詞典為基礎(chǔ),結(jié)合連接關(guān)系構(gòu)建基于圖書評論的情感詞典(見圖2)。

      (1)虛擬句識別。對所有評論進(jìn)行分詞、詞性標(biāo)注。然后,將評論按照標(biāo)點(diǎn)符號進(jìn)行斷句,得到多個分句后,判斷句子是否為虛擬語氣。如果句子為虛擬語氣,則跳過該句。以是否存在虛擬詞匯判斷句子是否為虛擬句,其中虛擬詞匯包括:要是、希望、但愿、如果、換成、假如、原來、是否、以為。

      (2)連接關(guān)系識別?;谶B接關(guān)系的極性轉(zhuǎn)移規(guī)則將形容詞劃分為兩個集合A、B。具體而言,如出現(xiàn)可轉(zhuǎn)折連接詞,則將連接詞前后的形容詞分放于兩個集合,否則放于同一集合。同時,如形容詞為模糊情感詞,則將其與短句中屬性詞作為詞對放置在集合中。此外,我們尋找形容詞前后是否存在否定詞,從而確定是否要翻轉(zhuǎn)其情感極性。具體而言,我們設(shè)置窗口大小為3,識別形容詞前后是否存在否定詞。如存在否定,則將其情感極性翻轉(zhuǎn)(見表2)。

      (3)情感傾向生成。通過將情感詞典HowNet[39]與NTUSD[40]合并去重得到基礎(chǔ)情感詞典,然后過濾其中的模糊情感詞,將處理后的情感詞典作為種子情感詞,利用種子詞確定集合A、B的情感傾向。規(guī)則是:如果集合中褒義詞數(shù)量高于貶義詞,則該集合為褒義集合,否則為貶義集合。

      首先利用種子詞對集合中的情感詞進(jìn)行情感傾向校正。然后將校正后的情感詞加入種子詞集,并更新詞匯被判斷為該極性的頻數(shù)。如前所述,用戶在給出關(guān)于圖書的評價時,往往會給出正面評價,因此語料中正面評論比例要高于負(fù)面評論。所以,對于既被判斷為正面情感詞又被判斷為負(fù)面情感詞的情感詞,分別計算其被判斷為正面與負(fù)面情感詞的頻數(shù),如正面頻數(shù)大于2倍的負(fù)面頻數(shù),則將其視為正面情感詞,否則為負(fù)面情感詞。

      最后,重復(fù)以上步驟,直至遍歷全部語料。最終保留詞頻數(shù)大于等于5的情感詞構(gòu)建基于圖書語料的情感詞典。

      2.4.2? ?屬性情感判斷實(shí)驗(yàn)數(shù)據(jù)標(biāo)注

      為了評估屬性情感分類的性能,本文共標(biāo)注了5000條包含圖書屬性的在線評論。由于一條評論可能提及多個屬性,最終得到包含12個圖書屬性的7796個情感傾向標(biāo)注。在評估指標(biāo)方面采用與篇章情感分析相同的指標(biāo),即宏平均精度、宏平均召回率以及F1值。

      2.5? ? 圖書影響力計算

      2.5.1? ?基于在線評論的指標(biāo)得分計算

      本文利用在線評論信息進(jìn)行圖書影響力評價,首先需要計算每種圖書各個指標(biāo)的值,從而得到最終的圖書影響力得分。經(jīng)過細(xì)粒度的評論挖掘,共得到四個評價指標(biāo),包括正面評論數(shù)、負(fù)面評論數(shù)、星級得分以及屬性滿意度(各指標(biāo)的計算方法見表3)。

      2.5.2? ?其他圖書影響力評價指標(biāo)得分計算

      同理,可得出其他圖書影響力評價指標(biāo)得分計算方法(見表4)。

      2.5.3? ?圖書影響力得分計算

      由于不同指標(biāo)得分的量綱、單位等存在差別,因此首先需要對各個指標(biāo)進(jìn)行標(biāo)準(zhǔn)化處理,從而使得各個指標(biāo)存在可比性。本文采用反正切函數(shù)轉(zhuǎn)換進(jìn)行歸一化計算[41]。然后,我們利用熵權(quán)法計算各個指標(biāo)的權(quán)重[42]。最后,通過對各個指標(biāo)的加權(quán)求和得到各個圖書的影響力得分(計算過程見表5)。

      3? ?實(shí)驗(yàn)及結(jié)果分析

      3.1? ? 多層次細(xì)粒度情感判斷性能分析

      本文通過多層次細(xì)粒度的評論挖掘識別用戶對圖書及其屬性的態(tài)度,通過比較不同的挖掘方法從而獲取更加精準(zhǔn)圖書評價指標(biāo)結(jié)果。

      3.1.1? ?篇章層情感分析結(jié)果分析

      本文基于幾種不同的文本表示方法進(jìn)行評論文本的表示,然后利用SVM(Suport Vector Machine)分類器進(jìn)行情感分類模型的訓(xùn)練,最終識別每一條評論中的情感傾向,得出不同文本表示方法的情感分類性能評估結(jié)果(見表6)。可以看出,基于One-hot文本表示方法的分類性能較優(yōu),各項(xiàng)指標(biāo)得分均高于0.9。同時,不同的主題數(shù)(N=5、10、15)對于LSI與LDA文本表示方法的分類性能有明顯的影響。主題數(shù)越多其分類性能越好,但是隨著主題數(shù)的增加,性能上升幅度變緩。對于Doc2Vec的文本表示方法,不同的向量維度(L=100、200、300)對于分類性能有明顯的影響。維度L=100時,分類性能最優(yōu)。

      根據(jù)上述分析可以發(fā)現(xiàn),基于One-hot文本表示方法的分類性能優(yōu)于其他三種方法,其次為基于LSI的表示方法,基于LDA的方法性能最差。因此,本文將利用基于One-hot的文本表示方法對全部評論語料進(jìn)行篇章層情感分析,并得出最終情感分類結(jié)果(見圖3)??梢钥闯觯鄶?shù)用戶在圖書評論中給出正面評價。

      3.1.2? ?屬性情感判斷實(shí)驗(yàn)及結(jié)果分析

      本文首先利用連接關(guān)系構(gòu)建基于圖書評論語料的情感詞典,得到相應(yīng)的統(tǒng)計結(jié)果(見表7)。由結(jié)果可以看出,本文構(gòu)建的情感詞典包含1050個正面情感詞與913個負(fù)面情感詞,較通用情感詞典增加了1935個情感詞,其中包括32個模糊情感詞。

      然后,依據(jù)構(gòu)建的情感詞典對全部50798條圖書在線評論中提及的屬性進(jìn)行情感分類。為驗(yàn)證情感詞典的性能,對基于幾種不同的情感詞典的分類結(jié)果進(jìn)行比較,得出屬性情感分析性能評估結(jié)果(見表8)。其中,M1為基于通用情感詞典進(jìn)行情感判斷,即將情感詞典HowNet與NTUSD合并去重得到的情感詞典進(jìn)行屬性的情感判斷;M2為合并通用情感詞典與本文構(gòu)建的情感詞典進(jìn)行情感判斷;M3為利用本文構(gòu)建的領(lǐng)域情感詞典進(jìn)行屬性情感判斷;M4為去除模糊情感詞的領(lǐng)域情感詞典進(jìn)行屬性情感判斷。由評估結(jié)果可以看出,M2的分類性能優(yōu)于M1,說明本文構(gòu)建的領(lǐng)域情感詞典能夠提升屬性情感分類的性能。同時,M3的分類性能優(yōu)于M2,說明通用情感詞典中的部分情感詞對于本文語料的情感傾向判斷存在干擾,換言之,通用情感詞典并不能完全適用于不同領(lǐng)域語料的情感判斷。此外,M3的分類性能優(yōu)于M4,說明模糊情感詞的情感極性判斷對于分類性能的影響明顯,在進(jìn)行屬性情感判斷時,需要考慮模糊情感詞與不同屬性詞搭配所表達(dá)的情感傾向。總結(jié)而言,M3的性能最優(yōu),說明本文構(gòu)建的情感詞典能夠有效地提升屬性情感分類的性能。其次,考慮模糊情感詞是很有必要的。

      為了進(jìn)一步了解用戶對于不同屬性的觀點(diǎn),對進(jìn)行各個屬性的滿意度(見圖4)。其中橫坐標(biāo)為圖書的各個屬性,縱坐標(biāo)為屬性滿意度平均值??梢钥闯?,用戶對于不同屬性的滿意度存在差異。內(nèi)容屬性的滿意度最高,其次為物流屬性。滿意度最低的為封面屬性,其次為字體屬性。同時可以看出,當(dāng)前圖書的屬性滿意度偏低,其中滿意度最高的內(nèi)容屬性得分也低于0.55。因此,圖書作者、出版社以及銷售單位需要在圖書生產(chǎn)的各個環(huán)節(jié)有針對地提升圖書的屬性。在優(yōu)化圖書內(nèi)容的同時,需要關(guān)注圖書的封面、紙張等外觀方面的屬性,同時需要選擇高質(zhì)量的出版社,以提高印刷、紙張等屬性的滿意度;此外,高效的物流、優(yōu)質(zhì)的包裝等也是選擇銷售單位時需考量的因素。

      3.2? ?圖書影響力評價結(jié)果分析

      經(jīng)過上述數(shù)據(jù)處理與分析,可以得到基于多源數(shù)據(jù)的圖書影響力評價得分(見圖5)。由圖可以看出,多數(shù)圖書的影響力得分低于0.1。這一結(jié)果基本符合二八定律。針對這一結(jié)果,圖書涉及的學(xué)者以及多個機(jī)構(gòu)需要進(jìn)行有針對的資源分配。從圖書作者的角度出發(fā),需要致力于圖書綜合水平的提升,使之處于高影響力圖書集,才能獲得來自多方面的關(guān)注。但同時,圖書作者應(yīng)了解大多數(shù)的圖書屬于相對低的影響力集合,換言之,進(jìn)入高影響力圖書集合是非常困難和具有挑戰(zhàn)性的,作者需保持樂觀的心態(tài),不因圖書影響力的高低而放棄圖書的創(chuàng)作。從出版行業(yè)的角度來看,出版單位需要有差異地投放出版資源,增加高影響力圖書的出版數(shù)量、版次,版本(精裝版、電子版等)。就圖書館而言,需要依據(jù)影響力評價結(jié)果做出合理的采購決策。高影響力圖書需要增加館藏數(shù)量、版本等,以供于借閱、收藏等,而低影響力圖書可以適當(dāng)減少館藏數(shù)量等,從而合理地配置資源。對于圖書的銷售商而言,可以針對圖書的影響力結(jié)果進(jìn)行高效的采購以及制定營銷策略。在采購方面,高影響力圖書需要保證充足的貨源以及多樣化的版本供消費(fèi)者選擇,而對于低影響力圖書則可以適量減少采購數(shù)量。在營銷方面,保證高影響力圖書良好的包裝以及高效的物流服務(wù),而低影響力圖書營銷則需要銷售商增加宣傳、適當(dāng)調(diào)整價格等,以減少庫存壓力。此外,也可以進(jìn)行圖書組合優(yōu)惠銷售等。最后,對于用戶(讀者)而言,可以根據(jù)影響力評價結(jié)果進(jìn)行圖書的選擇。

      將本文計算得到的圖書影響力得分與其他圖書影響力評價指標(biāo)進(jìn)行相關(guān)分析,得出分析結(jié)果(見表9)。利用圖書的被引頻次度量圖書的學(xué)術(shù)影響力[43],利用圖書的銷量及館藏指標(biāo)評價圖書的使用影響力[7]??梢钥闯?,基于在線評論的圖書影響力得分與圖書被引存在顯著的正相關(guān)關(guān)系,表明基于在線評論的圖書影響力評價能夠用于衡量圖書的學(xué)術(shù)影響力,為圖書的學(xué)術(shù)影響力評價提供更多的補(bǔ)充信息。同時,基于在線評論的圖書影響力得分與銷量顯著正相關(guān),且與圖書的館藏數(shù)量存在顯著的負(fù)相關(guān)關(guān)系,這說明基于在線評論的圖書影響力評價能夠用于衡量圖書的使用影響力,但是面向不同的使用目的存在不同的影響極性與影響強(qiáng)度。

      3.3? ? 圖書影響力評價學(xué)科差異性分析

      為了比較不同學(xué)科的差異,本文分析了各個學(xué)科圖書基于在線評論的影響力得分與其他評價指標(biāo)之間的相關(guān)性(見表10)??梢钥闯?,不同學(xué)科圖書影響力與其他指標(biāo)之間的相關(guān)性存在差異。在學(xué)術(shù)影響力方面,僅有計算機(jī)科學(xué)與醫(yī)學(xué)圖書的影響力得分與被引存在顯著的正相關(guān)關(guān)系,而法學(xué)與體育學(xué)圖書的影響力得分與被引存在顯著的負(fù)相關(guān)關(guān)系。在使用影響力方面,相關(guān)系數(shù)最高的是文學(xué)圖書的影響力得分與銷量之間的相關(guān)性,而該相關(guān)性在法學(xué)領(lǐng)域則比較低。這說明即使是同一類的圖書(人文社科類),也存在明顯差異。同時,僅有醫(yī)學(xué)與體育學(xué)圖書的影響力與館藏顯著相關(guān),其他學(xué)科圖書與館藏指標(biāo)沒有顯著的相關(guān)關(guān)系。因此可以認(rèn)為,不同學(xué)科的圖書在使用影響力方面差異是非常明顯的?;谏鲜龇治?,我們認(rèn)為學(xué)科差異是真實(shí)存在的,即使是隸屬于同一類別的學(xué)科也存在明顯差異。

      4? ?相關(guān)討論

      本文基于圖書的在線評論進(jìn)行圖書影響力評價。與基于頻次類評價研究相比,能夠彌補(bǔ)頻次類評價數(shù)據(jù)在內(nèi)容方面的不足,識別用戶的意圖與態(tài)度。通過與其他現(xiàn)有的圖書影響力評價指標(biāo)的相關(guān)性分析驗(yàn)證基于在線評論數(shù)據(jù)評價影響力的可靠性。顯著但較低的相關(guān)系數(shù)表明在線評論可用于評價圖書的多維度的影響力。更重要的是,在線評論能夠提供與被引、銷量或館藏不同的評價角度,從而對學(xué)術(shù)評價、使用評價等數(shù)據(jù)進(jìn)行補(bǔ)充,豐富圖書影響力評價資源。因此,如何將在線評論數(shù)據(jù)與現(xiàn)有的頻次數(shù)據(jù)進(jìn)行有效的整合,豐富圖書影響力評價的維度是值得研究的方向。

      為了得到更加豐富的分析結(jié)果,本文還對基于在線評論的評價結(jié)果與館藏指標(biāo)(館藏數(shù)量與館藏地區(qū))進(jìn)行了相關(guān)性分析(見表11)。結(jié)果表明,基于在線評論的影響力得分與館藏指標(biāo)存在顯著的負(fù)相關(guān)關(guān)系,即基于在線評論的影響力越大,其館藏數(shù)量及地區(qū)將會減少。這也表明,如果圖書被廣泛在線購買或者閱讀,那么用戶對于圖書館的閱讀需求將會降低。

      對各學(xué)科圖書影響力評價指標(biāo)與館藏指標(biāo)進(jìn)行差異分析(見表12)可以看出,不同學(xué)科圖書影響力與館藏指標(biāo)之間的相關(guān)性存在差異。計算機(jī)科學(xué)圖書與館藏地區(qū)存在顯著負(fù)相關(guān)關(guān)系,醫(yī)學(xué)圖書與館藏分布顯著正相關(guān),文學(xué)圖書與館藏數(shù)量顯著負(fù)相關(guān),其他學(xué)科圖書與館藏指標(biāo)沒有顯著的相關(guān)關(guān)系。因此,可以認(rèn)為不同學(xué)科的圖書在圖書館用戶影響力方面差異是非常明顯的,針對具體的館藏指標(biāo)而言,存在明顯的學(xué)科差異。

      此外,為了確保評論挖掘的性能,本文比較了四種不同的文本表示方法,實(shí)驗(yàn)結(jié)果表明One-hot的方法明顯優(yōu)于其他三種方法,包括深度學(xué)習(xí)方法。這表明,在實(shí)際的任務(wù)中,并沒有具有絕對優(yōu)勢的方法,需要根據(jù)具體任務(wù)情境及數(shù)據(jù)進(jìn)行不同方法的比較與選擇。

      本文也存在一些不足。首先,本文僅選擇了五個學(xué)科領(lǐng)域的圖書,沒有考慮其他領(lǐng)域的圖書情況,今后的工作中我們將嘗試更多的學(xué)科數(shù)據(jù),均衡人文社會科學(xué)與自然科學(xué)領(lǐng)域的學(xué)科及其圖書數(shù)量,從而提升研究價值;其次,本文僅選擇了來自亞馬遜的圖書評論,或許會造成評價結(jié)果的單一性。同時,由于亞馬遜用戶評論更加關(guān)注圖書的外部屬性(如物流、包裝等),對于圖書內(nèi)部屬性(如內(nèi)容、文筆等)的評價相對較少。今后,我們將整合來自更多平臺的圖書評論(如豆瓣、當(dāng)當(dāng)?shù)龋┻M(jìn)行綜合挖掘,豐富評論數(shù)據(jù)來源與維度;最后,在進(jìn)行評論挖掘時,本文未進(jìn)行虛假評論的識別,或許會降低挖掘結(jié)果的準(zhǔn)確性。今后,我們將著力于評論質(zhì)量的識別,從而提高評論挖掘的可信度。

      5? ?結(jié)語

      本文研究了基于在線評論進(jìn)行圖書影響力評價。為了驗(yàn)證本文方法的可靠性,將基于在線評論的影響力評價結(jié)果與現(xiàn)有的評價指標(biāo)進(jìn)行相關(guān)分析。顯著的相關(guān)系數(shù)表明,雖然存在學(xué)科差異,但是圖書的在線評論可以作為圖書影響力評價的有效參考資源。

      此外,針對評論情感傾向識別任務(wù),對四種不同文本表示方法進(jìn)行比較,實(shí)驗(yàn)結(jié)果表明基于本文語料,One-hot表示模型的文本表示的分類性能最優(yōu)。50798條在線評論分類結(jié)果表明,多數(shù)用戶在圖書評論中給出了正面評價。針對屬性情感極性判斷任務(wù),本文構(gòu)建了基于圖書語料的情感詞典,精確識別語料中情感詞的情感傾向,同時確定高、低、快、慢等模糊情感詞的極性。與通用情感詞典等詞典的比較結(jié)果表明,本文構(gòu)建的情感詞典能夠更加精確地抽取并識別語料中情感詞的情感傾向,取得最優(yōu)的屬性情感分類性能。

      作為對圖書影響評估的一個新視角,本文方法將成為評價出版物質(zhì)量的有效參考數(shù)據(jù)。其理論意義在于,出版物影響力評價應(yīng)該考慮內(nèi)容信息,而不僅僅是頻次信息。同時,本文對圖書在線評論的細(xì)粒度挖掘提出了建議。在實(shí)踐中,本文方法可以為學(xué)術(shù)交流、出版決策等提供有用的信息。

      參考文獻(xiàn):

      [1]? 蘇新寧.我國人文社會科學(xué)圖書被引概況分析——基于CSSCI數(shù)據(jù)庫[J].東岳論叢,2009(7):5-13.

      [2]? Abrizah A,Thelwall M.Can the Impact of Non-Western Academic Books Be Measured?An Investigation of Google Books and Google Scholar for Malaysia[J].Journal of the Association for Information Science & Technology,2014,65(12):2498-2508.

      [3]? White H D,Boell S K,Yu H,et al.Libcitations:A Measure for Comparative Assessment of Book Publications in the Humanities and Social Sciences[J].Journal of the American Society for Information Science & Technology,2014,60(6):1083-1096.

      [4]? Cabezas-Clavijo,Robinsongarcía N,Torressalinas D,et al.Most Borrowed Is Most Cited?Library Loan Statistics as a Proxy for Monograph Selection in Citation Indexes[C].Proceedings of the 14th international conference on scientometrics and informetrics,2013:1-14.

      [5]? Ye J.Development,Significance and Background Information About the“Chinese Book Citation Index”(Cbkci)Demonstration Database[J].Scientometrics,2014,98(1):557-564.

      [6]? Zuccala A,Cornacchia R.Data Matching,Integration,and Interoperability for a Metric Assessment of Monographs[J].Scientometrics,2016,108(1):465-484.

      [7]? White H D,Boell S K,Yu H,et al.Libcitations:A Measure for Comparative Assessment of Book Publications in the Humanities and Social Sciences[J].Journal of the American Society for Information Science & Technology,2009,60(6):1083-1096.

      [8]? Shema H,Bar-Ilan J,Thelwall M.Do Blog Citations Correlate with a Higher Number of Future Citations?Research Blogs as a Potential Source for Alternative Metrics[J].Journal of the Association for Information Science & Technology,2014,65(5):1018-1027.

      [9]? Haustein D S.Altmetrics for the Humanities:Comparing Goodreads Reader Ratings with Citations to History Books[J].2015,67(3):320-336.

      [10]? Gorraiz J,Gumpenberger C,Purnell P J.The Power of Book Reviews:A Simple and Transparent Enhancement Approach for Book Citation Indexes[J].Scientometrics,2014,98(2):841-852.

      [11]? Kousha K,Thelwall M.Alternative Metrics for Book Impact Assessment:Can Choice Reviews Be a Useful Source?[C].Proceedings of the 15th international conference on scientometrics and informetrics,2015:59-70.

      [12]? Kayvan K,Mike T,Can Amazon.Com Reviews Help to Assess the Wider Impacts of Books?[J].Journal of the Association for Information Science & Technology,2014,67(3):566-581.

      [13]? Zhou Q,Zhang C,Zhao S X,et al.Measuring Book Impact Based on the Multi-Granularity Online Review Mining[J].Scientometrics,2016,107(3):1435-1455.

      [14]? 章成志,李卓,趙夢圓,等.基于引文內(nèi)容的中文圖書被引行為研究[J].中國圖書館學(xué)報,2019,45(241):96-109.

      [15]? Dey L,Chakraborty S,Biswas A,et al.Sentiment Analysis of Review Datasets Using Naive Bayes and KNN Classifier[J]. International Journal of Information Engineering and Electronic Business,2016,8(4):54-62.

      [16]? Al-Amrani Y,Lazaar M,Elkadiri K E.Sentiment Analysis Using Supervised Classification Algorithms[C].Proceedings of the 2nd international Conference on Big Data,Cloud and Applications,2017:1-8.

      [17]? Mandal S,Gupta S.A Lexicon-Based Text Classification Model to Analyse and Predict Sentiments from Online Reviews[C].Porceedings of the International Conference on Computer,Electrical & Communication Engineering,2016:1-17.

      [18]? Almatarneh S.A Lexicon Based Method to Search for Extreme Opinions[J].Plos One,2018,13(5):e0197816.

      [19]? Kobayashi N,Inui K,Matsumoto Y.Extracting Aspect-Evaluation and Aspect-of Relations in Opinion Mining[C].Proceedings of the Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning,2007:521-574.

      [20]? Jin W,Ho H H.A Novel Lexicalized HMM-Based Learning Framework for Web Opinion Mining[C].Proceedings of the International Conference on Machine Learning,2009:465-472.

      [21]? Hu M,Liu B.Mining Opinion Features in Customer Reviews[C].Proceedings of the 19th national conference on Artifical intelligence,2004:755-760.

      [22]? Popescu A M,Etzioni O.Extracting Product Features and Opinions from Reviews[C].Proceedings of Human Language Technology Conference and Conference on Empirical Methods in Natural Language Processing,2005:339-346.

      [23]? Boiy E,Moens M F.A Machine Learning Approach to Sentiment Analysis in Multilingual Web Texts[J].Information Retrieval,2009,12(5):526-558.

      [24]? Jiang L,Yu M,Zhou M,et al.Target-Dependent Twitter Sentiment Classification Target-Dependent Twitter Sentiment Classification[C].Proceedings of the Association for Computational Linguistics:Human Language Technologies,2011:151-160.

      [25]? Thet T T,Na J-C,Khoo C S.Aspect-Based Sentiment Analysis of Movie Reviews on Discussion Boards[J].Journal of Information Science,2010,36(6):823-848.

      [26]? 百度學(xué)術(shù)[EB/OL].[2020-09-15].http://xueshu.baidu.com/.

      [27]? Yousefpour A,Ibrahim R,Hamed H N A.Ordinal-Based and Frequency-Based Integration of Feature Selection Methods for Sentiment Analysis[J].Expert Systems with Applications,2017(75):80-93.

      [28]? Salton G,Wong A,Yang C S.A Vector Space Model for Automatic Indexing[J].Communications of the ACM,1974,18(11):613-620.

      [29]? Deerwester S.Indexing by Latent Semantic Analysis[J].Journal of the Association for Information Science & Technology,1990,41(6):391-407.

      [30]? Blei D M,Ng A Y,Jordan M I.Latent Dirichlet Allocation[J].Journal of Machine Learning Research,20083(3):3993-1022.

      [31]? Le Q.Mikolov T,Distributed Representations of Sentences and Documents[C].Proceedings of the International Conference on International Conference on Machine Learning,2014:1-9.

      [32]? Yang Y,Pedersen J O.A Comparative Study on Feature Selection in Text Categorization[J].Advances in Information Sciences & Service Sciences,1997,4(3):412-420.

      [33]? Salton G,Mcgill M J.Introduction to Modern Information Retrieval[M].McGraw-Hill,1983:305-306.

      [34]? LSI模型[DB/OL].[2020-09-15].https://radimrehurek.com/gensim/models/lsimodel.html.

      [35]? LDA模型[DB/OL].[2020-09-15].https://radimrehurek.com/gensim/models/ldamodel.html.

      [36]? Word2vec模型[DB/OL].[2020-09-15].http://word2vec.googlecode.com/svn/trunk/.

      [37]? Doc2vec模型[DB/OL].[2020-09-15].https://radimrehurek.com/gensim/models/doc2vec.html.

      [38]? 周清清,章成志.在線用戶評論細(xì)粒度屬性抽取[J].情報學(xué)報,2017,36(5):484-493.

      [39]? 情感詞典HowNet[DB/OL].[2020-08-20].http://www.keenage.com.

      [40]? 情感詞典NTUSD[DB/OL].[2020-08-20].http://www.datatang.com/data/44317.

      [41]? Chien-Lih H.An Elementary Derivation of Euler's Series for the Arctangent Function[J].The Mathematical Gazette,2005,89(516):469-470.

      [42]? Nie H Z,Pan L,Qiao Y,et al.Comprehensive Fuzzy Evaluation for Transmission Network Planning Scheme Based on Entropy Weight Method[J].Power System Technology,2009,33(11):278-281.

      [43]? Kousha K,Thelwall M,Rezaie S.Assessing the Citation Impact of Books:The Role of Google Books,Google Scholar,and Scopus[J].Journal of the American Society for Information Science & Technology,2011,62(11):2147-2164.

      作者簡介:周清清,女,南京師范大學(xué)網(wǎng)絡(luò)與新媒體系講師;章成志,男,南京理工大學(xué)信息管理系教授。

      猜你喜歡
      在線評論
      消費(fèi)者個體特征對在線評論有效性的影響研究
      在線評論情感屬性的動態(tài)變化
      基于復(fù)雜網(wǎng)絡(luò)構(gòu)建面向主題的在線評論挖掘模型
      巧用“在線評論”提升圖書網(wǎng)上銷量
      消費(fèi)者個體行為偏好對在線評論真實(shí)性的影響機(jī)理研究
      临城县| 绥芬河市| 肇庆市| 额尔古纳市| 曲靖市| 邢台市| 越西县| 宿州市| 安庆市| 龙州县| 河西区| 长丰县| 瑞丽市| 武汉市| 静乐县| 邢台市| 临西县| 灵丘县| 张家界市| 将乐县| 石景山区| 自贡市| 青神县| 洪雅县| 广平县| 文安县| 吉隆县| 泰顺县| 吉林市| 长岛县| 枣庄市| 渭南市| 嘉荫县| 武穴市| 普洱| 登封市| 女性| 赣榆县| 泾源县| 河津市| 庆阳市|