徐勇 武雅利 李東勤 趙濤 焦夢蕾
〔摘要〕用戶生成內(nèi)容是Web20下由網(wǎng)絡(luò)用戶創(chuàng)作的互聯(lián)網(wǎng)信息,分析其相關(guān)理論研究進展從而為UGC的進一步研究及商業(yè)利用提供思路具有重要的參考意義。本文在界定了UGC產(chǎn)生的背景基礎(chǔ)上,從UGC基本范疇、生成動機、質(zhì)量問題和法律問題4方面,分析了UGC研究動態(tài);探究UGC情感分析中情感詞語和情感量化問題,歸納現(xiàn)有情感分析涉及的算法應(yīng)用。在研究現(xiàn)狀分析基礎(chǔ)上,指出下一步應(yīng)重點研究促進網(wǎng)絡(luò)用戶生產(chǎn)出高質(zhì)量UGC的激勵和約束政策,建立更加完善、準確的推薦模型,設(shè)計符合不同應(yīng)用領(lǐng)域的情感詞量化方法,構(gòu)建保護用戶隱私的UGC生產(chǎn)、利用機制。
〔關(guān)鍵詞〕Web 20;用戶生成內(nèi)容;研究動態(tài);情感分析
DOI:10.3969/j.issn.1008-0821.2018.11.022
〔中圖分類號〕G202〔文獻標識碼〕A〔文章編號〕1008-0821(2018)11-0130-06
Survey on Research Trend of User Generated ContentXu Yong1,2Wu Yali1Li Dongqin1Zhao Tao1Jiao Menglei1
(1.School of Management Science and Engineering,Anhui Finance and Economics University,
Bengbu 233000,China;
2.School of Statistics and Applied Mathematics,Anhui Finance and Economics University,
Bengbu 233000,China)
〔Abstract〕User Generation Content is an active topic in recent years under the condition of Web 20.Literatures on User Generation Content were reviewed.The paper introduced the background of UGC,then analyzed its research trends from four views,basic concept,generation motivation,quality and legal problem of UGC.Sentimental words and sentimental quantification in UGCs sentimental analysis were studied,and the application of algorithms used in the existing sentimental analysis was introduced.Finally,interesting works in the future,such as policies which could improve UGCs quality,recommendation models that could get high accuracy of UGC mining,quantitative method how to construct a sufficient sentimental dictionary for different area,privacy preserving of UGC,were proposed.
〔Key words〕Web 20;user generated content;research trends;sentiment analysis
Web 10時代是以網(wǎng)站編輯為主,用戶往往作為信息接受者而存在,信息的傳遞是單向的。在此基礎(chǔ)上的Web 20時代,強調(diào)發(fā)揮用戶的能動性,賦予用戶更多主動權(quán),信息在網(wǎng)站與用戶之間是雙向傳遞的關(guān)系,用戶不再僅僅是信息的消費者,還是信息制造者,“以人為本”是其區(qū)別于Web 10的主要特點。2004年,Web 20的概念產(chǎn)生于OReilly和Media Live International的一場頭腦風暴中,次年9月,Tim OReilly[1]在“What is Web 20”一文中概括了Web 20的概念,認為Web 20是網(wǎng)絡(luò)中利用集體智慧的平臺,數(shù)據(jù)庫管理是Web 20時代的核心競爭力,并給出Web 20的架構(gòu)圖。
用戶生成內(nèi)容(User Generated Content)正是在Web 20環(huán)境下應(yīng)運而生的產(chǎn)物,早期的研究中,用戶生成內(nèi)容還被稱作User Created Content(UCC)、Consumer Generated Media(CGM)等。2005年,有“互聯(lián)網(wǎng)女皇”之稱的摩根斯坦利首席分析師Mary Meeker首次提出用戶生成內(nèi)圖1Web 20架構(gòu)圖
2018年11月第38卷第11期現(xiàn)代情報Journal of Modern InformationNov.,2018Vol38No112018年11月第38卷第11期用戶生成內(nèi)容研究進展綜述Nov.,2018Vol38No11容(UGC,User-Generated Content)這一術(shù)語,并逐漸得到廣泛認可。同年4月,BBC率先試水建立一個UGC小組,在當年7月的倫敦地鐵爆炸案中,BBC在新聞播報中就使用了人們在逃離現(xiàn)場時抓拍的照片進行剪輯。次年,時代周刊(TIME)創(chuàng)新性地將“You”評選為其年度人物。2007年,世界經(jīng)濟合作與發(fā)展組織(OECD)在“Participative Web and User-Created Content:Web 20 Wikis and Social Networking”報告中將UGC的3大特點總結(jié)出來:互聯(lián)網(wǎng)上公開的內(nèi)容;內(nèi)容具有一定程度的創(chuàng)新性;由非權(quán)威人士及非專業(yè)手段創(chuàng)作發(fā)布。這3大特點也成為后續(xù)UGC研究的基礎(chǔ)。門亮等[2]認為對于用戶來說,用戶生成內(nèi)容可視為其在互聯(lián)網(wǎng)中的DIY(Do It Yourself),利用手機、電腦等設(shè)備,加入自身思考,制造出屬于自己的UGC,發(fā)布到互聯(lián)網(wǎng)中實現(xiàn)信息交流。
《紙牌屋》(House of Cards)作為利用大數(shù)據(jù)技術(shù)分析UGC應(yīng)用于影視作品中的一個里程碑,其制作理念是以用戶需求為主,根據(jù)用戶點擊量、用戶在某網(wǎng)頁停留時間等用戶信息,去制作用戶喜愛的作品?!都埮莆荨返闹谱鞴臼敲绹畲蟮脑诰€影片租賃提供商網(wǎng)飛(Netflix)公司,作為美國三大流媒體公司,Netflix擁有全球最好的個性化推薦系統(tǒng),以及大量用戶的收視習慣數(shù)據(jù)?!都埮莆荨返拈_拍不同于傳統(tǒng)影視劇的制作方法,Netflix公司在決定投拍前,充分收集用戶數(shù)據(jù),發(fā)現(xiàn)許多用戶愛看1990年BBC同名迷你劇《紙牌屋》,與此同時,導(dǎo)演大衛(wèi)·芬奇(David Fincher)和演員凱文·史派西(Kevin Spacey)也深得這些用戶喜愛。在這些知識的支持下,Netflix于2013年初推出其首部自制劇集《紙牌屋》。Netflix的用戶數(shù)量在《紙牌屋》正式上線后增加了300萬,足以說明了解用戶的需求對于影視制作的重要性[3-4]。近些年來,UGC在國內(nèi)影視作品中的應(yīng)用也愈加明顯,2009年,酷6在創(chuàng)業(yè)初期就提出了UGC模式[5]。作為國內(nèi)第一家視頻網(wǎng)站,優(yōu)酷所理解的UGC的重點在于“U”,也就是用戶的創(chuàng)意是最珍貴的,優(yōu)酷于2013年推出的“分享計劃”,目的就在于發(fā)掘并收集草根用戶的創(chuàng)意想法,為有想法的拍客創(chuàng)造舞臺。隨后國內(nèi)短視頻分享網(wǎng)站如雨后春筍般出現(xiàn),無疑也是充分體現(xiàn)UGC價值的有力佐證。除了在網(wǎng)絡(luò)視頻制作中發(fā)揮作用,越來越多的企業(yè)也意識到UGC的重要性,并順勢提出各種策略以利用UGC為企業(yè)帶來效益,如戴爾的Idea Storm、星巴克的My Starbucks Idea、網(wǎng)易云每日推薦、淘寶猜你喜歡等等。以星巴克為例,李奕瑩等[6-7]構(gòu)建了企業(yè)開放式創(chuàng)新社區(qū)(OIC)中UGC對其創(chuàng)新的貢獻價值研究模型,分析OIC中UGC信息質(zhì)量、UGC互動質(zhì)量、用戶創(chuàng)新行為和用戶互動行為這4個自變量對UGC貢獻價值的影響。并在OIC的條件下,建立創(chuàng)新價值鏈模型,分析星巴克的My Starbucks Idea策略。
用戶生成內(nèi)容頗有全民參與的含義,并且已經(jīng)影響到生活的很多領(lǐng)域。UGC充分利用Web 20環(huán)境為其提供的技術(shù)便利、更開放的社交氛圍,激發(fā)用戶創(chuàng)造UGC的積極性,UGC的作用也漸漸滲入到商業(yè)、新聞輿論、日常社交等層面。
1UGC相關(guān)概念
基于OECD在2007年給出的UGC 3大特點,用戶生成內(nèi)容可理解為普通的非權(quán)威人士在網(wǎng)絡(luò)上發(fā)布的帶有一定創(chuàng)意的內(nèi)容,其形式包括音頻、視頻、文本、圖片等等。若發(fā)布的主體是有一定影響力的權(quán)威人士或團隊,用戶生成內(nèi)容就會轉(zhuǎn)化為專業(yè)生產(chǎn)內(nèi)容(Professionally-generated Content,PGC),相比之下,PGC的影響力、質(zhì)量都遠遠高于普通用戶生成的UGC,這也是優(yōu)酷等幾大視頻網(wǎng)站希望發(fā)掘更多PGC的原因。PGC本質(zhì)上仍然是用戶自發(fā)的行為,而職業(yè)生產(chǎn)內(nèi)容(Occupationally-generated Content,OGC)是將內(nèi)容生產(chǎn)行為作為一種職業(yè)活動,是為獲取報酬而進行內(nèi)容編輯、整理,三者的關(guān)系如圖2所示。
相較于國外,國內(nèi)UGC的研究起步較晚,早期人們大多通過報紙、新聞等載體意識到UGC會對我們生活產(chǎn)生較大影響,之后就有學(xué)者針對UGC的概念、特點、內(nèi)容形式等方面進行深入研究。藍勤華[8]認為UGC特點主要是個人化、個性化、強調(diào)創(chuàng)意和弱利益驅(qū)動,并將UGC的類型劃分為SNS類的社交網(wǎng)站、視頻分享網(wǎng)絡(luò)、照片分享網(wǎng)絡(luò)等。胡華[9]認為UGC的存在形式可以分為視頻、音頻、圖片、應(yīng)用程序、文本5種,閆婧[10]將UGC分為文字類、圖片類、音頻/視頻類和社交聚合4大類。雖然大家對UGC的特點、形式總結(jié)得不完全相同,但都基于OECD所給出的UGC基本概念與特點。由于UGC可在不同用戶、不同對象之間形成一種聯(lián)系,張振宇等[11]將UGC視為一種新穎的媒體形態(tài),并從商業(yè)價值的角度出發(fā),結(jié)合用戶之間、用戶與媒體的強弱關(guān)系,發(fā)現(xiàn)“強關(guān)系”下產(chǎn)生的UGC通常具有較高的商業(yè)價值,“弱關(guān)系”條件下,商業(yè)價值不高。
2UGC動機研究
動機是指人在做出某種行為、從事某種活動時的心理狀態(tài)。用戶在創(chuàng)作UGC時必定是出于某種動機,現(xiàn)有研究中對UGC動機的分類已較為完善。2007年,在OECD的報告中,已對UGC產(chǎn)生動因的相關(guān)因素進行了分析,將UGC產(chǎn)生動機分為技術(shù)驅(qū)動力、社會驅(qū)動力、經(jīng)濟驅(qū)動力以及制度和法律驅(qū)動力4方面。在此后的研究中,學(xué)者們也大多基于這些因素。比如,趙宇翔等[12]將動因分成社會驅(qū)動、技術(shù)驅(qū)動、個體驅(qū)動3個維度和人口統(tǒng)計學(xué)特征1個調(diào)節(jié)集。柳瑤等[13]將動機分為內(nèi)在需求、社會誘因和技術(shù)誘因3個層面。其中,內(nèi)在需求主要源于用戶個體的自我認知與自身需求,比如意見表達、休閑娛樂、追求利益等等,是為了滿足自身行為而出現(xiàn)的動機;社會誘因是由于用戶處在社會的大環(huán)境中,為了得到他人認同或換取更高的社會地位與重視程度,在社會刺激下產(chǎn)生的動機;技術(shù)誘因是指基于技術(shù)接受理論、社會認知理論等理論基礎(chǔ),用戶可預(yù)知到其付出成本,如感知易用性、安全性。除了用戶的主觀動機外,范哲等[14]加入外部環(huán)境的機會感知和用戶自身的能力認知。通過實證分析,他們認為影響用戶生成UGC的主要因素是利他與互惠,并且感知易用性與感知有用性是外部環(huán)境機會感知中最顯著的變量。此外,用戶也必須具備將其自身知識儲備轉(zhuǎn)化為UGC的能力。
明確UGC的產(chǎn)生動機,了解不同用戶在生產(chǎn)UGC時的心理活動,可根據(jù)不同的動機對用戶進行分類,從而實施不同的激勵措施,引導(dǎo)用戶產(chǎn)生數(shù)量更多、質(zhì)量更高的UGC。在現(xiàn)有研究中,已有學(xué)者針對UGC的激勵措施展開研究。
激勵理論主要有內(nèi)容型激勵理論、過程型激勵理論、行為改造型激勵理論和綜合激勵理論,其中包括馬斯諾的需求層次論、赫茲伯格的雙因素理論、期望理論、歸因理論、公平理論、強化理論、內(nèi)外綜合激勵理論等。趙宇翔[15]在《社會化媒體中用戶生成內(nèi)容的動因與激勵設(shè)計研究》一文中,將目前對UGC的研究提煉出用戶、內(nèi)容、技術(shù)、組織和社會五大要素,進而從不同的維度分析影響UGC的動因,從用戶分類、雙因素和時間3個維度構(gòu)建了用戶激勵策略研究的概念框架。研究發(fā)現(xiàn)不同用戶群體對影響在線用戶生成內(nèi)容行為的激勵因素和保健因素的感知存在一定的差異。普通參與者將網(wǎng)站的易用性、信息構(gòu)建、個人隱私和信息安全保障、人—機交互性等因素作為保健因素,而將外部獎勵、人—人交互性、歸屬感、網(wǎng)站的可用性等因素作為激勵因素。
除了將UGC動機與激勵措施結(jié)合的研究之外,張世穎[16]認為通過對UGC動機的確定,還可以對UGC質(zhì)量做出判斷,UGC的產(chǎn)生動機與其質(zhì)量之間存在著一定的因果邏輯關(guān)系,針對大量的網(wǎng)絡(luò)用戶,可以針對不同層次的用戶實施提高UGC質(zhì)量的激勵措施,實現(xiàn)質(zhì)量由“劣”轉(zhuǎn)“優(yōu)”的目的,并且使UGC達到一種“量”與“質(zhì)”的平衡與統(tǒng)一,促使網(wǎng)絡(luò)用戶創(chuàng)造更多的高質(zhì)量UGC。圖3即表示UGC動機研究與UGC激勵措施、UGC質(zhì)量評價之間的關(guān)聯(lián)。
3UGC質(zhì)量研究
隨著物聯(lián)網(wǎng)、云計算等技術(shù)的發(fā)展,大數(shù)據(jù)時代已經(jīng)到來。UGC作為數(shù)據(jù)的一種,也滿足大數(shù)據(jù)的5V特點[17]:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值密度)、Veracity(真實性)。其中Value和Veracity都可理解為UGC質(zhì)量參差不齊,以淘寶評論為例,針對某商品的評論甚至會多至數(shù)千條,但其中高質(zhì)量的評論并不多,例如大量“好評”、文本極短、答非所問等等,這體現(xiàn)了UGC也有價值密度低的特點,這主要是因為互聯(lián)網(wǎng)中不會因用戶類別而限制其生產(chǎn)UGC。此外,有圖3UGC動機研究與激勵措施、UGC質(zhì)量的關(guān)聯(lián)圖
些商家雇傭水軍刷好評、惡意詆毀競爭對手、利用返現(xiàn)誘惑買家給好評等虛假行為,導(dǎo)致評論中存在不實信息,也被稱作垃圾信息。因此,對UGC質(zhì)量分析具有現(xiàn)實意義。
針對UGC中存在的質(zhì)量評價、質(zhì)量指標、質(zhì)量控制等現(xiàn)實問題,金燕[18]總結(jié)后認為目前UGC質(zhì)量問題主要存在于內(nèi)容錯誤、垃圾內(nèi)容、內(nèi)容價值密度低3方面。在UGC質(zhì)量評價方面,目前存在人工檢測法和自動測量方法兩種方法,但都存在缺陷,如主觀性太強或評價指標多樣性等因素都會導(dǎo)致評價結(jié)果不統(tǒng)一,故現(xiàn)在急需一套適用性強的UGC質(zhì)量評價指標體系。從UGC創(chuàng)建過程角度出發(fā),金燕等[19]構(gòu)建了一個通用的UGC質(zhì)量實時監(jiān)控框架,該框架由數(shù)據(jù)采集層、數(shù)據(jù)存儲層和質(zhì)量監(jiān)控層3個主要模塊構(gòu)成,SPC技術(shù)的利用可以對UGC創(chuàng)建過程的每一個階段進行實時監(jiān)控。針對用戶評論產(chǎn)生的文本UGC,林煜明等[20]圍繞著評論質(zhì)量評估、評論總結(jié)和垃圾評論檢測3方面總結(jié)了國際上評論質(zhì)量檢測與控制的研究內(nèi)容、技術(shù)和方法的研究進展。從UGC主體生產(chǎn)評論,到其他用戶在網(wǎng)絡(luò)上接收該評論,這一過程中可以通過用戶輸入約束、UGC評估、垃圾檢測、UGC總結(jié)和排序系統(tǒng)進行控制。從評論內(nèi)容的角度看,影響評論質(zhì)量的因素主要包括評論的語法特征、語義特征、元特征、文本的統(tǒng)計特征、可讀性和相似性特征。從UGC主體角度,在考慮UGC質(zhì)量時應(yīng)考慮到主體的基本屬性,如該用戶是否有不良記錄、注冊時間長短、基本資料完成度、活躍時間分布情況等。垃圾評論檢測也是UGC質(zhì)量控制的一種重要方式,檢測的主要判斷標準為評論是否為垃圾內(nèi)容、評論主體或團隊的質(zhì)量高低。此外,評論排序?qū)τ脩舾咝Ю肬GC也十分重要,現(xiàn)有應(yīng)用中,淘寶的評論排序根據(jù)用戶等級、評分和推薦,當當網(wǎng)的評論排序根據(jù)評論的回復(fù)數(shù),eBay的評論排序根據(jù)相關(guān)度。為了更準確地檢測虛假評論,汪建成等[21]依據(jù)評論UGC的特性建立了基于主題——對立情感依賴的模型,該模型會提取正反兩類情感詞語,在潛在狄利克雷模型(LDA)中加入情感層,即將LDA擴展成文檔—主題—情感—詞語結(jié)構(gòu)。在此基礎(chǔ)上提出TOSDM模型,結(jié)合評論UGC的主題與情感,提取出6位特征對虛假評論展開檢測。
如圖4所示,對UGC質(zhì)量的研究可以劃分為基于內(nèi)容和基于用戶兩方面,其中基于用戶可以通過UGC質(zhì)量尋找領(lǐng)袖意見,以及進行虛假主體判別,通常情況下,若UGC質(zhì)量非常低,那么產(chǎn)生該UGC的主體很可能是虛假主體。
由于網(wǎng)絡(luò)中UGC的量之大,普通用戶很難尋找到自身需要的UGC,因此可根據(jù)內(nèi)容創(chuàng)建某領(lǐng)域的推薦系統(tǒng),還可以基于內(nèi)容進行垃圾識別與謠言檢測等。
4UGC法律問題
由于目前用戶在網(wǎng)絡(luò)上發(fā)表言論具有隨機性、匿名性、數(shù)據(jù)海量性等特點,導(dǎo)致用戶對其發(fā)表UGC的版權(quán)問題不夠重視,在不經(jīng)意間會侵犯他人權(quán)益或者無法保障自身權(quán)益。在網(wǎng)絡(luò)出現(xiàn)初期,為解決著作權(quán)產(chǎn)生的利益問題,美國政府于1998年通過了美國數(shù)字千年版權(quán)法,目前仍應(yīng)用于網(wǎng)絡(luò)法治。此外,UGC規(guī)則雖然已被提出,但許多網(wǎng)絡(luò)龍頭企業(yè)并未簽字認同,目前來說并不是理想的網(wǎng)絡(luò)自治規(guī)則。當前,我國的網(wǎng)絡(luò)治理主要根據(jù)2006年國務(wù)院發(fā)布的《信息網(wǎng)絡(luò)傳播權(quán)條例》。張慧霞[22]指出網(wǎng)絡(luò)治理的發(fā)展將是未來研究的重點與難點。
目前在UGC版權(quán)問題上,李妙玲等[23]認為存在著過濾識別技術(shù)不到位、網(wǎng)絡(luò)自治不規(guī)范、全民版權(quán)意識薄弱、產(chǎn)權(quán)意識教育滯后于技術(shù)的發(fā)展等問題。除此之外,用戶的隱私保護也是學(xué)術(shù)界研究的熱點,一方面,實行實名制有助于保證UGC的質(zhì)量,在此條件下用戶若發(fā)表言論會考慮到其言論的影響,以及會不會對自己帶來麻煩。但實名制也會限制用戶創(chuàng)作UGC,有些用戶需要用匿名來保護自己,將UGC作為秘密分享出來,比如樹洞類UGC。蔣曉麗等[24]將樹洞類UGC平臺分為社會類和群體類兩種。社會化樹洞UGC面向范圍更廣,如微博樹洞。與之相對,群體化樹洞UGC是以職業(yè)、興趣等屬性促成的。這兩類UGC平臺都為用戶提供了隱私保護、言論自由的空間,滿足信息化時代網(wǎng)民抒發(fā)情緒的需求。樹洞可以讓用戶更自由地袒露心聲,故引起許多憂郁癥領(lǐng)域?qū)<覍W(xué)者的注意,如何利用樹洞UGC對憂郁癥患者改善病情等問題不斷被深入探究[25-26]。
目前學(xué)者們普遍認為若要解決UGC相關(guān)法律問題,作為UGC主體,用戶應(yīng)自覺地進行版權(quán)教育;從社會角度出發(fā),學(xué)校和社會也應(yīng)該加強版權(quán)知識的普及;在UGC網(wǎng)站角度,應(yīng)提高用戶版權(quán)意識,建立適當?shù)莫剳痛胧?/p>
5情感分析
51UGC情感描述
情感識別問題的提出源于美國MIT大學(xué)的Minsky教授,其在《The Society of Mind》中第一次提出智能機器的情感識別問題,引起學(xué)術(shù)界的關(guān)注。“情感計算”的概念源于1997年P(guān)icard所著的《Affective Computing》一書中,Picard認為情感計算是源于人類情感產(chǎn)生、情感識別、情感表示以及影響情感因素度量等方面的計算科學(xué),是利用計算機完成信息載體、情感極性傾向和強度度量的過程。情感是用戶內(nèi)心思想的主觀反映,可以直接反映用戶的喜惡。早期的UGC的研究主要圍繞UGC概念及其商業(yè)應(yīng)用、UGC動機與激勵措施等方面進行。尤其是UGC在視頻類軟件中的應(yīng)用,這主要是因為UGC剛提出時,youTube率先發(fā)揮其商業(yè)價值,導(dǎo)致國內(nèi)的關(guān)注點聚焦于其商業(yè)價值。隨著研究的深入,越來越多的學(xué)者開始針對UGC意見挖掘、情感分析等其他領(lǐng)域進行研究。比如,針對微博中的文本進行分析,挖掘出群眾的輿論導(dǎo)向與情感變化,可以推測出微博用戶的關(guān)注信息,從而為用戶提供針對性服務(wù)。
若要對文本UGC進行情感類別劃分,需要一個較為完善的情感詞典為基礎(chǔ)?,F(xiàn)有的情感詞典尤其是中文情感詞典規(guī)模不足是影響情感分析效果的一個重要因素。除了詞典規(guī)模小這一缺點外,趙妍妍等[27]認為現(xiàn)有的情感詞典在情感分析任務(wù)的使用中存在詞典中的詞太過正式、詞典中僅包括詞語而沒有詞組等不足。英文詞典方面具有代表性的有General Inquirer和Opinion Lexicon,這兩大詞典都有數(shù)千個褒義詞和貶義詞,其中依據(jù)詞語的強度、詞性等基本屬性,General Inquirer給每個詞語貼上標簽,以方便人們在使用詞典時能夠更簡便地完成任務(wù)。中文情感詞典領(lǐng)域,HowNet在UGC情感傾向分析中的利用較為普遍,近些年,中國科學(xué)院計算技術(shù)研究所研制出的漢語詞法分析系統(tǒng)ICTCLAS也逐漸得到認可,并逐漸被推廣使用。對于文本類型UGC的信息提取工作,Egger M[28]將其分為信息收集、分析和可視化3階段,并在此基礎(chǔ)上,將步驟細分為數(shù)據(jù)的收集與清洗、文檔級信息抽取、句子與短語和詞級的信息抽取、選擇的挑戰(zhàn)等。基于Ekman的6種基本情緒理論,賴凱聲等[29]通過人工對《現(xiàn)代漢語詞典》、《實用漢語形容詞詞典》和《現(xiàn)代漢語實詞搭配詞典》進行詞語擴展,最終收集448個情緒詞,在此基礎(chǔ)上結(jié)合POMS量表和羅躍嘉詞表等詞庫,通過新浪微博的搜索功能對國內(nèi)網(wǎng)絡(luò)流行詞匯情感詞進行驗證,以篩除使用頻率較低的生僻詞,最終得到2242個情緒詞。
情感分析過程中,除了需要情感詞外,還需對每個情感詞進行量化,即確定其分值。目前大多研究中,都將情感詞分為積極與消極兩種,潘宇等[30]在研究餐廳評論極性時,選擇以食品味道、餐廳環(huán)境、服務(wù)態(tài)度和消費價格作為衡量用戶評論的標準,對UGC進行特征標注從而對UGC進行極性分析,對評論中出現(xiàn)的正向情感詞語量化為+1,負面情緒的詞語賦值為-1。此外文獻[31]中也提到文本UGC的情感量化問題,只是對于情感傾向的判斷仍限于語義范圍,針對目前情感詞語量化的深度與廣度都還有待提高。
52情感分析方法
傳統(tǒng)應(yīng)用于情感分類的文本分類方法有樸素貝葉斯(Naive Bayesian,NB)、k近鄰(k-Nearest Neighbor,kNN)、支持向量機(Support Vector Machine,SVM)、決策樹等。對于目前國內(nèi)情感分析的研究,饒元等[32]認為主要是情緒的極性化分析計算與觀點傾向性分析計算2個方面。為了分析觀點傾向問題,徐琳宏等[33]通過計算詞匯與知網(wǎng)中褒貶性之間的相似度,從而對詞匯的傾向做出判斷,將傾向性明顯的詞語視為特征詞,接著采用SVM對這些特征詞進行分類操作,根據(jù)情感詞的傾向就可判斷UGC的整體傾向。同樣是利用SVM分類方法,針對服裝電商評論情感值問題,李宏媛等[34]采用線性回歸模型,通過對比平均絕對誤差、均方差誤差、均方根誤差等發(fā)現(xiàn)商品評論對產(chǎn)品銷售量的具體影響。
除了分類算法外,還有學(xué)者利用關(guān)聯(lián)算法進行UGC情感分析,以豆瓣為例,Yang J等[35]提出了一種改進的基于MapReduce的內(nèi)容挖掘Apriori算法,作者認為對UGC進行情感分析,可以對觀眾喜愛以及用戶接下來的動作進行預(yù)測,以豆瓣為例,可發(fā)掘用戶喜愛的電影以及其他相關(guān)信息,那么行業(yè)利益相關(guān)者,如制片人即可有效地宣傳其內(nèi)容,據(jù)此改善用戶體驗,更好地幫助觀眾找到與其興趣有關(guān)的電影。通過UGC深入了解消費者可以縮短出版方與觀眾的差距。潛在狄利克雷分布模型(LDA)是一種概率生成模型,考慮到朋友間交互所表現(xiàn)出的情感比非朋友間交互表現(xiàn)出的情感相似度更高,基于此,黃發(fā)良等[36]針對微博用戶提出微博主題情感傾向分析的SRTSM模型,該模型是在傳統(tǒng)LDA的基礎(chǔ)上加入情感層與微博用戶關(guān)系參數(shù),接著采取吉布斯采樣方法,利用SRTSM模型進行微博主題和情感分析。為了對產(chǎn)品評論提供一個全面的評價,Raghupathi D等[37]提出了一個較為準確的整體情感評級算法,從單個文本分析出發(fā),用一個影響語言字典來評價單詞樹的葉子。該算法雖然對評論UGC的情感傾向足夠重視,卻因為重視整體而忽視了個體的作用。根據(jù)情感分析的過程,文本類型UGC的情感分析可細化成情感信息的抽取、情感信息的分類以及情感信息的檢索與歸納[38]。其中分類任務(wù)又可分為主、客觀信息的二元分類和主觀信息的情感分類。對UGC進行的情感分析可以應(yīng)用于用戶評論分析與決策、輿情監(jiān)控和信息預(yù)測,但由于一些國外的研究技術(shù)和情感資源無法直接移植到中文處理中,因此結(jié)合中文的特點,尋找適用于中文處理的技術(shù)與手段,仍是接下來應(yīng)繼續(xù)探索的問題。
6下一步的研究趨勢
通過對已有文獻的梳理,文中對UGC的概念、動機、質(zhì)量和法律方面進行概述,接著對UGC情感分析的情感描述、分析方法展開研究。對于接下來的研究,可以針對以下幾方面展開:
61追求高質(zhì)量
隨著大數(shù)據(jù)時代的到來,每天都會產(chǎn)生大量的UGC,數(shù)量爆炸式增長的同時,并未能保證UGC的高質(zhì)量。UGC的創(chuàng)造越來越多地依靠手機、Pad等移動電子產(chǎn)品,用戶傾向于利用零碎時間生產(chǎn)UGC,因此大多數(shù)UGC的質(zhì)量是不高的。此外,由于被利益驅(qū)使的網(wǎng)絡(luò)灌水、刷屏等非正?,F(xiàn)象的大量出現(xiàn),容易對UGC研究樣本造成污染,所以若能有效地改善UGC的質(zhì)量,有助于提高數(shù)據(jù)分析的準確率和高效性。比如,UGC網(wǎng)站對于穩(wěn)定產(chǎn)出高質(zhì)量的UGC主體給予一定的激勵政策,虛擬的積分或游戲幣等。
62提高推薦準確度
UGC感知易用性的高低因人而異,用戶創(chuàng)作UGC時帶有強烈的個性特點,如何結(jié)合用戶個體,理解UGC表達的真實含義、判斷UGC質(zhì)量高低是值得研究的問題。這其中會涉及到中文語義復(fù)雜度較高、容易產(chǎn)生歧義等問題。還可以結(jié)合UGC特點對用戶信譽或用戶活躍度進行預(yù)測與分類,對不同層次的用戶進行針對性的廣告投放或推薦方案,進一步挖掘UGC的商業(yè)價值。為了提高商家的服務(wù)質(zhì)量,林煜明等[20]提出綜合考慮用戶的地理信息和用戶對商品的評論,兩者的結(jié)合將在很大程度上為商家和用戶帶來便利。但用戶與UGC的屬性如何準確分類,如何建立更加完善、準確的推薦模型是接下來值得研究的熱點。
63完善情感詞庫
英文詞庫已經(jīng)較為完善,在分詞階段只需將單個的單詞拆開即可。中文因其特殊性與復(fù)雜性,中文分詞比英文分詞困難,針對UGC情感分析問題,可嘗試構(gòu)建更加完善的情感詞庫,更加充分地考慮停用詞、歧義詞等問題。由于目前研究中,在情感量化方面沒有統(tǒng)一標準,大多研究在權(quán)值的分配問題上研究仍然不夠深入,在實際應(yīng)用時不能準確地表達用戶的情感傾向,如何將情感詞量化得更符合現(xiàn)實意義,也是值得探究的方向。此外,不同性格的用戶生產(chǎn)UGC時,在情感表達方面都有差異。比如,性格外向的用戶可能會更加善于表達自己的情感,所用的情感詞會較為強烈;性格內(nèi)向的用戶產(chǎn)生的UGC可能會較為平穩(wěn),情感方面波動不明顯。因此,在情感分析階段,也可嘗試結(jié)合用戶的個性特點采取針對性分析。
64加強用戶隱私保護
用戶生成內(nèi)容因其網(wǎng)上發(fā)布的特點,存在著UGC主體組成復(fù)雜、形式摻雜、質(zhì)量不齊等問題,此外,目前國內(nèi)網(wǎng)絡(luò)自治規(guī)則也并不完善。隨著網(wǎng)絡(luò)直播等第三方視頻網(wǎng)站的興起,網(wǎng)站僅充當用戶的UGC展示平臺,因此作為網(wǎng)站營運者,如何加強監(jiān)管、對每天產(chǎn)生的海量UGC進行審核是個問題。除此之外,今后還應(yīng)注重解決因UGC引發(fā)的相關(guān)法律道德問題,充分利用UGC使其發(fā)揮積極作用,加強對“人肉”等侵犯個人隱私的治理力度。
參考文獻
[1]http://www.oreilly.com/pub/a/web2/archive/what-is-web-20.html?page=1[EB].
[2]門亮,楊雄勇.UGC平臺的特征及其信息流的分析[J].設(shè)計,2015,(5):52-54.
[3]李冰,郄婧琳.大數(shù)據(jù)、流媒體與視頻內(nèi)容生產(chǎn)新策略——美劇《紙牌屋》的啟示[J].出版廣角,2015,(3):89-91.
[4]黎孔靜.由Netflix自制劇《紙牌屋》的熱播引發(fā)的思考[J].電視研究,2013,(9):76-77.
[5]劉倩琦.中國視頻UGC的掘金路[J].投資北京,2014,(1):50-53.
[6]李奕瑩,戚桂杰.企業(yè)開放式創(chuàng)新社區(qū)中用戶生成內(nèi)容的創(chuàng)新貢獻[J].中國科技論壇,2017,(4):95-102.
[7]李奕瑩,戚桂杰.創(chuàng)新價值鏈視角下企業(yè)開放式創(chuàng)新社區(qū)管理的系統(tǒng)動力學(xué)研究[J].商業(yè)經(jīng)濟與管理,2017,(6):60-70.
[8]藍勤華.UGC(用戶創(chuàng)造內(nèi)容)概念之辨析[J].中國網(wǎng)絡(luò)傳播研究,2010,(00):279-286.
[9]胡華.基于中文UGC信息源的半自動應(yīng)用本體構(gòu)建研究[D].武漢:武漢大學(xué),2014.
[10]閆婧.基于用戶信譽評級的UGC質(zhì)量預(yù)判方法[D].鄭州:鄭州大學(xué),2017.
[11]張振宇,喻發(fā)勝.公共性與商業(yè)性:UGC媒體發(fā)展的兩難境地——以媒介形態(tài)研究的視角[J].湖北社會科學(xué),2015,(8):192-198.
[12]趙宇翔,朱慶華.Web20環(huán)境下影響用戶生成內(nèi)容的主要動因研究[J].中國圖書館學(xué)報,2009,(5):107-116.
[13]柳瑤,郎宇潔,李凌.微博用戶生成內(nèi)容的動機研究[J].圖書情報工作,2013,57(10):51-57.
[14]范哲,張乾.MOA視角下的問答網(wǎng)站用戶貢獻行為研究[J].圖書與情報,2015,(5):123-132.
[15]趙宇翔.社會化媒體中用戶生成內(nèi)容的動因與激勵設(shè)計研究[D].南京:南京大學(xué),2011.
[16]張世穎.移動互聯(lián)網(wǎng)用戶生成內(nèi)容動機分析與質(zhì)量評價研究[D].長春:吉林大學(xué),2014.
[17]https://baike.so.com/doc/5374131-5610149.html[EB].
[18]金燕.國內(nèi)外UGC質(zhì)量研究現(xiàn)狀與展望[J].情報理論與實踐,2016,39(3):15-19.
[19]金燕,李丹.基于SPC的用戶生成內(nèi)容質(zhì)量監(jiān)控研究[J].情報科學(xué),2016,34(5):86-90,141.
[20]林煜明,王曉玲,朱濤,等.用戶評論的質(zhì)量檢測與控制研究綜述[J].軟件學(xué)報,2014,25(3):506-527.
[21]汪建成,嚴馨,余正濤,等.基于主題-對立情感依賴模型的虛假評論檢測方法[J].山西大學(xué)學(xué)報:自然科學(xué)版,2015,(1):31-38.
[22]張慧霞.美國UGC規(guī)則探討——兼論網(wǎng)絡(luò)自治與法治的關(guān)系[J].電子知識產(chǎn)權(quán),2008,(5):37-39.
[23]李妙玲,岳慶榮.我國用戶生成內(nèi)容的版權(quán)侵權(quán)問題治理模式研究[J].新世紀圖書館,2015,(5):54-59.
[24]蔣曉麗,楊珊.虛擬社會安全閥:樹洞類UGC平臺的宣泄功能研究[J].新聞界,2017,(6):54-59.
[25]王賽.樹洞文化在互聯(lián)網(wǎng)中的應(yīng)用與發(fā)展[J].青年記者,2014,(32):69-70.
[26]耿紹寧.試析網(wǎng)絡(luò)“樹洞”應(yīng)用對高校和諧穩(wěn)定的影響——以“樹洞”微博為例[J].思想理論教育,2013,(15):76-78,82.
[27]趙妍妍,秦兵,石秋慧,等.大規(guī)模情感詞典的構(gòu)建及其在情感分類中的應(yīng)用[J].中文信息學(xué)報,2017,31(2):187-193.
[28]Egger M.A Brief Tutorial on How to Extract Information from User-Generated Content(UGC)[J].KI - Künstliche Intelligenz,2013,27(1):53-60.
[29]賴凱聲,陳浩,錢衛(wèi)寧,等.微博情緒與中國股市:基于協(xié)整分析[J].系統(tǒng)科學(xué)與數(shù)學(xué),2014,34(5):565-575.
[30]潘宇,林鴻飛.基于語義極性分析的餐館評論挖掘[J].計算機工程,2008,17(17):208-210.
[31]王海雷,章彥星,趙海玉,等.基于用戶生成內(nèi)容的產(chǎn)品搜索模型[J].中文信息學(xué)報,2013,27(4):89-95.
[32]饒元,吳連偉,王一鳴,等.基于語義分析的情感計算技術(shù)研究進展[J].軟件學(xué)報,2018,29(8):1-25.
[33]徐琳宏,林鴻飛,楊志豪.基于語義理解的文本傾向性識別機制[J].中文信息學(xué)報,2007,21(1):96-100.
[34]李宏媛,陶然.服裝電商評論情感分析研究[J].智能計算機與應(yīng)用.2017,7(1):27-34.
[35]Yang J,Yecies B.Mining Chinese Social Media UGC:A Big Data Framework for Analyzing Douban Movie Reviews[J].Journal of Big Data,2016,3(1):1-23.
[36]黃發(fā)良,于戈,張繼連,等.基于社交關(guān)系的微博主題情感挖掘[J].軟件學(xué)報,2017,28(3):694-707.
[37]Raghupathi D,Yannou B,F(xiàn)arel R,Emilie Poirson.Customer Sentiment Appraisal from User-generated Product Reviews:A Domain Independent Heuristic Algorithm[J].International Journal on Interactive Design and Manufacturing(IJIDeM),2015,9(3):201-211.
[38]趙妍妍,秦兵,劉挺.文本情感分析[J].軟件學(xué)報,2010,21(8):1834-1848.
(責任編輯:陳媛)2018年11月第38卷第11期現(xiàn)代情報Journal of Modern InformationNov.,2018Vol38No112018年11月第38卷第11期理性行為理論及其在信息系統(tǒng)研究中的應(yīng)用與展望Nov.,2018Vol38No11
收稿日期:2018-08-15