常佳夢 上海交通大學(xué)媒體與傳播學(xué)院
大數(shù)據(jù)時(shí)代來臨,數(shù)據(jù)成為寶貴的財(cái)富,社會科學(xué)也開始使用復(fù)雜計(jì)算工具進(jìn)行研究,從而誕生了計(jì)算社會學(xué)(Social computing research)。
直至19世紀(jì)末期,社會科學(xué)才作為獨(dú)立學(xué)科被承認(rèn),當(dāng)時(shí)的社會科學(xué)與自然科學(xué)相對獨(dú)立,然而在人類進(jìn)入后工業(yè)化時(shí)期,即20世紀(jì)70年代后,信息革命來臨,自然科學(xué)和社會科學(xué)開始融合,每一門科學(xué)在意識到獨(dú)立性之外更意識到與其他學(xué)科的關(guān)聯(lián)性。1994年,第一次提出了“社會計(jì)算機(jī)”這個(gè)觀念,而 Schuler則提出了“社會計(jì)算可以是一種利用軟件為媒介進(jìn)行社會化交流的任意一種程序。”中國孟小峰等人把社會計(jì)算界定為“運(yùn)用系統(tǒng)科學(xué)、人工智能、數(shù)據(jù)挖掘等科學(xué)的計(jì)算技術(shù),把社會科學(xué)和計(jì)算技術(shù)有機(jī)地融合在一起,從而更深刻地認(rèn)識社會,改造社會,解決政治、經(jīng)濟(jì)、文化等領(lǐng)域復(fù)雜性社會問題的一種理論和方法論體系”。計(jì)算傳播學(xué)(Computational communication research)為計(jì)算社會學(xué)的一個(gè)分支。二十年前,提起大眾媒體,電視和報(bào)紙還是絕對的主角;而在二十年后的今天,社交媒體卻儼然成了大眾媒介中最值得注目的對象。隨著互聯(lián)網(wǎng)不斷發(fā)展,社會化媒體誕生,層出不窮的新技術(shù)與大數(shù)據(jù)時(shí)代背景耦合,傳播學(xué)進(jìn)入了新時(shí)代,計(jì)算傳播學(xué)便是這樣一個(gè)智能時(shí)代下的新興學(xué)科。借用王成軍的定義:計(jì)算傳播(Computational communication)是指數(shù)據(jù)驅(qū)動的、借助于可計(jì)算方法所進(jìn)行的傳播過程,而分析計(jì)算傳播現(xiàn)象的研究領(lǐng)域就是計(jì)算傳播學(xué)。
計(jì)算傳播據(jù)王成軍考證,計(jì)算傳播起源較早,在20世紀(jì)90年代就已經(jīng)有應(yīng)用。20世紀(jì)90年代,網(wǎng)飛公司以寄出的影片光碟作為經(jīng)營方式,在此業(yè)務(wù)中,該公司使用計(jì)算傳播方法分析真實(shí)用戶數(shù)據(jù)來確定和調(diào)整倉庫的位置,從而使得公司獲得更高的經(jīng)濟(jì)效益。
目前,計(jì)算傳播的應(yīng)用領(lǐng)域十分廣泛,對現(xiàn)代人的日常生活產(chǎn)生了深遠(yuǎn)的影響。例如在互聯(lián)網(wǎng)社交應(yīng)用上分析品牌、話題等的影響力;YouTube、嗶哩嗶哩等流媒體按用戶偏好推送視頻內(nèi)容;分析社交媒體用戶情緒、位置、行為等進(jìn)行用戶畫像;計(jì)算數(shù)據(jù)以優(yōu)化搜索引擎等。計(jì)算傳播為普通人賦能,豐富公眾日常生活,也提供了有利的數(shù)據(jù)工具,提高大眾話語權(quán),同時(shí)也為科研人員提供了新的研究視角。但除此以外,計(jì)算傳播也催生出新型社會問題,例如信息繭房、大數(shù)據(jù)隱私泄露、大數(shù)據(jù)殺熟、群體去抑制化、算法剝削等等,對大眾而言是一個(gè)不容小覷的隱患,計(jì)算傳播的倫理與法律有待社會進(jìn)一步重視與規(guī)范。
在計(jì)算機(jī)通信領(lǐng)域,應(yīng)用大量的數(shù)據(jù)和數(shù)據(jù)的分析與處理技術(shù)是其基礎(chǔ)。大數(shù)據(jù)是指規(guī)模龐大,超過了傳統(tǒng)軟件和硬件的處理能力,需要依靠新的技術(shù)和模式來及時(shí)、高效地進(jìn)行處理;大數(shù)據(jù)技術(shù)指的是對海量、異構(gòu)、動態(tài)數(shù)據(jù)進(jìn)行采集、清洗、存儲、分析、挖掘等處理,并從中快速高效地提取有價(jià)值的信息。
郝龍與李鳳翔梳理之后將計(jì)算傳播學(xué)所用到的數(shù)據(jù)大致分為3類:第一,網(wǎng)絡(luò)中通過人機(jī)互動所產(chǎn)生的數(shù)據(jù),即為用戶生成內(nèi)容(UCG,User Generated Content),如微博、豆瓣、小紅書等社交媒體平臺中的用戶發(fā)文數(shù)據(jù),或者評論、點(diǎn)贊與位置簽到等數(shù)據(jù);第二,傳感器所采集的物聯(lián)網(wǎng)數(shù)據(jù),如頻射識別(RFID)和GPS定位的數(shù)據(jù)等;第三,對既有資料數(shù)據(jù)化或者對傳統(tǒng)數(shù)據(jù)進(jìn)行關(guān)聯(lián)整合處理,如紙質(zhì)書電子化后的數(shù)據(jù)、政府大數(shù)據(jù)等。
數(shù)字足跡、關(guān)系數(shù)據(jù)、文本數(shù)據(jù)和空間位置則是4種在計(jì)算傳播學(xué)中被應(yīng)用最多的數(shù)據(jù)。
數(shù)字足跡(Digital Footprint,或Digital Traces)又稱數(shù)字蹤跡、數(shù)字痕跡、電子路徑、電子瀏覽信息等。某美國政客在2012年競選時(shí)便使用該數(shù)據(jù)進(jìn)行分析,從而制定宣傳手段。
關(guān)系數(shù)據(jù)主要被應(yīng)用對在社交媒體研究中。社會交往的數(shù)據(jù)化帶來大量關(guān)系數(shù)據(jù),使得研究者可以更加精準(zhǔn)地研究復(fù)雜的社交行為。如國外學(xué)者Lu與Brelsford利用日本地震與海嘯時(shí)期的Twitter數(shù)據(jù)研究極端事件下信息互動模式變化所引發(fā)的在線網(wǎng)絡(luò)結(jié)構(gòu)演化過程;漢森等人通過分析推特中的情感因素對信息傳遞的影響,結(jié)果顯示,當(dāng)新聞引起的消極情緒越強(qiáng)烈時(shí),轉(zhuǎn)發(fā)的可能性就越大,而非新聞信息則恰恰相反;國內(nèi)學(xué)者黃榮貴以“中國版 Twitter”微博為例,對新浪微博14個(gè)相關(guān)的賬號和超過5萬條博客進(jìn)行了實(shí)證分析,結(jié)果顯示,社區(qū)互動方式與他們所關(guān)心的話題有明顯的關(guān)聯(lián)。
文本數(shù)據(jù)是大數(shù)據(jù)中占比最大的數(shù)據(jù),本質(zhì)上是一種非結(jié)構(gòu)化數(shù)據(jù)。不同于數(shù)字足跡等結(jié)構(gòu)化數(shù)據(jù),文本數(shù)據(jù)蘊(yùn)含的信息豐富,但分析與使用難度較大。文本數(shù)據(jù)中,谷歌圖書語料庫(Google Book Corpus)最具代表性。谷歌圖書語料庫是當(dāng)前最大型的文本數(shù)據(jù)庫之一,截至2015年底已收錄英、法、德等多語言書籍2500多萬冊。
空間位置信息主要來源于各個(gè)硬件端所安裝的傳感器,在移動互聯(lián)網(wǎng)占據(jù)主流的今天,智能手機(jī)成為空間位置信息的最重要來源之一。2013年,Palmer等人發(fā)起了名為“人類流動計(jì)劃”(The Human Mobility Project)的研究項(xiàng)目。在這一國際項(xiàng)目中,研究者通過將一個(gè) APP裝到世界各地志愿者的手機(jī)上來獲取實(shí)時(shí) GPS和信號塔數(shù)據(jù),進(jìn)而推斷人口狀況,并探測人群的時(shí)空分布、種族分布,乃至生活質(zhì)量等。2014年,一個(gè)跨國合作研究團(tuán)隊(duì)使用手機(jī)基站數(shù)據(jù)進(jìn)行了葡萄牙部分地區(qū)和法國實(shí)時(shí)人口密度地圖的繪制。
計(jì)算傳播學(xué)目前已有較為成熟的研究方法,包括自動化內(nèi)容分析(Automated Content Analysis)、情感分析(Sentiment Analysis)、社會網(wǎng)絡(luò)分析(Social network analysis)等。
內(nèi)容分析是一種從文字(或其它有意義的東西)中進(jìn)行可重復(fù)的、有效的推理方法。自動內(nèi)容分析是一種將算法和內(nèi)容分析相結(jié)合的產(chǎn)品,目前已有的有監(jiān)控的機(jī)器(SML)和語義網(wǎng)絡(luò)分析(SNA)能夠更好地完成自動化的內(nèi)容分析。以韓剛等為例,運(yùn)用語義網(wǎng)分析技術(shù),對超過一百萬條 Twitter的推文進(jìn)行了分析,掌握了社會和社會網(wǎng)絡(luò)中的健康傳播趨勢,并為衛(wèi)生和衛(wèi)生宣傳提供了有效的對策;金斯伯格等使用了45個(gè)與流感相關(guān)的關(guān)鍵字,以衡量民眾對流感的重視程度。根據(jù)這些關(guān)鍵字,他們對美國流感疫情的流行做出了精確的預(yù)測。目前,自動化內(nèi)容分析是計(jì)算傳播內(nèi)容研究方面被應(yīng)用最廣的研究方法之一。
情感分析,也就是觀點(diǎn)挖掘,是目前計(jì)算機(jī)通信領(lǐng)域最為活躍的一個(gè)研究方向。在此基礎(chǔ)上,一些學(xué)者利用詞典和機(jī)器學(xué)習(xí)的算法,發(fā)展了一種新的情緒分析方法,并在Facebook上開發(fā)了一個(gè)用于搜索學(xué)生情緒的極性(正面、中性和負(fù)面)狀態(tài)和情緒的改變,其準(zhǔn)確率高達(dá)83.27%。國外的一些學(xué)者利用機(jī)器學(xué)習(xí)來進(jìn)行主題識別,并將現(xiàn)有的語義挖掘技術(shù)(hashtagify)和 sensebot等工具相結(jié)合,描繪了Twitter和傳統(tǒng)媒體中“棱鏡門”事件的語義網(wǎng);張倫等人運(yùn)用語義模型和情緒分析方法,對網(wǎng)絡(luò)信息結(jié)構(gòu)擴(kuò)散度的特征、測量指標(biāo)和影響因素進(jìn)行了研究。
社會網(wǎng)絡(luò)是復(fù)雜網(wǎng)絡(luò)(Complex Network)的一種,社會網(wǎng)絡(luò)分析是計(jì)算傳播一個(gè)較新穎的、前景廣闊的研究領(lǐng)域。Kwak等人的研究利用社會網(wǎng)絡(luò)分析方法,發(fā)現(xiàn)信息在社會化媒體的擴(kuò)散是廣度優(yōu)先而非深度優(yōu)先,即依賴單一信息源無法有效地在社交媒體上傳播新聞信息;韓運(yùn)榮和高順杰利用社會網(wǎng)絡(luò)分析分析微博中的社會關(guān)系,通過分析不同個(gè)體節(jié)點(diǎn)、不同社交網(wǎng)絡(luò)與無限社會之間的聯(lián)系,從而達(dá)到“信息利益”與“控制利益”的目的;李彪運(yùn)用社交網(wǎng)絡(luò)分析的方法,建立了“啞鈴”傳播的雙核型傳播模式,認(rèn)為,網(wǎng)絡(luò)新聞傳播結(jié)構(gòu)與普通的信息傳播結(jié)構(gòu)相比,在傳播效率、傳播層次和結(jié)構(gòu)扁平上有明顯的差別。
社會網(wǎng)絡(luò)是當(dāng)前的一個(gè)研究熱點(diǎn)。網(wǎng)絡(luò)分析是一種獨(dú)特的研究方法,它被稱為“社交網(wǎng)絡(luò)”。社交網(wǎng)絡(luò)的研究與研究是一個(gè)緊密聯(lián)系的過程。社會化網(wǎng)站的分析將是一個(gè)更好的工具,它包含了大量的技術(shù)來搜集和分析這些信息。梳理好社交網(wǎng)絡(luò)的研究思路與理論,對解決現(xiàn)實(shí)中的問題具有重要意義。因此,社交網(wǎng)絡(luò)的分析有時(shí)候很復(fù)雜,并不緊密,其側(cè)向延伸的寬幅較大,而垂直方向上的分支較多,因此,在不同的地方,研究者的研究課題、方法及結(jié)果也不盡相同。
物聯(lián)網(wǎng)、云計(jì)算、社交網(wǎng)絡(luò)飛速發(fā)展,數(shù)據(jù)量激增,傳統(tǒng)的傳播學(xué)研究在解決一些新問題時(shí)顯得有些吃力,而在計(jì)算傳播則開始展露其獨(dú)有的優(yōu)勢。
第一,數(shù)據(jù)收集優(yōu)勢。網(wǎng)絡(luò)時(shí)代豐富的數(shù)字足跡使得對個(gè)體行為的研究有了第一手資料,對比自我報(bào)告式的問卷,數(shù)字足跡客觀、細(xì)致,更加可信。另外,數(shù)字足跡大多為結(jié)構(gòu)化數(shù)據(jù),方便進(jìn)行各種研究分析,且大多包含時(shí)間信息,可以進(jìn)行歷時(shí)研究,追蹤動態(tài)過程。再者,比起傳統(tǒng)問卷方式,利用計(jì)算機(jī)技術(shù)對數(shù)據(jù)進(jìn)行智能化挖掘,可以獲得更全面、更多、更大規(guī)模的數(shù)據(jù),比如使用 API和計(jì)算機(jī)語言,就可以方便地獲得 TB的完整數(shù)據(jù)。
第二,數(shù)據(jù)分析處理優(yōu)勢。智能化大數(shù)據(jù)分析方法是傳統(tǒng)的勞動密集型分析方法所不能及的。采用計(jì)算機(jī)語言等數(shù)據(jù)采集技術(shù),可以大大加快數(shù)據(jù)處理的速度。開發(fā)和利用各種算法,使得對全數(shù)據(jù)的分析成為可能,發(fā)現(xiàn)各因素間微弱的連接,找到發(fā)展的鏈路。
第三,自下而上的歸納優(yōu)勢。受傳統(tǒng)研究方法的制約,無法收集和處理全數(shù)據(jù),大多數(shù)研究只能使用演繹邏輯推論出結(jié)果,使用代表性樣本代表全體。在算力、算法大幅提升的今天,計(jì)算傳播學(xué)從給觀察出發(fā),計(jì)算與總結(jié)模型和趨勢,進(jìn)而提出假設(shè)并驗(yàn)證,屬于歸納邏輯,可以更好地適應(yīng)事物快速更迭的社會背景。
第四,非介入方式的優(yōu)越性。傳統(tǒng)的影響分析方法主要采用控制性試驗(yàn)方法,這是判定結(jié)果的最好方法。而互聯(lián)網(wǎng)就是一個(gè)很好的實(shí)驗(yàn)平臺。由于干預(yù)方法會破壞樣品的原始環(huán)境,所以學(xué)術(shù)界對其真實(shí)性和可信度存在著爭論。而對于整體數(shù)據(jù)的分析,則是突破了以往數(shù)據(jù)采樣不完整所造成的桎梏,而智能技術(shù)則可以記錄觀眾的日常生活,并將其作為一種實(shí)時(shí)、細(xì)致的記錄,從而實(shí)現(xiàn)無創(chuàng)的觀察。
第五,數(shù)據(jù)顯示出的優(yōu)勢。在資料分析與應(yīng)用中,圖表與計(jì)算同樣重要。與傳統(tǒng)的數(shù)據(jù)分析方法相比,大數(shù)據(jù)技術(shù)將復(fù)雜的大數(shù)據(jù)以可視的形式呈現(xiàn)出來,以圖形、動畫的形式呈現(xiàn)出來,并通過可視化的方法,協(xié)助使用者了解、了解資料,如資訊地圖。