本刊記者 劉 賀
這是一個信息井噴的時代。當(dāng)瀏覽網(wǎng)站、打開鏈接、轉(zhuǎn)發(fā)微博等一連串的行為發(fā)生后,作為一個個體,你制造的數(shù)據(jù)已被悄無聲息地保存。在全球一體化的今天,無數(shù)個像你像我的個體被網(wǎng)絡(luò)用光纖互聯(lián),來源于世界各角落數(shù)以億計的信息正以無法想象的速度堆積、匯聚。毫無疑問,記錄了人類社會“數(shù)字足跡”的在線社交媒體大數(shù)據(jù)正以奔騰之態(tài)席卷而來。
然而,在線社交媒體數(shù)據(jù)中,虛虛實實,真真假假,哪些是切實有用的信息?哪些是惡意傳播的謠言?如果單憑個人的閱歷經(jīng)驗作出判斷,很難確?!笆聦崱钡臏?zhǔn)確性。為此,中國科學(xué)院計算技術(shù)研究所研究員沈華偉針對網(wǎng)絡(luò)謠言的成因給出了一番解釋。“通常人們感覺到的真相和真實的真相之間是有偏差的。依據(jù)自身的主觀意念,每個人會選擇傳播自己相信的‘真相’,而拒絕接受事實本質(zhì)的真相?!边@種現(xiàn)象的因由,有人歸結(jié)為社會學(xué),有人歸根為計算科學(xué),也有人認(rèn)為是心理學(xué)癥結(jié)……不過身為社會媒體計算研究人的沈華偉并不糾結(jié)于此,長期以來他看重的不是實時新聞、娛樂八卦等網(wǎng)絡(luò)碎片化內(nèi)容的本身,而更加關(guān)注傳播內(nèi)容背后的渠道和走向,通過挖掘網(wǎng)絡(luò)結(jié)構(gòu)、研究群體行為,進而用數(shù)據(jù)的精度去分析化解大數(shù)據(jù)帶來的“真相各異”的普遍難題。
在網(wǎng)絡(luò)信息高速傳播的今天,尤其是網(wǎng)民的參與熱情空前高漲,一條熱點消息僅僅需幾小時便可流向城市、鄉(xiāng)村的大街小巷中任何一個信號覆蓋區(qū)。這種司空見慣的散播速度早已不值得大驚小怪。這也恰恰印證了沈華偉所說的話,“未來的數(shù)據(jù)是網(wǎng)絡(luò)化的。比起某一碎片消息,個體用戶轉(zhuǎn)發(fā)、擴散之間的互聯(lián)關(guān)系將會比文本本身更具價值,也更有可能成為未來的研究發(fā)展趨勢?!?/p>
任職于中國科學(xué)院網(wǎng)絡(luò)數(shù)據(jù)科學(xué)與技術(shù)重點實驗室,沈華偉對大規(guī)模網(wǎng)絡(luò)化數(shù)據(jù)的建模和分析處理多有研究,旨在將社會媒體計算作為網(wǎng)絡(luò)化數(shù)據(jù)分析處理的重要應(yīng)用出口。作為實驗室在社會媒體計算方向的學(xué)科帶頭人,他依據(jù)領(lǐng)域特征提煉社會科學(xué)關(guān)鍵問題,圍繞開放環(huán)境下的時空數(shù)據(jù)建模與預(yù)測展開研究?!翱臻g代表網(wǎng)絡(luò)化的結(jié)構(gòu)約束,時間則是指網(wǎng)絡(luò)上承載的信息流。社會網(wǎng)絡(luò)結(jié)構(gòu)的真實形態(tài)、活躍網(wǎng)絡(luò)群體的形成、信息傳播的預(yù)測以及個體在網(wǎng)絡(luò)空間內(nèi)如何度量,這些是我們?nèi)粘Q芯康膯栴},也是社會媒體有效利用和科學(xué)管理需要明確的地方?!?/p>
人們常說科技助推時代進步,但沈華偉卻表示,之于很多社會媒體發(fā)展產(chǎn)業(yè),技術(shù)似乎并不是主要的依賴源頭?!拔⒉┑幕馃幔⑿?、支付寶等移動支付的爆紅并不是依靠技術(shù)取得的勝利,而更傾向于一種商業(yè)模式的創(chuàng)新,是基于簡單技術(shù)進行的用戶群開發(fā)及散播?!泵嫦虼蟊娪脩?,不管是政府機構(gòu)還是國企、私企,一個好的門面、好的形象是需要塑造和維護的。如何規(guī)避抹黑自身形象的謠言產(chǎn)生?如何預(yù)測和把握網(wǎng)絡(luò)輿論傳播走勢?如何識別謠言,從傳播上徹底打假?這是長期以來任何機構(gòu)和企業(yè)都極為重視的問題,也是沈華偉科研深挖的關(guān)鍵所在?!八邢⒌膫鞑ザ夹枰紤]3個方面:消息本身的真假,作為傳播人的‘你’認(rèn)為的真假,以及前兩者之間的有效結(jié)合點。第三點也就是使傳播擴大的根本緣由。”
近年來謠言擴散率持續(xù)升高,傳統(tǒng)粗獷的網(wǎng)絡(luò)管理方式已經(jīng)與日新月異的網(wǎng)絡(luò)傳播速度、質(zhì)量不相匹配。提高社會媒體的科學(xué)管理水平和有效利用能力,有秩序、有根據(jù)地發(fā)揮網(wǎng)絡(luò)空間潛力是大勢所趨,也是國家和企業(yè)健康發(fā)展長期以來的特殊關(guān)注點。此外,現(xiàn)有的移動端、PC端和網(wǎng)頁信息流、軟件信息流等多尺度網(wǎng)絡(luò)社區(qū)重疊現(xiàn)象嚴(yán)重,然而針對其的發(fā)現(xiàn)方法卻相對貧乏單一,實在難以滿足需求并達(dá)到有效發(fā)現(xiàn)和度量的水平?!霸谖⒉?、社交網(wǎng)站、博客、網(wǎng)絡(luò)論壇等在線社會網(wǎng)絡(luò)中,個體間存在多種類型且相互影響的社會關(guān)系,這種異質(zhì)關(guān)系網(wǎng)絡(luò)中存在著大量不同尺度的社區(qū)結(jié)構(gòu),而社區(qū)結(jié)構(gòu)與用戶群體行為密切相關(guān)。”
為此,沈華偉率領(lǐng)團隊立足多尺度網(wǎng)絡(luò)劃分特征,提出了基于尺度變換的多尺度重疊社區(qū)發(fā)現(xiàn)方法,并使用極大完全子圖代替節(jié)點作為社區(qū)的基本單元,解決了多尺度重疊社區(qū)的有效度量與快速發(fā)現(xiàn)問題。得益于前期研究積累,他們開發(fā)出一款多尺度重疊社區(qū)發(fā)現(xiàn)工具EAGLE。該工具被全球數(shù)百個研究同行使用,并被復(fù)雜網(wǎng)絡(luò)分析開源平臺Cytoscape作為網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)的3個常用方法之一,集成在其網(wǎng)絡(luò)結(jié)構(gòu)挖掘工具包ClusterViz中。解決完發(fā)現(xiàn)方法的難題,沈華偉再接再厲,針對網(wǎng)絡(luò)結(jié)構(gòu)規(guī)則類型未知給識別帶來的技術(shù)挑戰(zhàn),通過分析網(wǎng)絡(luò)信息擴散過程的局部均衡態(tài),揭示了網(wǎng)絡(luò)信息擴散局部均衡態(tài)與結(jié)構(gòu)規(guī)則之間的穩(wěn)定關(guān)聯(lián)關(guān)系,進而提出了基于局部均衡態(tài)的網(wǎng)絡(luò)結(jié)構(gòu)規(guī)則識別方法。截至目前,該方法被評價為最準(zhǔn)確的社區(qū)結(jié)構(gòu)識別方法之一。
他說:“真相往往藏在傳播背后。我們無法根據(jù)內(nèi)容辨別謠言真假,但可以通過傳播方式的數(shù)據(jù)差異來識別謠言?!?/p>
明星代言伴隨著粉絲效應(yīng),企業(yè)廣告究竟要如何投放才能反饋最大的價值效益?網(wǎng)絡(luò)詐騙層出不窮,運作方式存在怎樣的規(guī)律?在深入挖掘網(wǎng)絡(luò)結(jié)構(gòu)的同時,沈華偉不忘將網(wǎng)絡(luò)影響力的度量納入研究之列,運用清晰的數(shù)據(jù)流辨別分析,通過監(jiān)測、追溯網(wǎng)絡(luò)背后的賬號群展開簡單和復(fù)雜的識別。
“影響力最大化和個體影響力度量是兩個問題。影響力最大化目的是尋找滿足約束條件且影響力最大的一組用戶,需要兼顧求解算法的精度和速度;個體影響力則主要關(guān)注團隊合作中如何度量個體影響力的大小,關(guān)鍵在于找出影響力在個體間的分配機制。”
長期以來,針對影響力最大化貪心算法面臨的精度、速度無法兼顧的矛盾,沈華偉提出了影響力最大化靜態(tài)貪心算法StaticGreedy,通過嚴(yán)格保證目標(biāo)函數(shù)的單調(diào)性和子模性,使計算速度在同等精度下比傳統(tǒng)貪心算法提高了兩個數(shù)量級。不僅如此,他還進一步提出基于自洽排序的影響力最大化啟發(fā)式算法IMRank,使求解速度再次提升近100倍。而面向個體影響力缺少判據(jù)而難以度量的難題,他集思廣益,發(fā)現(xiàn)一種基于“被感知貢獻”的個體影響力度量方法,并以86%的高度準(zhǔn)確率成功預(yù)測諾貝爾獎得主。相關(guān)成果文章發(fā)表于《美國科學(xué)院院刊》(PNAS,SCI IF=9.674),成為同期發(fā)表的6篇亮點工作之一,被ScienceDaily等多家學(xué)術(shù)媒體報道,引起了廣泛的討論熱潮。
目前,緊貼時空數(shù)據(jù)的建模和預(yù)測,沈華偉正在積極拓展著與其相關(guān)的研究領(lǐng)域,由關(guān)注智能金融和智能交通,到將空間從社會網(wǎng)絡(luò)拓展到交易網(wǎng)絡(luò)、交通網(wǎng)絡(luò),以及把信息流拓展到風(fēng)險流和交通流。跟隨行業(yè)發(fā)展,立足應(yīng)用產(chǎn)能,沈華偉的思考越來越深、越來越遠(yuǎn)。
談及思考的魅力不得不提的是兩次選擇、兩位恩師。用沈華偉自己的話說,“是他們點燃了我的科研之火,讓我堅定了走科研道路的決心”。
本科就讀于西安郵電學(xué)院計算機系,因喜歡而堅持,沈華偉是同屆學(xué)生中少有幾個放棄大好就業(yè)前景,一頭扎進科學(xué)研究的人。在中國科學(xué)院計算技術(shù)研究所的幾年,他寫代碼、做項目,累積了基礎(chǔ)經(jīng)驗但也因為科研理想與現(xiàn)實研究的微妙差距萌生了退意?!爱?dāng)時有些想法不能實現(xiàn),做的底層工作也和科研的聯(lián)系不大,就打算畢業(yè)后入職企業(yè)?!边@個想法剛一冒頭,沈華偉便遇到了出國訪學(xué)歸來的程學(xué)旗研究員?!澳菚r候,程老師剛從英國回來,想找一個學(xué)生和他開展一個全新的方向?!边吇貞涍叡磉_(dá)著對恩師的感謝,沈華偉自此轉(zhuǎn)身投入網(wǎng)絡(luò)數(shù)據(jù)科學(xué)和社會媒體計算研究的懷抱,與程學(xué)旗研究員一起在一片相對空白的領(lǐng)域勤耕不懈。
熬過最初的幾年,他不無感慨,“因為導(dǎo)師和我都是從頭開始,沒有經(jīng)驗可以借鑒,在最開始的幾年既沒有顯著成果,發(fā)表文章也比較困難。直到2009年,我才發(fā)表了第一篇論文,不過那也是我個人最滿意的文章之一?!?/p>
2012年,沈華偉獲評副研究員,與之同來的還有他陷入膠著的思考。社會媒體進步似乎不依賴于技術(shù)發(fā)展,那么社會媒體計算的應(yīng)用出口應(yīng)該在哪里呢?為了找到答案,沈華偉踏上了異國之旅,在美國東北大學(xué)見到了為他答疑解惑的第二恩師——“網(wǎng)絡(luò)科學(xué)之父”艾伯特·拉斯洛·巴拉巴西(Albert-László Barabási)。沈華偉說,他的科研之火被再次點燃,堅定了科研的信念,明白了應(yīng)該做什么、又該如何做。
帶著一腔熱血,回國之后的沈華偉展開了影響力度量和網(wǎng)絡(luò)信息傳播預(yù)測研究,與國家機構(gòu)和企業(yè)展開項目合作,提供技術(shù)支持。與此同時,將研究范疇拓展到社交、金融、交通網(wǎng)絡(luò)之中,以他為首的研究團隊在影響力度量、網(wǎng)絡(luò)信息傳播預(yù)測、金融市場風(fēng)險監(jiān)測等方面開展了系列研究。在網(wǎng)絡(luò)信息傳播預(yù)測方面,針對基于特征工程的預(yù)測方法面臨的預(yù)測精度低、泛化能力差的問題,他們提出了基于自增強泊松過程的預(yù)測方法,預(yù)測精度顯著超過了基于特征工程的預(yù)測方法。這個方法被公認(rèn)為信息傳播預(yù)測領(lǐng)域采用的基準(zhǔn)方法之一,為后續(xù)許多網(wǎng)絡(luò)信息傳播預(yù)測方法提供了基礎(chǔ)。在級聯(lián)預(yù)測方面,他們提出了基于用戶表示學(xué)習(xí)的人際影響力建模方法,解決信息傳播過程中“同一用戶扮演著影響者和被影響者雙重角色”的現(xiàn)象?!巴ㄟ^將個體影響力和易感度分開建模,我們可以有效克服傳統(tǒng)人際影響力建模方法存在的‘過表達(dá)’和‘過擬合’問題,使得其預(yù)測精度顯著超越經(jīng)典點對型人際影響力建模的方法。”
團隊合影
2000年前,人們靠目測夜觀天象預(yù)測天氣,后隨著數(shù)學(xué)、物理、天文學(xué)等發(fā)展,在濕度、風(fēng)速、溫度等傳感器數(shù)據(jù)多重作用下,天氣預(yù)測的準(zhǔn)確率有了極大的提升。這是自然科學(xué)的魔力之一,是運用技術(shù)手段預(yù)測未來不斷取得突破的結(jié)果。
“社會科學(xué)不是客觀規(guī)律,而是一個統(tǒng)計規(guī)律?!彪S著社會媒體預(yù)測分析的深入進行,沈華偉越發(fā)了解研究的局限與困頓。在他看來,對于社會科學(xué)體系中的預(yù)測而言,預(yù)測與預(yù)測結(jié)果是相互作用的。人的感知行為會直接造成預(yù)測結(jié)果的偏差或疊加?!氨热缯f,我今天預(yù)測明早某大街會出現(xiàn)交通擁堵,得知這一消息的人群就會選擇避開該干道出行,這樣極有可能最終的結(jié)果變成了不擁堵?;蛘咭匀藗冏顬殛P(guān)心的房價為例,一旦權(quán)威結(jié)構(gòu)發(fā)布預(yù)測房價上漲通知,人們出于提前規(guī)避的心理很有可能會扎堆購買,進而造成預(yù)計漲幅的提高。”
對于社會科學(xué),既然未來是難以預(yù)測的,那不如創(chuàng)造未來。在一個開放的環(huán)境中,預(yù)測只能展現(xiàn)一個靜態(tài)分析,而為了緊抓時代局勢,沈華偉放棄預(yù)測結(jié)果,而轉(zhuǎn)型決策。說起來這更像是他前期各項研究的綜合創(chuàng)新,以一個循序漸進、引導(dǎo)方式的系列化過程影響尚未發(fā)生的結(jié)果。
“首先,我們基于先前的、現(xiàn)有的數(shù)據(jù)進行測量分析,再根據(jù)分析預(yù)測未來可能的走向,進而依據(jù)當(dāng)前的狀態(tài)采取行動進行改造,讓結(jié)果朝著最理想化的方向發(fā)展?!鄙蛉A偉解釋說。該決策方法是一個高度連續(xù)的過程,需要不停地收集反饋數(shù)據(jù)以便及時更新行為,沈華偉團隊目前也正在社會媒體計算、智能金融、智能交通等行業(yè)試行應(yīng)用。
倡導(dǎo)科研與教學(xué)并重,沈華偉已指導(dǎo)8名博士生、3名碩士生順利畢業(yè),同時為阿里巴巴、騰訊、百度等企業(yè)輸出一批優(yōu)秀的就業(yè)人才。他坦言和學(xué)生的關(guān)系亦師亦友,在提供寬松自由的科研環(huán)境和學(xué)術(shù)氛圍的同時,會特別注意學(xué)生獨立科研能力的培養(yǎng)。從自身的心路歷程汲取經(jīng)驗,傳道授業(yè),他想給予他熱愛的事業(yè)最飽滿的激情。