• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      社交媒體長期保存的困擾*

      2016-02-12 17:07:31臧國全趙佩端
      圖書館 2016年9期
      關(guān)鍵詞:社交內(nèi)容用戶

      臧國全 趙佩端

      (鄭州大學(xué)信息管理學(xué)院 鄭州 450001)

      ·專題研究·

      社交媒體長期保存的困擾*

      臧國全 趙佩端

      (鄭州大學(xué)信息管理學(xué)院 鄭州 450001)

      與其他類型數(shù)字資源相比,社交媒體有其自身的特殊性,對其實施長期保存面臨諸多困擾:社交媒體收割的困擾,包括收割方式產(chǎn)生的困擾和收割邊界的困擾;社交媒體保存的困擾,包括社交平臺條款產(chǎn)生的困擾、保存技術(shù)的困擾、保存標(biāo)準(zhǔn)與內(nèi)容的困擾、保存實踐的困擾;社交媒體使用的困擾,包括侵權(quán)的困擾、用戶隱私的困擾和訪問實踐的困擾。

      社交媒體 數(shù)字保存 數(shù)字資源

      社交媒體是基于因特網(wǎng)的一種應(yīng)用程序,基本功能是構(gòu)建用戶的交流平臺。實踐中,社交媒體包括不同類型的網(wǎng)絡(luò)平臺,主要有:社交網(wǎng)站(如Facebook 和QQ空間),用戶集體創(chuàng)作內(nèi)容網(wǎng)站(如YouTube和維基百科),產(chǎn)品和服務(wù)的營銷網(wǎng)站(如Amazon和eBay)。盡管不同類型社交平臺的功能存在一些差異,但用戶在線交流是基本功能,均產(chǎn)生交流內(nèi)容及其附加數(shù)據(jù),可供科研人員進(jìn)行數(shù)據(jù)挖掘,也可為商業(yè)企業(yè)提供消費分析和市場研究,且后者的應(yīng)用越來越多,已經(jīng)形成一種商業(yè)運作模式。

      數(shù)字資源長期保存系統(tǒng)主要包括數(shù)字資源獲取、數(shù)字資源保存和用戶訪問三大模塊。同樣,社交媒體長期保存也涵蓋社交媒體收割、社交媒體保存和用戶使用三個環(huán)節(jié),每個環(huán)節(jié)都存在一些困擾。

      1 社交媒體收割的困擾

      1.1 收割方式產(chǎn)生的困擾

      與Web 1.0的網(wǎng)絡(luò)信息資源通常使用Web爬蟲程序(如Heritrix)抓取不同,以Web 2.0展現(xiàn)的社交媒體,因其交互特征(常用JavaScript實現(xiàn)),導(dǎo)致對其實施收割需要不同的工具,采用不同的方法,且均產(chǎn)生一些困擾。

      (1)應(yīng)用編程接口(API)

      社交媒體平臺提供的API是社交媒體平臺與社交數(shù)據(jù)收割者之間的接口,定義對社交數(shù)據(jù)收割的規(guī)則,比如,F(xiàn)acebook的Timehop API[1]可定制收割一個用戶賬戶中每年特定一天的社交內(nèi)容。API的收割需要申請,比如Twitter中,收割者需申請,一旦申請被接受,API將與Twitter連接,收割連接之后產(chǎn)生的社交數(shù)據(jù),并轉(zhuǎn)換為結(jié)構(gòu)化的JSON格式提供給收割者。API的收割不僅包括社交內(nèi)容,還包括元數(shù)據(jù),比如,Twitter的API收割有用戶ID、用戶IP、用戶發(fā)出推文后的操作記錄(共享、愛好)等;Facebook的Graph API收割包括產(chǎn)生的評論;YouTube的API收割除了用戶發(fā)布的視頻外,還有描述視頻及其關(guān)聯(lián)的元數(shù)據(jù)。

      API收割雖然提供了獲取社交數(shù)據(jù)的一個途徑,但也存在一些困擾,其中之一是限制收割的數(shù)據(jù)量,比如,Twitter的API收割量限制為總數(shù)據(jù)量的1%,且不公開1%樣本量的抽取方法,導(dǎo)致收割者無法檢驗獲取數(shù)據(jù)的代表性[2]。

      (2)社交數(shù)據(jù)代理商和第三方服務(wù)

      社交數(shù)據(jù)代理商一般是社交平臺的官方商業(yè)機構(gòu),提供采用API難以收割的數(shù)據(jù),比如,代理商Gnip提供Twitter的API無法收割的歷史數(shù)據(jù)(因為Twitter 的API只收割用戶連接后的社交數(shù)據(jù)),甚至包括全部推文的收割服務(wù),但需付費,每月為2000美元,外加每1000個推文的傳遞費0.1美元[3]。社交數(shù)據(jù)代理商還提供特定數(shù)據(jù)的收割,比如,代理商DataSift提供Twitter、Facebook和Youtube的主題數(shù)據(jù)收割(包括實時的和歷史的社交數(shù)據(jù)),銷售給品牌公司、金融市場、新聞機構(gòu)等進(jìn)行數(shù)據(jù)分析。

      第三方服務(wù)是獨立于社交平臺和社交數(shù)據(jù)需求者的服務(wù)實體,通過協(xié)議向需求者提供社交數(shù)據(jù)收割。業(yè)已存在的第三方服務(wù)有兩類:一是商業(yè)服務(wù)項目,如ArchiveSocial[4],MirrorWeb[5],Erado[6],Gwava[7]等,專門從事社交數(shù)據(jù)收割,可根據(jù)用戶的需求提供個性化的定制收割服務(wù);二是公益性保存項目,如互聯(lián)網(wǎng)記憶基金會(IMF)和國際互聯(lián)網(wǎng)保存聯(lián)盟(IIPC)的Web保存項目,將社交數(shù)據(jù)收割作為其中一項業(yè)務(wù)。

      顯然,社交數(shù)據(jù)代理商和第三方服務(wù)提供的大都是商業(yè)服務(wù),用戶需要購買,且價格不菲。也有例外,比如,針對社交數(shù)據(jù)代理商DataSift收割的Twitter社交數(shù)據(jù),當(dāng)用戶的需求是包含特定關(guān)鍵詞或標(biāo)簽時,只要目標(biāo)數(shù)據(jù)集不超過所有社交數(shù)據(jù)的1%,免費提供;再比如,用戶可以從第三方服務(wù)的公益型保存項目中免費訪問社交數(shù)據(jù)。

      (3)社交媒體平臺的用戶自存檔服務(wù)

      自存檔是一些社交媒體平臺(如Facebook、谷歌和Twitter等[8])向用戶提供的下載其賬戶數(shù)據(jù)的備份服務(wù),但需用戶相應(yīng)設(shè)置。自存檔數(shù)據(jù)僅限用戶賬戶本身,不涉及其他賬戶內(nèi)容。如,F(xiàn)acebook只備份賬戶所有者發(fā)布的內(nèi)容和發(fā)送給所有者賬戶的內(nèi)容,以電子郵件方式郵寄給用戶一個結(jié)構(gòu)化的壓縮文件,且限定幾天內(nèi)下載,之后過期;谷歌的一些服務(wù)(Gmail、谷歌日歷、視頻群聊和YouTube)也提供自存檔功能[8]。

      很明顯,這項服務(wù)針對單個用戶賬戶的社交數(shù)據(jù),收割范圍很有限。但對于機構(gòu)賬戶可能是一個有價值的選擇,可用來收割保存一個機構(gòu)中使用該公共賬戶產(chǎn)生的所有社交數(shù)據(jù)。對公眾人物,這項服務(wù)為建立個人社交檔案提供了一個解決方案。

      1.2 收割邊界的困擾

      目前為止,還未出現(xiàn)針對一個或多個社交平臺的所有社交數(shù)據(jù)進(jìn)行收割的實踐,已有的收割實踐都是專題性的,都存在收割邊界的界定問題,但目前的界定實踐都存在一些困擾。

      社交過程線程構(gòu)建的困擾。與傳統(tǒng)網(wǎng)頁不同,社交媒體的核心是用戶交流,一個完整的交流過程可稱為一個線程,但交流過程可能涉及多個用戶賬戶,且常常包含多個相關(guān)對話主題和事件,導(dǎo)致難以清晰界定一個交流過程的開始和結(jié)束。已有的一些收割實踐很少考慮線程的建立,比如,北卡羅萊納州大學(xué)圖書館的社交媒體保存系統(tǒng)[9],依據(jù)該校的官方賬戶和與該校相關(guān)事件的標(biāo)簽,收割Twitter和Instagram社交平臺的相關(guān)數(shù)據(jù);愛爾蘭社交媒體保存項目[10],基于地理位置、關(guān)鍵詞和標(biāo)簽,使用Twitter API的收割工具,搜集與愛爾蘭相關(guān)的所有推文。這些項目都采用不同方法界定收割范圍,但都沒有考慮線程的構(gòu)建,常常會出現(xiàn)一個線程中的一些對話在收割范圍內(nèi),但其他對話在收割范圍外,導(dǎo)致無法完整收割一個線程中的所有對話,致使未來用戶使用的理解困難。

      社交媒體收割策略的困擾。常用的收割策略之一是基于關(guān)鍵詞和標(biāo)簽,但在幾乎所有社交媒體中都沒有對用戶使用的關(guān)鍵詞和標(biāo)簽進(jìn)行規(guī)劃化處理,存在大量的一詞多義、多詞一義、詞義含糊現(xiàn)象,對識別社交內(nèi)容涉及的實體(人、地方、機構(gòu)、事件等)的標(biāo)簽也常存在拼寫不同甚至錯誤,一些術(shù)語常常變化,這些因素都會導(dǎo)致基于關(guān)鍵詞和標(biāo)簽的全面收割相關(guān)內(nèi)容的策略難以準(zhǔn)確設(shè)計,且也無法過濾掉虛假數(shù)據(jù)、個別道德缺失的用戶傳播的僵尸數(shù)據(jù)和污染數(shù)據(jù),當(dāng)然對收割的數(shù)據(jù)進(jìn)行質(zhì)量控制是一個解決方法,但人工控制的成本較高,軟件控制的準(zhǔn)確度難以保障,且均未見報道。收割策略之二是基于用戶賬戶,但社交媒體的交流特征致使一個賬戶內(nèi)容常常與其他多個賬戶內(nèi)容產(chǎn)生關(guān)聯(lián),而這種關(guān)聯(lián)又是多維的、隨機的,很難對這種關(guān)聯(lián)進(jìn)行全面清晰的界定,導(dǎo)致基于賬戶的策略在空間維度上無法收割到全面相關(guān)數(shù)據(jù)。收割策略之三是基于時間段,同樣基于社交媒體的用戶交流屬性,這種策略無法在時間維度上收割全面的相關(guān)數(shù)據(jù)。收割策略之四是基于隨機抽樣,在科學(xué)研究中最常用,比如前述的Twitter的API 的1%收割抽樣率,顯然這種策略也存在大量數(shù)據(jù)漏收,且因均不公開抽樣算法,無法驗證抽樣的合理性。

      語義環(huán)境收割的困擾。除了線程之外,社交數(shù)據(jù)的理解還需語義環(huán)境的支撐,但目前的實踐大都僅抓取社交媒體內(nèi)容,較少提供語義環(huán)境的元數(shù)據(jù)收割。比如Twitter的使用條款限制收割用于描述附加信息的元數(shù)據(jù),包括用戶地理位置、評論或轉(zhuǎn)發(fā)的用戶ID等。甚至,一些非文本社交內(nèi)容根本就沒有文本 信息,比如Instagram的照片和視頻收割,元數(shù)據(jù)的缺失導(dǎo)致這類社交多媒體信息完全失去語義環(huán)境。還有,社交內(nèi)容中包含大量的超鏈,這些超鏈的對象內(nèi)容對社交媒體內(nèi)容的理解至關(guān)重要,甚至是內(nèi)容的重要組成部分,但社交平臺大都采用TinyURL[11]和 Bit.ly[12]壓縮URL,導(dǎo)致直接收割后超鏈的失效,當(dāng)然在收割過程中可以將其恢復(fù)為原始URL,但維護(hù)外部URL僅是短期保存的一個方案,確保內(nèi)嵌的外部對象內(nèi)容能夠被長期有效訪問的方法只有同時收割外部對象內(nèi)容并與社交內(nèi)容一起保存或建立兩者之間的鏈接,但目前這項實踐很少,唯一見到的報道是ARCOMEM 項目提供了該解決方案[13]。

      全面收割相關(guān)內(nèi)容是社交媒體收割的一個挑戰(zhàn),剔除重復(fù)內(nèi)容則是社交媒體收割的另一個困擾。因為社交內(nèi)容的轉(zhuǎn)載和群發(fā),導(dǎo)致無論采取何種收割策略,都會出現(xiàn)大量的重復(fù)內(nèi)容,若不及時剔除,保存系統(tǒng)可能存在大量冗余內(nèi)容致使存儲和檢索的困難。去重的一個有效方法是以推文ID為主線,確保收割的元數(shù)據(jù)和推文都與推文ID相連接。去重會刪除一些推文,但也會導(dǎo)致保存會話線程中一些推文的缺失。

      2 社交媒體保存的困擾

      社交媒體高度動態(tài)性導(dǎo)致的社交內(nèi)容快速消失使對其進(jìn)行長期保存尤為迫切。2015年,網(wǎng)絡(luò)歷史學(xué)家Peter Webste報告了社交內(nèi)容的消失速度,稱在英國Web Archive項目中保存的社交內(nèi)容,一年前保存的目前仍然在線且未變化的比例不到10%[14]。Salah和Nelson在檢查社交媒體信息的壽命后,發(fā)現(xiàn)發(fā)布后的第一年消失近11%,以后以每天0.2%的速度持續(xù)消失[15]。2014年,社交媒體用戶上傳到TwitPic數(shù)以百萬計照片的可能被刪除引發(fā)人們的擔(dān)心,原因是Twitter要撤銷對Twitpic的API訪問[16]。實際上,商業(yè)社交平臺都有自己的商業(yè)模式,重視當(dāng)前數(shù)據(jù)輕視歷史數(shù)據(jù),缺乏長期保存的動機,社會沒有理由期望社交平臺對其社交數(shù)據(jù)的長期可用性負(fù)責(zé)。

      2.1 社交平臺條款產(chǎn)生的困擾

      社交數(shù)據(jù)的收割比例和頻率條款導(dǎo)致的困擾。多數(shù)社交平臺允許通過其API收割社交數(shù)據(jù),但幾乎都在使用條款中限制了收割保存數(shù)據(jù)的比率和頻率??赡艿脑蚴巧缃黄脚_都是商業(yè)企業(yè),通過銷售用戶數(shù)據(jù)而獲利,為了保護(hù)企業(yè)利益,社交平臺必須確保數(shù)據(jù)的安全,采取的措施之一是API的使用方針,限制獲取數(shù)據(jù)的比例和請求頻率。這項條款對科學(xué)研究帶來困擾,因為科學(xué)研究需要大量的社交數(shù)據(jù)樣本,方能得出有價值的結(jié)論,但社交平臺通過追蹤基于API訪問請求的方式避免過度的數(shù)據(jù)訪問,否則就取消訪問者的全部權(quán)限,導(dǎo)致科研活動難以獲取充足的數(shù)據(jù)樣本。這項條款也對保存機構(gòu)帶來困擾,一般來說,保存機構(gòu)期望收割一個主題的完整社交數(shù)據(jù),比如一個城市、一個國家、一個持續(xù)發(fā)生的事件等,但這項條款導(dǎo)致這種期望難以實現(xiàn)。

      社交數(shù)據(jù)的禁止出售、出租、租賃、再授權(quán)條款導(dǎo)致了困擾。不僅Twitter明確社交數(shù)據(jù)的禁止轉(zhuǎn)讓許可條款,F(xiàn)oursquare[17],Linked In[18]和You Tube[19]等也有類似條款。該項條款限制了社交數(shù)據(jù)的保存方式,因為一旦保存機構(gòu)收割了社交數(shù)據(jù),根據(jù)條款規(guī)定只能收割者進(jìn)行保存,不能轉(zhuǎn)移給第三方機構(gòu)(如其他保存系統(tǒng)、云存儲等),這對具有長期保存需求但沒有條件建立本地保存系統(tǒng)的收割機構(gòu)帶來困境。這項條款也演繹出了社交數(shù)據(jù)不能共享,在公共保存領(lǐng)域,如文化遺產(chǎn)的保存機構(gòu),社交數(shù)據(jù)的禁止共享使得這類機構(gòu)履行其核心職責(zé)成為困難。

      實踐上,社交平臺條款經(jīng)常改變,有些變化頻率很高(如1年以內(nèi)),導(dǎo)致保存機構(gòu)難以制定長期政策處理社交媒體的保存授權(quán)問題,尤其是從多個社交平臺收割的社交數(shù)據(jù)。

      2.2 保存技術(shù)的困擾

      社交媒體的廣泛應(yīng)用導(dǎo)致社交數(shù)據(jù)快速增長,對社交數(shù)據(jù)的保存技術(shù)帶來兩個問題。一是存儲問題,大規(guī)模社交數(shù)據(jù)的產(chǎn)生需要海量存儲設(shè)備,也需要建立社交數(shù)據(jù)收割的選擇標(biāo)準(zhǔn),用以收割有價值的涵義連貫的社交數(shù)據(jù)集合以供長期保存,另外,社交媒體平臺的使用條款限制了社交數(shù)據(jù)的轉(zhuǎn)移保存,增加了收割方的長期保存難度。二是索引問題,海量的社交數(shù)據(jù)給信息機構(gòu)的傳統(tǒng)索引技術(shù)帶來挑戰(zhàn),需要創(chuàng)新一種新的索引技術(shù)以滿足用戶檢索的需要。比如,2013年,國會圖書館的“Twitter保存項目”的數(shù)據(jù)規(guī)模已達(dá)80TB,1200億條推文[20],由于現(xiàn)行的索引技術(shù)難以勝任這樣規(guī)模的海量數(shù)據(jù)處理,導(dǎo)致目前為止還不能面向用戶提供檢索服務(wù)。

      2.3 保存標(biāo)準(zhǔn)與內(nèi)容的困擾

      保存標(biāo)準(zhǔn)的缺乏致使保存實踐困難?,F(xiàn)行的社交媒體保存實踐主要來自于傳統(tǒng)Web 保存的延伸,使用相似的收割工具,采用相似的保存方法。但社交媒體內(nèi)容與傳統(tǒng)Web內(nèi)容存在根本區(qū)別,已有一些針對社交媒體收割新方法的開發(fā),但都在實驗階段,未見規(guī)模性應(yīng)用的報道。也許是因為社交媒體的新穎性,對其進(jìn)行長期保存的標(biāo)準(zhǔn)和最佳實踐還沒建立,盡管有些相關(guān)的操作指南,但確保社交媒體內(nèi)容及其所有相關(guān)數(shù)據(jù)的長期有效保存的完整標(biāo)準(zhǔn)仍沒出現(xiàn)。

      社交媒體的特質(zhì)導(dǎo)致保存困境。一方面,社交媒體保存需要收割和保存內(nèi)容數(shù)據(jù)和元數(shù)據(jù);另一方面,社交媒體的保存也包括內(nèi)嵌媒體和URL。這兩個方面特質(zhì)都要求保存社交數(shù)據(jù)的語境信息,比如Twitter的推文限制140個字,如果丟失一個內(nèi)嵌URL,就可能會導(dǎo)致一個推文甚至整個交流對話失去意義。目前常用的基于API收割的社交數(shù)據(jù)格式是JSON和XML,前者是一種基于JavaScript的開放式標(biāo)準(zhǔn),被Twitter使用,后者是基于ISO8879-1986的非專有格式,被一些社交媒體的API使用。但是,這兩種格式都沒有提供社交媒體長期訪問的語境信息的解決方案。

      語境信息是保存的重要內(nèi)容,但難以收割。語境存在于用戶的交流過程中,包括使用的終端、平臺提供的服務(wù)、應(yīng)用程序的界面和功能,以及用戶交流所在的社區(qū)等。用戶發(fā)布內(nèi)容的含義受語境的影響很大,未來用戶對保存的社交媒體內(nèi)容的理解能力取決于對語境的保存程度。社交媒體的語境是動態(tài)的,比如,社交平臺頻繁更新服務(wù)界面,改變基本功能,另外,新技術(shù)的誕生也會改變社交媒體的語境。

      因此,僅僅抓取社交內(nèi)容和元數(shù)據(jù)無法提供足夠的語境展示用戶的交流過程,保存語境信息的一個理想方法是抓取用戶的交流過程,采用截屏和視頻錄像方式。記錄社交媒體的用戶整個在線過程,可能是未來社交媒體長期保存的一個趨勢。

      2.4 保存實踐的困擾

      根據(jù)上述對社交媒體收割的現(xiàn)狀考察,研究人員采用API收割的數(shù)據(jù)很有限;代理商和第三方服務(wù)也不可能對社交數(shù)據(jù)進(jìn)行全面收割,且均為價格昂貴的數(shù)據(jù)銷售服務(wù);社交平臺的自存檔服務(wù)也僅提供用戶個人賬戶范圍內(nèi)的社交數(shù)據(jù)下載與備份;社交平臺本身依據(jù)其服務(wù)條款對平臺的所有社交數(shù)據(jù)具有長期保存的權(quán)力,但由于商業(yè)目的在于出售社交數(shù)據(jù)而獲利,故缺乏保存動機。因此,還沒有出現(xiàn)一個真正的社交媒體長期保存項目。

      目前為止,社交媒體長期保存項目的建立嘗試僅發(fā)生在Twitter和美國國會圖書館之間[21]。2010年,Twitter將2006年以來的所有社交數(shù)據(jù)和元數(shù)據(jù)贈予國會圖書館,以期進(jìn)行長期保存,并僅供非商業(yè)用戶的訪問使用,國會圖書館將這個長期保存項目命名為“Twitter保存項目”。但是,贈予協(xié)議附加了兩個條件:一是用戶訪問的時間延遲是社交數(shù)據(jù)發(fā)表6個月,所以研究人員并不擁有Twitter實時社交數(shù)據(jù)的訪問權(quán)限,二是用戶僅限在獲得授權(quán)的研究人員,因此無法實現(xiàn)開放獲取。另外,Twitter提供的海量社交數(shù)據(jù)導(dǎo)致國會圖書館在存儲技術(shù)、數(shù)據(jù)組織和標(biāo)引、訪問方法、數(shù)據(jù)的產(chǎn)權(quán)保護(hù)和用戶隱私保護(hù)等方面都遇到了前所未有的挑戰(zhàn)。目前為止,這個保存項目仍處于構(gòu)建研究階段,未對外開放。但對于未來的基于Twitter社交數(shù)據(jù)研究人員來說,國會圖書館的“Twitter保存項目”毫無疑問是重要的數(shù)據(jù)來源,其價值值得期待。這項合作是商業(yè)化社交平臺與社會文化遺產(chǎn)保存機構(gòu)的首度聯(lián)合,目的是實現(xiàn)社交數(shù)據(jù)的長期保存,以支撐非商業(yè)化的科學(xué)研究,具有劃時代意義,雖然目前遇到了困難和挑戰(zhàn),但對未來發(fā)展具有示范作用。

      3 社交媒體使用的困擾

      3.1 侵權(quán)的困擾

      社交平臺的使用條款禁止對基于API收割的社交數(shù)據(jù)進(jìn)行復(fù)制和傳播,實際上限制了對收割數(shù)據(jù)的任何形式的共享。但在數(shù)據(jù)驅(qū)動的科學(xué)研究領(lǐng)域,數(shù)據(jù)共享越來越重要,甚至在一些情況下是必須的。比如,科學(xué)研究人員對基于API收割的社交數(shù)據(jù)進(jìn)行分析,產(chǎn)生一項研究成果并公開發(fā)表,其他研究人員為了驗證這項成果,就必須獲取相同的社交數(shù)據(jù)集,但社交平臺使用條款限制了這種可能性,因此,無法進(jìn)行再現(xiàn)驗證研究。針對Twitter,目前有一個折中方案,即Twitter沒有禁止Tweet ID的共享,科研人員可以將社交數(shù)據(jù)集的每個Tweet ID共享給再現(xiàn)驗證研究人員,后者根據(jù)Tweet ID收割到相同的社交數(shù)據(jù)集。但這種方案也存在風(fēng)險,因為推特可能已被刪除或被編輯,導(dǎo)致無法收割到完全一致的社交數(shù)據(jù)集。

      社交平臺的使用條款禁止對非用戶本人的社交內(nèi)容的任何直接引用,可能的考慮是社交內(nèi)容中含有大量的個人用戶敏感數(shù)據(jù),這對科研活動有時也會帶來一定的侵權(quán)風(fēng)險。例如,一個Twitter數(shù)據(jù)集包含受版權(quán)保護(hù)的圖片,如果基于該社交數(shù)據(jù)集的科研成果中直接內(nèi)嵌了這些圖片并公開發(fā)表,則構(gòu)成了侵權(quán)。為了防止這種形式的侵權(quán)行為的發(fā)生,目前科學(xué)研究活動采用了一個折中方法,對這些圖片的分析只限制在元數(shù)據(jù)層面且采用定量方法,這樣其研究成果中僅涉及定量分析的結(jié)果,一般可以不包含對原始圖片的引用,這雖然規(guī)避了侵權(quán)風(fēng)險,但有時會對出版物的質(zhì)量和研究成果的可信任性產(chǎn)生負(fù)面影響。然而,如果對社交數(shù)據(jù)集采用定性法進(jìn)行分析,侵權(quán)問題可能會凸顯,因為基于這類方法的研究結(jié)果中常常需要引用(甚至大量引用)社交媒體內(nèi)容。

      3.2 用戶隱私的困擾

      據(jù)統(tǒng)計[22],2015年世界上有29%的人是社交媒體的活躍用戶,2016年將會有超過三分之一的人使用社交媒體,產(chǎn)生的社交數(shù)據(jù)數(shù)量是空前的。隨著用戶數(shù)量的快速增長,社交媒體已經(jīng)像廣播、電話、能源、交通工具等成為人們?nèi)粘I罟ぷ髦斜夭豢缮俚墓不A(chǔ)服務(wù)。但是,與用戶使用其他公共服務(wù)相比,使用社交媒體產(chǎn)生個人隱私數(shù)據(jù)問題更加突出,因為這項服務(wù)的主要功能是用戶交流,交流過程產(chǎn)生的社交數(shù)據(jù)內(nèi)含大量用戶個人隱私信息,如果不進(jìn)行有效的倫理規(guī)范,借助于日益先進(jìn)的社交數(shù)據(jù)挖掘工具,社交數(shù)據(jù)分析作為一項科學(xué)研究活動的整體影響將產(chǎn)生巨大的負(fù)面效應(yīng),遠(yuǎn)遠(yuǎn)超過用戶個人信息泄露的離散案例。

      社交數(shù)據(jù)作為一類大數(shù)據(jù),與其他形式的數(shù)字資源相比,個人隱私的泄露風(fēng)險更大。這種風(fēng)險來自于大數(shù)據(jù)的關(guān)聯(lián)屬性,這種屬性使個人身份更容易泄露。當(dāng)把多個數(shù)據(jù)集(如社交媒體數(shù)據(jù)和管理數(shù)據(jù))合并一起進(jìn)行綜合分析時,很容易建立個人身份與個人信息之間的關(guān)聯(lián),一般來說,數(shù)據(jù)量越大,數(shù)據(jù)的多樣性越豐富,識別個人身份的可能性也越高。當(dāng)然,不同的應(yīng)用對社交隱私數(shù)據(jù)的保護(hù)效果也不盡相同,一般來講,非商業(yè)性應(yīng)用要好于商業(yè)性應(yīng)用,因為前者(如科學(xué)研究)一般由公共經(jīng)費支持,研究成果是公共產(chǎn)品,研究活動以不損害公民利益為前提,所以在使用社交數(shù)據(jù)時,更注重公民的隱私權(quán),保護(hù)公民的個人數(shù)據(jù),但后者的使用對象集中在最新社交數(shù)據(jù),目的是增加銷售收入,對社交用戶隱私數(shù)據(jù)的保護(hù)考慮相對較少。目前廣泛采用的匿名化可以降低個人隱私泄露的風(fēng)險,但簡單的匿名化不可能完全防止這類風(fēng)險,一項報告指出[23],很多大數(shù)據(jù)的應(yīng)用程序都可以很容易地破解匿名問題。

      社交平臺的服務(wù)條款大都界定社交數(shù)據(jù)的所有權(quán)歸社交媒體,比如Twitter, Facebook,谷歌,LinkedIn等。用戶在使用社交媒體時需要簽署使用服務(wù)的協(xié)議,協(xié)議中一些選項的選擇也可能涉及對未來泄露個人隱私的認(rèn)可。這種服務(wù)條款和用戶協(xié)議在社交數(shù)據(jù)所有權(quán)歸屬認(rèn)定上用戶處于弱勢和被動地位,雖然用戶是社交媒體內(nèi)容的作者,用戶數(shù)據(jù)也是用戶本人自愿產(chǎn)生的,但這些社交數(shù)據(jù)無論用于商業(yè)目的,還是用于非商業(yè)的科學(xué)研究、作為社會文化遺產(chǎn)的收藏、收割到保存系統(tǒng),用戶完全失去控制權(quán)甚至知曉權(quán)。所以,從用戶角度,追蹤和識別個人隱私數(shù)據(jù)的應(yīng)用軌跡是不可行的。

      因此,技術(shù)防御無法完全解決用戶個人信息的泄露,必須針對社交數(shù)據(jù)使用建立一套倫理規(guī)范。業(yè)已存在的相關(guān)倫理準(zhǔn)則可以參考,比如,經(jīng)濟(jì)合作與發(fā)展組織[24](OECD)的《個人隱私保護(hù)和個人數(shù)據(jù)傳播指南》、英國國家經(jīng)濟(jì)和社會研究委員會[25](ESRC)的《科研倫理框架》、因特網(wǎng)研究者協(xié)會[26](AIR)的《倫理推薦指南》、歐盟[27](EU)的《被遺忘權(quán)》等,但這些準(zhǔn)則和指南要么規(guī)范特定的使用群體(如OECD和EU),要么規(guī)范特定的應(yīng)用對象(如ESRC 和AIR),完全針對社交數(shù)據(jù)特質(zhì)的還未見報道。

      3.3 訪問實踐的困擾

      據(jù)普查,目前還沒有一個真正的社交媒體數(shù)據(jù)長期保存系統(tǒng),雖然社交平臺有長期保存社交數(shù)據(jù)的權(quán)力,但均沒有長期保存的計劃,更沒有長期保存項目的實施,用戶對社交媒體數(shù)據(jù)的使用大多限在對社交平臺訪問的層面。但是,至今為止,社交媒體都沒有對用戶(包括個人用戶和團(tuán)體用戶)給予完全訪問的授權(quán),僅有的一個完全訪問授權(quán)的例子發(fā)生在Twitter與MIT (麻省理工)之間[28]。

      2014年,Twitter與MIT簽署協(xié)議,旨在向后者提供其全部社交數(shù)據(jù)(包括歷史數(shù)據(jù)、當(dāng)前數(shù)據(jù)和未來數(shù)據(jù))非商業(yè)化使用的長期訪問授權(quán),同時向后者的媒體實驗室提供一千萬美元支持社交數(shù)據(jù)分析工具的研發(fā)。協(xié)議規(guī)定,Twitter通過其Gnip數(shù)據(jù)服務(wù)向MIT開放其所有社交數(shù)據(jù)的訪問,MIT基于對Twitter社交數(shù)據(jù)的訪問分析,向政府提供完善城市社區(qū)的公共服務(wù)功能、提高社區(qū)運行效率以及政府服務(wù)透明度的對策,且MIT無需報告訪問、獲取和利用Twitter數(shù)據(jù)的計劃,也無需將Twitter數(shù)據(jù)下載轉(zhuǎn)移到本地設(shè)備,避免數(shù)據(jù)存儲成本的發(fā)生。截至2105年底,這項協(xié)議執(zhí)行效果良好。

      但是,這個協(xié)議授權(quán)的僅是MIT。實際上,僅為了科學(xué)研究的目的期望訪問甚至收割社交數(shù)據(jù)的研究群體很大,如何滿足這一群體的需求是社交媒體界乃至整個社會面臨的挑戰(zhàn)。在這項合作中,Twitter為了公共利益履行了自己的社會義務(wù),雖然合作剛剛開始,長期效果的評價現(xiàn)在還為時過早,但它具有劃時代意義,開啟了新媒體時代商業(yè)化社交平臺無償服務(wù)于社會的新模式。

      社交媒體是一種新型的數(shù)字資源。與其他類型數(shù)字資源的長期保存相比,社交媒體長期保存的理論探討與實踐項目都甚顯遜色。據(jù)筆者考察,目前為止還沒有一個專門的社交媒體長期保存系統(tǒng),社交媒體數(shù)字資源一般被保存到Web保存系統(tǒng)中,且按照一般Web網(wǎng)頁的收割方法進(jìn)行收割。但是,這種收割和保存方法完全忽略了社交媒體數(shù)字資源的用戶交流屬性和語境依賴屬性,給用戶使用帶來極大困難。本文基于社交媒體的特質(zhì)析出了這類數(shù)字資源長期保存面臨的一些困擾,以期業(yè)界探討解決方案,應(yīng)用到未來的保存實踐之中。

      (來稿時間:2016年4月)

      1.Timehop.We’re Building the Future of the Past[EB/OL].[2016-01-09].http://timehop.com/press

      2.Twitter.Streaming API[EB/OL].[2016-02-01].https://dev.twitter.com/streaming/overview

      3.GNIP.Customized Solutions for Predictable Pricing[EB/OL].[2016-02-01].https://gnip.com/pricing/

      4.ArchiveSocial.Risk Management & Analystics for Social Media Archiving[EB/OL].[2016-02-09].http://archivesocial.com/

      5.MirrorWeb.Archiving Websites and Social Media [EB/OL].[2016-03-03].https://www.mirror-web.com/

      6.Erado.About Erado[EB/OL].[2016-01-01].https://www.erado.com/

      7.Gwava.Efficient Management of Your Corporate Communication[EB/OL].[2016-02-09].http://www.gwava.eu/en

      8.Bandziulis, L.How to Download and Archive Your Social Media Memories[EB/OL].[2015-12-09].http://www.wired.com/2014/07/archive-social-networks

      9.North Carolina State Universities (NCSU) Libraries.Social Media Archives Toolkit[EB/OL].[2016-01-07].https://www.lib.ncsu.edu/social-media-archives-toolkit

      10.DRI.Digital Repository of Ireland[EB/OL].[2016-01-12].http://www.dri.ie/

      11.百度百科.TinyURL[EB/OL].[2016-03-01].http://baike.baidu.com/link?url=lNbBh_sEC79y46GCLrmoLzM tETZUMUfxon9C7pHQe2SCAQlLG3BCK9QFEqff4H4 Hiiw64I7ciUCCFpJlRpsvIa

      12.百度百科.Bit.ly[EB/OL].[2016-03-01].http://baike.baidu.com/link?url=LWnDmseCr75BLJ6UYcZOCy3f3t8 kX-SfdK6V554QoquD16Yj0H8mBlHphh1oov37qER7ny o0z0Owvjd_Y-k_q

      13.Risse, T.et.al.Documenting Contemporary Society by Preserving Relevant Information from Twitter.In: Weller, K.et al.Twitter and Society[M].NY: Peter Lang Publishing, 2015:310-354

      14.Webster, P.How Fast Does the Web Change and Decay? Some Evidence[EB/OL].[2016-01-01].http://webarchivehistorians.org/2015/03

      15.Salah, H., Nelson, M.Losing My Revolution: How Many Resources Shared on Social Media Have Been Lost?[EB/OL] [2016-01-09].http://arxiv.org/abs/1209.3026

      16.D’Orazio, D.Twitpic Saved by Twitter Just Hours Before Planned Shut Down[EB/OL].[2016-01-18].http://www.theverge.com/2014/10/25/7070585/twitpic-savedby-twitter-just-hours-before-planned-shutdown

      17.Foursquare.Foursquare Platform Policy[EB/OL].[2016-02-01].https://foursquare.com/legal/api/

      18.Linked In.API Terms of Use[EB/OL].[2015-12-19].https://developer.linkedin.com/legal/api-terms-of-use

      19.YouTube.YouTube Developer Policy[EB/OL].[2015-12-19].https://developers.google.com/youtube/terms?hl=en

      20.Library of Congress.Update on the Twitter Archive at the Library of Congress[EB/OL].[2015-10-10].http://www.loc.gov/today/pr/2013/files/twitter_report_2013jan.pdf

      21.Library of Congress.Twitter Donates Entire Tweet Archive to Library of Congress[EB/OL].[2015-12-12].http://www.loc.gov/today/pr/2010/10-081.html

      22.Kemp,S.Digital, Social & Mobile in APAC in 2015[EB/OL].[2016-01-09].http://wearesocial.sg/ blog/2015/03/digital-social-mobile-in-apac-in-2015/

      23.President’s Council of Advisors on Science and Technology(USA).Big Data and Privacy: A Technological Perspective[EB/OL].[2016-01-01].https://www.whitehouse.gov/sites/default/files/microsites/ostp/PCAST/ pcast_big_data_and_privacy_-_may_2014.pdf

      24.OECD.Guidelines on the Protection of Privacy and Transborder Flows of Personal Data[EB/OL].[2015-11-09].http://www.oecd.org/sti/ieconomy/oecdguidelinesonthe protectionofprivacyandtransborderflowsofpersonaldata.htm

      25.ESRC.Framework for Research Ethics[EB/OL].[2015-12-30].http://www.esrc.ac.uk/funding/guidance-forapplicants/research-ethics

      26.Association of Internet Researcher.Ethical Recommendations[EB/OL].[2015-11-07].http://aoir.org/ethics

      27.EU.Law Regarding the Right to Be Forgotten[EB/ OL].[2015-12-12].http://eur-lex.europa.eu/legal-content/ EN/TXT/?uri=URISERV%3Al14012

      28.Gillis, M.Investing in MIT’s new Laboratory for Social Machines (Twitter blog)[EB/OL].[2016-01-08].https://blog.twitter.com/2014/investing-in-mit-s-newlaboratory-for-social-machines

      Some Confusions in Social Media Long-term Preservation

      Zang Guoquan Zhao Peiduan
      ( School of Information Management, Zhengzhou University)

      Compared with other digital resources, social media has its own characteristics.There are some confusions during the social media long-term preservation: social media harvesting confusions, including the harvesting ways and boundary definition; social media preservation confusions, including the social platform terms, preservation technology,preservation standard and content, and preservation practice; social media usage confusions, including the copyright infringement, user privacy and access practice.

      Social media Digital preservation Digital resource

      G250

      格式〕 臧國全,趙佩端.社交媒體長期保存的困擾[J].圖書館,2016(9):77-82

      臧國全(1963-),男,鄭州大學(xué)信息管理學(xué)院教授,副院長,發(fā)表論文80多篇,出版學(xué)術(shù)專著3部;趙佩端(1992-),女,鄭州大學(xué)信息管理學(xué)院在讀碩士研究生。

      * 本文系國家自然科學(xué)基金項目“數(shù)字保存的風(fēng)險型元數(shù)據(jù)與風(fēng)險監(jiān)控研究”(項目編號:71673255)研究成果之一。

      猜你喜歡
      社交內(nèi)容用戶
      社交之城
      英語世界(2023年6期)2023-06-30 06:28:28
      內(nèi)容回顧溫故知新
      社交牛人癥該怎么治
      意林彩版(2022年2期)2022-05-03 10:25:08
      社交距離
      你回避社交,真不是因為內(nèi)向
      文苑(2018年17期)2018-11-09 01:29:28
      關(guān)注用戶
      商用汽車(2016年11期)2016-12-19 01:20:16
      主要內(nèi)容
      臺聲(2016年2期)2016-09-16 01:06:53
      關(guān)注用戶
      商用汽車(2016年6期)2016-06-29 09:18:54
      關(guān)注用戶
      商用汽車(2016年4期)2016-05-09 01:23:12
      如何獲取一億海外用戶
      抚顺县| 达孜县| 安达市| 青州市| 年辖:市辖区| 盐津县| 罗定市| 绥江县| 衡东县| 和龙市| 安化县| 荥经县| 灵台县| 大厂| 大埔县| 岫岩| 嘉峪关市| 马山县| 内黄县| 大宁县| 南陵县| 衡阳县| 城市| 澄江县| 汉寿县| 上栗县| 应城市| 侯马市| 措美县| 沂南县| 行唐县| 宣威市| 全南县| 岚皋县| 来安县| 碌曲县| 鲜城| 定兴县| 万载县| 阜康市| 南丰县|