社交媒體長期保存的困擾*

2016-02-12 17:07:31臧國全趙佩端

圖書館 2016年9期

關(guān)鍵詞：社交內(nèi)容用戶

臧國全趙佩端

（鄭州大學(xué)信息管理學(xué)院鄭州 450001）

·專題研究·

社交媒體長期保存的困擾*

臧國全趙佩端

（鄭州大學(xué)信息管理學(xué)院鄭州 450001）

與其他類型數(shù)字資源相比，社交媒體有其自身的特殊性，對其實施長期保存面臨諸多困擾：社交媒體收割的困擾，包括收割方式產(chǎn)生的困擾和收割邊界的困擾；社交媒體保存的困擾，包括社交平臺條款產(chǎn)生的困擾、保存技術(shù)的困擾、保存標(biāo)準(zhǔn)與內(nèi)容的困擾、保存實踐的困擾；社交媒體使用的困擾，包括侵權(quán)的困擾、用戶隱私的困擾和訪問實踐的困擾。

社交媒體數(shù)字保存數(shù)字資源

社交媒體是基于因特網(wǎng)的一種應(yīng)用程序，基本功能是構(gòu)建用戶的交流平臺。實踐中，社交媒體包括不同類型的網(wǎng)絡(luò)平臺，主要有：社交網(wǎng)站（如Facebook 和QQ空間），用戶集體創(chuàng)作內(nèi)容網(wǎng)站（如YouTube和維基百科），產(chǎn)品和服務(wù)的營銷網(wǎng)站（如Amazon和eBay）。盡管不同類型社交平臺的功能存在一些差異，但用戶在線交流是基本功能，均產(chǎn)生交流內(nèi)容及其附加數(shù)據(jù)，可供科研人員進(jìn)行數(shù)據(jù)挖掘，也可為商業(yè)企業(yè)提供消費分析和市場研究，且后者的應(yīng)用越來越多，已經(jīng)形成一種商業(yè)運作模式。

數(shù)字資源長期保存系統(tǒng)主要包括數(shù)字資源獲取、數(shù)字資源保存和用戶訪問三大模塊。同樣，社交媒體長期保存也涵蓋社交媒體收割、社交媒體保存和用戶使用三個環(huán)節(jié)，每個環(huán)節(jié)都存在一些困擾。

1 社交媒體收割的困擾

1.1 收割方式產(chǎn)生的困擾

與Web 1.0的網(wǎng)絡(luò)信息資源通常使用Web爬蟲程序（如Heritrix）抓取不同，以Web 2.0展現(xiàn)的社交媒體，因其交互特征（常用JavaScript實現(xiàn)），導(dǎo)致對其實施收割需要不同的工具，采用不同的方法，且均產(chǎn)生一些困擾。

（1）應(yīng)用編程接口（API）

社交媒體平臺提供的API是社交媒體平臺與社交數(shù)據(jù)收割者之間的接口，定義對社交數(shù)據(jù)收割的規(guī)則，比如，F(xiàn)acebook的Timehop API［1］可定制收割一個用戶賬戶中每年特定一天的社交內(nèi)容。API的收割需要申請，比如Twitter中，收割者需申請，一旦申請被接受，API將與Twitter連接，收割連接之后產(chǎn)生的社交數(shù)據(jù)，并轉(zhuǎn)換為結(jié)構(gòu)化的JSON格式提供給收割者。API的收割不僅包括社交內(nèi)容，還包括元數(shù)據(jù)，比如，Twitter的API收割有用戶ID、用戶IP、用戶發(fā)出推文后的操作記錄（共享、愛好）等；Facebook的Graph API收割包括產(chǎn)生的評論；YouTube的API收割除了用戶發(fā)布的視頻外，還有描述視頻及其關(guān)聯(lián)的元數(shù)據(jù)。

API收割雖然提供了獲取社交數(shù)據(jù)的一個途徑，但也存在一些困擾，其中之一是限制收割的數(shù)據(jù)量，比如，Twitter的API收割量限制為總數(shù)據(jù)量的1%，且不公開1%樣本量的抽取方法，導(dǎo)致收割者無法檢驗獲取數(shù)據(jù)的代表性［2］。

（2）社交數(shù)據(jù)代理商和第三方服務(wù)

社交數(shù)據(jù)代理商一般是社交平臺的官方商業(yè)機構(gòu)，提供采用API難以收割的數(shù)據(jù)，比如，代理商Gnip提供Twitter的API無法收割的歷史數(shù)據(jù)（因為Twitter 的API只收割用戶連接后的社交數(shù)據(jù)），甚至包括全部推文的收割服務(wù)，但需付費，每月為2000美元，外加每1000個推文的傳遞費0.1美元［3］。社交數(shù)據(jù)代理商還提供特定數(shù)據(jù)的收割，比如，代理商DataSift提供Twitter、Facebook和Youtube的主題數(shù)據(jù)收割（包括實時的和歷史的社交數(shù)據(jù)），銷售給品牌公司、金融市場、新聞機構(gòu)等進(jìn)行數(shù)據(jù)分析。

第三方服務(wù)是獨立于社交平臺和社交數(shù)據(jù)需求者的服務(wù)實體，通過協(xié)議向需求者提供社交數(shù)據(jù)收割。業(yè)已存在的第三方服務(wù)有兩類：一是商業(yè)服務(wù)項目，如ArchiveSocial［4］，MirrorWeb［5］，Erado［6］，Gwava［7］等，專門從事社交數(shù)據(jù)收割，可根據(jù)用戶的需求提供個性化的定制收割服務(wù)；二是公益性保存項目，如互聯(lián)網(wǎng)記憶基金會（IMF）和國際互聯(lián)網(wǎng)保存聯(lián)盟（IIPC）的Web保存項目，將社交數(shù)據(jù)收割作為其中一項業(yè)務(wù)。

顯然，社交數(shù)據(jù)代理商和第三方服務(wù)提供的大都是商業(yè)服務(wù)，用戶需要購買，且價格不菲。也有例外，比如，針對社交數(shù)據(jù)代理商DataSift收割的Twitter社交數(shù)據(jù)，當(dāng)用戶的需求是包含特定關(guān)鍵詞或標(biāo)簽時，只要目標(biāo)數(shù)據(jù)集不超過所有社交數(shù)據(jù)的1%，免費提供；再比如，用戶可以從第三方服務(wù)的公益型保存項目中免費訪問社交數(shù)據(jù)。

（3）社交媒體平臺的用戶自存檔服務(wù)

自存檔是一些社交媒體平臺（如Facebook、谷歌和Twitter等［8］）向用戶提供的下載其賬戶數(shù)據(jù)的備份服務(wù)，但需用戶相應(yīng)設(shè)置。自存檔數(shù)據(jù)僅限用戶賬戶本身，不涉及其他賬戶內(nèi)容。如，F(xiàn)acebook只備份賬戶所有者發(fā)布的內(nèi)容和發(fā)送給所有者賬戶的內(nèi)容，以電子郵件方式郵寄給用戶一個結(jié)構(gòu)化的壓縮文件，且限定幾天內(nèi)下載，之后過期；谷歌的一些服務(wù)（Gmail、谷歌日歷、視頻群聊和YouTube）也提供自存檔功能［8］。

很明顯，這項服務(wù)針對單個用戶賬戶的社交數(shù)據(jù)，收割范圍很有限。但對于機構(gòu)賬戶可能是一個有價值的選擇，可用來收割保存一個機構(gòu)中使用該公共賬戶產(chǎn)生的所有社交數(shù)據(jù)。對公眾人物，這項服務(wù)為建立個人社交檔案提供了一個解決方案。

1.2 收割邊界的困擾

目前為止，還未出現(xiàn)針對一個或多個社交平臺的所有社交數(shù)據(jù)進(jìn)行收割的實踐，已有的收割實踐都是專題性的，都存在收割邊界的界定問題，但目前的界定實踐都存在一些困擾。

社交過程線程構(gòu)建的困擾。與傳統(tǒng)網(wǎng)頁不同，社交媒體的核心是用戶交流，一個完整的交流過程可稱為一個線程，但交流過程可能涉及多個用戶賬戶，且常常包含多個相關(guān)對話主題和事件，導(dǎo)致難以清晰界定一個交流過程的開始和結(jié)束。已有的一些收割實踐很少考慮線程的建立，比如，北卡羅萊納州大學(xué)圖書館的社交媒體保存系統(tǒng)［9］，依據(jù)該校的官方賬戶和與該校相關(guān)事件的標(biāo)簽，收割Twitter和Instagram社交平臺的相關(guān)數(shù)據(jù)；愛爾蘭社交媒體保存項目［10］，基于地理位置、關(guān)鍵詞和標(biāo)簽，使用Twitter API的收割工具，搜集與愛爾蘭相關(guān)的所有推文。這些項目都采用不同方法界定收割范圍，但都沒有考慮線程的構(gòu)建，常常會出現(xiàn)一個線程中的一些對話在收割范圍內(nèi)，但其他對話在收割范圍外，導(dǎo)致無法完整收割一個線程中的所有對話，致使未來用戶使用的理解困難。

社交媒體收割策略的困擾。常用的收割策略之一是基于關(guān)鍵詞和標(biāo)簽，但在幾乎所有社交媒體中都沒有對用戶使用的關(guān)鍵詞和標(biāo)簽進(jìn)行規(guī)劃化處理，存在大量的一詞多義、多詞一義、詞義含糊現(xiàn)象，對識別社交內(nèi)容涉及的實體（人、地方、機構(gòu)、事件等）的標(biāo)簽也常存在拼寫不同甚至錯誤，一些術(shù)語常常變化，這些因素都會導(dǎo)致基于關(guān)鍵詞和標(biāo)簽的全面收割相關(guān)內(nèi)容的策略難以準(zhǔn)確設(shè)計，且也無法過濾掉虛假數(shù)據(jù)、個別道德缺失的用戶傳播的僵尸數(shù)據(jù)和污染數(shù)據(jù)，當(dāng)然對收割的數(shù)據(jù)進(jìn)行質(zhì)量控制是一個解決方法，但人工控制的成本較高，軟件控制的準(zhǔn)確度難以保障，且均未見報道。收割策略之二是基于用戶賬戶，但社交媒體的交流特征致使一個賬戶內(nèi)容常常與其他多個賬戶內(nèi)容產(chǎn)生關(guān)聯(lián)，而這種關(guān)聯(lián)又是多維的、隨機的，很難對這種關(guān)聯(lián)進(jìn)行全面清晰的界定，導(dǎo)致基于賬戶的策略在空間維度上無法收割到全面相關(guān)數(shù)據(jù)。收割策略之三是基于時間段，同樣基于社交媒體的用戶交流屬性，這種策略無法在時間維度上收割全面的相關(guān)數(shù)據(jù)。收割策略之四是基于隨機抽樣，在科學(xué)研究中最常用，比如前述的Twitter的API 的1%收割抽樣率，顯然這種策略也存在大量數(shù)據(jù)漏收，且因均不公開抽樣算法，無法驗證抽樣的合理性。

語義環(huán)境收割的困擾。除了線程之外，社交數(shù)據(jù)的理解還需語義環(huán)境的支撐，但目前的實踐大都僅抓取社交媒體內(nèi)容，較少提供語義環(huán)境的元數(shù)據(jù)收割。比如Twitter的使用條款限制收割用于描述附加信息的元數(shù)據(jù)，包括用戶地理位置、評論或轉(zhuǎn)發(fā)的用戶ID等。甚至，一些非文本社交內(nèi)容根本就沒有文本信息，比如Instagram的照片和視頻收割，元數(shù)據(jù)的缺失導(dǎo)致這類社交多媒體信息完全失去語義環(huán)境。還有，社交內(nèi)容中包含大量的超鏈，這些超鏈的對象內(nèi)容對社交媒體內(nèi)容的理解至關(guān)重要，甚至是內(nèi)容的重要組成部分，但社交平臺大都采用TinyURL［11］和 Bit.ly［12］壓縮URL，導(dǎo)致直接收割后超鏈的失效，當(dāng)然在收割過程中可以將其恢復(fù)為原始URL，但維護(hù)外部URL僅是短期保存的一個方案，確保內(nèi)嵌的外部對象內(nèi)容能夠被長期有效訪問的方法只有同時收割外部對象內(nèi)容并與社交內(nèi)容一起保存或建立兩者之間的鏈接，但目前這項實踐很少，唯一見到的報道是ARCOMEM 項目提供了該解決方案［13］。

全面收割相關(guān)內(nèi)容是社交媒體收割的一個挑戰(zhàn)，剔除重復(fù)內(nèi)容則是社交媒體收割的另一個困擾。因為社交內(nèi)容的轉(zhuǎn)載和群發(fā)，導(dǎo)致無論采取何種收割策略，都會出現(xiàn)大量的重復(fù)內(nèi)容，若不及時剔除，保存系統(tǒng)可能存在大量冗余內(nèi)容致使存儲和檢索的困難。去重的一個有效方法是以推文ID為主線，確保收割的元數(shù)據(jù)和推文都與推文ID相連接。去重會刪除一些推文，但也會導(dǎo)致保存會話線程中一些推文的缺失。

2 社交媒體保存的困擾

社交媒體高度動態(tài)性導(dǎo)致的社交內(nèi)容快速消失使對其進(jìn)行長期保存尤為迫切。2015年，網(wǎng)絡(luò)歷史學(xué)家Peter Webste報告了社交內(nèi)容的消失速度，稱在英國Web Archive項目中保存的社交內(nèi)容，一年前保存的目前仍然在線且未變化的比例不到10%［14］。Salah和Nelson在檢查社交媒體信息的壽命后，發(fā)現(xiàn)發(fā)布后的第一年消失近11%，以后以每天0.2%的速度持續(xù)消失［15］。2014年，社交媒體用戶上傳到TwitPic數(shù)以百萬計照片的可能被刪除引發(fā)人們的擔(dān)心，原因是Twitter要撤銷對Twitpic的API訪問［16］。實際上，商業(yè)社交平臺都有自己的商業(yè)模式，重視當(dāng)前數(shù)據(jù)輕視歷史數(shù)據(jù)，缺乏長期保存的動機，社會沒有理由期望社交平臺對其社交數(shù)據(jù)的長期可用性負(fù)責(zé)。

2.1 社交平臺條款產(chǎn)生的困擾

社交數(shù)據(jù)的收割比例和頻率條款導(dǎo)致的困擾。多數(shù)社交平臺允許通過其API收割社交數(shù)據(jù)，但幾乎都在使用條款中限制了收割保存數(shù)據(jù)的比率和頻率?？赡艿脑蚴巧缃黄脚_都是商業(yè)企業(yè)，通過銷售用戶數(shù)據(jù)而獲利，為了保護(hù)企業(yè)利益，社交平臺必須確保數(shù)據(jù)的安全，采取的措施之一是API的使用方針，限制獲取數(shù)據(jù)的比例和請求頻率。這項條款對科學(xué)研究帶來困擾，因為科學(xué)研究需要大量的社交數(shù)據(jù)樣本，方能得出有價值的結(jié)論，但社交平臺通過追蹤基于API訪問請求的方式避免過度的數(shù)據(jù)訪問，否則就取消訪問者的全部權(quán)限，導(dǎo)致科研活動難以獲取充足的數(shù)據(jù)樣本。這項條款也對保存機構(gòu)帶來困擾，一般來說，保存機構(gòu)期望收割一個主題的完整社交數(shù)據(jù)，比如一個城市、一個國家、一個持續(xù)發(fā)生的事件等，但這項條款導(dǎo)致這種期望難以實現(xiàn)。

社交數(shù)據(jù)的禁止出售、出租、租賃、再授權(quán)條款導(dǎo)致了困擾。不僅Twitter明確社交數(shù)據(jù)的禁止轉(zhuǎn)讓許可條款，F(xiàn)oursquare［17］，Linked In［18］和You Tube［19］等也有類似條款。該項條款限制了社交數(shù)據(jù)的保存方式，因為一旦保存機構(gòu)收割了社交數(shù)據(jù)，根據(jù)條款規(guī)定只能收割者進(jìn)行保存，不能轉(zhuǎn)移給第三方機構(gòu)（如其他保存系統(tǒng)、云存儲等），這對具有長期保存需求但沒有條件建立本地保存系統(tǒng)的收割機構(gòu)帶來困境。這項條款也演繹出了社交數(shù)據(jù)不能共享，在公共保存領(lǐng)域，如文化遺產(chǎn)的保存機構(gòu)，社交數(shù)據(jù)的禁止共享使得這類機構(gòu)履行其核心職責(zé)成為困難。

實踐上，社交平臺條款經(jīng)常改變，有些變化頻率很高（如1年以內(nèi)），導(dǎo)致保存機構(gòu)難以制定長期政策處理社交媒體的保存授權(quán)問題，尤其是從多個社交平臺收割的社交數(shù)據(jù)。

2.2 保存技術(shù)的困擾

社交媒體的廣泛應(yīng)用導(dǎo)致社交數(shù)據(jù)快速增長，對社交數(shù)據(jù)的保存技術(shù)帶來兩個問題。一是存儲問題，大規(guī)模社交數(shù)據(jù)的產(chǎn)生需要海量存儲設(shè)備，也需要建立社交數(shù)據(jù)收割的選擇標(biāo)準(zhǔn)，用以收割有價值的涵義連貫的社交數(shù)據(jù)集合以供長期保存，另外，社交媒體平臺的使用條款限制了社交數(shù)據(jù)的轉(zhuǎn)移保存，增加了收割方的長期保存難度。二是索引問題，海量的社交數(shù)據(jù)給信息機構(gòu)的傳統(tǒng)索引技術(shù)帶來挑戰(zhàn)，需要創(chuàng)新一種新的索引技術(shù)以滿足用戶檢索的需要。比如，2013年，國會圖書館的“Twitter保存項目”的數(shù)據(jù)規(guī)模已達(dá)80TB，1200億條推文［20］，由于現(xiàn)行的索引技術(shù)難以勝任這樣規(guī)模的海量數(shù)據(jù)處理，導(dǎo)致目前為止還不能面向用戶提供檢索服務(wù)。

2.3 保存標(biāo)準(zhǔn)與內(nèi)容的困擾

保存標(biāo)準(zhǔn)的缺乏致使保存實踐困難?，F(xiàn)行的社交媒體保存實踐主要來自于傳統(tǒng)Web 保存的延伸，使用相似的收割工具，采用相似的保存方法。但社交媒體內(nèi)容與傳統(tǒng)Web內(nèi)容存在根本區(qū)別，已有一些針對社交媒體收割新方法的開發(fā)，但都在實驗階段，未見規(guī)模性應(yīng)用的報道。也許是因為社交媒體的新穎性，對其進(jìn)行長期保存的標(biāo)準(zhǔn)和最佳實踐還沒建立，盡管有些相關(guān)的操作指南，但確保社交媒體內(nèi)容及其所有相關(guān)數(shù)據(jù)的長期有效保存的完整標(biāo)準(zhǔn)仍沒出現(xiàn)。

社交媒體的特質(zhì)導(dǎo)致保存困境。一方面，社交媒體保存需要收割和保存內(nèi)容數(shù)據(jù)和元數(shù)據(jù)；另一方面，社交媒體的保存也包括內(nèi)嵌媒體和URL。這兩個方面特質(zhì)都要求保存社交數(shù)據(jù)的語境信息，比如Twitter的推文限制140個字，如果丟失一個內(nèi)嵌URL，就可能會導(dǎo)致一個推文甚至整個交流對話失去意義。目前常用的基于API收割的社交數(shù)據(jù)格式是JSON和XML，前者是一種基于JavaScript的開放式標(biāo)準(zhǔn)，被Twitter使用，后者是基于ISO8879-1986的非專有格式，被一些社交媒體的API使用。但是，這兩種格式都沒有提供社交媒體長期訪問的語境信息的解決方案。

語境信息是保存的重要內(nèi)容，但難以收割。語境存在于用戶的交流過程中，包括使用的終端、平臺提供的服務(wù)、應(yīng)用程序的界面和功能，以及用戶交流所在的社區(qū)等。用戶發(fā)布內(nèi)容的含義受語境的影響很大，未來用戶對保存的社交媒體內(nèi)容的理解能力取決于對語境的保存程度。社交媒體的語境是動態(tài)的，比如，社交平臺頻繁更新服務(wù)界面，改變基本功能，另外，新技術(shù)的誕生也會改變社交媒體的語境。

因此，僅僅抓取社交內(nèi)容和元數(shù)據(jù)無法提供足夠的語境展示用戶的交流過程，保存語境信息的一個理想方法是抓取用戶的交流過程，采用截屏和視頻錄像方式。記錄社交媒體的用戶整個在線過程，可能是未來社交媒體長期保存的一個趨勢。

2.4 保存實踐的困擾

根據(jù)上述對社交媒體收割的現(xiàn)狀考察，研究人員采用API收割的數(shù)據(jù)很有限；代理商和第三方服務(wù)也不可能對社交數(shù)據(jù)進(jìn)行全面收割，且均為價格昂貴的數(shù)據(jù)銷售服務(wù)；社交平臺的自存檔服務(wù)也僅提供用戶個人賬戶范圍內(nèi)的社交數(shù)據(jù)下載與備份；社交平臺本身依據(jù)其服務(wù)條款對平臺的所有社交數(shù)據(jù)具有長期保存的權(quán)力，但由于商業(yè)目的在于出售社交數(shù)據(jù)而獲利，故缺乏保存動機。因此，還沒有出現(xiàn)一個真正的社交媒體長期保存項目。

目前為止，社交媒體長期保存項目的建立嘗試僅發(fā)生在Twitter和美國國會圖書館之間［21］。2010年，Twitter將2006年以來的所有社交數(shù)據(jù)和元數(shù)據(jù)贈予國會圖書館，以期進(jìn)行長期保存，并僅供非商業(yè)用戶的訪問使用，國會圖書館將這個長期保存項目命名為“Twitter保存項目”。但是，贈予協(xié)議附加了兩個條件：一是用戶訪問的時間延遲是社交數(shù)據(jù)發(fā)表6個月，所以研究人員并不擁有Twitter實時社交數(shù)據(jù)的訪問權(quán)限，二是用戶僅限在獲得授權(quán)的研究人員，因此無法實現(xiàn)開放獲取。另外，Twitter提供的海量社交數(shù)據(jù)導(dǎo)致國會圖書館在存儲技術(shù)、數(shù)據(jù)組織和標(biāo)引、訪問方法、數(shù)據(jù)的產(chǎn)權(quán)保護(hù)和用戶隱私保護(hù)等方面都遇到了前所未有的挑戰(zhàn)。目前為止，這個保存項目仍處于構(gòu)建研究階段，未對外開放。但對于未來的基于Twitter社交數(shù)據(jù)研究人員來說，國會圖書館的“Twitter保存項目”毫無疑問是重要的數(shù)據(jù)來源，其價值值得期待。這項合作是商業(yè)化社交平臺與社會文化遺產(chǎn)保存機構(gòu)的首度聯(lián)合，目的是實現(xiàn)社交數(shù)據(jù)的長期保存，以支撐非商業(yè)化的科學(xué)研究，具有劃時代意義，雖然目前遇到了困難和挑戰(zhàn)，但對未來發(fā)展具有示范作用。

3 社交媒體使用的困擾

3.1 侵權(quán)的困擾

社交平臺的使用條款禁止對基于API收割的社交數(shù)據(jù)進(jìn)行復(fù)制和傳播，實際上限制了對收割數(shù)據(jù)的任何形式的共享。但在數(shù)據(jù)驅(qū)動的科學(xué)研究領(lǐng)域，數(shù)據(jù)共享越來越重要，甚至在一些情況下是必須的。比如，科學(xué)研究人員對基于API收割的社交數(shù)據(jù)進(jìn)行分析，產(chǎn)生一項研究成果并公開發(fā)表，其他研究人員為了驗證這項成果，就必須獲取相同的社交數(shù)據(jù)集，但社交平臺使用條款限制了這種可能性，因此，無法進(jìn)行再現(xiàn)驗證研究。針對Twitter，目前有一個折中方案，即Twitter沒有禁止Tweet ID的共享，科研人員可以將社交數(shù)據(jù)集的每個Tweet ID共享給再現(xiàn)驗證研究人員，后者根據(jù)Tweet ID收割到相同的社交數(shù)據(jù)集。但這種方案也存在風(fēng)險，因為推特可能已被刪除或被編輯，導(dǎo)致無法收割到完全一致的社交數(shù)據(jù)集。

社交平臺的使用條款禁止對非用戶本人的社交內(nèi)容的任何直接引用，可能的考慮是社交內(nèi)容中含有大量的個人用戶敏感數(shù)據(jù)，這對科研活動有時也會帶來一定的侵權(quán)風(fēng)險。例如，一個Twitter數(shù)據(jù)集包含受版權(quán)保護(hù)的圖片，如果基于該社交數(shù)據(jù)集的科研成果中直接內(nèi)嵌了這些圖片并公開發(fā)表，則構(gòu)成了侵權(quán)。為了防止這種形式的侵權(quán)行為的發(fā)生，目前科學(xué)研究活動采用了一個折中方法，對這些圖片的分析只限制在元數(shù)據(jù)層面且采用定量方法，這樣其研究成果中僅涉及定量分析的結(jié)果，一般可以不包含對原始圖片的引用，這雖然規(guī)避了侵權(quán)風(fēng)險，但有時會對出版物的質(zhì)量和研究成果的可信任性產(chǎn)生負(fù)面影響。然而，如果對社交數(shù)據(jù)集采用定性法進(jìn)行分析，侵權(quán)問題可能會凸顯，因為基于這類方法的研究結(jié)果中常常需要引用（甚至大量引用）社交媒體內(nèi)容。

3.2 用戶隱私的困擾

據(jù)統(tǒng)計［22］，2015年世界上有29%的人是社交媒體的活躍用戶，2016年將會有超過三分之一的人使用社交媒體，產(chǎn)生的社交數(shù)據(jù)數(shù)量是空前的。隨著用戶數(shù)量的快速增長，社交媒體已經(jīng)像廣播、電話、能源、交通工具等成為人們?nèi)粘Ｉ罟ぷ髦斜夭豢缮俚墓不A(chǔ)服務(wù)。但是，與用戶使用其他公共服務(wù)相比，使用社交媒體產(chǎn)生個人隱私數(shù)據(jù)問題更加突出，因為這項服務(wù)的主要功能是用戶交流，交流過程產(chǎn)生的社交數(shù)據(jù)內(nèi)含大量用戶個人隱私信息，如果不進(jìn)行有效的倫理規(guī)范，借助于日益先進(jìn)的社交數(shù)據(jù)挖掘工具，社交數(shù)據(jù)分析作為一項科學(xué)研究活動的整體影響將產(chǎn)生巨大的負(fù)面效應(yīng)，遠(yuǎn)遠(yuǎn)超過用戶個人信息泄露的離散案例。

社交數(shù)據(jù)作為一類大數(shù)據(jù)，與其他形式的數(shù)字資源相比，個人隱私的泄露風(fēng)險更大。這種風(fēng)險來自于大數(shù)據(jù)的關(guān)聯(lián)屬性，這種屬性使個人身份更容易泄露。當(dāng)把多個數(shù)據(jù)集（如社交媒體數(shù)據(jù)和管理數(shù)據(jù)）合并一起進(jìn)行綜合分析時，很容易建立個人身份與個人信息之間的關(guān)聯(lián)，一般來說，數(shù)據(jù)量越大，數(shù)據(jù)的多樣性越豐富，識別個人身份的可能性也越高。當(dāng)然，不同的應(yīng)用對社交隱私數(shù)據(jù)的保護(hù)效果也不盡相同，一般來講，非商業(yè)性應(yīng)用要好于商業(yè)性應(yīng)用，因為前者（如科學(xué)研究）一般由公共經(jīng)費支持，研究成果是公共產(chǎn)品，研究活動以不損害公民利益為前提，所以在使用社交數(shù)據(jù)時，更注重公民的隱私權(quán)，保護(hù)公民的個人數(shù)據(jù)，但后者的使用對象集中在最新社交數(shù)據(jù)，目的是增加銷售收入，對社交用戶隱私數(shù)據(jù)的保護(hù)考慮相對較少。目前廣泛采用的匿名化可以降低個人隱私泄露的風(fēng)險，但簡單的匿名化不可能完全防止這類風(fēng)險，一項報告指出［23］，很多大數(shù)據(jù)的應(yīng)用程序都可以很容易地破解匿名問題。

社交平臺的服務(wù)條款大都界定社交數(shù)據(jù)的所有權(quán)歸社交媒體，比如Twitter， Facebook，谷歌，LinkedIn等。用戶在使用社交媒體時需要簽署使用服務(wù)的協(xié)議，協(xié)議中一些選項的選擇也可能涉及對未來泄露個人隱私的認(rèn)可。這種服務(wù)條款和用戶協(xié)議在社交數(shù)據(jù)所有權(quán)歸屬認(rèn)定上用戶處于弱勢和被動地位，雖然用戶是社交媒體內(nèi)容的作者，用戶數(shù)據(jù)也是用戶本人自愿產(chǎn)生的，但這些社交數(shù)據(jù)無論用于商業(yè)目的，還是用于非商業(yè)的科學(xué)研究、作為社會文化遺產(chǎn)的收藏、收割到保存系統(tǒng)，用戶完全失去控制權(quán)甚至知曉權(quán)。所以，從用戶角度，追蹤和識別個人隱私數(shù)據(jù)的應(yīng)用軌跡是不可行的。

因此，技術(shù)防御無法完全解決用戶個人信息的泄露，必須針對社交數(shù)據(jù)使用建立一套倫理規(guī)范。業(yè)已存在的相關(guān)倫理準(zhǔn)則可以參考，比如，經(jīng)濟(jì)合作與發(fā)展組織［24］（OECD）的《個人隱私保護(hù)和個人數(shù)據(jù)傳播指南》、英國國家經(jīng)濟(jì)和社會研究委員會［25］（ESRC）的《科研倫理框架》、因特網(wǎng)研究者協(xié)會［26］（AIR）的《倫理推薦指南》、歐盟［27］（EU）的《被遺忘權(quán)》等，但這些準(zhǔn)則和指南要么規(guī)范特定的使用群體（如OECD和EU），要么規(guī)范特定的應(yīng)用對象（如ESRC 和AIR），完全針對社交數(shù)據(jù)特質(zhì)的還未見報道。

3.3 訪問實踐的困擾

據(jù)普查，目前還沒有一個真正的社交媒體數(shù)據(jù)長期保存系統(tǒng)，雖然社交平臺有長期保存社交數(shù)據(jù)的權(quán)力，但均沒有長期保存的計劃，更沒有長期保存項目的實施，用戶對社交媒體數(shù)據(jù)的使用大多限在對社交平臺訪問的層面。但是，至今為止，社交媒體都沒有對用戶（包括個人用戶和團(tuán)體用戶）給予完全訪問的授權(quán)，僅有的一個完全訪問授權(quán)的例子發(fā)生在Twitter與MIT （麻省理工）之間［28］。

2014年，Twitter與MIT簽署協(xié)議，旨在向后者提供其全部社交數(shù)據(jù)（包括歷史數(shù)據(jù)、當(dāng)前數(shù)據(jù)和未來數(shù)據(jù)）非商業(yè)化使用的長期訪問授權(quán)，同時向后者的媒體實驗室提供一千萬美元支持社交數(shù)據(jù)分析工具的研發(fā)。協(xié)議規(guī)定，Twitter通過其Gnip數(shù)據(jù)服務(wù)向MIT開放其所有社交數(shù)據(jù)的訪問，MIT基于對Twitter社交數(shù)據(jù)的訪問分析，向政府提供完善城市社區(qū)的公共服務(wù)功能、提高社區(qū)運行效率以及政府服務(wù)透明度的對策，且MIT無需報告訪問、獲取和利用Twitter數(shù)據(jù)的計劃，也無需將Twitter數(shù)據(jù)下載轉(zhuǎn)移到本地設(shè)備，避免數(shù)據(jù)存儲成本的發(fā)生。截至2105年底，這項協(xié)議執(zhí)行效果良好。

但是，這個協(xié)議授權(quán)的僅是MIT。實際上，僅為了科學(xué)研究的目的期望訪問甚至收割社交數(shù)據(jù)的研究群體很大，如何滿足這一群體的需求是社交媒體界乃至整個社會面臨的挑戰(zhàn)。在這項合作中，Twitter為了公共利益履行了自己的社會義務(wù)，雖然合作剛剛開始，長期效果的評價現(xiàn)在還為時過早，但它具有劃時代意義，開啟了新媒體時代商業(yè)化社交平臺無償服務(wù)于社會的新模式。

社交媒體是一種新型的數(shù)字資源。與其他類型數(shù)字資源的長期保存相比，社交媒體長期保存的理論探討與實踐項目都甚顯遜色。據(jù)筆者考察，目前為止還沒有一個專門的社交媒體長期保存系統(tǒng)，社交媒體數(shù)字資源一般被保存到Web保存系統(tǒng)中，且按照一般Web網(wǎng)頁的收割方法進(jìn)行收割。但是，這種收割和保存方法完全忽略了社交媒體數(shù)字資源的用戶交流屬性和語境依賴屬性，給用戶使用帶來極大困難。本文基于社交媒體的特質(zhì)析出了這類數(shù)字資源長期保存面臨的一些困擾，以期業(yè)界探討解決方案，應(yīng)用到未來的保存實踐之中。

（來稿時間：2016年4月）

1.Timehop.We’re Building the Future of the Past［EB/OL］.［2016-01-09］.http://timehop.com/press

2.Twitter.Streaming API［EB/OL］.［2016-02-01］.https://dev.twitter.com/streaming/overview

3.GNIP.Customized Solutions for Predictable Pricing［EB/OL］.［2016-02-01］.https://gnip.com/pricing/

4.ArchiveSocial.Risk Management & Analystics for Social Media Archiving［EB/OL］.［2016-02-09］.http://archivesocial.com/

5.MirrorWeb.Archiving Websites and Social Media ［EB/OL］.［2016-03-03］.https://www.mirror-web.com/

6.Erado.About Erado［EB/OL］.［2016-01-01］.https://www.erado.com/

7.Gwava.Efficient Management of Your Corporate Communication［EB/OL］.［2016-02-09］.http://www.gwava.eu/en

8.Bandziulis， L.How to Download and Archive Your Social Media Memories［EB/OL］.［2015-12-09］.http://www.wired.com/2014/07/archive-social-networks

9.North Carolina State Universities （NCSU） Libraries.Social Media Archives Toolkit［EB/OL］.［2016-01-07］.https://www.lib.ncsu.edu/social-media-archives-toolkit

10.DRI.Digital Repository of Ireland［EB/OL］.［2016-01-12］.http://www.dri.ie/

11.百度百科.TinyURL［EB/OL］.［2016-03-01］.http://baike.baidu.com/link？url=lNbBh_sEC79y46GCLrmoLzM tETZUMUfxon9C7pHQe2SCAQlLG3BCK9QFEqff4H4 Hiiw64I7ciUCCFpJlRpsvIa

12.百度百科.Bit.ly［EB/OL］.［2016-03-01］.http://baike.baidu.com/link？url=LWnDmseCr75BLJ6UYcZOCy3f3t8 kX-SfdK6V554QoquD16Yj0H8mBlHphh1oov37qER7ny o0z0Owvjd_Y-k_q

13.Risse， T.et.al.Documenting Contemporary Society by Preserving Relevant Information from Twitter.In: Weller， K.et al.Twitter and Society［M］.NY: Peter Lang Publishing， 2015:310-354

14.Webster， P.How Fast Does the Web Change and Decay？ Some Evidence［EB/OL］.［2016-01-01］.http://webarchivehistorians.org/2015/03

15.Salah， H.， Nelson， M.Losing My Revolution: How Many Resources Shared on Social Media Have Been Lost？［EB/OL］［2016-01-09］.http://arxiv.org/abs/1209.3026

16.D’Orazio， D.Twitpic Saved by Twitter Just Hours Before Planned Shut Down［EB/OL］.［2016-01-18］.http://www.theverge.com/2014/10/25/7070585/twitpic-savedby-twitter-just-hours-before-planned-shutdown

17.Foursquare.Foursquare Platform Policy［EB/OL］.［2016-02-01］.https://foursquare.com/legal/api/

18.Linked In.API Terms of Use［EB/OL］.［2015-12-19］.https://developer.linkedin.com/legal/api-terms-of-use

19.YouTube.YouTube Developer Policy［EB/OL］.［2015-12-19］.https://developers.google.com/youtube/terms？hl=en

20.Library of Congress.Update on the Twitter Archive at the Library of Congress［EB/OL］.［2015-10-10］.http://www.loc.gov/today/pr/2013/files/twitter_report_2013jan.pdf

21.Library of Congress.Twitter Donates Entire Tweet Archive to Library of Congress［EB/OL］.［2015-12-12］.http://www.loc.gov/today/pr/2010/10-081.html

22.Kemp，S.Digital， Social & Mobile in APAC in 2015［EB/OL］.［2016-01-09］.http://wearesocial.sg/ blog/2015/03/digital-social-mobile-in-apac-in-2015/

23.President’s Council of Advisors on Science and Technology（USA）.Big Data and Privacy: A Technological Perspective［EB/OL］.［2016-01-01］.https://www.whitehouse.gov/sites/default/files/microsites/ostp/PCAST/ pcast_big_data_and_privacy_-_may_2014.pdf

24.OECD.Guidelines on the Protection of Privacy and Transborder Flows of Personal Data［EB/OL］.［2015-11-09］.http://www.oecd.org/sti/ieconomy/oecdguidelinesonthe protectionofprivacyandtransborderflowsofpersonaldata.htm

25.ESRC.Framework for Research Ethics［EB/OL］.［2015-12-30］.http://www.esrc.ac.uk/funding/guidance-forapplicants/research-ethics

26.Association of Internet Researcher.Ethical Recommendations［EB/OL］.［2015-11-07］.http://aoir.org/ethics

27.EU.Law Regarding the Right to Be Forgotten［EB/ OL］.［2015-12-12］.http://eur-lex.europa.eu/legal-content/ EN/TXT/？uri=URISERV%3Al14012

28.Gillis， M.Investing in MIT’s new Laboratory for Social Machines （Twitter blog）［EB/OL］.［2016-01-08］.https://blog.twitter.com/2014/investing-in-mit-s-newlaboratory-for-social-machines

Some Confusions in Social Media Long-term Preservation

Zang Guoquan Zhao Peiduan
（ School of Information Management， Zhengzhou University）

Compared with other digital resources， social media has its own characteristics.There are some confusions during the social media long-term preservation: social media harvesting confusions， including the harvesting ways and boundary definition； social media preservation confusions， including the social platform terms， preservation technology，preservation standard and content， and preservation practice； social media usage confusions， including the copyright infringement， user privacy and access practice.

Social media Digital preservation Digital resource

G250

格式〕臧國全，趙佩端.社交媒體長期保存的困擾［J］.圖書館，2016（9）：77-82

臧國全（1963-），男，鄭州大學(xué)信息管理學(xué)院教授，副院長，發(fā)表論文80多篇，出版學(xué)術(shù)專著3部；趙佩端（1992-），女，鄭州大學(xué)信息管理學(xué)院在讀碩士研究生。

* 本文系國家自然科學(xué)基金項目“數(shù)字保存的風(fēng)險型元數(shù)據(jù)與風(fēng)險監(jiān)控研究”（項目編號：71673255）研究成果之一。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

社交媒體長期保存的困擾*

1 社交媒體收割的困擾

2 社交媒體保存的困擾

3 社交媒體使用的困擾