蔡國華 肖碧松
摘 要: 本文基于區(qū)塊鏈技術(shù),通過探索大數(shù)據(jù)、搜索、人工智能等技術(shù)與區(qū)塊鏈技術(shù)的融合,將區(qū)塊鏈技術(shù)應(yīng)用于媒體版權(quán)保護(hù)領(lǐng)域,對媒體作品進(jìn)行版權(quán)登記、確權(quán)、監(jiān)測、維權(quán),力求解決當(dāng)今媒體作品版權(quán)保護(hù)的難題,為創(chuàng)作者提供便捷、有效的版權(quán)綜合服務(wù)。
關(guān)鍵詞: 區(qū)塊鏈;大數(shù)據(jù);搜索;版權(quán)保護(hù);新聞作品
1、引言
今天的互聯(lián)網(wǎng)像公路、電力一樣已經(jīng)成為人們生活的必需品,也成為商業(yè)活動的重要載體。盡管信息傳遞效率已經(jīng)很高,但媒體版權(quán)問題始終未得到有效解決。區(qū)塊鏈?zhǔn)且环N具備去中心化、時間戳記錄、不可篡改和智能合約等特點(diǎn)的優(yōu)秀技術(shù),近些年來受到廣泛關(guān)注。該技術(shù)在保存、處理、追溯電子數(shù)據(jù)領(lǐng)域具有天然優(yōu)勢,同時又是分布式賬本,數(shù)據(jù)上鏈后就能自動實(shí)現(xiàn)確權(quán),并支持多節(jié)點(diǎn)參與見證。基于以上特點(diǎn),我們使用區(qū)塊鏈技術(shù)用于搭建媒體版權(quán)保護(hù)服務(wù)平臺。
2、媒體版權(quán)保護(hù)面臨的難題
互聯(lián)網(wǎng)上的媒體作品版權(quán)問題由來已久,當(dāng)今新媒體行業(yè)發(fā)展迅速,傳統(tǒng)媒體機(jī)構(gòu)維權(quán)意識不斷提高,知識產(chǎn)權(quán)、版權(quán)保護(hù)的需求越來越清晰和迫切但是,目前媒體版權(quán)保護(hù)從管理到保護(hù)方面還面臨著諸多難題,主要有以下幾方面:
第一、侵權(quán)發(fā)現(xiàn)難:當(dāng)今的新媒體行業(yè)每天發(fā)布海量數(shù)據(jù),原創(chuàng)新聞作品的時效性較強(qiáng),各種侵權(quán)手段也越來越隱蔽,對侵權(quán)行為的監(jiān)測和發(fā)現(xiàn)上存在困難。
第二、確權(quán)取證難:原創(chuàng)新聞作品時效性較強(qiáng),傳統(tǒng)取證方式對取證人員要求高,取證過程復(fù)雜,調(diào)查取證成本較大。
第三、維權(quán)訴訟難:媒體版權(quán)糾紛維權(quán)訴訟周期長,法律服務(wù)成本和時間成本投入較大。
如何有效的解決這些難題,建立完善的媒體版權(quán)保護(hù)體系,規(guī)范運(yùn)作版權(quán)流通機(jī)制,促進(jìn)媒體版權(quán)良性流通,這是媒體行業(yè)面臨的挑戰(zhàn)。區(qū)塊鏈技術(shù)的出現(xiàn),為解決以上問題提供了技術(shù)支撐。中國搜索基于區(qū)塊鏈技術(shù)研發(fā)的媒體版權(quán)保護(hù)服務(wù)平臺,綜合運(yùn)用區(qū)塊鏈不可篡改的登記特點(diǎn)及版權(quán)上鏈服務(wù),結(jié)合搜索技術(shù)和人工智能技術(shù),可高效實(shí)現(xiàn)數(shù)據(jù)采集、特征抽取、相似度比較,可在廣度、精準(zhǔn)度和時效性上,大大提升對新聞版權(quán)的登記溯源、侵權(quán)監(jiān)測、存證取證能力,更有效助力媒體版權(quán)保護(hù)。下文將主要從技術(shù)角度,描述區(qū)塊鏈技術(shù)在媒體版權(quán)保護(hù)服務(wù)平臺建設(shè)中的應(yīng)用。
3、媒體版權(quán)保護(hù)服務(wù)平臺系統(tǒng)設(shè)計
3.1 總體架構(gòu)設(shè)計方案
我們經(jīng)過前期大量的技術(shù)調(diào)研,選擇 Hyperledger Fabric 作為底層區(qū)塊鏈框架,可以滿足高吞吐量、快速確認(rèn)、低能耗的需求,同時支持構(gòu)建相對開放和具備隱私保護(hù)的網(wǎng)絡(luò),底層包括密碼學(xué)、賬本、賬戶、交易、共識等多個核心模塊,通過SDK和API接□為上層應(yīng)用提供基礎(chǔ)功能服務(wù)。Fabric具備良好的保密性、可伸縮性、靈活性和可擴(kuò)展性,支持不同模塊組件直接拔插啟用,并能適應(yīng)錯綜復(fù)雜的各種場景。
3.1.1 區(qū)塊鏈
我們知道“可信時間戳”,由權(quán)威機(jī)構(gòu)簽發(fā),能證明數(shù)據(jù)電文在一個時間點(diǎn)是已經(jīng)存在的、完整的、可驗(yàn)證的,是一種具備法律效力的電子憑證。對于原創(chuàng)作品的登記,區(qū)塊鏈技術(shù)可以非常方便地把時間戳與作者信息、原創(chuàng)內(nèi)容等元數(shù)據(jù)一起打包存儲到區(qū)塊鏈上。而且,它打破了從單點(diǎn)進(jìn)入數(shù)據(jù)中心去進(jìn)行注冊登記的模式,可以實(shí)現(xiàn)多節(jié)點(diǎn)進(jìn)入,方便快捷。區(qū)塊鏈在該平臺上起到版權(quán)登記,版權(quán)見證功能,通過區(qū)塊鏈媒體版權(quán)保護(hù)平臺,只需完成上傳稿件、確定作者、填寫相關(guān)登記信息等簡單幾步操作,即可進(jìn)行版權(quán)登記,在線自動生成版權(quán)登記證書,并擁有區(qū)塊鏈上唯一且可追溯定權(quán)哈希和符合《電子簽名法》的時間戳。一旦在區(qū)塊鏈完成了版權(quán)存證,即可聯(lián)網(wǎng)查詢版權(quán)登記信息,永久有效,無法篡改。中國搜索RMS系統(tǒng)為創(chuàng)作者提供一個從創(chuàng)作到發(fā)布,再到版權(quán)確權(quán)的全流程解決方案,作者的整個創(chuàng)作過程都會被智能化的保存到區(qū)塊鏈上去,一方面簡化了操作,另一方面為作者打造了一個真正的自媒體平臺。很多人都會有這樣的疑惑,如果A寫的一篇文章被B上傳到區(qū)塊鏈,那么所謂的版權(quán)保護(hù)豈不是在保護(hù)盜版了。實(shí)際上,如果僅靠單一的注冊備案功能,必然會存在這樣的問題,區(qū)塊鏈僅僅是一項(xiàng)技術(shù),再強(qiáng)大也無法處理鏈外的數(shù)據(jù)信息。因此,最好的做法自然是讓作者直接在鏈上工作,變記錄單點(diǎn)時間戳為記錄時間段,從而避免單點(diǎn)記錄時元數(shù)據(jù)單一無法佐證的弊端。中國搜索RMS系統(tǒng)能夠記錄創(chuàng)作者內(nèi)容創(chuàng)作過程中的關(guān)鍵信息,把單一時間戳匯成時間段,寫入?yún)^(qū)塊鏈。對于那些被盜版直接上傳的數(shù)字作品,自然有了更多的可以檢索驗(yàn)證的條件和信息。對作者撰寫的作品通過密碼技術(shù)手段,使用橢圓曲線密碼編碼學(xué)(ECC)對作品進(jìn)行數(shù)字簽名,同時用雜湊密碼算法(比如SHA256算法)生成作品的數(shù)字指紋,加上可信的時間戳以及作者真實(shí)姓名等信息,一起寫入?yún)^(qū)塊鏈,得到其他節(jié)點(diǎn)的確認(rèn),從而保證數(shù)據(jù)的可信及不可篡改。
3.1.2 相似度比較算法
如何在海量數(shù)據(jù)中精確、快速找到相似作品是版權(quán)保護(hù)平臺必須解決的問題。人工智能技術(shù)在圖片比對上起到了至關(guān)重要的作用,為了提高算法比對的精準(zhǔn)度,我們綜合了多種算法,最后求平均值,原理如下:
1.原創(chuàng)作品規(guī)一化處理,特征值提取。
2.多算法計算作品特征值,并計算出相似度值,同時計算漢明距離(Hamming distance,在信息論中,兩個中等長字符串之間的漢明距離是兩個字符串對應(yīng)位置的不同字符的個數(shù))。如果不相同的數(shù)據(jù)位數(shù)不超過5,就說明作品很相似;如果大于10,就說明這是不同作品。
3.取所有算法相似度平均值,并與預(yù)定的閥值相比較。
4.將相似作品哈希值構(gòu)成了一個64位的整數(shù),得到指紋,存入數(shù)據(jù)庫。
3.1.3 搜索與大數(shù)據(jù)
如何快速從海量作品中快帶檢索到相同或相似作品,是版權(quán)保護(hù)平臺必須考慮的問題。如果將所有作品計算相似度一一比對,數(shù)據(jù)量非常大,會對作品檢索帶來了非常大的性能開銷,需要很強(qiáng)的算力才能完成,投入成本將會很大。一次檢索需要的時間跟作品量成正比,這樣顯然不能滿足用戶需求。為了解決以上問題,把所有作品按不同算法提取作品指紋,并將指紋轉(zhuǎn)成漢明距離存放到分布式搜索引擎中,建立索引,新提交的作品只要通過算法提取特征值,通過特征值再從海量圖片索引庫中檢索,就能很快發(fā)現(xiàn)是否為同一作品或相似作品,為侵權(quán)作品監(jiān)測提供了快速檢測能力。
3.1.4侵權(quán)監(jiān)測
在媒體版權(quán)保護(hù)平臺中,侵權(quán)監(jiān)測是必不可少的重要一環(huán),需要從浩瀚的互聯(lián)網(wǎng)中找出侵權(quán)案例,把案例自動入庫到系統(tǒng)中,同時快速通知作品版權(quán)所有人。我們結(jié)合網(wǎng)絡(luò)爬蟲技術(shù)、搜索大數(shù)據(jù)、分布式集群處理等技術(shù)手段實(shí)現(xiàn)了對媒體作品版權(quán)監(jiān)測及版權(quán)保護(hù)。
網(wǎng)絡(luò)抓取是一個自動提取網(wǎng)頁的程序,它為搜索引擎從互聯(lián)網(wǎng)上下載網(wǎng)頁,是搜索引擎的重要組成。傳統(tǒng)爬蟲從一個或若干初始網(wǎng)頁的URL開始,獲得初始網(wǎng)頁上的URL,在抓取網(wǎng)頁的過程中,不斷從當(dāng)前頁面上抽取新的URL放入隊列直到滿足系統(tǒng)的一定停止條件。定向監(jiān)控抓取的工作流程較為復(fù)雜,需要根據(jù)用戶設(shè)定的網(wǎng)址,解析網(wǎng)頁,特征提取,再根據(jù)特征去已有版權(quán)作品庫檢索,按相似度從高到底取出一定數(shù)量的作品與抓取到的作品進(jìn)行相似度比對,對與版權(quán)作品庫中相似度非常高的作品存入疑似侵權(quán)庫,同時提示版權(quán)登記人,并重復(fù)上述過程。另外,所有被爬蟲抓取的網(wǎng)頁將會被系統(tǒng)存儲,進(jìn)行分析、過濾,并建立索引,以便之后的查詢和檢索。相對于通用網(wǎng)絡(luò)爬蟲,定向爬蟲還需要解決以下幾個問題:
1.對抓取目標(biāo)源管理,跟據(jù)客戶的需求自定義目標(biāo)和種子源。
2.解析并提取更精細(xì)的特征,如圖片需要根據(jù)相似度比對算法提取相應(yīng)的特征值,文本需要提取文章短語及關(guān)鍵詞特征。
3.根據(jù)提取到的特征到版權(quán)作品庫中檢索,借助搜索引擎能快速并粗粒度的找出相似作品。
4.對搜索結(jié)果相似度靠前的作品再進(jìn)行更精確的相似度比對算法,找到疑似侵權(quán)的作品放入侵權(quán)庫。
定向監(jiān)測抓取目標(biāo)相比全網(wǎng)抓取成本降低了很多,雖然減少了監(jiān)控范圍,但提升了抓取的時效性和準(zhǔn)確性,能更加精準(zhǔn)適配用戶請求,既降低了成本,又能滿足用戶的主要需求。
3.1.5證據(jù)保全
在網(wǎng)絡(luò)作品版權(quán)侵權(quán)案件中,證據(jù)的收集保全是訴訟的關(guān)鍵。傳統(tǒng)人工保全證據(jù)公證程序如下:申請人申請受理后,公證員與其一起進(jìn)行網(wǎng)上查詢。網(wǎng)上查詢?nèi)∽C一般應(yīng)在公證處的電腦上進(jìn)行,公證員要對所有的電腦操作步驟、時間和進(jìn)入網(wǎng)頁的先后順序及對出現(xiàn)在電腦屏幕上的網(wǎng)頁內(nèi)容的復(fù)制過程實(shí)時現(xiàn)場進(jìn)行監(jiān)督,實(shí)時打印或拍照。取證完成后,公證員依照真實(shí)合法的原則向申請人出具具有法律效力的網(wǎng)頁證據(jù)保全公證書。通過這種方式取得證據(jù)保全效率低,成本高。
通過時間戳取證方式收集和固定的電子證據(jù),一般情形下的效力判斷有三個方面:一是電子證據(jù)必須要滿足一般的證據(jù)標(biāo)準(zhǔn),即三性標(biāo)準(zhǔn),真實(shí)性、合法性、關(guān)聯(lián)性。此外還應(yīng)結(jié)合電子證據(jù)的特點(diǎn),以及對案件類型等其他因素的考量,綜合作出判斷。首先要確保取證設(shè)備和網(wǎng)絡(luò)環(huán)境的清潔性,這是前提條件,需要完整記錄當(dāng)事人鍵盤操作的完整的步驟和獲取的內(nèi)容。二是固定下來證據(jù)內(nèi)容的真實(shí)性、完整性和未篡改性。這一點(diǎn)主要檢查互聯(lián)網(wǎng)連接的真實(shí)性,確認(rèn)當(dāng)事人連接到的目標(biāo)頁面網(wǎng)絡(luò)的真實(shí)性,進(jìn)而確定所固化的證據(jù)內(nèi)容的真實(shí)性。這兩個環(huán)節(jié)結(jié)合起來,對于法院認(rèn)定這個界面呈現(xiàn)出來內(nèi)容的真實(shí)性有極大的幫助。三是可信時間戳文件的驗(yàn)證,確保未篡改性。在滿足以上三個標(biāo)準(zhǔn),且沒有相反證據(jù)足以反駁的情形下,這些電子證據(jù)可以被法院采信。
與簡單的頁面截圖、時間戳取證方式收集和固定的電子證據(jù)手段相比,區(qū)塊鏈的證信和可靠性是顯而易見的,但是涉及到版權(quán),有人質(zhì)疑區(qū)塊鏈技術(shù)是否被認(rèn)可。對此,可以從兩個方面給予明確的回答:
工信部在2016年10月發(fā)布的《中國區(qū)塊鏈技術(shù)和應(yīng)用發(fā)展白皮書》中,專門描述了區(qū)塊鏈技術(shù)如何用于版權(quán)保護(hù),明確了區(qū)塊鏈技術(shù)用于版權(quán)保護(hù)在司法取證中的作用。國家層面正在積極推動區(qū)塊鏈在版權(quán)保護(hù)方面的應(yīng)用。
電子證據(jù)上區(qū)塊鏈能高效對確認(rèn)侵權(quán)案例進(jìn)行取證,并全自動把侵權(quán)證據(jù)上傳到互聯(lián)網(wǎng)法院、公安部存證云、公證處等權(quán)威機(jī)構(gòu),目前不少互聯(lián)網(wǎng)法院擁有版權(quán)區(qū)塊鏈平臺,如北京互聯(lián)網(wǎng)法院、杭州互聯(lián)網(wǎng)法院、江蘇互聯(lián)網(wǎng)法院等,我們只要接通任何一家互聯(lián)網(wǎng)法院,作為聯(lián)盟成員節(jié)點(diǎn)加入版權(quán)區(qū)塊鏈平臺,在發(fā)現(xiàn)侵權(quán)案例情況下,系統(tǒng)實(shí)現(xiàn)證據(jù)加密、固化、上鏈流程全自動化,極大簡化了創(chuàng)作者對自身作品版權(quán)保護(hù)及維權(quán)的過程。
3.1.6司法服務(wù)
在司法信息化的浪潮正在席卷全國之時,版權(quán)線上調(diào)解是先進(jìn)信息技術(shù)與司法深度融合的又一代表性成果。它將為內(nèi)容創(chuàng)業(yè)者提供人性化、集約化的糾紛處理途徑,并且為文創(chuàng)產(chǎn)業(yè)的發(fā)展創(chuàng)造良好的生態(tài)環(huán)境。區(qū)塊鏈基于數(shù)學(xué)原理能有效解決版權(quán)交易過程中的所有權(quán)確認(rèn)問題,對版權(quán)交換活動的記錄、傳輸、存儲結(jié)果都是可信的。所有涉及版權(quán)的使用和交易環(huán)節(jié),區(qū)塊鏈都可以記錄下使用和交易痕跡,并且可以看到并追溯它們的全過程,直至最源頭的版權(quán)痕跡。更主要的是,區(qū)塊鏈所記錄的版權(quán)信息是不可逆且不可篡改的。公開、透明、可追溯、無法篡改等特點(diǎn),保證了信息的真實(shí)可信,輔以簡單易用的查詢工具,版權(quán)確權(quán)就會變得非常簡單。將原創(chuàng)作品版權(quán)、交易、證據(jù)等關(guān)鍵要素都直接上傳到互聯(lián)網(wǎng)法院、公證處等國家認(rèn)可的權(quán)威機(jī)構(gòu)區(qū)塊鏈平臺,相關(guān)證據(jù)調(diào)取通過平臺一鍵生成并驗(yàn)證,絕大部分侵權(quán)案能夠較快地得到調(diào)解,當(dāng)事人和調(diào)解員足不出戶就可以完成調(diào)解工作。在調(diào)解成功后,經(jīng)當(dāng)事人申請可由法院出具具有強(qiáng)制執(zhí)行力的司法確認(rèn)文書,保障調(diào)解結(jié)果得到執(zhí)行。
3.1.7聯(lián)盟會員服務(wù)
媒體版權(quán)保護(hù)服務(wù)平臺在對聯(lián)盟成員作品版權(quán)統(tǒng)一管理、制定版權(quán)合作規(guī)則、組織共同議價、支持成員單位維權(quán)等方面扮演重要角色,能夠幫助成員單位按照現(xiàn)行法律規(guī)定,進(jìn)行有效的版權(quán)保護(hù)。同時,秉持先取得授權(quán)再使用的原則,媒體版權(quán)保護(hù)服務(wù)平臺為原創(chuàng)作品需求者合法取得作品使用授權(quán),構(gòu)建公平便捷的版權(quán)交易渠道,營造健康的新聞作品版權(quán)交易秩序提供方便通道。
4、小結(jié)
中國搜索基于區(qū)塊鏈技術(shù)研發(fā)的媒體版權(quán)保護(hù)服務(wù)平臺,綜合運(yùn)用區(qū)塊鏈不可篡改的登記特點(diǎn)及版權(quán)上鏈服務(wù),結(jié)合搜索技術(shù)和人工智能技術(shù),可高效實(shí)現(xiàn)數(shù)據(jù)采集、特征抽取、相似度比較,可在廣度、精準(zhǔn)度和時效性上,大大提升對新聞版權(quán)的登記溯源、侵權(quán)監(jiān)測、存證取證能力,實(shí)現(xiàn)版權(quán)存證、監(jiān)測、取證、司法、糾紛全線上一體化服務(wù),更有效助力媒體版權(quán)保護(hù)。
參考文獻(xiàn)
[1]fengbingchun,圖像相似度計算之哈希值方法OpenCV實(shí)現(xiàn),2014年12月25日
[2]Print_lin,圖片相似度比對算法,2018年7月15日
[3]陶輝,區(qū)塊鏈開源實(shí)現(xiàn)hyperledger fabric架構(gòu)詳解,2018年5月26日
[4]朱志文,如何將區(qū)塊鏈技術(shù)用于版權(quán)保護(hù),2018年2月15日