李嘉祺,董祥旭,李云霞
(1.浙江工業(yè)大學(xué) 理學(xué)院,杭州 310023;2.加拿大漢博理工學(xué)院 商業(yè)學(xué)院,多倫多 M2J 4A6;3.浙江財(cái)經(jīng)大學(xué) 數(shù)據(jù)科學(xué)學(xué)院,杭州 310018)
在“互聯(lián)網(wǎng)+”理念的推動(dòng)下,人們的消費(fèi)理念發(fā)生轉(zhuǎn)變,網(wǎng)絡(luò)購(gòu)物變得越來(lái)越普遍,已成為社會(huì)一種不可或缺的消費(fèi)方式.尤其隨著5G 等技術(shù)的推進(jìn),移動(dòng)互聯(lián)網(wǎng)日趨普及,電子商務(wù)更呈現(xiàn)出高速發(fā)展的態(tài)勢(shì).
由于互聯(lián)網(wǎng)的虛擬性和電子商務(wù)平臺(tái)運(yùn)營(yíng)的特殊性,如何加強(qiáng)網(wǎng)絡(luò)知識(shí)產(chǎn)權(quán)保護(hù),有效遏制網(wǎng)絡(luò)假貨、仿冒以及其他知識(shí)產(chǎn)權(quán)侵權(quán)問(wèn)題,成為人們必須面對(duì)的現(xiàn)實(shí)難題和全新挑戰(zhàn).
網(wǎng)絡(luò)上的售假商家往往比較隱蔽,而且數(shù)據(jù)量大,企業(yè)難以從海量數(shù)據(jù)中獲取售假信息,且具有一定的技術(shù)門(mén)檻,企業(yè)自身投入技術(shù)開(kāi)發(fā)進(jìn)行侵權(quán)行為監(jiān)測(cè)取證不但存在難度,且成本很高.隨著產(chǎn)品線上銷售比重的增加和對(duì)電商渠道依存度的提升,企業(yè)打假需求非常旺盛.目前,業(yè)內(nèi)成熟的知識(shí)產(chǎn)權(quán)保護(hù)商業(yè)模式主要是依賴傳統(tǒng)的線下打假企業(yè)和法律事務(wù)所等機(jī)構(gòu),專注于線下打假,其耗時(shí)長(zhǎng)、成本高且性價(jià)比很低.
大數(shù)據(jù)技術(shù)已廣泛應(yīng)用于各行各業(yè).但在知識(shí)產(chǎn)權(quán)領(lǐng)域,大數(shù)據(jù)技術(shù)還是方興未艾,并未形成大規(guī)模的應(yīng)用與實(shí)施.隨著知識(shí)產(chǎn)權(quán)保護(hù)的需求日趨迫切,創(chuàng)新服務(wù)模式及服務(wù)機(jī)構(gòu)的快速崛起,如何利用大數(shù)據(jù)技術(shù)實(shí)現(xiàn)工作自動(dòng)化,提升數(shù)據(jù)分析準(zhǔn)確率和效率,甚至改變未來(lái)的行業(yè)格局,將是知識(shí)產(chǎn)權(quán)行業(yè)不可回避的問(wèn)題.
本研究提出運(yùn)用先進(jìn)的云計(jì)算和大數(shù)據(jù)技術(shù)搭建電商渠道產(chǎn)品侵權(quán)行為監(jiān)測(cè)分析系統(tǒng)平臺(tái).使用數(shù)據(jù)模型、算法、容器、模式識(shí)別、自然語(yǔ)言理解、分布式計(jì)算網(wǎng)絡(luò)、分布式存儲(chǔ)網(wǎng)絡(luò)等工具來(lái)構(gòu)建基于大數(shù)據(jù)的免開(kāi)發(fā)網(wǎng)絡(luò)公開(kāi)信息采集系統(tǒng),通過(guò)和專業(yè)知識(shí)產(chǎn)權(quán)存儲(chǔ)機(jī)構(gòu)與相關(guān)法律監(jiān)管機(jī)構(gòu)相合作,依托大數(shù)據(jù)平臺(tái)和人工智能算法引擎建立對(duì)網(wǎng)絡(luò)知識(shí)產(chǎn)權(quán)合理化、智能化分析的核心程序模型,從而在專利日益增多的當(dāng)下,為需要侵權(quán)監(jiān)控服務(wù)的用戶及時(shí)地提供最有價(jià)值的情報(bào),幫助用戶避免知識(shí)產(chǎn)權(quán)風(fēng)險(xiǎn).
本研究中電商渠道產(chǎn)品侵權(quán)行為監(jiān)測(cè)分析系統(tǒng)主要依托云計(jì)算和大數(shù)據(jù)技術(shù),通過(guò)研發(fā)分布式全網(wǎng)數(shù)據(jù)抓取私有云服務(wù),在線采集整合多渠道的數(shù)據(jù);通過(guò)自然語(yǔ)言處理、統(tǒng)計(jì)和機(jī)器學(xué)習(xí)等方法,建立商品的唯一性識(shí)別方法和商品的特征提取方法,實(shí)現(xiàn)對(duì)電商平臺(tái)(包括B2BB2CC2C)上銷售產(chǎn)品侵權(quán)行為的挖掘和動(dòng)態(tài)監(jiān)測(cè)、分析.總體架構(gòu)包括免開(kāi)發(fā)大數(shù)據(jù)采集傳輸系統(tǒng)、數(shù)據(jù)實(shí)時(shí)監(jiān)測(cè)分析平臺(tái)以及核心算法引擎模型三部分.本系統(tǒng)的總體架構(gòu)框圖如圖1 所示.
圖1 支撐平臺(tái)總體架構(gòu)圖Fig.1 Overall architecture diagram of supporting platform
網(wǎng)絡(luò)大數(shù)據(jù)遠(yuǎn)程采集系統(tǒng)用于收集和存儲(chǔ)發(fā)布于電商服務(wù)器上的商品信息和用戶評(píng)語(yǔ)等數(shù)據(jù),包括分布式大數(shù)據(jù)采集系統(tǒng)和遠(yuǎn)程云服務(wù)器兩大部分.
分布式數(shù)據(jù)采集系統(tǒng)是通過(guò)多臺(tái)服務(wù)器同時(shí)運(yùn)行Web 信息采集器組成[1].信息采集器由采集器、控制端和目標(biāo)網(wǎng)址數(shù)據(jù)庫(kù)三部分組成[2].采集所得數(shù)據(jù)交由遠(yuǎn)程云平臺(tái)存儲(chǔ)和處理,再融入深度學(xué)習(xí)、單詞嵌入、共同表征等相關(guān)算法,實(shí)現(xiàn)對(duì)數(shù)據(jù)以自然語(yǔ)言為維度進(jìn)行深度挖掘.
遠(yuǎn)程服務(wù)器平臺(tái)總體技術(shù)架構(gòu)包括云計(jì)算物理層、云計(jì)算資源池、云計(jì)算存儲(chǔ)層、云計(jì)算運(yùn)算層和云計(jì)算控制層[3].平臺(tái)架構(gòu)示意圖如圖2所示.
圖2 遠(yuǎn)程服務(wù)器平臺(tái)架構(gòu)圖Fig.2 Architecture diagram of remote server platform
1)云計(jì)算物理層:搭載云平臺(tái)的物理計(jì)算服務(wù)器,采用分布式計(jì)算設(shè)計(jì),服務(wù)器部署于多個(gè)計(jì)算中心.2)云計(jì)算資源池:利用硬件虛擬化技術(shù)對(duì)物理層硬件進(jìn)行虛擬化,將算力與存儲(chǔ)進(jìn)行集中化、程序化管理,方便上層資源調(diào)用與歸還[4].3)云計(jì)算存儲(chǔ)層:在分布式存儲(chǔ)的基礎(chǔ)上,實(shí)現(xiàn)系統(tǒng)采集所得數(shù)據(jù)的安全存儲(chǔ),同時(shí)為運(yùn)算層提供數(shù)據(jù)的交互與共享.4)云計(jì)算運(yùn)算層:采用分布式計(jì)算的設(shè)計(jì),利用多個(gè)虛擬機(jī)同時(shí)調(diào)用存儲(chǔ)層,對(duì)存有商品信息的網(wǎng)站進(jìn)行數(shù)據(jù)分析處理.5)云計(jì)算控制層:提供用戶交互界面,用于查看、控制和管理遠(yuǎn)程服務(wù)器支撐平臺(tái).
為確保云計(jì)算中心的數(shù)據(jù)安全性、運(yùn)算效率和管理便利性,部署主要需要考慮資源池的虛擬化構(gòu)建、存儲(chǔ)與運(yùn)算層的接口調(diào)用、分布式存儲(chǔ)與運(yùn)算的數(shù)據(jù)共享等[5].
為確保云服務(wù)器的穩(wěn)定運(yùn)行,減少服務(wù)器專業(yè)管理所需的開(kāi)銷,本研究使用阿里云應(yīng)用云服務(wù)器搭建云計(jì)算底層平臺(tái).平臺(tái)采用高端X86 高性能運(yùn)算架構(gòu)、專業(yè)可備份的I/O 存儲(chǔ)方案和高帶寬專線網(wǎng)絡(luò),可保證數(shù)據(jù)完整性和運(yùn)算效率,并有利于數(shù)據(jù)的共享存儲(chǔ)和管理[6].
數(shù)據(jù)實(shí)時(shí)監(jiān)測(cè)分析軟件基于算法引擎和大數(shù)據(jù)技術(shù),將信息的深度學(xué)習(xí)、單詞嵌入、共同表征等相關(guān)算法轉(zhuǎn)換為程序,具體實(shí)現(xiàn)功能.
1)數(shù)據(jù)采集、挖掘.幫助客戶采集和匯聚多領(lǐng)域多平臺(tái)的商品屬性數(shù)據(jù)及商品評(píng)論數(shù)據(jù),該數(shù)據(jù)是進(jìn)行后續(xù)分析的基礎(chǔ),也可以開(kāi)放給客戶進(jìn)行查詢和瀏覽.
2)侵權(quán)商品分析.基于本研究自主研發(fā)的大數(shù)據(jù)平臺(tái)和相應(yīng)侵權(quán)行為識(shí)別技術(shù)和方法,挖掘可能涉及侵權(quán)的網(wǎng)絡(luò)商品和商家.
3)B/S 監(jiān)控平臺(tái),初期主要針對(duì)品牌企業(yè)了解品牌自身在電子商務(wù)網(wǎng)站的售假及其他知識(shí)產(chǎn)權(quán)侵權(quán)情況,并可通過(guò)平臺(tái)查看知識(shí)產(chǎn)權(quán)服務(wù)機(jī)構(gòu)對(duì)售假店鋪的處理進(jìn)度,商品侵權(quán)行為的統(tǒng)計(jì)分析、地理分布等支持性數(shù)據(jù).
4)知識(shí)產(chǎn)權(quán)維護(hù).對(duì)可能存在侵權(quán)的商品,通過(guò)法律維權(quán)、投訴平臺(tái)、正向引導(dǎo)等手段,直接為企業(yè)提供維權(quán)服務(wù),消除侵權(quán)商品,打擊售假商家,有效維護(hù)企業(yè)的知識(shí)產(chǎn)權(quán)不受侵害.
用戶在臺(tái)式機(jī)、智能手機(jī)、平板電腦等設(shè)備上登錄賬號(hào)后,各模塊功能實(shí)現(xiàn)如下:
1)接受用戶以自然語(yǔ)言輸入的信息,在句模庫(kù)的支持下判斷該信息屬于哪種陳述句式,根據(jù)特征詞進(jìn)行切分,去掉無(wú)效語(yǔ)氣詞,得到語(yǔ)句片段;
2)將語(yǔ)句片段傳輸至中心服務(wù)器,以自然語(yǔ)言為維度進(jìn)行數(shù)據(jù)化存儲(chǔ)并備份.
為方便用戶對(duì)業(yè)務(wù)進(jìn)行快速便捷查詢,本平臺(tái)程序包括網(wǎng)頁(yè)端和移動(dòng)端的用戶交互程序以及運(yùn)行于服務(wù)器的前后端算法程序.遠(yuǎn)程云服務(wù)器開(kāi)發(fā)主要采用C/C++、Java 等語(yǔ)言將信息的深度學(xué)習(xí)、單詞嵌入、共同表征等相關(guān)算法轉(zhuǎn)換成計(jì)算機(jī)系統(tǒng)能夠識(shí)別的程序指令,從而實(shí)現(xiàn)大數(shù)據(jù)采集系統(tǒng)遠(yuǎn)程云服務(wù)器的查詢、搜索、更改信息等功能[7].手機(jī)等智能終端的程序設(shè)計(jì)主要包括句式判斷、特征詞切分和上傳云端服務(wù)器,其主程序流程圖如圖3 所示.
圖3 軟件流程圖Fig.3 Software flow chart
考慮本系統(tǒng)的實(shí)際應(yīng)用需求,在系統(tǒng)軟件設(shè)計(jì)中通過(guò)融入深度學(xué)習(xí)、單詞嵌入、共同表征等相關(guān)算法,開(kāi)發(fā)一種基于機(jī)器學(xué)習(xí)算法模型的大數(shù)據(jù)信息智能篩選方法,從產(chǎn)品名稱、產(chǎn)品描述、品牌商標(biāo)、展示圖片等多個(gè)維度對(duì)比分析,并根據(jù)商品的用戶評(píng)論提取特征值,跟客戶提供的正常商品評(píng)論特征值進(jìn)行比對(duì),根據(jù)評(píng)論的情緒差異和評(píng)論特征相似性差異,判定商品存在侵權(quán)行為的可能性,實(shí)現(xiàn)對(duì)數(shù)據(jù)以自然語(yǔ)言處理(Natural Language Processing)為目標(biāo)維度進(jìn)行大數(shù)據(jù)化.
首先,針對(duì)特定主題進(jìn)行數(shù)據(jù)預(yù)處理,利用分詞處理完整文本,將其轉(zhuǎn)化為由關(guān)鍵詞組成的集合,建立關(guān)鍵詞集合數(shù)據(jù)集并利用one-hot 編碼方法對(duì)每一個(gè)語(yǔ)料進(jìn)行編碼,即可實(shí)現(xiàn)采集數(shù)據(jù)的數(shù)字化.隨后利用三層貝葉斯概率模型潛在狄利克雷分布(Latent Dirichlet Allocation,LDA)聚類對(duì)數(shù)據(jù)進(jìn)行處理,確定其主題是否與侵權(quán)相關(guān).LDA 主題聚類需要預(yù)先判定文本的主題類數(shù),為確立最佳聚類數(shù),本研究建立置信度指標(biāo)用于判斷預(yù)先設(shè)置的關(guān)于侵權(quán)描述的關(guān)鍵詞是否被單獨(dú)置于一類.得到最佳聚類數(shù)并進(jìn)行聚類后,得到侵權(quán)主題語(yǔ)料的編碼,再針對(duì)這些用戶的文字評(píng)論計(jì) 算TF?IDF(Term Frequency-Inverse Document Frequency)特征值用于支持向量機(jī)(Support Vector Machine,SVM)分類器訓(xùn)練,從而對(duì)系統(tǒng)日后新增的語(yǔ)料進(jìn)行快速分類,以判斷該語(yǔ)料認(rèn)為商品是否存在侵權(quán)[8].以TF?IDF 特征值作為SVM 分類器模型的輸入變量,通過(guò)對(duì)原始的特征空間進(jìn)行核函數(shù)映射,實(shí)現(xiàn)新建特征空間的線性可分.系統(tǒng)核心算法模型原理圖如圖4 所示.
圖4 算法引擎模型原理圖Fig.4 Algorithm engine model schematic diagram
核心技術(shù)引擎算法模型設(shè)計(jì)時(shí):首先基于中文語(yǔ)義及大數(shù)據(jù)分析,建立商品的唯一性識(shí)別方法和商品的特征提取方法;其次建立疑似侵權(quán)商品的識(shí)別方法;再次依托人工智能算法引擎接口構(gòu)建大數(shù)據(jù)分析和應(yīng)用平臺(tái),結(jié)合基于B/S 架構(gòu)的客戶終端,用于抓取、分析和存儲(chǔ)海量的商品數(shù)據(jù)[9];最后根據(jù)結(jié)果反饋信息,優(yōu)化調(diào)整算法模型.
為驗(yàn)證模型的實(shí)用性,隨機(jī)選取某大型電商網(wǎng)站數(shù)據(jù)中的5 類商品數(shù)據(jù)及評(píng)論內(nèi)容作為訓(xùn)練集,總計(jì)4 531 條數(shù)據(jù)信息和70 266 個(gè)評(píng)論.首先進(jìn)行LDA 主題聚類,發(fā)現(xiàn)當(dāng)初始聚類數(shù)達(dá)到18 時(shí),本研究初始設(shè)置的所有侵權(quán)關(guān)鍵詞被同時(shí)認(rèn)為是一個(gè)單獨(dú)的主題.篩選該主題下的數(shù)據(jù)得到356 條數(shù)據(jù)信息和6 252 個(gè)評(píng)論.使用TF?IDF特征訓(xùn)練分類器模型,對(duì)70%的疑似侵權(quán)相關(guān)評(píng)論進(jìn)行訓(xùn)練,然后將剩下數(shù)據(jù)作為測(cè)試集,利用訓(xùn)練好的超平面進(jìn)行分類,發(fā)現(xiàn)準(zhǔn)確率達(dá)到92.10%.最后將所有數(shù)據(jù)代入模型中進(jìn)行分類,查找被誤判為侵權(quán)主題的概率,結(jié)果顯示分類器模型準(zhǔn)確率達(dá)到94.52%,模型實(shí)用性較強(qiáng).
本系統(tǒng)基于大數(shù)據(jù)建模和網(wǎng)絡(luò)搜索引擎爬蟲(chóng)原理,研發(fā)分布式全網(wǎng)數(shù)據(jù)抓取私有云服務(wù)程序.通過(guò)整合多渠道的數(shù)據(jù),利用國(guó)際上比較領(lǐng)先的大數(shù)據(jù)存儲(chǔ)及處理技術(shù),部署構(gòu)建電商網(wǎng)絡(luò)營(yíng)銷平臺(tái)知識(shí)產(chǎn)權(quán)動(dòng)態(tài)監(jiān)測(cè)系統(tǒng),利用自然語(yǔ)言處理、統(tǒng)計(jì)和機(jī)器學(xué)習(xí)等方法,為企業(yè)發(fā)掘電子商務(wù)市場(chǎng)上涉及侵權(quán)的各類商品;并根據(jù)結(jié)果反饋信息,及時(shí)優(yōu)化調(diào)整算法模型,從而有效解決網(wǎng)絡(luò)知識(shí)產(chǎn)權(quán)保護(hù)問(wèn)題,維護(hù)企業(yè)的知識(shí)產(chǎn)權(quán)不受侵害.與市場(chǎng)上的相似產(chǎn)品系統(tǒng)比較,技術(shù)路線更為科學(xué)先進(jìn),對(duì)于海量線上商品,大數(shù)據(jù)分析的準(zhǔn)確率高,可全面篩查,極大地縮小范圍,用戶體驗(yàn)效果和檢索效率大大提升.系統(tǒng)可廣泛應(yīng)用于政府部門(mén)、企事業(yè)單位、社會(huì)團(tuán)體甚至個(gè)人,具有較好的應(yīng)用推廣價(jià)值.同時(shí),基于這一系統(tǒng)技術(shù)原理和大數(shù)據(jù)建模算法引擎,將來(lái)還可通過(guò)抓取和分析互聯(lián)網(wǎng)上公開(kāi)的電子商務(wù)信息和數(shù)據(jù),為各類從事電子商務(wù)的客戶提供全面的定制化的市場(chǎng)信息和數(shù)據(jù)分析,在大數(shù)據(jù)的建模和分析之下,從數(shù)據(jù)層面幫助他們做出正確的商務(wù)決策.