關(guān)于大數(shù)據(jù)環(huán)境下的電子商務(wù)商品實(shí)體同一性識別的研究

2016-03-24 08:12:54于帥

中國新通信 2016年4期

于帥

【摘要】經(jīng)濟(jì)與科技的發(fā)展帶動了電子商務(wù)的發(fā)展，在電子商務(wù)平臺中對數(shù)據(jù)的收集與分析是相關(guān)人員應(yīng)當(dāng)重視的關(guān)鍵性問題，不同的電子商務(wù)主體其擁有的數(shù)據(jù)是不同的，且具有相對獨(dú)立自治，數(shù)據(jù)異構(gòu)等特征，為了對商品信息進(jìn)行識別與判定，應(yīng)當(dāng)設(shè)計相應(yīng)的模型，提高對商品實(shí)體同一性的識別率。文中將對這一問題展開研究。

【關(guān)鍵詞】大數(shù)據(jù) 電子商務(wù) 商品實(shí)體同一性識別

信息化的發(fā)展是人們進(jìn)入了大數(shù)據(jù)時代，商品交易對網(wǎng)絡(luò)的依賴性與利用率迅猛提升，電子商務(wù)已經(jīng)逐漸成為人們生活中不可分割的一部分。為了更好的在網(wǎng)絡(luò)上開展生產(chǎn)經(jīng)營活動，需要對大量的數(shù)據(jù)進(jìn)行收集與分析，從眾多的數(shù)據(jù)源中找到能夠描述具有同一性的商品實(shí)體的網(wǎng)頁，如何開展商品實(shí)體同一性識別是應(yīng)當(dāng)思考的重點(diǎn)問題。

一、電子商務(wù)在大數(shù)據(jù)環(huán)境中進(jìn)行商品實(shí)體同一性識別面臨的挑戰(zhàn)

在大數(shù)據(jù)環(huán)境中，對同一性商品進(jìn)行識別具有較大的難度。首先數(shù)據(jù)極為龐大，這一特點(diǎn)主要表現(xiàn)在三個方面，第一是數(shù)據(jù)量本身較多，我國現(xiàn)有的電子商務(wù)平臺在100家以上，而商品數(shù)量則超過200萬件，識別難度較大；第二是數(shù)據(jù)具有多樣性，商品的描述方式、屬性結(jié)構(gòu)、數(shù)據(jù)模態(tài)、商品布局等均存在差異，因此很難在一個模型下進(jìn)行選擇與分析；第三是數(shù)據(jù)增長與更新速度快，商品的數(shù)量與價格、用戶評價、交易記錄等都會成倍的增長，因此數(shù)據(jù)篩選難度大。其次，商務(wù)平臺中，商家與商品均較多、交雜，而不同商家對同一商品的定義與設(shè)計也存在或多或少的差異性，因此在進(jìn)行關(guān)鍵詞搜索時，兩個相似度較高或相同的商品不一定會顯示在同一個頁面中，相似度相對較低的商品也可能因?yàn)槟骋魂P(guān)鍵詞而出現(xiàn)在同一頁面中。在對商品描述性語言進(jìn)行分析時，傳統(tǒng)方法很難準(zhǔn)確判定兩個描述的語義是否具有一致性，因此識別相對困難。

二、大數(shù)據(jù)環(huán)境下電子商務(wù)商品實(shí)體同一性識別的模型研究

1、對象數(shù)據(jù)模型。在數(shù)據(jù)背景下可用對象來描述數(shù)據(jù)特征，商務(wù)平臺中商品數(shù)據(jù)通常以網(wǎng)頁的形式呈現(xiàn)出來，網(wǎng)頁可被稱作為對象頁面，每一商品對應(yīng)的網(wǎng)頁頁面都含有獨(dú)特的結(jié)構(gòu)信息，由對象、對象頁面以及頁面信息所構(gòu)成的模型極為對象數(shù)據(jù)模型。為了更準(zhǔn)確的進(jìn)行同一性識別，整個網(wǎng)站會被描述為非空樹，由五個層次組成，其中根節(jié)點(diǎn)為網(wǎng)站數(shù)據(jù)源，中間節(jié)點(diǎn)為各級欄目，葉子節(jié)點(diǎn)為頁面，用戶在網(wǎng)站主最多只需點(diǎn)擊四次就可以到達(dá)目標(biāo)頁面。

2、樹模型。關(guān)系模式難以對電子商務(wù)中的復(fù)雜數(shù)據(jù)進(jìn)行描述與定義，而樹模型以值或者屬性為基礎(chǔ)，并與鍵值型進(jìn)行適當(dāng)結(jié)合，可以滿足多樣性的需求。整個模型由數(shù)據(jù)單元關(guān)系以及鍵值型對應(yīng)的數(shù)據(jù)單元兩部分組成，對象數(shù)據(jù)則包括不同層次的元數(shù)據(jù)，元數(shù)據(jù)包括實(shí)體、父級對象、鍵名以及數(shù)據(jù)值，如商品實(shí)體OPPO手機(jī)，可分為N1、N3等多個型號即多個商品對象，各型號存在的不同的屬性即為值。由于樹模型不會對數(shù)據(jù)結(jié)構(gòu)與數(shù)據(jù)內(nèi)容進(jìn)行識別與解析，它可適用于任何類型的數(shù)據(jù)，其擴(kuò)展性極強(qiáng)。

3、索引設(shè)計。在找尋具有同一性的商品實(shí)體時，需要對每兩個商品進(jìn)行一次比較，這一過程是極為復(fù)雜與繁瑣的，為了解決這一問題，可將商品對應(yīng)的屬性值構(gòu)造進(jìn)行倒排，從而形成新的索引表，完成對商品的查詢。屬性名稱、取值、子樹中滿足要求的頁面集合共同組成索引記錄集合。當(dāng)用戶鍵入關(guān)鍵詞后，模型會根據(jù)條件形成層次樹，即建立樹模型，然后索引設(shè)計模型再對符合條件的項目進(jìn)行檢查，如果節(jié)點(diǎn)中存在索引集合，那么記錄中將會增加該頁面，通過這種方式可以完成初步的聚類處理。

4、值與屬性處理。電子商務(wù)平臺中商家、商品都極多，而其商品可能會采取不同的形式表述，雖然其值或?qū)傩怨?jié)點(diǎn)是等價的，由于表述不一，篩選起來十分困難，如蘋果手機(jī)與iPhone這種表述等。若想準(zhǔn)確找到具有同一性的商品就需要對商品的值或?qū)傩赃M(jìn)行規(guī)范化的處理，在索引設(shè)計中采取倒排索引，設(shè)計人員應(yīng)當(dāng)將可以表示商品值與屬性的點(diǎn)集進(jìn)行分析，然后判定各值或?qū)傩运嫉臋?quán)重。如果某兩件商品的某一屬性完全等價，則可將其納入到同一商品的集合中。

5、層次概率模型。對同一體進(jìn)行識別的過程最終是在層次概率模型的基礎(chǔ)上完成的，在實(shí)際的電子商務(wù)中幾乎沒有頁面的相關(guān)描述是百分百一致的，因此同一性識別的依據(jù)只能是相似度，由于不同屬性對商品識別產(chǎn)生的影響具有差異性，因此在識別與比較前需根據(jù)實(shí)際需求對各屬性賦予不同的權(quán)值，然后就商品比較的需求設(shè)計由三個層次構(gòu)成的概率樹，最后以此對概率樹種的屬性進(jìn)行篩選與比較，找出其中相似度較高的屬性，找出具有同一性的商品。

結(jié)語：在電子商務(wù)活動中對商品實(shí)體進(jìn)行同一性的識別是十分必要且重要的，信息時代數(shù)據(jù)量迅猛增長，為了準(zhǔn)確、迅速的找到具有同一性的商品，設(shè)計人員應(yīng)當(dāng)建立有效的對象數(shù)據(jù)模型、樹模型、索引、值與屬性處理系統(tǒng)以及層次概率模型等，對數(shù)據(jù)進(jìn)行合理的篩選與分析。

參考文獻(xiàn)

[1]胡亞慧，李石君，余偉，等.大數(shù)據(jù)環(huán)境下的電子商務(wù)商品實(shí)體同一性識別[J].計算機(jī)研究與發(fā)展，2015（08）.

[2]劉顯敏.XML數(shù)據(jù)實(shí)體同一性相關(guān)技術(shù)的研究[D].哈爾濱工業(yè)大學(xué)，2013.

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

關(guān)于大數(shù)據(jù)環(huán)境下的電子商務(wù)商品實(shí)體同一性識別的研究