• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于深度學(xué)習(xí)的商品自動(dòng)定價(jià)模型研究

      2019-03-21 00:32:02黃賀
      現(xiàn)代商貿(mào)工業(yè) 2019年9期
      關(guān)鍵詞:深度學(xué)習(xí)

      黃賀

      摘 要:在電商網(wǎng)站上,往往需要為賣家所銷售的物品提供一個(gè)可以參考的售價(jià)?;谏疃葘W(xué)習(xí)技術(shù)構(gòu)建了一個(gè)電商網(wǎng)站的商品自動(dòng)定價(jià)模型。模型能夠根據(jù)賣家所提供的商品數(shù)據(jù),同時(shí)考慮其中的結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù),來(lái)為商品生成建議的售價(jià)。使用日本最大的C2C二手交易平臺(tái)提供的數(shù)據(jù)來(lái)訓(xùn)練模型,并使用RMSLE作為我們模型的評(píng)價(jià)指標(biāo),結(jié)果顯示模型能夠有效學(xué)習(xí)商品信息與真實(shí)售價(jià)的映射關(guān)系,具有很高的實(shí)用價(jià)值。

      關(guān)鍵詞:深度學(xué)習(xí);定價(jià)模型;循環(huán)神經(jīng)網(wǎng)絡(luò)

      中圖分類號(hào):TB 文獻(xiàn)標(biāo)識(shí)碼:Adoi:10.19311/j.cnki.1672-3198.2019.09.095

      1 深度學(xué)習(xí)的發(fā)展

      人工神經(jīng)元網(wǎng)絡(luò)(Artificial Neural Network,ANN)是模擬生物神經(jīng)網(wǎng)絡(luò)進(jìn)行定義的,是由大量神經(jīng)元彼此連接而構(gòu)成的自適應(yīng)非線性動(dòng)態(tài)網(wǎng)絡(luò)系統(tǒng)。早在20世紀(jì)40年代心理學(xué)家Mc Culloch和數(shù)理邏輯學(xué)家Pitts提出的第1代模型——MP模型。為神經(jīng)元網(wǎng)絡(luò)的研究做了鋪墊。到了20世紀(jì)50至60年代,Rosenblatt在MP模型的基礎(chǔ)之上又繼續(xù)研究,增加了自動(dòng)學(xué)習(xí)的功能,提出了單層感知器模型,第一次將神經(jīng)網(wǎng)絡(luò)的研究開始應(yīng)用到現(xiàn)實(shí)生活中來(lái)。不過(guò),處理方式相對(duì)單一,針對(duì)線性不可分問(wèn)題沒(méi)法進(jìn)行處理。直至20世紀(jì)80年代,誤差逆?zhèn)鞑ヴ叻聪騻鞑ゾW(wǎng)絡(luò)(Back Propagation Network,BP網(wǎng)絡(luò))被科學(xué)家Rumelhar提出,此BP網(wǎng)絡(luò)的提出解決了原來(lái)單層感知器沒(méi)法解決的問(wèn)題。再后來(lái),各種淺層機(jī)器學(xué)習(xí)模型都先后被提出,再到21世紀(jì)初期,Hinton等人提出了多隱層的人工神經(jīng)網(wǎng)絡(luò)具有優(yōu)異的特征學(xué)習(xí)能力,而且可通過(guò)“逐層預(yù)訓(xùn)練”來(lái)解決深層神經(jīng)網(wǎng)絡(luò)在訓(xùn)練上的問(wèn)題。

      自此,深度學(xué)習(xí)(Deep learning)的研究成為最集中的研究方向,這使得人工神經(jīng)網(wǎng)絡(luò)得到了廣大人民的響應(yīng)。結(jié)合深度學(xué)習(xí)的逐層預(yù)訓(xùn)練算法中的自動(dòng)學(xué)習(xí)應(yīng)用于網(wǎng)絡(luò)每一層的預(yù)訓(xùn)練,再加上有監(jiān)督學(xué)習(xí)(BP算法)微調(diào)預(yù)訓(xùn)練好的網(wǎng)絡(luò)。

      目前,帶自動(dòng)學(xué)習(xí)的包含有深度置信網(wǎng)絡(luò)(DeepBelief Network,DBN)、卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)等。2016年初:谷歌旗下人工智能公司深靈(Deepmind)開發(fā)的AlphaGo以5:0戰(zhàn)勝了歐洲衛(wèi)冕冠軍,讓所有人為之震驚。AlphaGo主要采用價(jià)值網(wǎng)絡(luò)(value networks value)、策略網(wǎng)絡(luò)(policy network)來(lái)自動(dòng)學(xué)習(xí)算法并同時(shí)選擇下棋步法,這兩種網(wǎng)絡(luò)均通過(guò)神經(jīng)網(wǎng)絡(luò)模型來(lái)實(shí)現(xiàn),AlphaGo的成功,標(biāo)志著人工神經(jīng)網(wǎng)絡(luò)已經(jīng)具備高模仿、自動(dòng)學(xué)習(xí)、自動(dòng)處理并決定行為的潛能。

      2 神經(jīng)網(wǎng)絡(luò)與人工神經(jīng)網(wǎng)絡(luò)

      深度學(xué)習(xí)概括來(lái)說(shuō)是一套基于ANN的學(xué)習(xí)算法,它可以通過(guò)從海量的數(shù)據(jù)中通過(guò)輸入項(xiàng)拆分并梳理出諸多隱性的元素,通過(guò)多維度標(biāo)簽進(jìn)行對(duì)數(shù)據(jù)分類,獲取有參考價(jià)值的匯總信息,來(lái)提供市場(chǎng)借鑒和決策。比如CNN算法是由圖片像素點(diǎn)RGB 值可以學(xué)習(xí)到圖片的內(nèi)部特征,這些特征包括圖片總的的實(shí)物、數(shù)字、顏色、數(shù)量等。深度學(xué)習(xí)的算法提高了人工的效率,之前需要人工手動(dòng)完成的特征收集基本都可以通過(guò)深度學(xué)習(xí)的人工神經(jīng)網(wǎng)絡(luò)來(lái)完成。深度學(xué)習(xí)基本包括三個(gè)方面:人工神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)。

      卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks) 的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)是多層的,最核心的部分包括卷積層、池化層;最終是有連接層將此兩層進(jìn)行聯(lián)通的,每一層神經(jīng)網(wǎng)絡(luò)各自獨(dú)立。CNN的好處是算法中的各層局部相互獨(dú)立,同時(shí)參數(shù)共享,這樣大大減少了環(huán)節(jié)中的參數(shù)量,提高了處理效率。CNN最初是二維圖像處理算法,結(jié)合池化層,圖像的平移、傾斜、縮放、其輸出項(xiàng)不會(huì)發(fā)生變化。Lecun 等人最初提出CNN 神經(jīng)網(wǎng)絡(luò)也正是方便圖像處理,即圖像輸出項(xiàng)盡可能不受外在需求的改變而影響,處理過(guò)程更為高效而簡(jiǎn)單。

      3 商品自動(dòng)定價(jià)模型

      為什么需要商品自動(dòng)定價(jià)模型(跟前面的內(nèi)容差不多)。

      通常人們很難確定一件商品的具體售價(jià)是多少,特別是對(duì)于二手商品等一些難以有完全相同的商品可以參照的情況下。許多的因素都會(huì)對(duì)一個(gè)商品(特別是二手商品)的售價(jià)產(chǎn)生影響。例如,一個(gè)商品的品牌、產(chǎn)地、原材料、設(shè)計(jì)等眾所周知的特性。此外,如服裝等商品還會(huì)受到季節(jié)、時(shí)尚潮流等影響,而對(duì)于PlayStation等電子產(chǎn)品在不同的地區(qū)會(huì)有巨大的價(jià)格差異。除此之外,商品的新舊、賣家的描述也會(huì)對(duì)商品的實(shí)際賣出價(jià)格產(chǎn)生很大的影響。因此,對(duì)于一個(gè)電商網(wǎng)站的賣家而言,特別是二手交易平臺(tái)的賣家,很難確定自己想要賣出的商品的合理售價(jià)是多少。這時(shí)候一個(gè)能夠根據(jù)賣家商品信息為商品生成參考定價(jià)的價(jià)格模型就有其存在的合理性和必要性。而本文的主要工作,也著眼于利用二手交易平臺(tái)的商家提供的商品的信息來(lái)為商品提供指導(dǎo)價(jià)格。而一件商品的信息,往往包括了結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù),如商品的品牌、新舊、品類等都屬于結(jié)構(gòu)化數(shù)據(jù),而商品的標(biāo)題、商品描述等數(shù)據(jù)則屬于非結(jié)構(gòu)化數(shù)據(jù)。為了能夠更充分的利用商品的各項(xiàng)信息,我們的模型應(yīng)當(dāng)能夠同時(shí)考慮其中的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),特別是,實(shí)際情況中往往個(gè)人商家只會(huì)提供一些商品描述等非結(jié)構(gòu)化信息,我們的模型還應(yīng)該能夠從這樣的非結(jié)構(gòu)化數(shù)據(jù)中抽取出前面所提到的一些結(jié)構(gòu)化信息作為特征。我們的模型由人工神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)等網(wǎng)絡(luò)作為模塊組成整個(gè)商品的自動(dòng)定價(jià)模型,下面我們將分別介紹人工神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)和我們的商品定價(jià)模型。

      3.1 人工神經(jīng)網(wǎng)絡(luò)

      人工神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)中常用的一種最簡(jiǎn)單,也是最基本的模型結(jié)構(gòu),我們這里將講簡(jiǎn)要介紹人工神經(jīng)網(wǎng)絡(luò)的基本原理。

      一個(gè)常見(jiàn)的人工神經(jīng)網(wǎng)絡(luò)架構(gòu)如圖所示,這個(gè)神經(jīng)網(wǎng)絡(luò)架構(gòu)分為了輸入層、隱藏層和輸出層。顧名思義,在輸入層,我們?yōu)槿斯ど窠?jīng)網(wǎng)絡(luò)輸入數(shù)據(jù),這里的數(shù)據(jù)一般指的是結(jié)構(gòu)化的數(shù)據(jù)。在隱藏層和輸出層,我們進(jìn)行計(jì)算并輸出計(jì)算的結(jié)果。在神經(jīng)網(wǎng)絡(luò)的隱藏層上,存在著將輸入進(jìn)行線性變換并使用激活函數(shù)進(jìn)行激活的神經(jīng)元。這里假設(shè)我們由M個(gè)輸入的變量構(gòu)成的向量x∈R1×M,神經(jīng)網(wǎng)絡(luò)由N個(gè)神經(jīng)元,最終只有一個(gè)輸出變量y∈R1×1。那么在輸入層的數(shù)據(jù)進(jìn)入隱藏層的時(shí)候,神經(jīng)網(wǎng)絡(luò)是進(jìn)行下述運(yùn)算的:

      其中,矩陣W連接著輸入層與隱藏層,這里做的是矩陣乘法,實(shí)際上也可以看作是一個(gè)對(duì)輸入進(jìn)行的線性變換。之后,每個(gè)神經(jīng)元都會(huì)在線性變換的基礎(chǔ)之上加上一個(gè)常數(shù)b0,這個(gè)常數(shù)也被稱為偏置。在完成了這些運(yùn)算之后,我們得到向量z,神經(jīng)元接下來(lái)使用激活函數(shù)進(jìn)行激活運(yùn)算:

      σ(z)∈R1×N

      這里面的σ(·)就是我們所說(shuō)的激活函數(shù)。常見(jiàn)的激活函數(shù)由sigmoid函數(shù)、tanh函數(shù)和relu函數(shù)等,不同的激活函數(shù)會(huì)在不同的模型下表現(xiàn)不同的性能。使用何種激活函數(shù)往往是構(gòu)建深度學(xué)習(xí)模型中需要調(diào)整的一項(xiàng)超參數(shù)。

      在完成了前面的計(jì)算之后,我們得到了隱藏層的輸出,并進(jìn)一步開始計(jì)算。在從隱藏層到輸入層的計(jì)算中,首先也是一個(gè)矩陣乘法,我么這里記做θ∈RN×1。然后,在完成如下計(jì)算后,加上偏置即得到了最后的輸出y:

      上面的計(jì)算也可以寫成一個(gè)完整的運(yùn)算:

      其中各個(gè)矩陣的維度如下:

      在我們的商品自動(dòng)定價(jià)模型和其他很多實(shí)用的模型中,人工神經(jīng)網(wǎng)絡(luò)并不單獨(dú)使用,而是與其他的網(wǎng)絡(luò)結(jié)構(gòu)相結(jié)合。

      3.2 循環(huán)神經(jīng)網(wǎng)絡(luò)

      20世紀(jì)80年代,Williams等人提出循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)的概念。上面之前文章所講述到的神經(jīng)網(wǎng)絡(luò)為全連接的,即層與層是全連接的,每層是沒(méi)有連接的,這樣導(dǎo)致某些處理沒(méi)法完成。例如,在輸入句子詞匯過(guò)程中,后一個(gè)詞匯的出現(xiàn)往往依賴前面詞匯信息。RNN是能夠建模序列數(shù)據(jù)不同時(shí)刻之間的依賴關(guān)系,所以在機(jī)器翻譯、語(yǔ)音識(shí)別、圖標(biāo)標(biāo)注等方面,奠定了更為廣泛的使用價(jià)值。

      由于RNN的最大特點(diǎn)在于神經(jīng)網(wǎng)絡(luò)各隱層之間的節(jié)點(diǎn)是具有連接和關(guān)聯(lián)的,它能夠獲取之前輸入項(xiàng)的隱層輸出從而判斷當(dāng)前隱層的輸出,用大眾的理解說(shuō)來(lái)說(shuō)就是人工的記憶功能。RNN支持任意長(zhǎng)度的序列數(shù)據(jù)建模,但隨著輸入項(xiàng)的歷史時(shí)間長(zhǎng)度,往往RNN建模時(shí)只記錄最近幾次的歷史狀態(tài)來(lái)完成,來(lái)減少建模的復(fù)雜度,如圖2為典型的RNN結(jié)構(gòu)。

      將RNN 展開可以看到,它的特征是所有層共享相同權(quán)值、并且深度前饋。然而,實(shí)際研究中發(fā)現(xiàn),普通的RNN結(jié)構(gòu)存在梯度消失問(wèn)題,這樣的話,學(xué)習(xí)數(shù)據(jù)之間的長(zhǎng)程依賴關(guān)系問(wèn)題是沒(méi)法解決的。針對(duì)這個(gè)問(wèn)題,經(jīng)過(guò)長(zhǎng)期研究,一些為解決此問(wèn)題的RNN的變種相繼出現(xiàn),其中最著名的包括:長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long Short-TermMemory,LSTM)、門限循環(huán)單元(Gated Recurrent Unit,GRU)。LSTM和GRU采用了特殊的隱層結(jié)構(gòu),特殊的隱層單元的長(zhǎng)期狀態(tài)被增加保存,從而長(zhǎng)程依賴關(guān)系的問(wèn)題被有效解決了,因此,此方法為廣泛的循環(huán)神經(jīng)網(wǎng)絡(luò)模型。

      3.3 商品自動(dòng)定價(jià)模型的網(wǎng)絡(luò)結(jié)構(gòu)

      我們的商品自動(dòng)定價(jià)模型的模型架構(gòu)圖如圖3所示,其中包含了大量的輸入數(shù)據(jù)和對(duì)于不同輸入數(shù)據(jù)的相應(yīng)建模,我們將逐層介紹我們模型的計(jì)算過(guò)程。

      輸入層:模型的輸入層包含多種商品的信息,包括:商品的標(biāo)題,商品的描述、商品品牌、商品的成色、商品是否包郵、商品描述的文字長(zhǎng)度、商品標(biāo)題的文字長(zhǎng)度、商品的一、二、三級(jí)分類。其中,商品的標(biāo)題和商品的描述是賣家輸入的文本數(shù)據(jù),屬于非結(jié)構(gòu)化數(shù)據(jù)。商品的品牌、成色、是否包郵、商品的三級(jí)分類都屬于結(jié)構(gòu)化的數(shù)據(jù)。此外,我們還手工構(gòu)造了商品的描述長(zhǎng)度和標(biāo)題長(zhǎng)度作為額外的特征,并發(fā)現(xiàn)這兩個(gè)特征能幫助模型更有效的學(xué)習(xí)。這兩個(gè)特征也屬于結(jié)構(gòu)化數(shù)據(jù)。

      嵌入層:為了能夠統(tǒng)一處理不同類型的數(shù)據(jù),我們對(duì)于輸入的結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)都進(jìn)行了嵌入操作。具體的說(shuō),對(duì)于商品描述和商品標(biāo)題這樣的非結(jié)構(gòu)化數(shù)據(jù),我們實(shí)際輸入的是數(shù)據(jù)分詞后每個(gè)單詞的索引,嵌入層能將每個(gè)單詞的索引轉(zhuǎn)化為對(duì)應(yīng)的詞向量。而對(duì)于結(jié)構(gòu)化數(shù)據(jù)我們也進(jìn)行相同的操作,如對(duì)于是否包郵這一特征,會(huì)有0和1兩種取值,則嵌入層則分別將0和1轉(zhuǎn)化為兩個(gè)不同的嵌入向量。

      雙向GRU:對(duì)于商品標(biāo)題和商品描述,在每個(gè)單詞都轉(zhuǎn)化為具體的詞向量后,我們將詞向量序列依次送入雙向GRU來(lái)對(duì)其中的文本語(yǔ)義來(lái)進(jìn)行建模。對(duì)于兩個(gè)雙向GRU的輸出,我們會(huì)去其他輸入數(shù)據(jù)的詞嵌入進(jìn)行拼接得到一個(gè)完整的矩陣,并使用人工神經(jīng)網(wǎng)絡(luò)進(jìn)行特征的提取和組合。

      人工神經(jīng)網(wǎng)絡(luò):我們使用深度人工神經(jīng)網(wǎng)絡(luò)對(duì)前面雙向GRU的輸出和其他輸入數(shù)據(jù)的嵌入矩陣進(jìn)行特征的提取和組合。

      4 實(shí)驗(yàn)

      4.1 數(shù)據(jù)集

      我們使用的數(shù)據(jù)集來(lái)自Mercari,日本最大的C2C二手交易平臺(tái)。該數(shù)據(jù)集意在讓數(shù)據(jù)科學(xué)家們根據(jù)其中的成交記錄作為樣本訓(xùn)練模型,并為其他的二手交易賣家提供商品的參考售價(jià)。數(shù)據(jù)會(huì)被我們劃分為訓(xùn)練集和測(cè)試集。在測(cè)試集上,我們使用的評(píng)價(jià)標(biāo)準(zhǔn)是RMSLE(Root Mean Squared Logarithmic Error)。計(jì)算公式如下:

      數(shù)據(jù)的樣本示例如圖4。

      4.2 實(shí)驗(yàn)細(xì)節(jié)與結(jié)論

      對(duì)于商品標(biāo)題和商品描述,我們?cè)O(shè)定了10和75作為截?cái)嚅L(zhǎng)度,少于截?cái)嚅L(zhǎng)度的將使用0作為填充,大于截?cái)嚅L(zhǎng)度的數(shù)據(jù)將會(huì)被截?cái)?,它們?duì)于的詞嵌入向量分別為20和60。對(duì)于商品品牌名、商品的三級(jí)分類使用長(zhǎng)度為10的嵌入向量。對(duì)于商品描述長(zhǎng)度和標(biāo)題長(zhǎng)度分別使用長(zhǎng)度為5的嵌入向量。對(duì)商品名和商品描述的語(yǔ)義進(jìn)行建模的雙向GRU的隱藏態(tài)長(zhǎng)度分別為16和8,對(duì)于深度人工神經(jīng)網(wǎng)絡(luò)的神經(jīng)元數(shù)量分別為512、256、128、64和1。訓(xùn)練模型使用的優(yōu)化器為sgd,使用均方差損失作為損失函數(shù)。模型共訓(xùn)練2輪,batch為1536。

      我們將數(shù)據(jù)分為訓(xùn)練集和測(cè)試集兩個(gè)集合,訓(xùn)練集有146萬(wàn)條樣本,測(cè)試集由1萬(wàn)4千條樣本。經(jīng)過(guò)測(cè)試,我們的模型能夠在測(cè)試集上RMSLE損失為0.45。

      5 結(jié)論與展望

      本文中我們根據(jù)電商網(wǎng)站提供的真實(shí)數(shù)據(jù)構(gòu)建了一個(gè)商品自動(dòng)定價(jià)模型,并在測(cè)試集上的RMSLE指標(biāo)上取得了很好的結(jié)果。我們主要貢獻(xiàn)在于:

      (1)使用真實(shí)數(shù)據(jù)構(gòu)建了一個(gè)商品自動(dòng)定價(jià)模型,由很高的實(shí)用性。

      (2)模型能夠同時(shí)考慮商品信息中的結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù),使用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到其中的深層次映射關(guān)系。在接下來(lái)的工作中,我們會(huì)考慮更加復(fù)雜的模型,加入預(yù)訓(xùn)練的詞向量方式來(lái)進(jìn)一步提高我們模型的性能。

      參考文獻(xiàn)

      [1]黃立威,江碧濤,呂守業(yè),等.基于深度學(xué)習(xí)的推薦系統(tǒng)研究綜述[J].計(jì)算機(jī)學(xué)報(bào),2018,41(07).

      猜你喜歡
      深度學(xué)習(xí)
      從合坐走向合學(xué):淺議新學(xué)習(xí)模式的構(gòu)建
      面向大數(shù)據(jù)遠(yuǎn)程開放實(shí)驗(yàn)平臺(tái)構(gòu)建研究
      基于自動(dòng)智能分類器的圖書館亂架圖書檢測(cè)
      搭建深度學(xué)習(xí)的三級(jí)階梯
      有體驗(yàn)的學(xué)習(xí)才是有意義的學(xué)習(xí)
      電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識(shí)別研究
      利用網(wǎng)絡(luò)技術(shù)促進(jìn)學(xué)生深度學(xué)習(xí)的幾大策略
      考試周刊(2016年94期)2016-12-12 12:15:04
      MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場(chǎng)域建構(gòu)
      大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
      深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
      枣庄市| 色达县| 鄂尔多斯市| 筠连县| 大城县| 略阳县| 东平县| 江源县| 洪雅县| 扶沟县| 金寨县| 成安县| 青龙| 山丹县| 米泉市| 黑水县| 五指山市| 洛隆县| 增城市| 平利县| 侯马市| 黑山县| 宁远县| 通渭县| 孙吴县| 嘉义县| 济宁市| 桐乡市| 东明县| 富平县| 尚义县| 保康县| 滕州市| 金沙县| 方山县| 滨州市| 房产| 德庆县| 阜城县| 奉节县| 桐梓县|