付強(qiáng) 裴佩 丁永剛
摘 要:互聯(lián)網(wǎng)灰色產(chǎn)業(yè)服務(wù)日益泛濫,而傳統(tǒng)的網(wǎng)頁(yè)過濾算法無法準(zhǔn)確高效地過濾掉灰色產(chǎn)業(yè)服務(wù)網(wǎng)頁(yè)。為解決這一問題,基于TF*IDF提出一種改進(jìn)的網(wǎng)頁(yè)特征提取和權(quán)重計(jì)算方法,利用因子分解機(jī)模型對(duì)網(wǎng)頁(yè)進(jìn)行分類,并以代孕網(wǎng)站為例進(jìn)行實(shí)驗(yàn)和評(píng)估。實(shí)驗(yàn)結(jié)果表明,該方法精確率達(dá)到98.89%,召回率達(dá)到98.63%,且對(duì)海量網(wǎng)頁(yè)的過濾能夠在線性時(shí)間復(fù)雜度內(nèi)完成,大大提高了灰色產(chǎn)業(yè)服務(wù)信息過濾精度和效率。
關(guān)鍵詞:灰色產(chǎn)業(yè)服務(wù);網(wǎng)頁(yè)過濾;特征選擇;權(quán)重計(jì)算;因子分解機(jī)
DOI:10. 11907/rjdk. 191195 開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
中圖分類號(hào):TP319文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-7800(2019)009-0150-04
A Factorization Machine-based Filtering Approach
for Gloomy Industry Service Webpages
FU Qiang1,PEI Pei2,DING Yong-gang3
(1. Wuhan Marine Communication Institute,Wuhan 430072,China;
2. School of Computer, Central China Normal University, Wuhan 430079,China;
3. School of Education,Hubei University,Wuhan 430062,China)
Abstract: In recent years, Internet gray industry has become rampant. Unfortunately, traditional webpage filtering algorithms are not able to filter the webpages of the gray industry efficiently and accurately. To solve this problem, we first propose an improved method of webpage feature selection and weight calculation based on TF*IDF, and then classify webpages using Factorization Machines. Taking surrogacy website as an example, we conduct extensive experiments and evaluations in the real-world scenarios. The experiment results show that this method achieves a precision of 98.89% and a recall of 98.63%, and is able to filter gray industry webpages in linear time, which greatly improve the accuracy and efficiency of filtering.
Key Words:gray?industry service; webpage filtering; feature selection; weight calculation; factorization machines
0 引言
互聯(lián)網(wǎng)產(chǎn)業(yè)蓬勃發(fā)展,一些不符合國(guó)家法律法規(guī)的互聯(lián)網(wǎng)灰色產(chǎn)業(yè)也夾雜其中,如代孕、論文買賣等。這些灰色產(chǎn)業(yè)使用不正當(dāng)手段非法盈利,不僅違背倫理道德,而且擾亂互聯(lián)網(wǎng)正常秩序。從海量網(wǎng)頁(yè)中迅速有效地過濾互聯(lián)網(wǎng)灰色服務(wù)信息,阻止其傳播,確保互聯(lián)網(wǎng)綠色產(chǎn)業(yè)有序發(fā)展,成為網(wǎng)絡(luò)內(nèi)容安全研究的重要課題之一[1-3]。
在網(wǎng)頁(yè)文本過濾中,文本特征提取算法好壞直接關(guān)系到過濾效果優(yōu)劣,而灰色服務(wù)信息文本過濾不同于普通文本過濾,其主要困難在于灰色服務(wù)信息文本特征的選擇需考慮多類特征詞與一般特征詞的區(qū)別以及在不同類別文檔中的重要性,因此本文首先基于TF*IDF提出一種改進(jìn)的特征選擇與權(quán)重計(jì)算方法,以期獲得較好的灰色服務(wù)信息文本特征選擇與權(quán)重計(jì)算效果。
文本過濾一般采用近鄰法(KNN)[4]、貝葉斯分類(NB)[5]、支持向量機(jī)(SVM)[6-7]和神經(jīng)網(wǎng)絡(luò)(BP)[8]等文本分類方法,這些方法效果較好,但KNN算法在樣本集較大的情況下,系統(tǒng)時(shí)間復(fù)雜度和空間復(fù)雜度都較高;NB算法在屬性個(gè)數(shù)較多或?qū)傩灾g相關(guān)性較大時(shí),分類效率不理想;SVM算法雖然能解決高維問題,但對(duì)缺失數(shù)據(jù)敏感,且對(duì)非線性問題沒有通用解決方案; BP算法在高維數(shù)據(jù)和大數(shù)據(jù)量的情況下,算法開銷非常大。針對(duì)上述問題,本文基于因子分解機(jī)模型提出一種有效的分類算法,該算法在高維數(shù)據(jù)和數(shù)據(jù)稀疏情況下仍能在線性時(shí)間復(fù)雜度內(nèi)獲得好的分類精度。實(shí)驗(yàn)表明,將該算法應(yīng)用于灰色服務(wù)信息過濾能取得滿意的效果。
1 灰色產(chǎn)業(yè)服務(wù)網(wǎng)頁(yè)過濾流程
灰色產(chǎn)業(yè)服務(wù)網(wǎng)頁(yè)過濾流程分為訓(xùn)練和過濾兩個(gè)階段,其流程如圖1所示。
訓(xùn)練階段最重要的是建立灰色產(chǎn)業(yè)分詞詞典。首先收集大量灰色產(chǎn)業(yè)服務(wù)網(wǎng)頁(yè),使用分詞軟件進(jìn)行分詞,統(tǒng)計(jì)詞頻, 得到詞頻最高的k個(gè)詞,然后去除停用詞、平凡詞、稀有詞和詞頻小于3的詞,把剩下的詞作為關(guān)鍵詞;增加一些描述灰色產(chǎn)業(yè)的專有名詞,以代孕服務(wù)為例,增加如“試管嬰兒”、”捐卵”、“ 體外授精”和“借腹生子”等詞,以及反映產(chǎn)業(yè)服務(wù)網(wǎng)頁(yè)特征的重要詞,如“聯(lián)系電話”、 “在線咨詢”、“會(huì)員“、“報(bào)名”、“流程”、“服務(wù)”、“客服”、“價(jià)格”等詞。
在過濾階段,使用上述得到的灰色產(chǎn)業(yè)關(guān)鍵詞過濾掉與灰色服務(wù)完全無關(guān)的網(wǎng)頁(yè),剩下的網(wǎng)頁(yè)為灰色服務(wù)網(wǎng)頁(yè)及相似網(wǎng)頁(yè)。以代孕服務(wù)為例,與之相似的網(wǎng)頁(yè)可能是介紹有關(guān)生育知識(shí)的合法醫(yī)學(xué)類網(wǎng)頁(yè),或僅是報(bào)道代孕產(chǎn)業(yè)的相關(guān)新聞網(wǎng)頁(yè)。由于描述灰色服務(wù)的詞大多是專業(yè)詞匯,所以可使用訓(xùn)練階段建立的分詞詞典進(jìn)行機(jī)械式分詞和特征提取,最后使用因子分解機(jī)模型分類器進(jìn)行分類過濾。
2 灰色產(chǎn)業(yè)網(wǎng)頁(yè)特征提取與權(quán)重改進(jìn)算法
2.1 特征提取
網(wǎng)頁(yè)文本特征通常采用向量空間模型表示[9],其半結(jié)構(gòu)化特點(diǎn)使其即使經(jīng)過初始化處理后,仍會(huì)留下很多高維特征向量。不是所有特征對(duì)分類學(xué)習(xí)都有用,且向量的高維特性還會(huì)增加機(jī)器學(xué)習(xí)時(shí)間。因此,特征選擇用于排除特征空間中那些被認(rèn)為無關(guān)或關(guān)聯(lián)性不大的特性,以降低向量空間維數(shù),簡(jiǎn)化計(jì)算,防止過分?jǐn)M合。特征選擇好壞直接影響文本分類的準(zhǔn)確率。
灰色服務(wù)網(wǎng)頁(yè)的特征提取不同于普通網(wǎng)頁(yè)的特征提取,其主要困難在于灰色服務(wù)網(wǎng)頁(yè)文本特征的選擇,除了要提取代表灰色產(chǎn)業(yè)服務(wù)的高頻詞外,還要考慮多類特征詞與一般特征詞的區(qū)別及其在不同類別文檔中的重要性。比如灰色產(chǎn)業(yè)最顯著的特點(diǎn)是它的交易特性,因此其網(wǎng)頁(yè)除了包含關(guān)于該灰色服務(wù)信息的高頻詞外,還會(huì)包含一些呈現(xiàn)交易特性的重要詞。以代孕網(wǎng)頁(yè)為例,除了出現(xiàn) “代孕媽媽”、“嬰兒”和“胚胎”等高頻詞外,還會(huì)出現(xiàn)一些諸如“聯(lián)系電話”、“在線咨詢”、“會(huì)員“、“報(bào)名”、“流程”、“服務(wù)”、“客服”、“價(jià)格”等具有顯著交易特性的詞,而這些詞也可能出現(xiàn)在合法網(wǎng)頁(yè)中,即這些詞為多類特征詞。這類特征詞在灰色服務(wù)網(wǎng)頁(yè)中出現(xiàn)的頻度一般較高,能夠代表灰色服務(wù)網(wǎng)頁(yè)的特征。因?yàn)槟骋痪W(wǎng)頁(yè)即使出現(xiàn)了“代孕媽媽”、“嬰兒”和“胚胎”等高頻詞,如果沒有該類具有顯著交易特性的特征詞,則可認(rèn)為這樣的網(wǎng)頁(yè)可能只是相似網(wǎng)頁(yè)而不是灰色服務(wù)網(wǎng)頁(yè)。因此,需要一種新的特征提取和權(quán)重計(jì)算方法,既能提取反映灰色服務(wù)信息的高頻特征詞,又能將多類特征詞與一般特征詞加以區(qū)別,還能體現(xiàn)其在不同文檔類別中的重要性。
2.2 權(quán)重改進(jìn)算法
2.2.1 傳統(tǒng)TF*IDF 算法及不足
文本特征常用加權(quán)關(guān)鍵詞矢量的向量空間模型(VSM)表示。VSM將文本文檔視為由一組詞語[(t1,t2,?,tn)]構(gòu)成,每一詞語都賦以一定的權(quán)值。這樣,一個(gè)文檔[di]可以表示成由一組詞語矢量組成的向量空間中的一個(gè)向量:[di=t1,w1;t2,w2;...;tk,wk;?;tn,wn],其中[tk]表示詞語,[wk]表示詞語[tk]在文檔[di]中的權(quán)重。文檔[di]中詞語[tj]的權(quán)重采用[tf-idf]公式計(jì)算如下:
其中,詞頻[tfij]是詞語[tj]在文檔[di]中出現(xiàn)的次數(shù),逆文檔詞頻[idfij=lnN/n]是詞語[tj]在文檔集中分布情況的量化,[N]為文檔集的總文檔數(shù),[n]為出現(xiàn)特征詞[t]的文檔數(shù)。
從公式(1)可以看出,[tf-idf]主要從詞頻和逆文檔詞頻兩方面考慮:如果某個(gè)詞在一個(gè)文檔中出現(xiàn)的頻率[tf]高,但在其它文檔中很少出現(xiàn),則認(rèn)為此詞具有很好的類別區(qū)分能力,適合用來分類;[idf]則表示為,如果包含某個(gè)詞語的文檔數(shù)較少,即[n]越小,[idf]越大,說明該詞語具有很好的類別區(qū)分能力。進(jìn)一步分析發(fā)現(xiàn), 如果一個(gè)文本中的某個(gè)詞語出現(xiàn)次數(shù)很多,即[tf]很大,則該詞語在另一個(gè)同類文本中出現(xiàn)次數(shù)也會(huì)很多,反之亦然。因此[tf]可以體現(xiàn)同類文本的特點(diǎn),但還應(yīng)考慮詞語區(qū)分不同類別文檔的能力。逆文檔詞頻[idf]認(rèn)為一個(gè)詞語出現(xiàn)的頻率越小,區(qū)別不同類別的能力就越大,但如果其均勻分布在各個(gè)類間,這樣的詞語是不適合用來分類的;另一方面,如果一個(gè)詞語在某個(gè)類的文檔中頻繁出現(xiàn),則說明該詞語能夠很好地代表這個(gè)類的文本特征,這樣的詞語應(yīng)該賦予較高權(quán)重,并選作該類文本的特征詞以區(qū)別于其它類別文檔。顯然,[idf]沒有考慮詞語在不同類別中的區(qū)分能力,所以依據(jù)[tf-idf]得到的權(quán)值進(jìn)行文本分類通常不能得到滿意效果。
2.2.2 改進(jìn)的權(quán)重算法
為克服[idf]公式缺陷,本文從以下兩方面調(diào)整詞語權(quán)重:
(1)引入類別文檔頻數(shù)[cdf]。 ?文獻(xiàn)[10]把類別文檔頻數(shù)[cdf]定義為:
該公式表示特征詞[t]在類別[Cp]的文檔集中的[idf]值,其中[Kp]表示[t]在[Cp]中的類別文檔頻數(shù)。公式(2)不但能反映出多類特征詞和一般特征詞區(qū)別,而且能反映一個(gè)多類特征詞在不同類別文檔中的重要性。改進(jìn)的詞語權(quán)重計(jì)算公式如下:
其中,[wij]表示特征詞[tj]在文檔[di]中的權(quán)值,[tf(ti)] 表示[ti]在[di]中出現(xiàn)的次數(shù)。假設(shè)[di]屬于類別[Cp(p=1,2,][?,m)],[Kp]表示[ti]在類[Cp]中的文檔頻數(shù),[N]為文檔集中的總文檔數(shù),[n]為出現(xiàn)特征項(xiàng)[t]的文檔數(shù)。
(2)引入信息增益調(diào)整權(quán)重。文獻(xiàn)[11-13]從信息論的角度出發(fā),把信息增益公式引入到文檔集的類別間,即把文檔集看作一個(gè)符合某種規(guī)律分布的信息源,依靠訓(xùn)練數(shù)據(jù)集的類別信息熵和文檔類別中詞語的條件熵之間信息量的增益關(guān)系,確定該詞語在文本分類中所能提供的信息量,并把這個(gè)信息量反映到詞語的權(quán)重中。公式如下:
其中,C為文檔的類別集合,[p(Cp)]表示類別[Cp]的概率,可基于文檔統(tǒng)計(jì)進(jìn)行計(jì)算,也可基于詞頻計(jì)算,[(Cp/tj)]表示詞語[tj]在類別[Cp]中出現(xiàn)的概率。
當(dāng)詞語[tj]在文檔集合的類別中分布不均時(shí),即在某個(gè)類別中分布較高,其它類別中分布較少,詞語帶有較大的類別信息時(shí),應(yīng)用信息增益公式計(jì)算可得到較高的信息增益值,用公式(7)計(jì)算所得的權(quán)重值就會(huì)較高,從而提高詞語[tj]的權(quán)重;另一方面,如果詞語[tj]在文檔集合中的數(shù)量雖小,但如果其均勻分布在各個(gè)類別間,則其帶有的類別信息少,對(duì)系統(tǒng)的不確定性程度影響小,則由信息增益公式計(jì)算得到的信息增益值較小,用公式(7)計(jì)算詞語[tj]的權(quán)重也相對(duì)較低。因此,改進(jìn)的權(quán)重公式能很好地反映詞語在類別間的分布情況。
3 基于因子分解機(jī)的灰色服務(wù)網(wǎng)頁(yè)過濾方法
3.1 因子分解機(jī)
因子分解機(jī)(Factorization Machines,F(xiàn)Ms)是Steffen Rendle[14]提出的一種通用因子分解模型,它通過使用分解交互參數(shù)對(duì)具有目標(biāo)值的所有成對(duì)變量進(jìn)行維度為d的嵌套交互建模,用于解決各種分類和預(yù)測(cè)問題[15-18]。假設(shè)將預(yù)測(cè)問題的數(shù)據(jù)描述為二元組[(x,y)],其中[x∈?p]是一個(gè)特征向量,[y]是預(yù)測(cè)目標(biāo)。當(dāng)d=2時(shí),因子分解機(jī)模型定義如下:
其中,[p]是輸入特征向量[x]的維度,[<?,?>]是兩個(gè)特征向量的內(nèi)積,[β0∈?],[βi∈?P],[θ∈?p×k]是可以通過訓(xùn)練集估計(jì)的模型參數(shù),[β0]是一個(gè)全局偏置量,[βi]是特征變量[xi]的權(quán)重,[βi,j≈<θi,θj>]是成對(duì)變量[xixj]的權(quán)重。通過變換可以發(fā)現(xiàn),F(xiàn)Ms能夠在[O(kn)]線性時(shí)間內(nèi)進(jìn)行有效計(jì)算。
3.2 灰色服務(wù)網(wǎng)頁(yè)過濾建模
可將文本文檔視為由一組詞語[(t1,t2,?,tn)]構(gòu)成,每一詞語都賦以一定的權(quán)值[w]。根據(jù)因子分解機(jī)定義,可將文檔的特征向量用其權(quán)重進(jìn)行擴(kuò)展[19],由此構(gòu)造因子分解機(jī)的輸入特征向量如下:
3.3 過濾算法學(xué)習(xí)
使用下列目標(biāo)函數(shù)訓(xùn)練因子分解機(jī)分類器[20]:
4 實(shí)驗(yàn)結(jié)果與分析
為驗(yàn)證本文過濾方法的準(zhǔn)確性與有效性,分別采用文獻(xiàn)[10]、文獻(xiàn)[11]和本文提出的權(quán)重計(jì)算公式計(jì)算詞語權(quán)重,然后分別采用KNN、SVM和FMs分類算法對(duì)3種權(quán)重計(jì)算方法的分類效果進(jìn)行比較。實(shí)驗(yàn)所用數(shù)據(jù)集來源于真實(shí)網(wǎng)絡(luò)環(huán)境,訓(xùn)練數(shù)據(jù)由人工挑選,共挑選2 500個(gè)網(wǎng)頁(yè),其中1 500個(gè)網(wǎng)頁(yè)為正常網(wǎng)頁(yè),1 000個(gè)網(wǎng)頁(yè)為代孕網(wǎng)頁(yè)。測(cè)試數(shù)據(jù)通過網(wǎng)絡(luò)隨機(jī)爬取800個(gè)網(wǎng)頁(yè)。實(shí)驗(yàn)結(jié)果選擇精確率、召回率作為指標(biāo)評(píng)價(jià),計(jì)算公式如下:
其中,[P]為精確度,[Tp]為正確分類的灰色網(wǎng)頁(yè)數(shù)量,[Fn]為將灰色網(wǎng)頁(yè)分類為非灰色網(wǎng)頁(yè)的數(shù)量。[R]為召回率,[Fp]為將非灰色網(wǎng)頁(yè)錯(cuò)誤分類為灰色網(wǎng)頁(yè)的數(shù)量。
實(shí)驗(yàn)參數(shù)設(shè)置:對(duì)于KNN分類算法,[K]=15;對(duì)于SVM分類算法,選用多項(xiàng)式核函數(shù);對(duì)于FMs,[β0=1],[β1=2],[β2=2]。實(shí)驗(yàn)結(jié)果分別如圖2、圖3所示。
從圖2和圖3可以看出,使用權(quán)重計(jì)算公式[tf*cdf*IG]計(jì)算權(quán)重,分類得到的精確率和召回率都比文獻(xiàn)[10]和文獻(xiàn)[11]高;同時(shí)可以看出,3種分類方法中,F(xiàn)Ms的分類效果最好。值得注意的是,隨著特征向量的增加,KNN分類和SVM分類的精度有所下降,這可能是向量維數(shù)增加引入了噪音所致,而FMs的分類精度則隨著特征向量的增加而提高,這是因?yàn)镕Ms考慮了所有特征的成對(duì)交互作用,使得分類精度更高, 且其時(shí)間復(fù)雜度為O(kp),即它可以在線性時(shí)間復(fù)雜度內(nèi)完成分類。
5 結(jié)語
本文針對(duì)互聯(lián)網(wǎng)灰色服務(wù)網(wǎng)頁(yè)特點(diǎn),在TF*IDF特征選取與權(quán)重計(jì)算方法基礎(chǔ)上,提出了一種基于因子分解機(jī)的互聯(lián)網(wǎng)灰色服務(wù)網(wǎng)頁(yè)過濾方法。該方法克服了傳統(tǒng)方法中存在的高維文本分類困難和時(shí)間復(fù)雜度高的問題。以代孕網(wǎng)站為例,在真實(shí)環(huán)境中對(duì)該方法進(jìn)行了大規(guī)模實(shí)驗(yàn)和評(píng)估。實(shí)驗(yàn)結(jié)果表明,該方法能有效表示灰色服務(wù)網(wǎng)頁(yè)特征,且對(duì)海量文本分類能夠在線性時(shí)間復(fù)雜度內(nèi)完成,大大提高了灰色服務(wù)信息過濾的精度和速度。實(shí)際上,要判別一個(gè)網(wǎng)頁(yè)是否為灰色服務(wù)網(wǎng)頁(yè),除了根據(jù)網(wǎng)頁(yè)文本進(jìn)行判別外,還可從其鏈接結(jié)構(gòu)、可視化特征等進(jìn)行判別。如何將這些特征建模到向量空間,進(jìn)一步提高FMs的分類精度,是下一步工作需要解決的問題。
參考文獻(xiàn):
[1] 俞浩亮,王秋森,馮旭鵬,等. 基于特征加權(quán)的網(wǎng)絡(luò)不良內(nèi)容識(shí)別方法[J]. 現(xiàn)代電子技術(shù),2016(3):76-79.
[2] 王正琦,馮曉兵,張馳. 基于兩層分類器的惡意網(wǎng)頁(yè)快速檢測(cè)系統(tǒng)研究[J]. 網(wǎng)絡(luò)與信息安全學(xué)報(bào),2017(8):48-64.
[3] 丁巖. 基于機(jī)器學(xué)習(xí)的釣魚網(wǎng)頁(yè)檢測(cè)方法研究[D]. 烏魯木齊:新疆大學(xué),2018.
[4] 黃超. 基于Weka平臺(tái)的改進(jìn)KNN中文網(wǎng)頁(yè)分類研究[D]. 上海:上海師范大學(xué),2018.
[5] LIU P,ZHAO H H,TENG J Y,et al. Parallel naive Bayes algorithm for large-scale chinese text classification based on spark[J]. Journal of Central South University, 2019, 26(1):1-12.
[6] 張華鑫. 基于SVM的文本分類研究[J]. 情報(bào)探索,2015(5):133-135.
[7] 李村合,唐磊. 基于欠采樣支持向量機(jī)不平衡的網(wǎng)頁(yè)分類系統(tǒng)[J]. 計(jì)算機(jī)系統(tǒng)應(yīng)用,2017(4):169-172.
[8] 火善棟. 用BP神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)中文文本分類[J].計(jì)算機(jī)時(shí)代,2015(11):58-61.
[9] 如先姑力·阿布都熱西提,亞森·艾則孜,郭文強(qiáng). 維語網(wǎng)頁(yè)中n-gram模型結(jié)合類不平衡SVM的不良文本過濾方法[J]. 計(jì)算機(jī)應(yīng)用研究,2019,36(12):214-218.
[10] 康進(jìn)峰,王國(guó)營(yíng),梁春迎,等. 用于色情網(wǎng)頁(yè)過濾中的KNN算法改進(jìn)[J]. 計(jì)算機(jī)安全,2009(9):17-22.
[11] 張玉芳,陳小莉,熊忠陽. 基于信息增益的特征詞權(quán)重調(diào)整算法研究[J]. 計(jì)算機(jī)工程與應(yīng)用,2007,43(35):159-161.
[12] 李學(xué)明,李海瑞,薛亮,等. 基于信息增益與信息熵的TFIDF算法[J]. 計(jì)算機(jī)工程,2012,38(8):37-40.
[13] 李海瑞. 基于信息增益和信息熵的特征詞權(quán)重計(jì)算研究[D]. 重慶:重慶大學(xué),2012.
[14] RENDLE S. Factorization machines[C]. IEEE International Conference on Data Mining. 2010: 995-1000.
[15] LIU X,ZHANG Y,LIU C. A nonlinear classifier based on factorization machines model[J]. Communications in Computer & Information Science,2014(483):1-10.
[16] HONG L J,AZIZ S,DOUMITH,et al. ACM international conference on web search and data mining[C]. Co-factorization machines: modeling user interests and predicting individual decisions in Twitter, 2014: 557-566.
[17] PAN Z,CHEN E,LIU Q,et al. Sparse factorization machines for click-through rate prediction[C]. IEEE ?International Conference on Data Mining, 2017:400-409.
[18] PAN J W,XU ?J,RUIZ,et al. Field-weighted?factorization?machines for click-through rate prediction?in?display?advertising[C]. Proceedings of the 2018 World Wide Web Conference:?2018:1349-1357.
[19] BABAK LONI,?YUE SHI,?MARTHA LARSON,?et al. ?Cross-domain collaborative filtering with factorization machines[C]. The 36th European Conference on IR Research, 2014:656-661
[20] RENDLE S. Factorization machines with LibFM[J]. ACM Transactions on Intelligent Systems & Technology, 2012, 3(3):1-22.
(責(zé)任編輯:杜能鋼)