• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于文檔相似度的雙語文檔排序?qū)W習(xí)?

      2017-11-17 07:17:44
      關(guān)鍵詞:源語言目標(biāo)語言雙語

      黃 健

      (昆明理工大學(xué)智能信息處理重點(diǎn)實(shí)驗(yàn)室 昆明 650500)

      基于文檔相似度的雙語文檔排序?qū)W習(xí)?

      黃 健

      (昆明理工大學(xué)智能信息處理重點(diǎn)實(shí)驗(yàn)室 昆明 650500)

      論文提出了一種雙語文檔排序?qū)W習(xí)模型。排序是信息檢索系統(tǒng)中重要的一個(gè)環(huán)節(jié),學(xué)者們已經(jīng)對(duì)單語言環(huán)境下的文檔排序?qū)W習(xí)問題進(jìn)行了很多的研究,但是多語言語境下的文檔排序問題并沒有得到很大的重視。在雙語文檔集合中,文檔是用兩種不同語言寫成的,所以我們并不能使用已有的單語言排序?qū)W習(xí)模型直接對(duì)雙語言文檔進(jìn)行排序。在單語言排序?qū)W習(xí)模型的基礎(chǔ)上,提出了一種基于雙語文檔相似度的雙語文檔排序?qū)W習(xí)方法。為了能夠把源語言文檔和目標(biāo)語言文檔關(guān)聯(lián)起來,提出了一種基于雙語word embedding的雙語文檔相似度計(jì)算方法。通過簡單地把源語言查詢翻譯為目標(biāo)語言,達(dá)到篩選目標(biāo)語言文檔的目的。實(shí)驗(yàn)結(jié)果表明,該方法在英漢和英越兩種語境下都取得了較好的效果。

      排序?qū)W習(xí);信息檢索;文檔相似度;查詢翻譯;雙語語境

      1 引言

      機(jī)器學(xué)習(xí)技術(shù)已經(jīng)在很多信息處理任務(wù)中被證明是一種有效的解決方案。如今我們的社會(huì)無時(shí)無刻不在產(chǎn)生數(shù)字媒體,如電子出版物,網(wǎng)頁以及軟件日志等,快速地定位及提取有用的信息對(duì)于信息檢索系統(tǒng)是十分重要的。準(zhǔn)確地對(duì)信息載體進(jìn)行排序是我們能夠高效地取得有用信息的必要條件。研究者們的成果表明,機(jī)器學(xué)習(xí)是解決排序問題的有效途徑。排序?qū)W習(xí)模型使得我們可以不必人工定義排序的規(guī)則;我們只需要定義一個(gè)合理的排序函數(shù),該函數(shù)包含若干影響排序結(jié)果的參數(shù),并且在模型訓(xùn)練的過程中對(duì)這些參數(shù)進(jìn)行調(diào)優(yōu)即可。這使得我們可以跨過很多對(duì)排序影響因素的研究,并且使得對(duì)一個(gè)排序系統(tǒng)的調(diào)優(yōu)變得更加靈活。

      排序?qū)W習(xí)技術(shù)已經(jīng)被應(yīng)用在對(duì)單語言文檔進(jìn)行排序的問題中,并且得到了很好的效果[1~2]。排序?qū)W習(xí)任務(wù)包括兩個(gè)環(huán)節(jié),模型訓(xùn)練環(huán)節(jié)以及排序應(yīng)用環(huán)節(jié)。模型訓(xùn)練環(huán)節(jié)被定義為兩部分,排序函數(shù)和損失函數(shù)。排序函數(shù)通常包含一定數(shù)量的參數(shù),這些參數(shù)要在訓(xùn)練過程中進(jìn)行調(diào)節(jié)。訓(xùn)練數(shù)據(jù)中的每一個(gè)條目都包含一個(gè)文檔特征向量以及對(duì)應(yīng)該文檔的排序打分。這些特征被從文檔的各個(gè)方面抽取出來,如文檔標(biāo)題的語義信息,查詢中每個(gè)詞語在訓(xùn)練文檔集中的TF-IDF(term frequency-inverse document frequency)值,以及網(wǎng)頁文檔的page rank值等。排序函數(shù)以這些特征向量為輸入并輸出當(dāng)前參數(shù)值對(duì)應(yīng)的輸出。損失函數(shù)用來定義當(dāng)前排序函數(shù)的排序結(jié)果和訓(xùn)練數(shù)據(jù)提供的排序結(jié)果之間的差值,即排序錯(cuò)誤值。通過在訓(xùn)練過程中對(duì)排序錯(cuò)誤值進(jìn)行最小值優(yōu)化來對(duì)排序函數(shù)中的參數(shù)進(jìn)行調(diào)節(jié),最終完成對(duì)排序模型的訓(xùn)練調(diào)優(yōu)。對(duì)排序函數(shù)的排序錯(cuò)誤值進(jìn)行最小值優(yōu)化的方法通常是基于梯度下降的原理,如SGD(stochastic gradient descent)和動(dòng)量優(yōu)化等方法。

      研究者們提出了一些單語言語境下對(duì)文檔進(jìn)行排序?qū)W習(xí)的模型,包括基于點(diǎn),基于對(duì)和基于列表的方法[3~5]。不同類型的排序?qū)W習(xí)模型采用不同的模式來提取訓(xùn)練數(shù)據(jù)中的排序信息。例如,基于點(diǎn)的排序模型依次從訓(xùn)練數(shù)據(jù)中取出一條記錄來提取排序信息,對(duì)排序函數(shù)中的參數(shù)進(jìn)行調(diào)優(yōu);而基于列表的模型每次從訓(xùn)練數(shù)據(jù)中取出一組記錄,從這組記錄中得到不同文檔排序先后結(jié)果的概率分布,以此來對(duì)排序函數(shù)中的參數(shù)進(jìn)行調(diào)優(yōu)。

      目前雙語語境下的文檔排序?qū)W習(xí)并沒有得到太多的關(guān)注。雙語文檔排序的一個(gè)典型應(yīng)用場景是搜索引擎,比如,我們?cè)谒阉饕嬷兴阉鳌皺C(jī)器學(xué)習(xí)”這個(gè)短語,我們通常只能得到中文的網(wǎng)頁結(jié)果,但有時(shí)候我們不僅想要得到查詢語言的返回結(jié)果,又要得到某些外語的查詢結(jié)果,比如對(duì)應(yīng)于英文“machine learning”的網(wǎng)頁文檔,現(xiàn)有的單語言排序算法顯然不能滿足這個(gè)需求。因此,我們提出了一種可以對(duì)雙語文檔,或者更普遍的,對(duì)多語言文檔進(jìn)行排序的機(jī)器學(xué)習(xí)模型。

      為了闡述方便,我們把在搜索時(shí)使用的查詢語言叫做源語言,把與源語言不同的其它外語叫做目標(biāo)語言。本文余下部分組織如下:第2部分介紹與排序?qū)W習(xí)相關(guān)的背景知識(shí),在第3部分說明如何計(jì)算一個(gè)源語言文檔和一個(gè)目標(biāo)語言文檔之間的相似度,我們?cè)诘?部分介紹基于雙語word embedding的查詢翻譯,第5部分給出了我們的模型在英漢和英越兩種語境下的實(shí)驗(yàn)結(jié)果,最后在第6部分對(duì)我們的工作進(jìn)行總結(jié)。

      2 相關(guān)工作

      排序?qū)W習(xí)采用機(jī)器學(xué)習(xí)的方法對(duì)對(duì)象進(jìn)行排序。在對(duì)文檔進(jìn)行排序?qū)W習(xí)的情況下,例如對(duì)網(wǎng)頁以及文本文檔等進(jìn)行排序,機(jī)器學(xué)習(xí)需要的特征來自于文檔的內(nèi)容和結(jié)構(gòu)。目前,基于列表的文檔排序模型達(dá)到了最高的排序準(zhǔn)確率,我們的雙語模型中的單語言模型采用基于列表的ListNet模型來分別對(duì)源語言文檔和目標(biāo)語言文檔進(jìn)行排序打分。

      研究者們?cè)诙嗾Z言信息檢索方面做出了一些基礎(chǔ)性的工作。多視角排序?qū)W習(xí)把文檔的不同語言翻譯看作是文檔不同視角的實(shí)體,對(duì)每個(gè)視角采用排序函數(shù)進(jìn)行排序,最后通過對(duì)所有視角的排序函數(shù)進(jìn)行全局一致性規(guī)劃來對(duì)最終的排序模型進(jìn)行調(diào)優(yōu)[6]。多視角的排序模型需要得到同一文檔的不同語言翻譯的版本,因此其訓(xùn)練過程中需要的訓(xùn)練語料通常很難獲取。我們模型的訓(xùn)練過程不需要多種語言的文檔語料,而是在詞語級(jí)別對(duì)不同語言的文檔進(jìn)行相似性計(jì)算,因此具有更大的靈活性,并且更加易于實(shí)現(xiàn)。

      學(xué)者們提出了幾種單語言及多語言語境下的計(jì)算詞語相似性的方法。雙語word embedding在單語word embedding的基礎(chǔ)上,利用機(jī)器學(xué)習(xí)語義對(duì)齊的方法把雙語的詞語映射到一個(gè)低維空間[7]。在這個(gè)低維空間中,詞語之間的距離代表它們之間的相似性,兩個(gè)詞語之間的距離越小,其相似性越強(qiáng)?;谶@一詞語相似度計(jì)算模型的短語翻譯實(shí)驗(yàn)表明,雙語word embedding提供了一種簡單有效的計(jì)算雙語詞語相似度的方法,因此也能夠?yàn)殡p語文檔相似度的計(jì)算提供基礎(chǔ)模型。

      查詢翻譯已經(jīng)被證明是一種有效的多語言信息檢索方法[8],但是還沒有被應(yīng)用到文檔排序?qū)W習(xí)任務(wù)中。我們?cè)谠~語層級(jí)上把源語言查詢翻譯為目標(biāo)語言查詢,對(duì)目標(biāo)語言文檔排序打分進(jìn)行進(jìn)一步優(yōu)化。

      3 基于word embedding的文檔相似度計(jì)算

      在雙語文檔排序?qū)W習(xí)中,雙語文檔相似度計(jì)算是關(guān)聯(lián)源語言文檔和目標(biāo)語言文檔的一種重要的方法。研究者們提出了幾種度量跨語言文檔相似度的方法,采用了不同的策略和方式來尋找文檔之間的關(guān)系特征?;诙嗾Z言內(nèi)容維基百科的方法從網(wǎng)頁中獲取同一文檔對(duì)象的不同語言版本,以此為根據(jù)來得到相關(guān)性高的文檔集合的特征,從而達(dá)到對(duì)任意兩個(gè)不同語言文檔進(jìn)行相似度計(jì)算的目的[9]?;谖臋n表示和度量策略的兩階段模型把不同語言的文檔用同一個(gè)空間中的向量進(jìn)行表示,并采取符合文檔相似度計(jì)算特征的度量方法對(duì)空間文檔表示進(jìn)行相似度計(jì)算[10~11]。一些研究者們把模糊集應(yīng)用到了文檔相似度計(jì)算中,把文檔中的所有詞語用一個(gè)模糊集合進(jìn)行表示,以此為特征對(duì)文檔進(jìn)行相似度計(jì)算[12]。這些方法都試圖在文檔語義的基礎(chǔ)上對(duì)文檔進(jìn)行相似度度量,而目前的文檔語義方面的研究并沒有達(dá)到很好的效果,不能夠很好地支撐文檔相似度計(jì)算的精度。在排序任務(wù)中,文檔之間的相似度更注重文檔主題的聯(lián)系性,并不需要對(duì)整個(gè)文檔的語義進(jìn)行全部表示,由此,基于文檔關(guān)鍵詞的文檔主題可以作為對(duì)文檔相似度進(jìn)行計(jì)算的度量標(biāo)準(zhǔn),使得文檔相似度模型簡單而且有效。

      文檔由組成它的詞語集進(jìn)行表示,文檔中TF-IDF值最大的N個(gè)詞語可以由下面的公式得到:

      其中d是一個(gè)文檔,F(xiàn)(d)是包含文檔關(guān)鍵詞的向量。文檔之間的相似度可以計(jì)算為

      其中S為源語言文檔,T為目標(biāo)語言文檔。sime是基于雙語word embedding雙語詞語相似度的文檔相似度計(jì)算函數(shù),該函數(shù)遵守以下規(guī)則:如果源語言文檔中的一個(gè)關(guān)鍵詞語在目標(biāo)語言文檔中擁有一個(gè)相似的目標(biāo)語言關(guān)鍵詞語,或者說目標(biāo)語言文檔中有一個(gè)關(guān)鍵詞語與源語言文檔中的一個(gè)關(guān)鍵詞語的直接翻譯相似,該函數(shù)的結(jié)果值相應(yīng)增加。這是一種簡單直觀的度量文檔相似度的方法,并且我們的實(shí)驗(yàn)證明了該方法對(duì)于我們的模型的有效性。得到了一個(gè)源語言文檔和一個(gè)目標(biāo)語言文檔的相似度之后,目標(biāo)語言文檔打分的其中一個(gè)因素計(jì)算為

      其中nsrc是與查詢匹配的源語言文檔的數(shù)量,sco(Oi)是源語言文檔的排序打分,由單語言的ListNet模型得到。在這里我們采用了加權(quán)平均的策略來得到基于文檔相似度的目標(biāo)語言文檔的排序打分。

      4 查詢翻譯

      在文檔排序任務(wù)中,我們以查詢中的詞語為基本單位對(duì)文檔集合進(jìn)行搜索,查詢中詞語之間的語義關(guān)系很少被考慮在內(nèi),因此在我們的模型中,我們?cè)谠~語級(jí)別把源語言查詢翻譯成目標(biāo)語言查詢。對(duì)于一個(gè)源語言查詢qsrc,其對(duì)應(yīng)的目標(biāo)語言查詢可以由下面規(guī)則得到:

      這里Ωtarg是目標(biāo)語言的詞語集合。在得到查詢的目標(biāo)語言翻譯后,我們以目標(biāo)語言查詢?yōu)檩斎耄蒙鲜龅膯握Z言排序模型對(duì)目標(biāo)語言文檔進(jìn)行排序打分,得到打分函數(shù) β(T)。合并基于文檔相似度和基于查詢翻譯的目標(biāo)語言文檔打分,得到目標(biāo)語言文檔的最終排序打分:

      5 實(shí)驗(yàn)結(jié)果

      在我們的實(shí)驗(yàn)中,我們首先在OHSUMED訓(xùn)練集上訓(xùn)練出一個(gè)單語言排序?qū)W習(xí)模型,對(duì)這個(gè)模型進(jìn)行準(zhǔn)確率評(píng)估,并把它嵌入到最終的雙語模型中。接下來在英漢和英越測試語料集合上對(duì)雙語模型進(jìn)行排序準(zhǔn)確率評(píng)估,最后比較單語模型和雙語模型的準(zhǔn)確率,驗(yàn)證雙語模型的有效性。

      5.1 OHSUMED語料集

      OHSUMED是一個(gè)醫(yī)藥方面的文檔和查詢集合[13],包含 348566個(gè)文檔和 106個(gè)查詢,一共有16140個(gè)查詢文檔對(duì),并且其查詢相關(guān)度已經(jīng)被標(biāo)注出來。查詢和文檔之間的相關(guān)度分為三個(gè)等級(jí),包括完全相關(guān),一般相關(guān)和完全不相關(guān)。文檔檢索需要的標(biāo)準(zhǔn)特征集合從每個(gè)查詢文檔對(duì)中抽取出來,一共有30個(gè)特征。

      5.2 單語言ListNet模型準(zhǔn)確率

      我們把OHSUMED數(shù)據(jù)集分割成五個(gè)子集,在此基礎(chǔ)上進(jìn)行五維交叉驗(yàn)證。在每次實(shí)驗(yàn)中,我們用三個(gè)子集作為訓(xùn)練集合進(jìn)行訓(xùn)練,一個(gè)集合作為驗(yàn)證,一個(gè)集合用作準(zhǔn)確率測試。我們采用MAP(Mean Average Percision)和 NDCG(Nomalized Discounted Cumulative Gain)兩種排序準(zhǔn)確率度量標(biāo)準(zhǔn)來評(píng)估我們的模型。表1給出了該單語言排序模型的排序準(zhǔn)確率,說明了我們構(gòu)建的單語言排序模型在對(duì)單語言文檔排序的任務(wù)中取得了很好的效果,達(dá)到了目前的最高準(zhǔn)確率,該單語言排序模型可以勝任支撐雙語言模型的任務(wù)。

      表1 單語言模型準(zhǔn)確率

      5.3 雙語文檔集合

      我們?cè)谟h和英越語境下分別隨機(jī)選取了100個(gè)查詢,共200個(gè)查詢,并且為每個(gè)查詢選取10個(gè)文檔,最終得到2000個(gè)文檔。我們分別對(duì)每個(gè)查詢文檔對(duì)進(jìn)行相關(guān)度標(biāo)注,在此基礎(chǔ)上對(duì)雙語模型進(jìn)行訓(xùn)練和測試。表2給出了雙語模型在英漢語料集合上的排序準(zhǔn)確率,表3給出了其在英越語料下的準(zhǔn)確率。圖1對(duì)單語模型和雙語模型的準(zhǔn)確率進(jìn)行了比較,比較結(jié)果表明最終的雙語排序模型幾乎達(dá)到了單語言排序模型的準(zhǔn)確率。

      表2 雙語言模型在英漢語料集上準(zhǔn)確率

      表3 雙語言模型在英越語料集上準(zhǔn)確率

      圖1 單語言模型與雙語言模型準(zhǔn)確率比較

      6 結(jié)語

      我們提出了一種基于雙語文檔相似度和查詢翻譯的雙語文檔排序?qū)W習(xí)模型,并且分別在英漢和英越語境下對(duì)其進(jìn)行訓(xùn)練和驗(yàn)證,達(dá)到了與單語言排序模型幾乎持平的準(zhǔn)確率。這個(gè)結(jié)果表明雙語文檔相似度計(jì)算是對(duì)雙語文檔進(jìn)行排序的有效途徑。我們的雙語文檔排序模型的準(zhǔn)確率略低于單語言排序模型,其原因是雙語文檔相似度計(jì)算并沒有達(dá)到理想的準(zhǔn)確率,進(jìn)一步的研究目標(biāo)是要提高雙語文檔相似度計(jì)算的準(zhǔn)確率,可以為文檔關(guān)鍵詞融入適當(dāng)?shù)膱D理論進(jìn)行模型完善,并且進(jìn)一步對(duì)雙語文檔排序打分合并模型進(jìn)行加強(qiáng)。

      [1] Burges,C.,Shaked,T.,Renshaw,E.,Lazier,A.,Deeds,M.,Hamilton,N.and Hullender,G.Learning to rank using gradient descent[C]//In Proceedings of the 22nd international conference on Machine learning.ACM,2005:89-96.

      [2] Liu,T.Y.,Xu,J.,Qin,T.,Xiong,W.and Li,H.Letor:Benchmark dataset for research on learning to rank for information retrieval[C]//In Proceedings of SIGIR 2007 workshop on learning to rank for information retrieval,2007:3-10.

      [3]Crammer,K.and Singer,Y.Pranking with Ranking[J].In Nips,2001(1):641-647.

      [4]Cao,Y.,Xu,J.,Liu,T.Y.,Li,H.,Huang,Y.and Hon,H.W.Adapting ranking SVM to document retrieval[C]//In Proceedings of the 29th annual international ACM SIGIR conference on Research and development in information retrieval.ACM,2006:186-193.

      [5]Cao,Z.,Qin,T.,Liu,T.Y.,Tsai,M.F.and Li,H.Learning to rank:from pairwise approach to listwise approach[C]//In Proceedings of the 24th international conference on Machine learning.ACM,2007:129-136.

      [6] Usunier,N.,Amini,M.R.and Goutte,C.Multiview semi-supervised learning for ranking multilingual documents.Lecture Notes in Computer Science,2011,6913:443-458.

      [7]Zou,W.Y.,Socher,R.,Cer,D.M.and Manning,C.D.Bilingual Word Embeddings for Phrase-Based Machine Translation[C]//In EMNLP,2013:1393-1398.

      [8]Ballesteros,L.and Croft,W.B.Phrasal translation and query expansion techniques for cross-language information retrieval[C]//In ACM SIGIR Forum.ACM,1997:84-91.

      [9]Rupnik,J.,Muhic,A.,Leban,G.,Skraba,P.,F(xiàn)ortuna, B.and Grobelnik, M.NewsAcrossLanguages-Cross-Lingual Document Similarity and Event Tracking[J].Journal of Artificial Intelligence Research,2016(55):283-316.

      [10]Steinberger,R.,Pouliquen,B.and Hagman,J.February.Cross-lingual document similarity calculation using the multilingual thesaurus eurovoc[C]//In International Conference on Intelligent Text Processing and Computational Linguistics.Springer Berlin Heidelberg,2002:415-424.

      Learning to Rank Bilingual Document Based on Document Similarity

      HUANG Jian
      (Kunming University of Science and Technology,Kunming 650500)

      The problem of learning to rank bilingual documents is addressed.Ranking is an essential part in information retrieval.Ranking documents in monolingual context using machine learning has been studied a lot,but learning to rank bilingual documents has not been investigated much yet.Bilingual documents are written in different languages,they can't be processed by using existing monolingual methods directly.In this paper a bilingual learning is proposed to rank model which utilizes monolingual model to give ranking score for documents in monolingual context as a base component.A word embedding approach is introduced to measure document similarity in bilingual context,through which a relationship between documents in both languages can be made.We simply translate the query to foreign language at a phrase level to filter foreign language documents.Experiments show that our model is effective in ranking bilingual documents in both English-Chinese context and English-Vietnamese context.

      learning to rank,information retrieval,document similarity,query translation,bilingual context

      TP391

      10.3969/j.issn.1672-9722.2017.10.020

      Class Number TP391

      2017年4月13日,

      2017年5月19日

      國家自然科學(xué)基金項(xiàng)目(編號(hào):61175068,61472168);云南省關(guān)鍵項(xiàng)目科學(xué)基金項(xiàng)目(編號(hào):2013FA130);科技部科學(xué)技術(shù)創(chuàng)新人才項(xiàng)目(編號(hào):2014HE001)資助。

      黃健,男,碩士,研究方向:機(jī)器學(xué)習(xí)和文檔排序?qū)W習(xí)。

      [11]Muhi?,A.,Rupnik,J.and ?kraba,P..Cross-lingual document similarity[C]//In Information Technology Interfaces(ITI),Proceedings of the ITI 2012 34th International Conference on.IEEE,2012:387-392.

      [12]Huang,H.H.and Kuo,Y.H.Cross-lingual document representation and semantic similarity measure:A fuzzy set and rough set based approach[J].IEEE Transactions on Fuzzy Systems,2010,18(6):1098-1111.

      [13]Hersh,W.,Buckley,C.,Leone,T.J.and Hickam,D.OHSUMED:an interactive retrieval evaluation and new large test collection for research[C]//In SIGIR'94,1994:192-201.

      猜你喜歡
      源語言目標(biāo)語言雙語
      林巍《知識(shí)與智慧》英譯分析
      淺析日語口譯譯員素質(zhì)
      教材插圖在英語課堂閱讀教學(xué)中的運(yùn)用及實(shí)例探討
      跨文化視角下對(duì)具有修辭手法諺語英譯漢的研究
      速讀·下旬(2016年7期)2016-07-20 08:50:28
      以口譯實(shí)例談雙語知識(shí)的必要性
      考試周刊(2015年36期)2015-09-10 15:03:38
      二語習(xí)得過程中的石化現(xiàn)象分析
      快樂雙語
      新晨(2013年7期)2014-09-29 06:19:50
      快樂雙語
      新晨(2013年5期)2014-09-29 06:19:50
      快樂雙語
      新晨(2013年10期)2014-09-29 02:50:54
      概念任務(wù)下中英雙語者非目標(biāo)語言的詞匯通達(dá)
      磐安县| 青海省| 平乡县| 石阡县| 遵义县| 松潘县| 巢湖市| 秦皇岛市| 东方市| 高安市| 太原市| 二手房| 周宁县| 大港区| 巴塘县| 北宁市| 新兴县| 台东县| 旬阳县| 江油市| 吴桥县| 井冈山市| 大英县| 莫力| 宁海县| 德庆县| 拉萨市| 承德县| 宁国市| 韶关市| 镇巴县| 天镇县| 德清县| 沂南县| 马山县| 乌鲁木齐市| 鸡西市| 盐城市| 陈巴尔虎旗| 北安市| 天镇县|