• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      多媒體信息檢索研究進(jìn)展:從檢索到推薦再到生成

      2021-06-23 08:06:48薛向陽(yáng)
      世界科學(xué) 2021年6期
      關(guān)鍵詞:信息檢索文檔檢索

      薛向陽(yáng)

      人類通過視覺、聽覺、觸覺、嗅覺等從周圍環(huán)境中獲取信息,大腦對(duì)這些感知信息進(jìn)行加工實(shí)現(xiàn)認(rèn)知能力,例如產(chǎn)生記憶和知識(shí)、進(jìn)行聯(lián)想和想象,并用語言描述所見所聞和萬事萬物。在人類社會(huì)發(fā)展的歷史長(zhǎng)河中,一直在探索利用外物對(duì)越來越多信息進(jìn)行存儲(chǔ)和檢索。在計(jì)算機(jī)發(fā)明以前,主要借助紙張等對(duì)信息進(jìn)行記載,并用關(guān)鍵詞索引進(jìn)行檢索。計(jì)算機(jī)誕生之后,信息開始用文本、圖像、音頻和視頻等越來越多模態(tài)的數(shù)字媒體數(shù)據(jù)進(jìn)行存儲(chǔ)。這些數(shù)據(jù)是計(jì)算機(jī)可讀的,但是并不是計(jì)算機(jī)可理解的,為了讓計(jì)算機(jī)從海量的多媒體數(shù)據(jù)中快速找到感興趣內(nèi)容,20多年前,基于內(nèi)容的多媒體信息檢索技術(shù)成為研究熱點(diǎn),其研究重點(diǎn)是期望計(jì)算機(jī)能對(duì)多媒體數(shù)據(jù)的內(nèi)容有一定的理解。近10年來,隨著深度學(xué)習(xí)技術(shù)取得突破性進(jìn)展,除了檢索技術(shù)之外,多媒體信息推薦和內(nèi)容生成成為新的熱點(diǎn)技術(shù),今天計(jì)算機(jī)已經(jīng)能為用戶精準(zhǔn)推薦感興趣的多媒體信息,也能根據(jù)用戶意圖生成精彩的多媒體內(nèi)容。

      檢索

      信息檢索任務(wù)有三個(gè)要素,即查詢項(xiàng)、數(shù)據(jù)集(或稱語料庫(kù))和相似度計(jì)算,一個(gè)檢索任務(wù)需根據(jù)查詢項(xiàng)在數(shù)據(jù)集中尋找最相似的實(shí)例,例如文檔、圖片或網(wǎng)頁(yè)等。根據(jù)查詢項(xiàng)與查詢結(jié)果的可能模態(tài),例如考慮文本和圖片兩個(gè)模態(tài),可將檢索任務(wù)分為同模態(tài)檢索(文本到文本、圖片到圖片)和跨模態(tài)檢索(文本到圖片,圖片到文本)。

      長(zhǎng)期以來,文本是人類記載信息最重要的載體,文本到文本的檢索是信息檢索關(guān)注的首要問題。文本到文本的檢索通常以文本關(guān)鍵字作為查詢項(xiàng),在包含大量文本文檔的數(shù)據(jù)集中檢索出最相關(guān)的那些文檔實(shí)例。較早提出的最有影響的文本檢索算法是TF-IDF,這里某單詞的詞頻TF(term frequency)定義為“該單詞在當(dāng)前文檔中出現(xiàn)的總次數(shù)/當(dāng)前文檔中所有詞出現(xiàn)的總次數(shù)”,逆文檔頻率IDF定義為“語料庫(kù)中文檔總數(shù)量/出現(xiàn)該單詞的文檔數(shù)量”的對(duì)數(shù)。假如以“信息檢索簡(jiǎn)介”為查詢項(xiàng)Q,在一個(gè)文檔數(shù)量為10 000的數(shù)據(jù)集中進(jìn)行檢索。首先,查詢項(xiàng)Q可表示成“信息檢索”和“簡(jiǎn)介”兩個(gè)關(guān)鍵詞。假如D文檔包含100個(gè)單詞,其中“信息檢索”出現(xiàn)2次,“簡(jiǎn)介”出現(xiàn)3次,數(shù)據(jù)集中包含“信息檢索”的文檔有4篇,包含“簡(jiǎn)介”的文檔有1 000篇。那么查詢項(xiàng)Q與文檔D的相似度計(jì)算公式是:

      雖然單從詞頻角度考慮,“簡(jiǎn)介”在文檔D中的出現(xiàn)次數(shù)更多,但是考慮到“簡(jiǎn)介”是一個(gè)常用詞,所以經(jīng)過逆文檔頻率加權(quán)之后,“信息檢索”對(duì)于相關(guān)性的貢獻(xiàn)才是最大的。將查詢項(xiàng)Q和數(shù)據(jù)集中每一篇文檔Dj進(jìn)行相似度計(jì)算,然后對(duì)相似度進(jìn)行排序,就可以得到檢索結(jié)果。

      如果將圖片作為查詢項(xiàng)到圖片數(shù)據(jù)集中查詢相似圖片,那么這種圖片到圖片的檢索又被稱為基于內(nèi)容的圖像檢索技術(shù)(content-based image retrieval,CBIR)。在傳統(tǒng)方法中,利用手工設(shè)計(jì)的SIFT等算子提取表示圖像的視覺特征,再對(duì)特征使用聚類方法將所有聚類中心作為視覺詞典,接著用詞袋方法(bag of words)將圖片轉(zhuǎn)化為向量,通過度量向量間的某種距離完成相似度計(jì)算。1995年,IBM研制的QBIC系統(tǒng)最早采用了CBIR技術(shù),用于查詢博物館繪畫作品。CBIR技術(shù)的提出標(biāo)志著多媒體信息檢索研究的肇始。在深度神經(jīng)網(wǎng)絡(luò)方法興起之后,通過深度卷積神經(jīng)網(wǎng)絡(luò)可以自動(dòng)學(xué)習(xí)得到圖像特征向量。神經(jīng)網(wǎng)絡(luò)的淺層輸出代表的是圖像中出現(xiàn)了某種邊或角等低級(jí)視覺特征,深層輸出則代表出現(xiàn)了某物體部分區(qū)域(如貓頭、羽毛、拱門等)等高級(jí)語義特征。顯然,在信息檢索中,我們關(guān)心的是高級(jí)語義特征,所以采用的是卷積神經(jīng)網(wǎng)絡(luò)的最后一層輸出。

      文本到圖片的檢索屬于一種跨模態(tài)檢索。以根據(jù)查詢項(xiàng)“藍(lán)色格子襯衫”檢索圖片為例,查詢項(xiàng)Q是文本模態(tài)信息,數(shù)據(jù)集則是由大量圖片實(shí)例構(gòu)成的,它們將被嵌入到某一個(gè)共同的度量空間中,即得到該空間的兩個(gè)向量。文本查詢項(xiàng)嵌入到某個(gè)空間是通過在大量語料庫(kù)上訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型實(shí)現(xiàn)的。研究表明,語義相近的兩個(gè)文本關(guān)鍵詞,它們嵌入到空間后,位置比較靠近,語義無關(guān)的則距離較遠(yuǎn)。將圖片嵌入到某個(gè)空間,則是通過卷積神經(jīng)網(wǎng)絡(luò)來實(shí)現(xiàn)。在兩者都映射到某個(gè)公共空間之后,就可以通過距離度量實(shí)現(xiàn)相似度計(jì)算和相似檢索。對(duì)于圖片到文本的檢索,同樣也是跨模態(tài)檢索,可采用類似計(jì)算方式。

      多媒體信息檢索技術(shù)被廣泛應(yīng)用于搜索引擎。用戶根據(jù)關(guān)鍵字搜索相關(guān)文本、圖片和視頻,或直接通過圖片來檢索圖片或視頻等。

      圖2 文本到圖片的檢索示例。檢索系統(tǒng)首先將襯衫圖片數(shù)據(jù)集中每一幅圖片經(jīng)深度神經(jīng)網(wǎng)絡(luò)模型計(jì)算得到其視覺特征向量,這些特征向量構(gòu)成了公共語義空間。用戶進(jìn)行查詢時(shí),查詢項(xiàng)“藍(lán)色格子襯衫”同樣被一個(gè)神經(jīng)網(wǎng)絡(luò)模型映射到公共語義空間中,表征為查詢向量。在公共語義空間中計(jì)算查詢向量和每一個(gè)圖片的特征向量之間相似度,按從大到小排序,取最前面3個(gè)結(jié)果,就得到了3幅查詢結(jié)果圖片,顯然這些結(jié)果圖片中包含了“藍(lán)色”“格子”“襯衫”等重要語義特征

      圖3 推薦任務(wù)示例。推薦系統(tǒng)首先將用戶的性別、年齡和行為等語義屬性映射到向量空間,對(duì)用戶畫像形成一種向量表示;其次將商品的類型和地區(qū)等屬性映射到向量空間;隨后基于這些向量來計(jì)算用戶和商品之間的匹配分值,根據(jù)匹配分值從高到低排序,產(chǎn)生推薦列表,如圖3中右側(cè)所示

      推薦

      檢索依賴于用戶提供明確的查詢需求,可用文本關(guān)鍵詞或圖片等表達(dá)用戶的查詢意愿。然而,在很多時(shí)候,用戶很難用查詢項(xiàng)清晰且準(zhǔn)確地表達(dá)其真實(shí)的查詢意愿。一個(gè)直觀簡(jiǎn)單的想法是計(jì)算機(jī)能否像知心朋友一樣,在朋友未明確表達(dá)查詢興趣或需求時(shí),就能主動(dòng)向朋友提供可能感興趣的信息,這就是推薦,實(shí)現(xiàn)精準(zhǔn)推薦的前提是知心朋友要對(duì)朋友的興趣愛好有透徹了解。用計(jì)算機(jī)實(shí)現(xiàn)推薦的關(guān)鍵技術(shù)是對(duì)用戶進(jìn)行畫像,即對(duì)用戶的社會(huì)屬性、興趣愛好、生活習(xí)慣和消費(fèi)行為等進(jìn)行全面刻畫。此時(shí),計(jì)算機(jī)將用戶畫像視作查詢項(xiàng)或查詢條件,在數(shù)據(jù)集中主動(dòng)尋找可能的用戶感興趣的數(shù)據(jù)實(shí)例。

      如果換一個(gè)角度看推薦問題,其本質(zhì)是將每一個(gè)用戶和數(shù)據(jù)集中每一個(gè)實(shí)例進(jìn)行匹配或關(guān)聯(lián),例如給用戶推薦感興趣的商品,就是要推薦系統(tǒng)能生成一個(gè)包括N個(gè)用戶和M個(gè)商品的關(guān)聯(lián)矩陣R(i,j),其值越大,則將商品j推薦給用戶i的可能性就越大。目前,通過對(duì)用戶點(diǎn)擊數(shù)據(jù)進(jìn)行特征分析和建模,就能近似獲得上述關(guān)聯(lián)矩陣,主流方法是融合因子分解機(jī)(factorized machine)和神經(jīng)網(wǎng)絡(luò)。其中,因子分解機(jī)可以捕捉二階統(tǒng)計(jì)關(guān)聯(lián)特征,比如“7歲”和“動(dòng)畫片”這個(gè)二階特征組合可以增加匹配分值,而神經(jīng)網(wǎng)絡(luò)則以黑盒的方式捕捉用戶和商品之間的高階特征組合。

      在追求個(gè)性化的互聯(lián)網(wǎng)時(shí)代,推薦系統(tǒng)在工業(yè)界具有重要的應(yīng)用價(jià)值。根據(jù)用戶畫像,淘寶和京東可以推薦商品,網(wǎng)易云音樂可以推薦歌曲,頭條可以推薦新聞,抖音可以推薦短視頻。

      圖4 圖像描述、視覺問答和目標(biāo)檢測(cè)任務(wù)示例。利用設(shè)計(jì)好的深度神經(jīng)網(wǎng)絡(luò)模型,可以獲得圖片中包含的主要目標(biāo)的語義及其所在位置,例如草地、小狗、足球等目標(biāo),同時(shí)還能獲取目標(biāo)之間的某種關(guān)系信息。基于這些圖片語義內(nèi)容信息,圖像描述任務(wù)能產(chǎn)生描述圖片的句子,視覺問答任務(wù)能回答“圖中有幾個(gè)足球”,目標(biāo)檢測(cè)任務(wù)能用紅色邊界框定義小狗的空間位置

      圖5 文本生成圖片。用戶希望計(jì)算機(jī)生成牛油果形狀的椅子,雖然這種樣式的椅子可能并不存在,純粹是計(jì)算機(jī)利用生成網(wǎng)絡(luò)模型產(chǎn)生的

      圖6 視覺語言導(dǎo)航。在未來服務(wù)機(jī)器人應(yīng)用場(chǎng)景中,用戶期望機(jī)器人能理解指令,在完成期望任務(wù)過程中能自動(dòng)產(chǎn)生相應(yīng)動(dòng)作或行為,在這個(gè)過程中機(jī)器人要理解用戶指令,同時(shí)還要從工作環(huán)境中獲取信息,并產(chǎn)生恰當(dāng)?shù)男袨?,最終才能完成某項(xiàng)任務(wù)

      生成

      人類除了有信息檢索的能力,還具有豐富的想象力。今天,基于深度學(xué)習(xí)方法,利用大規(guī)模數(shù)據(jù)集,訓(xùn)練各種模態(tài)的深度生成神經(jīng)網(wǎng)絡(luò)模型,可以讓計(jì)算機(jī)寫一篇作文、生成一幅圖像或一段視頻,這些生成的多媒體數(shù)據(jù)能達(dá)到以假亂真的效果。計(jì)算機(jī)生成或創(chuàng)作技術(shù)的誕生,觸發(fā)了一些超越多媒體信息檢索和推薦的新技術(shù),例如圖像描述、視覺問答、文本生成圖片和視覺語言導(dǎo)航等,這些新技術(shù)讓我們感受到更多的驚奇,今天可以獲得真實(shí)世界中可能并不存在的圖片或視頻等多媒體數(shù)據(jù)。

      圖像描述任務(wù)是根據(jù)輸入圖片內(nèi)容,計(jì)算機(jī)自動(dòng)生成描述該圖片內(nèi)容的文本語句。視覺問答任務(wù)則是根據(jù)輸入圖片和文本表達(dá)的問題,計(jì)算機(jī)生成最有可能的答案。目標(biāo)檢測(cè)任務(wù)可以看作一種特殊的視覺問答任務(wù),即輸入問題是“某類物體在圖片中的位置?”其答案就是物體外接矩形框。從這些任務(wù)來看,輸入項(xiàng)一般包含文本和視覺兩個(gè)模態(tài),目前主流方法使用Transformer神經(jīng)網(wǎng)絡(luò)模型來實(shí)現(xiàn)兩個(gè)模態(tài)特征之間的對(duì)齊和融合,并自動(dòng)產(chǎn)生答案。文本生成圖片任務(wù)和圖像描述任務(wù)剛好相反,以描述畫面內(nèi)容的文本句子作為輸入,生成最符合文本句子語義的圖像。

      在視覺語言導(dǎo)航任務(wù)中,智能體或機(jī)器人從當(dāng)前環(huán)境中感知到的圖片和語言導(dǎo)航指令為輸入,隨著導(dǎo)航動(dòng)作的執(zhí)行,其視覺傳感器感知到的環(huán)境圖片信息將發(fā)生相應(yīng)變化,從而引發(fā)新一輪的動(dòng)作生成,直到導(dǎo)航指令完成和動(dòng)作結(jié)束。如果家政服務(wù)機(jī)器人具備視覺語言導(dǎo)航能力,則向其發(fā)出語言指令“出衛(wèi)生間左轉(zhuǎn),走過護(hù)欄后在第一個(gè)臥室門口停下”后,機(jī)器人可以按照指令的規(guī)劃路徑完成導(dǎo)航,實(shí)現(xiàn)運(yùn)送衣物甚至幫助殘疾人等服務(wù)。

      結(jié)論

      綜上所述,多媒體信息的檢索、推薦和生成技術(shù)在過去的20多年內(nèi)取得了顯著進(jìn)步,它們至少包含了自然語言處理、圖像處理、視頻處理、語音識(shí)別、數(shù)據(jù)挖掘、模式識(shí)別、人工智能、機(jī)器學(xué)習(xí)等眾多學(xué)科方向。作為應(yīng)用,它們正在融入日常生活的方方面面,如搜索引擎、電子商務(wù)、社交娛樂、安保巡防、殘疾人輔助、無人駕駛和藝術(shù)創(chuàng)作等應(yīng)用。

      猜你喜歡
      信息檢索文檔檢索
      有人一聲不吭向你扔了個(gè)文檔
      2019年第4-6期便捷檢索目錄
      基于RI碼計(jì)算的Word復(fù)制文檔鑒別
      醫(yī)學(xué)期刊編輯中文獻(xiàn)信息檢索的應(yīng)用
      新聞傳播(2016年18期)2016-07-19 10:12:06
      專利檢索中“語義”的表現(xiàn)
      專利代理(2016年1期)2016-05-17 06:14:36
      基于神經(jīng)網(wǎng)絡(luò)的個(gè)性化信息檢索模型研究
      Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
      教學(xué)型大學(xué)《信息檢索》公選課的設(shè)計(jì)與實(shí)施
      河南科技(2014年11期)2014-02-27 14:10:19
      公共圖書館信息檢索服務(wù)的實(shí)踐探索——以上海浦東圖書館為例
      圖書館界(2013年5期)2013-03-11 18:50:29
      不讓他人隨意下載Google文檔
      電腦迷(2012年4期)2012-04-29 06:12:13
      湖北省| 宁都县| 阳曲县| 新蔡县| 罗山县| 岳阳县| 邹平县| 南乐县| 齐齐哈尔市| 五莲县| 张家界市| 汉川市| 平南县| 玛曲县| 巴彦淖尔市| 林口县| 察哈| 襄城县| 金阳县| 布尔津县| 从化市| 新干县| 阿勒泰市| 石柱| 磐安县| 富顺县| 错那县| 营口市| 纳雍县| 英吉沙县| 虹口区| 大悟县| 崇文区| 溧水县| 武平县| 湘潭市| 怀仁县| 定襄县| 沽源县| 冀州市| 武清区|