吳曉陽(yáng)
微博短文本檢索關(guān)鍵技術(shù)
吳曉陽(yáng)
微博作為當(dāng)前使用非常廣泛的社交軟件已然成為了人們獲取實(shí)時(shí)信息的重要途徑之一,然而微博短文的自身特點(diǎn)使得其檢索的難度相應(yīng)增加,通過(guò)相應(yīng)的模型建立才能更好的將當(dāng)前所面臨的一系列檢索困難一一解決,最終幫助人們搜索到相應(yīng)的內(nèi)容,從而更好的獲取相關(guān)信息。
微博是一種通過(guò)關(guān)注機(jī)制分享簡(jiǎn)短實(shí)時(shí)信息的廣播式的社交網(wǎng)絡(luò)平臺(tái),用戶可以通過(guò)WEB、WAP等各種客戶端在微博網(wǎng)站建立個(gè)人社區(qū),以不超過(guò)140個(gè)字符的短文本消息來(lái)進(jìn)行實(shí)時(shí)信息的基本分享。近幾年使用手機(jī)、平板電腦等移動(dòng)客戶端上網(wǎng)的用戶迅速增長(zhǎng),微博因其使用便捷、語(yǔ)言精煉并且信息量充足的特點(diǎn)而逐漸備受追捧,成為一種影響力巨大的新媒體形式,人們通過(guò)微博分享的信息作為當(dāng)前一項(xiàng)非常重要的實(shí)時(shí)信息來(lái)源。但同樣由于微博的消息限定為140個(gè)字,屬于典型的短文本內(nèi)容,具有數(shù)量龐大、書寫較隨意、主題相對(duì)雜亂并且實(shí)時(shí)性強(qiáng)等特點(diǎn),使傳統(tǒng)信息檢索技術(shù)在面對(duì)海量微博的檢索任務(wù)中遇到許多難題,如何解決這些問(wèn)題成為了當(dāng)前微博短文檢索技術(shù)的關(guān)鍵所在。
實(shí)時(shí)性語(yǔ)言模型
語(yǔ)言模型作為檢索的最基本模型框架是非常重要的技術(shù)點(diǎn),而實(shí)時(shí)性語(yǔ)言模型的建立能有效的幫助更加全面搜索到相應(yīng)的微博文本信息。因?yàn)闀r(shí)間是提高檢索質(zhì)量的重要因素之一,有效的利用時(shí)間條件就能很好的提升檢索的準(zhǔn)確性,而實(shí)時(shí)性語(yǔ)言模型就是利用了這樣的一個(gè)技術(shù)原理。
微博因?yàn)槲谋径绦∷栽谝欢ǔ潭壬闲枰ㄟ^(guò)時(shí)間這樣一個(gè)元素進(jìn)行區(qū)分,而在當(dāng)前大部分的搜索引擎當(dāng)中,一般都是基于網(wǎng)頁(yè)中的關(guān)鍵詞頻率、鏈接、用戶評(píng)價(jià)計(jì)算權(quán)重來(lái)對(duì)該網(wǎng)頁(yè)文本進(jìn)行加權(quán),使得不同的網(wǎng)頁(yè)在檢索結(jié)果中具有不同的先驗(yàn)概率。這樣一來(lái)以微博文本的時(shí)間特性作為重要的查詢條件輸入到相應(yīng)檢索公式中就能使得檢索出來(lái)的信息更具有準(zhǔn)確性和針對(duì)性,從而也就更有可能滿足搜索人的相應(yīng)需求。
融入時(shí)間信息的查詢建模
之前已經(jīng)描述出了時(shí)間信息在微博文本檢索中的重要性,這也是基于微博這樣一種特殊的信息發(fā)布而形成的,所以良好的融入時(shí)間信息的查詢建模往往就能更為行之有效的達(dá)到相應(yīng)的檢索需求。而最終搜索到的相應(yīng)微博文本信息也就能縮小其廣度而增強(qiáng)其精度。
比方說(shuō)通過(guò)利用微博文本的平均“年齡”來(lái)融入查詢檢索中,而文本年齡即與其提交的時(shí)間相關(guān)。將文本年齡作為計(jì)算因子加入到檢索排序公式之中,檢索后得到一個(gè)初始微博文本的列表,這樣就能更加精確的查詢出相應(yīng)的微博文本而極大的減輕了短小隨意而且實(shí)時(shí)性強(qiáng)等條件的干擾。
參考文檔模型建立的作用
微博因?yàn)樽謹(jǐn)?shù)限定所以大都為短文本,而這類文檔的檢索進(jìn)行時(shí)極易發(fā)生詞典問(wèn)題,這就會(huì)直接導(dǎo)致搜索信息的不夠準(zhǔn)確使得搜索的難度增大,搜索者即便通過(guò)關(guān)鍵詞進(jìn)行查詢?nèi)耘f要花費(fèi)一定的時(shí)間再?gòu)臋z索內(nèi)容中進(jìn)行區(qū)分,最終才能找到自己所需要的相應(yīng)微博內(nèi)容。這就極大的提升了搜索功能的使用難度并且?guī)?lái)較壞的體驗(yàn)感。
反饋技術(shù)作為檢索體現(xiàn)的根本技術(shù),基于早期仍存在著一定的問(wèn)題,僅對(duì)查詢而不對(duì)文檔進(jìn)行反饋使得檢索結(jié)果寬泛而更具模糊性。同時(shí)利用的反饋源如果僅局限在待檢索的文檔集合本身,則會(huì)造成反饋中能夠使用的信息資源有限,這都會(huì)極大程度的影響到檢索結(jié)果達(dá)不到預(yù)期要求。而在參考文檔模型框架下對(duì)查詢和文檔同時(shí)進(jìn)行反饋建模,就能很好的解決相應(yīng)技術(shù)問(wèn)題。
參考文檔模型建立的技術(shù)關(guān)鍵
參考文檔建模的主要方法是利用參考文檔,對(duì)查詢和待檢索文檔集合同時(shí)進(jìn)行反饋建模,所以在建模過(guò)程中,參考文檔本身具有非常重要的作用。在以前的一些檢索技術(shù)中一般會(huì)以檢索相同或者相近領(lǐng)域的文檔來(lái)作為最終的參考文檔,但是鑒于微博文本短小的特點(diǎn),這樣傳統(tǒng)的檢索方式往往就會(huì)使得檢索信息結(jié)果難以達(dá)到預(yù)期效果。
同時(shí),傳統(tǒng)技術(shù)的相應(yīng)特點(diǎn)往往容易形成偽反饋從而降低檢索反饋的精度,良好的將參考文檔進(jìn)行精確的選擇建立同時(shí)在偽反饋的基礎(chǔ)上優(yōu)化相關(guān)性,這樣就能更好的通過(guò)實(shí)時(shí)反饋進(jìn)行信息的檢索從而提升精確程度,最終讓檢索的內(nèi)容更加具有針對(duì)性。
在微博文本檢索中使用排序?qū)W習(xí)模型的重要性
傳統(tǒng)的檢索技術(shù)中,使用排序得到的結(jié)果往往比較簡(jiǎn)單和粗糙,比如向量空間模型和語(yǔ)言模型等,但是基于文本的特性使得檢索仍舊能夠達(dá)到一定的精度,最終也不會(huì)產(chǎn)生太多檢索差異。但是對(duì)于微博文本的特點(diǎn)尤其是在近些年微博的使用越來(lái)越廣泛,形成的微博文檔的數(shù)量也變得越來(lái)越多,排序的簡(jiǎn)單粗糙性就在一定程度上影響到了傳統(tǒng)檢索模型的搜索精度。
當(dāng)人們逐漸意識(shí)到了排序模型的重要性,開(kāi)始采用排序?qū)W習(xí)方法,一項(xiàng)基于機(jī)器學(xué)習(xí)的新的學(xué)習(xí)方法。使用機(jī)器學(xué)習(xí)技術(shù)同時(shí)讓有標(biāo)注的數(shù)據(jù)自動(dòng)學(xué)習(xí)一個(gè)排序模型,這樣就能讓檢索更加智能且具有時(shí)效性,最終幫助搜索結(jié)果更能符合檢索者的預(yù)期。
排序?qū)W習(xí)模型中特征抽取的相關(guān)問(wèn)題
在建立排序?qū)W習(xí)模型的過(guò)程中,最關(guān)鍵的問(wèn)題就是特征選擇,如何進(jìn)行特征選擇往往直接決定了檢索結(jié)果。而相應(yīng)的特征類別主要分為微博的相關(guān)性、微博用戶特征以及微博文本特征這三類,因此良好的將這三類特征嚴(yán)格區(qū)分并將相應(yīng)的數(shù)據(jù)結(jié)合進(jìn)入檢索公式當(dāng)中就能有效的完善排序?qū)W習(xí)模型的建立,提升檢索的精準(zhǔn)度。
所謂特征抽取一定不能僅僅關(guān)注三類特征中的一種,之前所提到了微博文本具有簡(jiǎn)短而數(shù)量巨大的特征,所以只有良好的將三類特征進(jìn)行嚴(yán)格的區(qū)分規(guī)劃,最終結(jié)合起來(lái)檢索,這樣才能保證提升微博檢索的有效率。使用單個(gè)特征雖然能在一定程度上減少資源的消耗但極有可能帶來(lái)的就是最終的檢索結(jié)果往往并不能盡如人意。
微博作為當(dāng)前人們使用非常廣泛的社交軟件已經(jīng)成為了解實(shí)時(shí)信息的重要來(lái)源之一。但是文本簡(jiǎn)單、實(shí)時(shí)性強(qiáng)等特點(diǎn)反而增加了微博短文的檢索難度,通過(guò)相應(yīng)的技術(shù)進(jìn)行良好有效的解決才能將這些問(wèn)題逐一解決并最終更加完善的將相應(yīng)的微博信息搜索得出。通過(guò)增強(qiáng)和解決相應(yīng)的技術(shù)問(wèn)題才能從根本上解決微博文本檢索困難、信息不夠準(zhǔn)確、達(dá)不到相應(yīng)檢索者需求的一系列問(wèn)題。
10.3969/j.issn.1001-8972.2015.21.025