• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于BDI的語(yǔ)義搜索及其在數(shù)字旅游中的應(yīng)用

      2016-09-08 10:41:34李銀勝沈劍平
      關(guān)鍵詞:詞典語(yǔ)義特征

      陳 昊 李銀勝 沈劍平

      (復(fù)旦大學(xué)軟件學(xué)院 上海 201203) (電子商務(wù)交易技術(shù)國(guó)家工程實(shí)驗(yàn)室 上海 201203)

      ?

      基于BDI的語(yǔ)義搜索及其在數(shù)字旅游中的應(yīng)用

      陳昊李銀勝沈劍平

      (復(fù)旦大學(xué)軟件學(xué)院上海 201203) (電子商務(wù)交易技術(shù)國(guó)家工程實(shí)驗(yàn)室上海 201203)

      目前的上下文處理方法對(duì)語(yǔ)義技術(shù)支持不足,導(dǎo)致語(yǔ)義搜索在精準(zhǔn)度和智能化上存在局限。提出一種基于BDI(Belief-Desire-Intention)的語(yǔ)義搜索方法,對(duì)動(dòng)態(tài)上下文進(jìn)行語(yǔ)義描述,利用BDI機(jī)制優(yōu)化搜索結(jié)果。該方法將用戶(hù)查詢(xún)、動(dòng)態(tài)上下文與BDI框架的Belief融合,通過(guò)產(chǎn)品特征語(yǔ)義、業(yè)務(wù)語(yǔ)義推理上下文特征和搜索目標(biāo)特征作為Desire,通過(guò)基于MinHash的語(yǔ)義相似度計(jì)算進(jìn)行候選Intention排序。結(jié)合項(xiàng)目需求,在JADEX開(kāi)源BDI Agent環(huán)境下,開(kāi)發(fā)了基于上述語(yǔ)義搜索的旅游產(chǎn)品搜索系統(tǒng)。該系統(tǒng)通過(guò)ID3決策樹(shù)提取用戶(hù)當(dāng)前行程的上下文特征實(shí)現(xiàn)了語(yǔ)義搜索功能,實(shí)驗(yàn)表明該方法搜索準(zhǔn)確率相比僅使用語(yǔ)義相似度搜索方法明顯提高,能夠滿(mǎn)足旅游產(chǎn)品搜索的要求。

      BDI語(yǔ)義搜索上下文

      0 引 言

      CNNIC的統(tǒng)計(jì)數(shù)據(jù)表明,截至2014年6月,我國(guó)搜索用戶(hù)規(guī)模達(dá)5.07億,較2013年12月增長(zhǎng)1783萬(wàn)人,用戶(hù)對(duì)搜索個(gè)性化、智能化的搜索需求增加[1]。電子商務(wù)發(fā)展使各行各業(yè)向互聯(lián)網(wǎng)轉(zhuǎn)型,傳統(tǒng)信息檢索系統(tǒng)由于對(duì)上下文考慮不足,面對(duì)各種不同應(yīng)用場(chǎng)景時(shí),準(zhǔn)確度難以有較大提高。例如在旅游領(lǐng)域,游客安排行程時(shí)考慮因素復(fù)雜,需要在電商網(wǎng)站分析比對(duì)各種產(chǎn)品信息,由于缺乏上下文支持,較難獲得個(gè)性化的搜索結(jié)果,用戶(hù)需耗費(fèi)大量精靈尋找滿(mǎn)足行程需求的產(chǎn)品。

      目前互聯(lián)網(wǎng)上常見(jiàn)的全文搜索引擎與電商平臺(tái)的搜索功能中,均有語(yǔ)義技術(shù)應(yīng)用。全文搜索引擎一般使用文本模型如概率模型、語(yǔ)言模型進(jìn)行建模,結(jié)合知識(shí)圖譜技術(shù)實(shí)現(xiàn)更精準(zhǔn)的搜索[3,4];電商網(wǎng)站如淘寶、京東等,面向領(lǐng)域,使用文本模型、反作弊模型、服務(wù)質(zhì)量模型等進(jìn)行多層次篩選。語(yǔ)義技術(shù)從傳統(tǒng)的概念匹配、歧義消解[5,6],到現(xiàn)在更多與信息檢索緊密結(jié)合,用于解決日益嚴(yán)重的信息過(guò)載問(wèn)題。

      為提供良好用戶(hù)體驗(yàn),語(yǔ)義搜索需要上下文處理技術(shù)的支持,而目前相關(guān)應(yīng)用存在以下局限:1)語(yǔ)義搜索類(lèi)應(yīng)用對(duì)上下文考慮不足,尚未與上下文緊密結(jié)合;2)查詢(xún)歷史、用戶(hù)信息等靜態(tài)資源作為搜索上下文,使用離線(xiàn)分析解決智能化問(wèn)題導(dǎo)致實(shí)時(shí)性較低;3)使用業(yè)務(wù)規(guī)則的方法在處理業(yè)務(wù)復(fù)雜的場(chǎng)景如旅游產(chǎn)品搜索時(shí)規(guī)則庫(kù)構(gòu)造復(fù)雜難以維護(hù)。

      本文結(jié)合筆者參與的旅游集散網(wǎng)(Travelhub.cn)項(xiàng)目,在用戶(hù)搜索過(guò)程中,需要根據(jù)用戶(hù)行程單中已添加的行程安排,提供個(gè)性化的旅游產(chǎn)品搜索結(jié)果??紤]到傳統(tǒng)方法的不足之處,本文提出了一種基于BDI的語(yǔ)義搜索方法,該方法使用JADEX[2]開(kāi)源BDI Agent環(huán)境,從產(chǎn)品特征語(yǔ)義,業(yè)務(wù)語(yǔ)義出發(fā)構(gòu)建語(yǔ)義詞典,結(jié)合動(dòng)態(tài)上下文推理搜索目標(biāo),將MinHash語(yǔ)義相似度用于選項(xiàng)匹配。本文實(shí)現(xiàn)了針對(duì)旅游產(chǎn)品的語(yǔ)義搜索原型系統(tǒng)。該系統(tǒng)使用ID3決策樹(shù)多維度動(dòng)態(tài)提取搜索上下文特征,改進(jìn)語(yǔ)義搜索對(duì)實(shí)時(shí)、動(dòng)態(tài)的上下文支持,提高精準(zhǔn)度和智能化程度。

      1 相關(guān)工作

      語(yǔ)義搜索需要上下文處理技術(shù)的支持以提高用戶(hù)體驗(yàn)。上下文從來(lái)源上可區(qū)分為三類(lèi),用戶(hù)上下文,資源上下文和系統(tǒng)上下文[7]。用戶(hù)上下文指用戶(hù)本身信息及其在檢索過(guò)程中隱含的信息;資源上下文指選項(xiàng)本身包含的上下文信息,例如網(wǎng)頁(yè)中的超鏈接等。系統(tǒng)上下文指系統(tǒng)所采用的檢索模型,檢索界面等。對(duì)這些上下文信息的處理方法主要有以下幾類(lèi):

      1) 規(guī)則推理方法

      該方法通過(guò)顯式反饋,偽反饋收集上下文信息,如用戶(hù)在搜索過(guò)程中,系統(tǒng)向用戶(hù)提出問(wèn)題,或由用戶(hù)主動(dòng)設(shè)定上下文,如淘寶等網(wǎng)站中在搜索商品時(shí)可自行設(shè)置搜索的情景、偏好等,作為搜索權(quán)重調(diào)整依據(jù)。相關(guān)應(yīng)用可以獲取最準(zhǔn)確的上下文信息,但無(wú)法為用戶(hù)提供簡(jiǎn)潔的體驗(yàn)。另外規(guī)則條件需要構(gòu)造專(zhuān)家知識(shí)庫(kù),維護(hù)工作量大。

      2) 機(jī)器學(xué)習(xí)方法

      此類(lèi)方法一般通過(guò)隱式反饋收集上下文信息,如面向用戶(hù)上下文的方法,如點(diǎn)擊流反饋模型[8],啟發(fā)式二元投票模型[9],相關(guān)應(yīng)用有基于Oracle Spatial空間數(shù)據(jù)和MapXtreme的個(gè)性化行程定制[11]等,缺點(diǎn)是對(duì)數(shù)據(jù)記錄進(jìn)行離線(xiàn)分析導(dǎo)致對(duì)動(dòng)態(tài)上下文信息支持不足;另一類(lèi)面向資源上下文,如在網(wǎng)頁(yè)對(duì)象排序中將網(wǎng)頁(yè)對(duì)象本身屬性作為上下文,如基于超鏈接分析的HITS算法[10]等,缺點(diǎn)是算法根據(jù)特定選項(xiàng)類(lèi)型構(gòu)造,通用性不足。相比前者,機(jī)器學(xué)習(xí)方法具有更好的用戶(hù)體驗(yàn),但相關(guān)應(yīng)用在處理上下文時(shí),對(duì)上下文的動(dòng)態(tài)性、實(shí)時(shí)性考慮不足。

      3) Agent方法

      Agent方法利用了Agent架構(gòu)本身的自治性、社會(huì)性、反映性、能動(dòng)性特點(diǎn),如文獻(xiàn)[12]將基于Agent的將語(yǔ)義搜索應(yīng)用于UDDI中的Web服務(wù)發(fā)現(xiàn),但未考慮上下文。Agent架構(gòu)繁多,文獻(xiàn)[13]中提出了使用BDI架構(gòu)的Agent建模方法。文獻(xiàn)[14]在此基礎(chǔ)上,構(gòu)建了一種BDI Agent平臺(tái)的運(yùn)行框架。目前該框架已有多種實(shí)現(xiàn),如JADEX等。BDI框架的應(yīng)用通常適用于根據(jù)外界環(huán)境變化觸發(fā)動(dòng)作,來(lái)完成指定的目標(biāo)。如文獻(xiàn)[15]實(shí)現(xiàn)了一個(gè)基于BDI的旅游個(gè)人助理Agent,根據(jù)處理用戶(hù)在旅游行程中的位置變化個(gè)性化搜索結(jié)果,文獻(xiàn)[16]利用BDI推理框架將用戶(hù)模型作為上下文,通過(guò)AHP層次分析法實(shí)現(xiàn)了基于用戶(hù)模型的產(chǎn)品推薦。BDI Agent架構(gòu)設(shè)計(jì)使得其在適合用于處理動(dòng)態(tài)上下文,但主要基于傳統(tǒng)搜索的混合加權(quán),與語(yǔ)義技術(shù)結(jié)合尚不緊密,有待完善。

      總結(jié)以上三類(lèi)方法,其優(yōu)缺點(diǎn)如表1所示。

      表1 上下文處理技術(shù)優(yōu)缺點(diǎn)總結(jié)

      為改善現(xiàn)有語(yǔ)義搜索技術(shù)中上下文處理方法的動(dòng)態(tài)性、實(shí)時(shí)性,本文參考Agent方法,以及其中的BDI架構(gòu),設(shè)計(jì)了一種基于BDI的語(yǔ)義搜索方法。將該方法用于BDI推理中的Belief生成,Desire推理,Intention匹配計(jì)算,并實(shí)現(xiàn)了面向旅游產(chǎn)品語(yǔ)義搜索的應(yīng)用,在利用語(yǔ)義匹配較好精準(zhǔn)度同時(shí),能夠適應(yīng)行程的動(dòng)態(tài)上下文需求。

      2 基于BDI的語(yǔ)義搜索方法

      2.1BDI基礎(chǔ)架構(gòu)

      BDI架構(gòu)包含三個(gè)主要概念,Belief(信念),即Agent具有的上下文信息,資源信息的集合。Desire(期望),即Agent期望達(dá)到或保持的狀態(tài)。Intention(意圖),基于BDI架構(gòu)的Agent通過(guò)執(zhí)行Intention來(lái)接近或達(dá)到Desire的狀態(tài)。

      Belief包含用戶(hù)查詢(xún),選項(xiàng)數(shù)據(jù)和外部上下文數(shù)據(jù)。搜索上下文變化,用戶(hù)查詢(xún)輸入均會(huì)導(dǎo)致Belief的更新,查詢(xún)輸入觸發(fā)事件,引起B(yǎng)DI Agent內(nèi)部狀態(tài)變化,Agent將根據(jù)Belief生成Desire。在Desire的執(zhí)行和推理過(guò)程中,需要通過(guò)可執(zhí)行動(dòng)作的Intention權(quán)重來(lái)選取適當(dāng)?shù)膭?dòng)作執(zhí)行。

      BDI Agent執(zhí)行的基本流程如圖1所示。

      圖1 BDI Agent執(zhí)行流程

      圖1分為以下三個(gè)主要環(huán)節(jié):1)用戶(hù)發(fā)起查詢(xún)后,BDI Agent首先需要根據(jù)用戶(hù)輸入的內(nèi)容與上下文信息,更新Belief內(nèi)容,如用戶(hù)查詢(xún)的特征詞、用戶(hù)上下文的內(nèi)容等;2)更新內(nèi)容結(jié)合Belief中已有的領(lǐng)域語(yǔ)義詞典、候選項(xiàng)特征,生成Desire,即用戶(hù)期望的選項(xiàng)特征;3)根據(jù)該特征,執(zhí)行語(yǔ)義搜索,計(jì)算Intention與Desire間的語(yǔ)義相似度,得到最符合用戶(hù)Desire的Intention,執(zhí)行并向用戶(hù)展示結(jié)果。

      下文將介紹在環(huán)節(jié)1中的Belief構(gòu)造和更新方式,環(huán)節(jié)2中使用Belief內(nèi)容生成Desire的方法和環(huán)節(jié)3中Intention語(yǔ)義搜索的相似度權(quán)重計(jì)算。

      2.2Belief構(gòu)造與更新

      Belief含義為Agent對(duì)世界和自身的認(rèn)識(shí),Agent的Belief包含三個(gè)部分:

      1) 會(huì)話(huà)上下文數(shù)據(jù)用戶(hù)的每次會(huì)話(huà)包含了查詢(xún)目標(biāo),可能關(guān)聯(lián)多次查詢(xún)。以查找旅游產(chǎn)品為例,用戶(hù)可能先輸入由地理位置形容的關(guān)鍵詞“附近的餐飲”,再補(bǔ)充輸入產(chǎn)品的類(lèi)別信息“高端”等,可自動(dòng)將產(chǎn)品類(lèi)別限制為“餐飲”,提高檢索效率。

      2) 產(chǎn)品數(shù)據(jù)及其領(lǐng)域語(yǔ)義詞典產(chǎn)品數(shù)據(jù)中的產(chǎn)品特征將用于后期Intention的權(quán)重計(jì)算。例如產(chǎn)品的種類(lèi)、特點(diǎn)、關(guān)鍵概念等。語(yǔ)義詞典則用于消除特征中的歧義,實(shí)現(xiàn)語(yǔ)義化的搜索。本文構(gòu)建的旅游領(lǐng)域語(yǔ)義詞典使用TF-IDF,對(duì)排除停止詞后的語(yǔ)料提取旅游產(chǎn)品描述中的關(guān)鍵概念。在此基礎(chǔ)上,選取屬于旅游產(chǎn)品領(lǐng)域詞典子集的高頻詞作為旅游產(chǎn)品特征。

      3) 外部上下文數(shù)據(jù)外部上下文數(shù)據(jù)將用于業(yè)務(wù)規(guī)則的觸發(fā),例如旅游場(chǎng)景中,當(dāng)前已選擇的旅游產(chǎn)品、天氣、地理位置等。上下文數(shù)據(jù)提取方法根據(jù)適用場(chǎng)景有所區(qū)別,提取出的外部上下文的特征作為選項(xiàng)匹配的依據(jù)之一。

      Belief有以下兩種更新方式:

      1) 用戶(hù)行為更新按用戶(hù)輸入更新會(huì)話(huà)上下文數(shù)據(jù)和高實(shí)時(shí)性的外部上下文數(shù)據(jù)。

      2) 后臺(tái)異步更新考慮實(shí)現(xiàn)階段的性能問(wèn)題,對(duì)性能要求高,實(shí)時(shí)性要求低的數(shù)據(jù),如旅游產(chǎn)品數(shù)據(jù)的領(lǐng)域語(yǔ)義詞典和旅游產(chǎn)品概念的提取,采取后臺(tái)更新的策略,Agent不會(huì)主動(dòng)感知Belief的更新。當(dāng)用戶(hù)發(fā)起新查詢(xún)時(shí),Agent會(huì)使用最新版本的數(shù)據(jù)進(jìn)行推理。

      2.3Desire生成策略

      Desire含義為Agent需求目標(biāo),即對(duì)搜索目標(biāo)的具體特征要求。在旅游場(chǎng)景中,Desire即為用戶(hù)期望產(chǎn)品的特征,這些特征從用戶(hù)的查詢(xún)中獲取。Desire依據(jù)業(yè)務(wù)規(guī)則的推理結(jié)果和用戶(hù)輸入生成。Desire最終表達(dá)為一組語(yǔ)義特征集合,用于Intention傾向的計(jì)算。

      Desire生成方法如下:

      1) 基于用戶(hù)查詢(xún)內(nèi)容對(duì)用戶(hù)查詢(xún)內(nèi)容進(jìn)行分詞后,提取其中的有效特征,直接作為Desire中的語(yǔ)義特征集合。

      2) 基于上下文信息例如用戶(hù)的行程選擇反映了其旅行目的等因素。上下文信息的使用方法眾多,受上下文信息種類(lèi)的約束。如文獻(xiàn)[15]在構(gòu)建上下文信息時(shí)以地理位置等信息構(gòu)建。文獻(xiàn)[16]以用戶(hù)模型作為上下文。為保證上下文的全面性,Desire的推理方法是可擴(kuò)展的。本文的后續(xù)實(shí)現(xiàn)基于旅游場(chǎng)景,考慮到旅游行程的連續(xù)性、動(dòng)態(tài)性特點(diǎn),通過(guò)選取具有類(lèi)似特征但尚未選擇的產(chǎn)品作為搜索的上下文,可在多維度上使用決策樹(shù)進(jìn)行分類(lèi),將ID3決策樹(shù)規(guī)則作為上下文特征的生成依據(jù)。

      生成語(yǔ)義特征后,將合并特征并使用語(yǔ)義詞典的關(guān)系,如同義關(guān)系等,消除特征歧義,形成本次查詢(xún)的Desire。

      2.4Intention權(quán)重計(jì)算

      在Desire生成完成后,對(duì)每個(gè)待計(jì)算Intention的行為,其排序依據(jù)Desire中的語(yǔ)義特征集合使用基于特征相似度的算法計(jì)算相似度作為其Intention權(quán)重。

      計(jì)算特征相似度的方法主要有基于空間向量模型的歐氏距離,余弦相似度,基于哈希的MinHash,漢明距離等方法,以及基于主題相似度的LAS、PLSA等方法[17]。搜索是一種在線(xiàn)的、同步的動(dòng)作,具有較高實(shí)時(shí)性要求,因此選擇能快速批量估算多個(gè)集合相似度的MinHash算法。

      定于語(yǔ)義詞典為特征全集C,特定產(chǎn)品特征為Cs,Desire中包含了一組由用戶(hù)查詢(xún)和上下文信息得出的期望特征組的集合Sd={C1,C2,…,Cn}。Intention需要計(jì)算對(duì)于每個(gè)產(chǎn)品實(shí)體的相似程度。MinHash方法基于Jaccard進(jìn)行相似度計(jì)算原理,當(dāng)兩個(gè)集合重復(fù)度越高,Jaccard越趨向于1。MinHash則使用隨機(jī)抽樣方法估算集合交集概率,將C1,C2,…,Cn與Cs所含集合映射到特征項(xiàng)[t1-tn]之間,其中t1,t2,…,tn∈C,隨機(jī)選擇[t1-tn]的一個(gè)排列組合,Tn∈Cx則此行標(biāo)記為1,否則標(biāo)記為0,依次查找第一次出現(xiàn)的行。矩陣取值公式如下:

      (1)

      表2為C1{t1,t4,…},C2{t1,t2,t4,…},C3{t3,…},C4{t4,…}時(shí)的示例。

      表2 基于MinHash的產(chǎn)品特征相似度計(jì)算示例

      對(duì)于C1列,根據(jù)第一次出現(xiàn)1的列數(shù)作進(jìn)行哈希,得到h1(C1)=0,h1(C2)=0,h1(C3)=2,h1(C4)=3。通過(guò)多次抽取隨機(jī)排列得到N個(gè)MinHash函數(shù)h1,h2,…,hn,依此對(duì)每一列都計(jì)算N個(gè)MinHash值。對(duì)于兩個(gè)集合,根據(jù)N個(gè)哈希值中相等的比例,即可估計(jì)出兩集合的Jaccard相似度如下:

      (2)

      其中:

      (3)

      該方法通??梢砸淮芜M(jìn)行多個(gè)產(chǎn)品實(shí)體特征的計(jì)算,而旨在選項(xiàng)數(shù)量較多時(shí),所有產(chǎn)品Cd并集的維度數(shù)要小于產(chǎn)品實(shí)體特征Cs個(gè)數(shù),因此可同時(shí)降低空間復(fù)雜度和時(shí)間復(fù)雜度,提高效率。傾向計(jì)算完成后,將執(zhí)行按相似度高低順序返回選項(xiàng)的動(dòng)作,滿(mǎn)足Desire要求。

      3 基于BDI的旅游產(chǎn)品語(yǔ)義搜索Agent實(shí)現(xiàn)

      3.1系統(tǒng)總體架構(gòu)

      本文系統(tǒng)實(shí)現(xiàn)依托于旅游集散網(wǎng)(Travelhub.cn)數(shù)字旅游平臺(tái)。該數(shù)字旅游平臺(tái)是一個(gè)基于面向服務(wù)架構(gòu)的協(xié)同平臺(tái),支持旅游產(chǎn)品的智能推薦和搜索,其移動(dòng)客戶(hù)端支持用戶(hù)自由將各類(lèi)產(chǎn)品組成行程單,因此需要在用戶(hù)搜索時(shí)分析上下文,給出合適的旅游產(chǎn)品,提升用戶(hù)體驗(yàn)。

      結(jié)合項(xiàng)目需求,本文基于一種BDI Agent的Java實(shí)現(xiàn)JADEX,將語(yǔ)義搜索應(yīng)用于該項(xiàng)目的旅游產(chǎn)品搜索中,并以行程單中的當(dāng)前已安排行程作為語(yǔ)義搜索上下文。JADEX與BDI架構(gòu)中的Belief-Desire-Intention表述略有區(qū)別,BDI中的Belief,Desire和Intention分別對(duì)JADEX中的Belief,Goal和Plan。Agent會(huì)根據(jù)外部變化會(huì)觸發(fā)動(dòng)作,通過(guò)選取執(zhí)行Plan來(lái)達(dá)成Goal。

      基于BDI的語(yǔ)義搜索系統(tǒng)總體架構(gòu)如圖2所示。

      圖2 總體架構(gòu)圖

      其中數(shù)據(jù)層包括內(nèi)存中的會(huì)話(huà)級(jí)別生命周期的上下文數(shù)據(jù)和數(shù)據(jù)庫(kù)中的持久化的旅游產(chǎn)品數(shù)據(jù),旅游產(chǎn)品數(shù)據(jù)需要通過(guò)文本特征提取生成每個(gè)產(chǎn)品的特征,并使用語(yǔ)義詞典消除歧義。JADEX推理框架的Belief,Goal和Plan直接訪問(wèn)數(shù)據(jù)庫(kù)或內(nèi)存中的上下文數(shù)據(jù)。

      業(yè)務(wù)層主要為JADEX推理框架,特征提取部分用于生成語(yǔ)義詞典,并根據(jù)旅游產(chǎn)品的文本描述和屬性提取特征詞,進(jìn)行離線(xiàn)預(yù)處理。JADEX框架則使用ID3提取上下文的特征詞,與用戶(hù)輸入結(jié)合,進(jìn)行MinHash相似度的Plan篩選和執(zhí)行。

      展現(xiàn)層主要基于Phone Gap實(shí)現(xiàn)的HTML5移動(dòng)端界面,用于記錄用戶(hù)已選行程單,展示搜索結(jié)果。

      在本文設(shè)計(jì)的BDI Agent搜索應(yīng)用,根據(jù)用戶(hù)當(dāng)前已加入行程單產(chǎn)品和搜索歷史作為上下文,提取行程特征,結(jié)合用戶(hù)輸入智能選取合理的旅游產(chǎn)品。語(yǔ)義搜索其執(zhí)行流程如圖3所示。

      圖3 JADEX執(zhí)行流程

      在執(zhí)行上述流程前,首先需要進(jìn)行語(yǔ)義詞典和產(chǎn)品特征的預(yù)處理。在預(yù)處理完成后,搜索執(zhí)行時(shí)首先依賴(lài)上下文模塊將搜索上下文更新至Agent的Belief,并推理出目標(biāo)特征存入Goal中,最后執(zhí)行Plan的匹配與篩選。

      3.2語(yǔ)義詞典與產(chǎn)品特征預(yù)處理

      旅游產(chǎn)品的語(yǔ)義搜索依賴(lài)領(lǐng)域語(yǔ)義詞典,旅游領(lǐng)域語(yǔ)義詞典通過(guò)對(duì)旅游產(chǎn)品的特征進(jìn)行提取獲得特征詞。通過(guò)關(guān)系詞典,如同義詞典等為特征詞增加關(guān)系。

      旅游產(chǎn)品語(yǔ)義特征數(shù)據(jù)源來(lái)自:

      1) 旅游產(chǎn)品屬性,如酒店的星級(jí)分類(lèi)、景區(qū)的類(lèi)型等。

      2) 產(chǎn)品描述描的文本特征。產(chǎn)品描述特征提取主要流程如圖4所示。

      圖4 產(chǎn)品特征提取主要流程

      本文使用中文語(yǔ)法分詞器IK Analyzer[19]處理產(chǎn)品描述的中文分詞。該分詞器支持分詞歧義排除功能和自定義拓展次,停用詞庫(kù),適用于定制特定領(lǐng)域的分詞詞庫(kù)。

      分詞完成后,使用TF-IDF提取產(chǎn)品描述特征詞。本文選取了各類(lèi)旅游產(chǎn)品中銷(xiāo)量較高的產(chǎn)品作為語(yǔ)料庫(kù),用于IDF值計(jì)算,將特征詞前K個(gè)最高TF-IDF值的作為產(chǎn)品的語(yǔ)義特征,由于存在停用詞不完整等問(wèn)題,TF-IDF得到的分詞結(jié)果需要人工確認(rèn)后才能在語(yǔ)義詞典中啟用。旅游產(chǎn)品語(yǔ)義特征中包含了TF-IDF值,用于后續(xù)可能存在的歧義消解。每個(gè)特征詞對(duì)應(yīng)一個(gè)GUID。

      通常語(yǔ)義詞典中包含的關(guān)系有同義、反義、部分、屬于等。考慮到旅游產(chǎn)品搜索業(yè)務(wù)特點(diǎn),同義詞關(guān)系可減少特征相似度計(jì)算時(shí)的誤差,屬于關(guān)系需用于上下文傾向推理時(shí)的維度生成。因此本文向詞典概念之間增加了同義,屬于兩類(lèi)關(guān)系:

      1) 同義關(guān)系的概念組合為概念簇,本文借助中文辭海數(shù)據(jù)庫(kù),將“同義”概念連接,并為每一個(gè)同義概念簇指定GUID,用于匹配時(shí),在同義詞簇中的概念使用GUID表示。

      2) 屬于概念通過(guò)屬于關(guān)系關(guān)聯(lián),作為上下文傾向推理時(shí)的決策維度。屬于概念參考旅游行程設(shè)計(jì)時(shí)的考慮因素,手工添加,詳細(xì)說(shuō)明見(jiàn)基于決策樹(shù)的上下文傾向推理。

      語(yǔ)義詞典、產(chǎn)品特征耗時(shí)較長(zhǎng),需要首先完成初始化,Agent啟動(dòng)后可直接使用這些數(shù)據(jù)進(jìn)行Goal期望特征生成與Plan的語(yǔ)義匹配。

      3.3上下文語(yǔ)義特征解析

      系統(tǒng)將用戶(hù)行程安排作為用戶(hù)檢索的上下文,作為Agent的Belief。上下文從應(yīng)用的行程單下獲取,行程中包含用戶(hù)已添加的旅游產(chǎn)品,以及在將產(chǎn)品加入行程單同時(shí)未選擇的產(chǎn)品,隱含本次行程的各種特點(diǎn),使用決策樹(shù)的方式對(duì)旅游行程特征進(jìn)行提取。對(duì)生成的決策樹(shù),轉(zhuǎn)換為條件表達(dá)方式,作為檢索依據(jù)。上下文傾向特征生成是一個(gè)上下文-行程特征-產(chǎn)品特征的轉(zhuǎn)換過(guò)程。

      決策樹(shù)訓(xùn)練集包括兩部分:1) 行程單中的已選擇產(chǎn)品,chosen屬性標(biāo)記為T(mén)RUE;2) 加入行程單時(shí)搜索結(jié)果中的未選擇產(chǎn)品,chosen屬性標(biāo)記為FALSE。因檢索過(guò)程是同步的,本文依據(jù)旅游行程制定時(shí)的考慮因素,將“屬于”概念的根結(jié)點(diǎn)分為價(jià)格維度、時(shí)間維度、地理維度、特征維度、交通維度、與語(yǔ)義詞典中的概念或概念簇手動(dòng)分類(lèi)。如價(jià)格維度下使用了“奢華”同義詞概念簇、“經(jīng)濟(jì)”同義詞概念簇等;地理維度使用語(yǔ)義詞典中來(lái)自產(chǎn)品“所在地”屬性的概念。如表3所示。

      表3 旅游行程的特征維度及其示例

      以在行程單中搜索一處景點(diǎn)為例,其行程單中其他景點(diǎn)及其未選擇景點(diǎn)的特征可從行程的其他已選和隱式的未選擇實(shí)例使用ID3決策樹(shù)訓(xùn)練,以此作為Goal權(quán)重的計(jì)算依據(jù)。如圖5所示。

      圖5 上下文決策樹(shù)生成

      在選擇結(jié)果為T(mén)RUE的葉節(jié)點(diǎn)上,可以得到如價(jià)格、時(shí)間、地理、特征、交通五個(gè)維度的值。所有為T(mén)RUE的葉節(jié)點(diǎn)可組合為一組用于JADEX推理執(zhí)行的Goal目標(biāo)特征。若K為決策樹(shù)的TRUE葉節(jié)點(diǎn)數(shù),則會(huì)生成K種目標(biāo)概念。如在該結(jié)果下,上下文相關(guān)的特征為:

      1) [簇2{經(jīng)濟(jì)…},概念{上海},概念{古鎮(zhèn)}];

      2) [簇2{經(jīng)濟(jì)…},概念{上海},概念{文化}]。

      依據(jù)該特征組,即可與旅游產(chǎn)品特征進(jìn)行第2.4節(jié)中所述的MinHash的相似度計(jì)算,用于Agent搜索執(zhí)行過(guò)程中的Plan匹配和執(zhí)行。

      3.4語(yǔ)義搜索執(zhí)行

      用戶(hù)發(fā)起查詢(xún)后,使用IK Analyzer對(duì)查詢(xún)進(jìn)行分詞和特征化,作為觸發(fā)Agent狀態(tài)改變的事件。同一會(huì)話(huà)的查詢(xún)會(huì)記入Agent的Desire中,用于生成此次查詢(xún)的目標(biāo)概念。例如用戶(hù)在查詢(xún)中增加“豪華”詞項(xiàng)后,如果沒(méi)有指明產(chǎn)品類(lèi)別,系統(tǒng)將嘗試從Desire中追溯此次會(huì)話(huà)可能指代的產(chǎn)品類(lèi)別,查詢(xún)的構(gòu)造將作為Goal更新的依據(jù)。

      基于JADEX平臺(tái)的Agent需要初始化自身的Belief,加載產(chǎn)品數(shù)據(jù)和語(yǔ)義詞典,執(zhí)行期間動(dòng)態(tài)更新上下文數(shù)據(jù)及其特征。JADEX平臺(tái)可通過(guò)Java 注解配置Agent的Belief、Goal和Plan的配置。其中不同Goal類(lèi)型如表4所示。

      表4 JADEX中Goal的分類(lèi)及含義[2]

      同一行程下的用戶(hù)查詢(xún)會(huì)綁定一個(gè)會(huì)話(huà)ID,每個(gè)Agent對(duì)應(yīng)一個(gè)會(huì)話(huà),設(shè)定超時(shí)時(shí)間,非活動(dòng)的Agent會(huì)定期銷(xiāo)毀,降低內(nèi)存負(fù)擔(dān)。新啟動(dòng)的Agent將生成一個(gè)與之對(duì)應(yīng)的頂層Achieve Goal。對(duì)于旅游產(chǎn)品搜索應(yīng)用中的每一個(gè)頂級(jí)Achieve Goal,其目標(biāo)在于檢索出與用戶(hù)查詢(xún)特征最相似的N個(gè)產(chǎn)品。頂級(jí)Achieve Goal下,關(guān)聯(lián)了以下Goal和Plan:1) Maintain Goal用于維持當(dāng)前查詢(xún)的產(chǎn)品類(lèi)型,根據(jù)會(huì)話(huà)信息增加例如查詢(xún)產(chǎn)品種類(lèi)限制,提高檢索效率;2) 抽象查詢(xún)Plan,執(zhí)行動(dòng)作為查詢(xún)旅游產(chǎn)品Plan;3) 產(chǎn)品Plan,每個(gè)產(chǎn)品Plan對(duì)應(yīng)一個(gè)產(chǎn)品,執(zhí)行動(dòng)作為返回其對(duì)應(yīng)的旅游產(chǎn)品。檢索旅游產(chǎn)品Plan的方法使用基于MinHash的語(yǔ)義特征相似度??紤]性能問(wèn)題,使用語(yǔ)義特征相似度方法計(jì)算時(shí),降低了產(chǎn)品數(shù)量維度數(shù),減少相似度計(jì)算時(shí)間消耗。

      4 實(shí)驗(yàn)與評(píng)價(jià)

      本文實(shí)現(xiàn)的基于BDI的旅游產(chǎn)品語(yǔ)義搜索將用戶(hù)加入行程單中的產(chǎn)品,即當(dāng)前行程安排作為上下文,可以獲得更適應(yīng)上下文的搜索結(jié)果。為驗(yàn)證有效性,本文參考文獻(xiàn)[18]總結(jié)的搜索評(píng)價(jià)指標(biāo),從前K項(xiàng)準(zhǔn)確率、召回率等進(jìn)行對(duì)比,并結(jié)合實(shí)驗(yàn)結(jié)果和本文方法流程特點(diǎn)進(jìn)行分析總結(jié)。

      本文使用模擬用戶(hù)的實(shí)驗(yàn)方法,數(shù)據(jù)來(lái)源如下:

      1) 旅游產(chǎn)品數(shù)據(jù)來(lái)自旅游集散網(wǎng)(Travelhub.cn)。

      2) 標(biāo)準(zhǔn)行程來(lái)自馬蜂窩(Mafengwo.cn)等旅游攻略網(wǎng)站。

      其中各類(lèi)旅游產(chǎn)品數(shù)據(jù)總量27 676項(xiàng),標(biāo)準(zhǔn)行程收集5組。本文將行程單內(nèi)容與旅游產(chǎn)品數(shù)據(jù)ID匹配,隨機(jī)選取行程單產(chǎn)品的特征詞,模擬構(gòu)造了10組查詢(xún)項(xiàng),將搜索到的“可接受”產(chǎn)品作為準(zhǔn)確結(jié)果。上下文的構(gòu)建則隨機(jī)選取行程中的其他旅游產(chǎn)品及其“忽略”產(chǎn)品用于ID3上下文特征決策樹(shù)訓(xùn)練。通過(guò)真實(shí)的標(biāo)準(zhǔn)行程構(gòu)造模擬用戶(hù)搜索上下文,對(duì)搜索的準(zhǔn)確率、召回率進(jìn)行測(cè)試,步驟如下:

      1) 收集行程單。將特定行程點(diǎn)上標(biāo)準(zhǔn)旅游產(chǎn)品的可替代產(chǎn)品記為“可接受”產(chǎn)品。其中可替代旅游產(chǎn)品限制為與標(biāo)準(zhǔn)旅游產(chǎn)品特征項(xiàng)Jaccard相似度大于0.3,旅游產(chǎn)品所在地距離不超過(guò)30公里。其他30公里內(nèi)的同類(lèi)產(chǎn)品記為“忽略”產(chǎn)品,用于模擬上下文。

      2) 分別使用基于Jaccard相似度的語(yǔ)義搜索和使用BDI Agent的方法中下文的語(yǔ)義搜索進(jìn)行查詢(xún)。本文將對(duì)比傳統(tǒng)Jaccard的相似度與BDI Agent方法。

      3) 根據(jù)特定的行程,分析前K項(xiàng)搜索結(jié)果,屬于“可接受”產(chǎn)品的作為準(zhǔn)確結(jié)果。

      由于用戶(hù)對(duì)排序靠前的搜索結(jié)果更關(guān)心,本文對(duì)K=15時(shí)的檢索結(jié)果進(jìn)行比對(duì)分析,考慮到查詢(xún)項(xiàng)對(duì)準(zhǔn)確率召回率存在影響,取每組查詢(xún)項(xiàng)的最好結(jié)果,見(jiàn)表5所示。

      表5 基于Jaccard相似度和基于BDI Agent搜索結(jié)果比對(duì)

      續(xù)表5

      根據(jù)以上結(jié)果,下文將從兩個(gè)角度分析本文所實(shí)現(xiàn)的BDI語(yǔ)義搜索Agent:1)從實(shí)驗(yàn)結(jié)果分析傳統(tǒng)語(yǔ)義搜索和上下文增強(qiáng)的BDI語(yǔ)義搜索實(shí)際效果;2)從流程上分析BDI語(yǔ)義搜索和傳統(tǒng)上下文處理方法的區(qū)別和優(yōu)勢(shì)。

      從實(shí)驗(yàn)結(jié)果來(lái)看,在K=15時(shí),基于BDI的語(yǔ)義搜索相比傳統(tǒng)語(yǔ)義搜索在大多數(shù)情況下具有更高的準(zhǔn)確率和召回率。因此通過(guò)動(dòng)態(tài)上下文語(yǔ)義,基于BDI的語(yǔ)義搜索可改善產(chǎn)品傳統(tǒng)語(yǔ)義搜索的準(zhǔn)確率和召回率。

      從流程上來(lái)看,基于BDI的語(yǔ)義搜索通過(guò)用戶(hù)搜索旅游產(chǎn)品過(guò)程中,行程單中的記錄項(xiàng)目的上下文內(nèi)容實(shí)時(shí)生成Desire特征,相比規(guī)則推理的方法,動(dòng)態(tài)生成Desire而不依賴(lài)用戶(hù)顯式輸入和大量規(guī)則庫(kù),具有較好的體驗(yàn),便于維護(hù)。相比基于機(jī)器學(xué)習(xí)的上下文處理方法,由于上下文數(shù)據(jù)量不大,可以用于ID3決策樹(shù)的實(shí)時(shí)運(yùn)算,動(dòng)態(tài)性好;由于基于用戶(hù)對(duì)行程搜索項(xiàng)的選擇結(jié)果,上下文的來(lái)源具有針對(duì)性;相比其他BDI Agent方法,本文方法使用BDI增強(qiáng)了語(yǔ)義搜索,結(jié)合語(yǔ)義詞典消歧和MinHash相似度估算方法,不再局限于低維度的權(quán)重匹配,與語(yǔ)義技術(shù)緊密結(jié)合。

      總體來(lái)看,BDI語(yǔ)義搜索相比其他方法,將動(dòng)態(tài)上下文和語(yǔ)義搜索緊密結(jié)合,改善了語(yǔ)義搜索對(duì)動(dòng)態(tài)上下文的支持,提高了精準(zhǔn)度。

      5 結(jié) 語(yǔ)

      傳統(tǒng)上下文處理技術(shù)對(duì)動(dòng)態(tài)上下文支持不夠,較難與語(yǔ)義搜索在不同動(dòng)態(tài)上下文場(chǎng)景下緊密結(jié)合,以滿(mǎn)足用戶(hù)對(duì)搜索體驗(yàn)的智能化需求。

      本文結(jié)合筆者參與的數(shù)字旅游項(xiàng)目需求,提出的基于BDI的語(yǔ)義搜索方法。該方法對(duì)傳統(tǒng)語(yǔ)義搜索加以改進(jìn),使用BDI Agent實(shí)現(xiàn)適用于動(dòng)態(tài)上下文的語(yǔ)義搜索。該方法將檢索內(nèi)容與動(dòng)態(tài)上下文作為Agent的Belief,使用語(yǔ)義詞典,從語(yǔ)義和業(yè)務(wù)維度出發(fā),推理上下文特征和檢索目標(biāo)作為 Desire,以MinHash語(yǔ)義相似度計(jì)算作為Intention選擇依據(jù)進(jìn)行語(yǔ)義搜索。本文基于一種開(kāi)源BDI Agent實(shí)現(xiàn)JADEX,開(kāi)發(fā)了基于BDI語(yǔ)義搜索的旅游產(chǎn)品語(yǔ)義搜索模塊??紤]旅游產(chǎn)品的業(yè)務(wù)特點(diǎn),將旅游行程安排作為動(dòng)態(tài)上下文,通過(guò)語(yǔ)義相似度匹配旅游產(chǎn)品,實(shí)驗(yàn)表明搜索準(zhǔn)確率相比僅使用語(yǔ)義相關(guān)性搜索方法明顯提高,且利用BDI Agent架構(gòu)特點(diǎn)改善了傳統(tǒng)上下文處理方法對(duì)語(yǔ)義技術(shù)和上下文動(dòng)態(tài)性支持不足的問(wèn)題,具有應(yīng)用意義。

      后續(xù)工作中,我們將補(bǔ)充完善上下文內(nèi)容和領(lǐng)域語(yǔ)義詞典,針對(duì)其他業(yè)務(wù)規(guī)則因素進(jìn)行擴(kuò)展,如旅游中的天氣因素,季節(jié)因素,以及行程的路徑規(guī)劃等,使BDI的語(yǔ)義搜索能更智能地融入數(shù)字旅游應(yīng)用中。

      [1] CNNIC. 中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告[R]. 2014.

      [2] Lars Braubach. JADEX Overview [EB/OL]. [2014-06-23]. http://www.activecomponents.org/bin/view/Documentation/Overview.

      [3] Sullivan D. Google Launches Knowledge Graph to Provide Answers, Not Just Links [EB/OL]. [2013-04-20]. http://searchengineland.com/google-launches-knowledge-graph-121585.

      [4] Paiva S, Ramos-Cabrer M, Gil-Solla A. GSSP-A generic Semantic Search Platform[J]. Procedia Technology, 2012, 5(1):388-396.

      [5] Jihyun Lee, Jeong Hoon Park, Myung Jae Park, et al. An Intelligent Query Processing for Distributed Ontologies[J].The Journal of Systems & Software, 2009, 83(1):85-95.

      [6] Anthony Ha. Kngine Aims To Build A Natural Language-Driven App That Can Answer Any Question[EB/OL]. [2012-11-30]. http://techcrunch.com/2012/11/30/kngine/.

      [7] 田萱, 李冬梅. 上下文檢索研究綜述[J]. 計(jì)算機(jī)科學(xué), 2011,38(9):18-24.

      [8] Shen X, Tan B, Zhai C. Implicit User Modeling for Personalized Search[C]//Proceedings of the 14thACM International Conference on Information and Knowledge Management, 2005:824-831.

      [9] White R W, Jose J M, Ruthven I. An Implicit Feedback Approach for Interactive Information Retrieval[J]. Information Processing and Management, 2004, 42(1):166-190.

      [10] 馬瑞新, 鄧貴仕, 王曉. 基于擴(kuò)散理論的HITS算法在Web挖掘中的研究與優(yōu)化[J]. 計(jì)算機(jī)應(yīng)用研究, 2012, 29(1):145-147.

      [11] 林俊, 杜軍平. 智能旅游行程導(dǎo)航系統(tǒng)[J]. 計(jì)算機(jī)應(yīng)用,2009, 29(1):369-371.

      [12] Celik D, Elgi A, A Semantic Search Agent Approach: Finding Appropriate Semantic Web Services based on User Request Term[C]//Proceedings of ITI 3rdInternational Conference on Information and Communications Technology, 2005:675-687.

      [13] Anand S Rao, Michael P Georgeff. Modeling Rational Agents within a BDI-Architecture[C]//Proceedings of the 2ndInternational Conference on Principles of Knowledge Representation and Reasoning, 1991:473-484.

      [14] Anand S Rao, Michael P George. BDI Agents: From Theory to Practice[C]//Proceedings of the 1stInternational Conference on Multi-Agent Systems, 1995:312-319.

      [15] Ana Casali, Llu′is Godo. Modeling Travel Assistant Agents: a Graded BDI Approach[J]. Artificial Intelligence in Theory and Practice, 2006, 217(1):415-424.

      [16] 周豐. 面向需求的用戶(hù)建模及服務(wù)推薦研究[D]. 上海. 復(fù)旦大學(xué),2014.

      [17] 孫海霞, 錢(qián)慶, 成穎. 基于本體的語(yǔ)義相似度計(jì)算方法研究綜述[J].現(xiàn)代圖書(shū)情報(bào)技術(shù), 2010,26(1):51-56.

      [18] Stefan Buttcher, Charles L A Clarke, Gordon V Cormack. Information Retrieval, Implementation and Evaluation Search Engines [M]. China Machine Press, 2012.

      [19] 林良益. 中文分詞庫(kù)IK Analyzer[EB/OL]. [2015-01-21].http://www.oschina.net/p/ikanalyzer/.

      BDI-BASED SEMANTIC SEARCH AND ITS APPLICATIONS IN E-TOURISM

      Chen HaoLi YinshengShen Jianping

      (SchoolofSoftware,FudanUniversity,Shanghai201203,China) (NationalEngineeringLabofEcommerceTechnologies,Shanghai201203,China)

      Current context processing method does not support semantic technology very well, this leads to the limits of semantic search in both accuracy and intelligence. In this paper, we propose a BDI-based semantic search approach, it makes semantic description on dynamic context and uses BDI mechanism to optimise search results. The approach integrates user’s query and dynamic contexts with Belief in BDI framework, reasons the context features through products feature semantics and business semantics, and searches objects features as agent’s Desire, finally it calculates the candidate Intention order through MinHash-based semantic similarity. In combination with the requirement of project, we develop the search system of tourism products in environment of open source BDI Agent of JADEX engine, the system is based on the above mentioned semantic search. Through ID3 decision tree the system extracts context features of current itinerary of users to implement the semantic search function. Experiment shows that the search accuracy of the approach improved significantly relative to the search methods only using semantic similarity, it can satisfy the demand of tourism products search.

      Belief-desire-intention (BDI)Semantic searchContext

      2015-03-15。國(guó)家科技支撐計(jì)劃項(xiàng)目(2012BAH18F06)。陳昊,碩士生,主研領(lǐng)域:電子商務(wù)。李銀勝,副教授。沈劍平,博士生。

      TP3

      A

      10.3969/j.issn.1000-386x.2016.08.007

      猜你喜歡
      詞典語(yǔ)義特征
      語(yǔ)言與語(yǔ)義
      米沃什詞典
      文苑(2019年24期)2020-01-06 12:06:50
      如何表達(dá)“特征”
      不忠誠(chéng)的四個(gè)特征
      評(píng)《現(xiàn)代漢語(yǔ)詞典》(第6版)
      抓住特征巧觀察
      詞典例證翻譯標(biāo)準(zhǔn)探索
      “上”與“下”語(yǔ)義的不對(duì)稱(chēng)性及其認(rèn)知闡釋
      認(rèn)知范疇模糊與語(yǔ)義模糊
      線(xiàn)性代數(shù)的應(yīng)用特征
      河南科技(2014年23期)2014-02-27 14:19:15
      高淳县| 渭南市| 萨迦县| 禹州市| 孙吴县| 安顺市| 兴业县| 宁陵县| 张掖市| 万山特区| 凉山| 盐边县| 浦江县| 农安县| 保山市| 库尔勒市| 凉山| 新余市| 乳山市| 安吉县| 淮南市| 和龙市| 吐鲁番市| 兴国县| 林周县| 古田县| 吉安县| 赫章县| 伽师县| 永州市| 黄陵县| 沂源县| 东乡族自治县| 丹棱县| 华亭县| 秦安县| 红桥区| 大兴区| 镇赉县| 宁南县| 隆昌县|