楊 震,夏 艷,陳曉勤
(中國(guó)電信股份有限公司上海研究院 上海200122)
電信運(yùn)營(yíng)商在轉(zhuǎn)型過程中一直謀求在增值服務(wù)領(lǐng)域進(jìn)行突破。信息服務(wù)從接入平臺(tái)看有傳統(tǒng)互聯(lián)網(wǎng) (寬帶internet)、移動(dòng)互聯(lián)網(wǎng)(含客戶端)、話音、短信4大渠道,其中傳統(tǒng)互聯(lián)網(wǎng)的信息服務(wù)模式最為成熟,而移動(dòng)互聯(lián)網(wǎng)的信息服務(wù)模式還在探索和發(fā)展階段,話音信息服務(wù)渠道歷史最為悠久,也是目前可見的、運(yùn)營(yíng)商可以發(fā)力的渠道。如何在新形式和技術(shù)背景下,把先進(jìn)的信息技術(shù)引入到話音信息服務(wù)平臺(tái),從技術(shù)實(shí)現(xiàn)和業(yè)務(wù)研發(fā)角度為話音信息服務(wù)注入新活力是值得探索的問題。
中國(guó)電信集團(tuán)公司以號(hào)碼百事通為主導(dǎo),在話音信息服務(wù)平臺(tái)進(jìn)行了轉(zhuǎn)型業(yè)務(wù)的探索,幾年以來取得了不俗的成績(jī),其中不但有業(yè)務(wù)模式的創(chuàng)新,更重要的是在傳統(tǒng)話音“114”信息服務(wù)平臺(tái)上引入搜索引擎的思想,使用先進(jìn)的搜索引擎技術(shù)手段整合信息資源,開發(fā)并升級(jí)適合于增值話音信息服務(wù)平臺(tái)的信息查詢系統(tǒng),為用戶提供更精準(zhǔn)的信息服務(wù),無疑是一個(gè)亮點(diǎn)。
隨著互聯(lián)網(wǎng)的發(fā)展,搜索引擎技術(shù)和應(yīng)用逐步占據(jù)互聯(lián)網(wǎng)應(yīng)用的核心,以Google為代表的搜索引擎引領(lǐng)了互聯(lián)網(wǎng)信息服務(wù)的發(fā)展方向。其主要特點(diǎn)是采集互聯(lián)網(wǎng)上不同網(wǎng)頁的信息,經(jīng)過信息加工、分析,提取網(wǎng)頁中的關(guān)鍵詞,之后建立關(guān)鍵詞和出現(xiàn)網(wǎng)頁的索引,供用戶進(jìn)行互聯(lián)網(wǎng)信息的搜索和使用。
但是面向互聯(lián)網(wǎng)非結(jié)構(gòu)化信息的搜索引擎設(shè)計(jì)方法如果不加改造,是不適用于話音信息服務(wù)平臺(tái)的,相比較而言,兩者有兩個(gè)顯著的差異點(diǎn)。第一,信息資源的差異:話音平臺(tái)的信息服務(wù)資源是可以通過人工整理并進(jìn)行設(shè)計(jì)的,是有限的、結(jié)構(gòu)化的,并且信息相對(duì)精煉。而互聯(lián)網(wǎng)信息是海量的、非結(jié)構(gòu)化的,數(shù)據(jù)量大且信息質(zhì)量難以控制;搜索引擎是利用網(wǎng)頁之間的鏈接及Pagerank技術(shù)進(jìn)行信息的評(píng)價(jià)和排序。因此,如何利用好話音平臺(tái)信息資源定義及整理的優(yōu)勢(shì),是話音平臺(tái)搜索引擎設(shè)計(jì)所必須考慮的問題。第二個(gè)差異是話音信息服務(wù)的用戶界面小,通過話音信息交互每次播報(bào)給用戶的查詢結(jié)果只有有限的幾條,要求結(jié)果十分準(zhǔn)確。而互聯(lián)網(wǎng)的搜索引擎是通過瀏覽器與用戶進(jìn)行信息交互,一頁有10條結(jié)果,用戶可以通過翻頁、調(diào)整關(guān)鍵詞自由地與引擎進(jìn)行交互,學(xué)習(xí)并適應(yīng)互聯(lián)網(wǎng)搜索引擎的特性,使搜索更加有針對(duì)性。因而話音平臺(tái)的信息服務(wù)的準(zhǔn)確率較互聯(lián)網(wǎng)信息服務(wù)要求更高,對(duì)搜索算法的設(shè)計(jì)更加苛刻。
在號(hào)碼百事通搜索引擎設(shè)計(jì)和開發(fā)之前,以“114”為代表的話音信息服務(wù)平臺(tái)是基于傳統(tǒng)數(shù)據(jù)思想進(jìn)行設(shè)計(jì)和開發(fā)的,是數(shù)據(jù)庫全文檢索。而傳統(tǒng)數(shù)據(jù)庫的發(fā)展是面向報(bào)表類信息,即物料的進(jìn)銷存而設(shè)計(jì)和發(fā)展的,把數(shù)據(jù)庫能力用于信息服務(wù)領(lǐng)域是其應(yīng)用的延伸,但是從本質(zhì)上講,其自身的局限性很難適應(yīng)號(hào)碼百事通這類苛刻的信息服務(wù)的需求。主要有以下局限性。
·不能很好地滿足模糊查詢需求:傳統(tǒng)的“114”信息查詢是一種編碼查詢,信息的排序也只是簡(jiǎn)單地依據(jù)拼音或是筆畫排序,這無法滿足越來越多的模糊的語義或同義詞查詢需求。另外編碼查詢座席的培訓(xùn)成本較高,且服務(wù)的種類、靈活性支持有限,信息服務(wù)擴(kuò)展能力不強(qiáng)。
·多字段組合查詢:數(shù)據(jù)庫全文檢索只是簡(jiǎn)單地把若干個(gè)字段信息進(jìn)行合并后的檢索,沒有考慮各個(gè)字段的信息定義及相互關(guān)系。而話音平臺(tái)的搜索引擎需要能夠利用話音平臺(tái)的結(jié)構(gòu)化信息定義,設(shè)計(jì)出符合信息表達(dá)本質(zhì)的聯(lián)合查詢算法,即考慮到關(guān)鍵詞在某個(gè)字段出現(xiàn)的情況,又考慮到這個(gè)字段的定義對(duì)于一條完整信息表達(dá)的貢獻(xiàn)度。
·信息搜索的精確性:信息搜索精準(zhǔn)的直觀表達(dá)即是信息的排序。由于話音信息服務(wù)平臺(tái)的特殊性,因此要求話音信息服務(wù)平臺(tái)的搜索引擎具備極高的查準(zhǔn)率,這樣不但適合每次只能播報(bào)幾條信息的苛刻要求,還能節(jié)省用戶獲取信息的時(shí)間。而傳統(tǒng)的“114”信息查詢只能實(shí)現(xiàn)基于拼音或是筆畫的排序,無法按照服務(wù)內(nèi)容的相關(guān)程度進(jìn)行排序。
·不能很好地實(shí)現(xiàn)各種業(yè)務(wù)模式:后向經(jīng)營(yíng)的業(yè)務(wù)模式,對(duì)報(bào)號(hào)(排序和播報(bào))提出很靈活的要求,如按次、天、概率進(jìn)行符合搜索需求的信息輪循排序,這點(diǎn)傳統(tǒng)數(shù)據(jù)庫支持能力也有限。
·不能很好地支持后向企業(yè)信息發(fā)布服務(wù):由于話音服務(wù)平臺(tái)的界面限制,要求信息發(fā)布更加具有針對(duì)性,使企業(yè)發(fā)布的信息有效地傳達(dá)到目標(biāo)用戶群。因此用戶信息需求特征的識(shí)別和發(fā)布信息的匹配顯得越發(fā)重要。
·不能很好地支撐經(jīng)營(yíng)分析:查詢用戶需求取向、被查詢客戶的客戶分析,各類排行榜和分布圖等原有系統(tǒng)都不支持。
·平臺(tái)并發(fā)能力弱:基于數(shù)據(jù)庫的信息查詢服務(wù),在大并發(fā)量和復(fù)雜業(yè)務(wù)模式下支持能力有限,查詢時(shí)間長(zhǎng)。
本文應(yīng)用搜索引擎基本原理和技術(shù),并考慮“114”信息服務(wù)的特點(diǎn),創(chuàng)新地提出了結(jié)構(gòu)化小文本搜索引擎的信息搜索系統(tǒng)和方法,對(duì)傳統(tǒng)“114”查號(hào)服務(wù)進(jìn)行改造提升,同時(shí)考慮了平臺(tái)后向商家信息發(fā)布的需求,從而打造出以話音為基礎(chǔ)的雙向綜合信息服務(wù)平臺(tái)。
為了克服傳統(tǒng)數(shù)據(jù)庫信息搜索方面的缺陷,本文引入基于內(nèi)容的信息檢索到話音服務(wù)系統(tǒng)中?;趦?nèi)容的信息檢索不只是簡(jiǎn)單地考慮是否包含某一個(gè)詞條,還要考慮這個(gè)詞條在文檔中的含義,可以有效去除那些對(duì)文檔內(nèi)容沒有貢獻(xiàn)但是與需要檢索詞條相同的文檔噪音(詞條);同時(shí),把話音信息服務(wù)平臺(tái)中信息的定義也考慮到檢索模型的設(shè)計(jì)中,因?yàn)槟P偷臉?gòu)造對(duì)基于內(nèi)容搜索的效率有重要的影響[1]。目前比較成熟的檢索模型主要有布爾邏輯模型、向量空間模型、概率推理模型等[2,3]。其中Salton等提出的向量空間模型相對(duì)較適用于話音服務(wù)信息平臺(tái)的需求。該模型將查詢條件和文檔分別抽象成多維向量空間中的向量,通過比較兩個(gè)向量之間的關(guān)系來判斷查詢與文檔的相似程度,再根據(jù)相似度的大小返回滿足條件的結(jié)果集合[4~9]。
通過發(fā)展向量空間模型,在模型的建立過程中考慮話音信息服務(wù)平臺(tái)結(jié)構(gòu)化信息的表達(dá)方式,考慮話音平臺(tái)信息的定義明確、信息資源文本量少、可計(jì)算參數(shù)少,但是服務(wù)針對(duì)性強(qiáng),服務(wù)種類相對(duì)可規(guī)范的特點(diǎn),最大限度地發(fā)揮話音平臺(tái)結(jié)構(gòu)化信息的優(yōu)勢(shì)。同時(shí)應(yīng)用服務(wù)的積累能力,完善模型的構(gòu)建及相關(guān)權(quán)值的計(jì)算。
本文中的結(jié)構(gòu)化是指話音信息服務(wù)平臺(tái)的信息是經(jīng)過整理和定義的,信息描述的各個(gè)維度是結(jié)構(gòu)化的,有定義的;而小文本是指信息包含的文本量少、精煉,按照傳統(tǒng)文本搜索計(jì)算模型的可計(jì)算參數(shù)相對(duì)較少??傮w設(shè)計(jì)思路是建設(shè)基于結(jié)構(gòu)化小文本搜索系統(tǒng),包括:
·結(jié)構(gòu)化小文本搜索算法設(shè)計(jì);
·結(jié)構(gòu)化小文本搜索引擎設(shè)計(jì)。
基于結(jié)構(gòu)化小文本的相關(guān)度計(jì)算模型如下。
假設(shè):一個(gè)關(guān)鍵詞d1經(jīng)過同義詞、近義詞擴(kuò)展后,獲得查詢的目標(biāo)向量為D′={d1,d2,…,dn},其中D′既是查詢向量,也是獲得的查詢結(jié)果需要匹配的查詢目標(biāo)向量,而dn是D′中第n個(gè)關(guān)鍵詞;x代表系統(tǒng)對(duì)一個(gè)關(guān)鍵詞的評(píng)價(jià)值,即權(quán)重,xn為對(duì)查詢目標(biāo)向量D′中第n個(gè)關(guān)鍵詞的評(píng)價(jià),則查詢目標(biāo)向量D′擴(kuò)展后為 D,表示為D={(d1,x1),(d2,x2),…,(dn,xn)}。在實(shí)際開發(fā)中,同義詞、近義詞擴(kuò)展,權(quán)重的評(píng)價(jià)值可以在服務(wù)過程中,根據(jù)話音信息服務(wù)平臺(tái)的特點(diǎn)逐步積累獲得。
檢索服務(wù)器基于查詢目標(biāo)向量D={(d1,x1),(d2,x2),…,(dn,xn)}在數(shù)據(jù)庫中查詢,獲得M條記錄,這些記錄的各個(gè)字段中或多或少地包含查詢擴(kuò)展之后的查詢目標(biāo)向量中的關(guān)鍵詞,其矩陣表示形式如下。
其中xnm代表第n個(gè)關(guān)鍵詞在第m條記錄中出現(xiàn),并且其對(duì)應(yīng)的權(quán)重為xnm。
設(shè)一條記錄有j個(gè)字段,按字段對(duì)查詢的貢獻(xiàn)程度,目前定義服務(wù)特征級(jí)、戶名級(jí)、地址級(jí)和其他級(jí)4個(gè)級(jí)別,并綜合計(jì)算。各個(gè)字段的貢獻(xiàn)程度以貢獻(xiàn)系數(shù)表示,分別為 α、β、ε、η,則:
其中 α+β+ε+η=1;1≥α>β>ε>η≥0;參數(shù)可以動(dòng)態(tài)調(diào)整。j1代表關(guān)鍵詞在服務(wù)特征字段出現(xiàn);j2代表關(guān)鍵詞在戶名字段出現(xiàn);j3代表關(guān)鍵詞在地址字段出現(xiàn);j4代表關(guān)鍵詞在其他字段出現(xiàn)。雖然在此給出的例子中僅使用了4個(gè)級(jí)別及其對(duì)應(yīng)的貢獻(xiàn)系數(shù)α、β、ε、η,但是根據(jù)實(shí)際需要,可以使用任意數(shù)量的級(jí)別及其對(duì)應(yīng)的貢獻(xiàn)系數(shù)。
在確定了xnm之后,查詢目標(biāo)向量D與第m個(gè)記錄Mm之間的相似度Y就可以計(jì)算了,例如取向量之間的夾角,相似度越大,兩個(gè)向量間的夾角越小,cos→1,計(jì)算式如下:
在實(shí)際使用過程中,可以根據(jù)實(shí)際情況,調(diào)整用于計(jì)算兩個(gè)向量之間的相似程度的數(shù)學(xué)公式,對(duì)于語義相對(duì)簡(jiǎn)單的情況可以采用歐式語義距離等簡(jiǎn)單公式。歐式語義距離是在進(jìn)行結(jié)構(gòu)化小文本相關(guān)度計(jì)算中采用的另一種計(jì)算公式,其來源于矩陣分析、模糊數(shù)學(xué),目的是計(jì)算多維空間中兩個(gè)向量的相似程度。本文中選取的具體應(yīng)用式子和其中關(guān)鍵參數(shù)的選擇都是根據(jù)號(hào)碼百事通搜索的具體需求而設(shè)計(jì)開發(fā)的。歐式語義距離計(jì)算公式如下:
其中A,B為被比較的兩向量,即查詢向量和查詢結(jié)果向量:A=(a1,a2,…,an)和B=(b1,b2,…,bn)。相似度由計(jì)算結(jié)果倒排序,由式(3)可見,與一個(gè)向量最相似的向量為其自身,相似度的計(jì)算結(jié)果為0。
應(yīng)用本搜索算法,可以根據(jù)座席的輸入,綜合考慮歷史服務(wù)經(jīng)驗(yàn)積累、被服務(wù)信息資源特征、系統(tǒng)語義理解能力及后臺(tái)各類相關(guān)業(yè)務(wù)的特征,計(jì)算出最符合用戶信息需求的目標(biāo)信息集合,以下是算例說明。
假設(shè)關(guān)鍵詞W,經(jīng)過搜索引擎擴(kuò)展后形成一組查詢關(guān)鍵詞,表示為W=(W1,W2,W3,W4),經(jīng)過后臺(tái)算法處理后,查詢目標(biāo)可表示為向量X,應(yīng)用搜索引擎技術(shù)在數(shù)據(jù)庫中搜索,一條查詢到的信息可以表示為向量Y,應(yīng)用歐式語義公式,計(jì)算兩個(gè)向量的相似度,相似程度的計(jì)算結(jié)果用來給查詢結(jié)果進(jìn)行排序。
首先,說明如何獲得量化的查詢向量和被查詢向量。
用戶查詢:請(qǐng)給我找一家廣東口味的菜館,有包房、停車位,可以用信用卡付款。
基本查詢關(guān)鍵詞的形成:座席人員可以根據(jù)用戶要求,提煉出查詢關(guān)鍵詞:廣東菜、停車位、信用卡,作為輸入關(guān)鍵詞進(jìn)行查詢。
經(jīng)過系統(tǒng)處理,查詢關(guān)鍵詞向量為如下:廣東菜、粵菜(粵菜為廣東菜同義詞,系統(tǒng)可自動(dòng)生成)、廣州菜(近義詞)、停車位、車位(同義詞)、免費(fèi)泊車(同義詞)、泊車(同義詞)、信用卡。
這樣系統(tǒng)就可以表示查詢向量W,查詢向量再經(jīng)數(shù)值化就可以形成計(jì)算向量X,數(shù)值化的過程系統(tǒng)根據(jù)一定的規(guī)則自動(dòng)完成。W={(廣東菜),(粵菜),(廣州菜),(包房),(停車位),(車位),(免費(fèi)泊車),(泊車),(信用卡)},X′={1.0,1.0,0.8,1.0,1.0,1.0,1.0,1.0,1.0}。
同時(shí),存在企業(yè)A,簡(jiǎn)要介紹如下:可容納300人同時(shí)就餐,高級(jí)包房,免費(fèi)停車,可用信用卡消費(fèi)。推薦菜譜:板栗煲老雞、百合鯽魚湯、里水金絲蝦、魚餃、炒糕。企業(yè)A的用戶信息經(jīng)過處理可以形成一列被比較的關(guān)鍵詞信息,即為被查詢信息,W′={(粵菜),(高級(jí)),(包房),…,(魚餃)}。
將被查詢信息與查詢向量進(jìn)行比較,取被查詢信息中與查詢向量相對(duì)應(yīng)的單元形成查詢結(jié)果向量。同時(shí),根據(jù)簽約情況和其他情況,為客戶的被查詢信息加權(quán)、數(shù)值化(系統(tǒng)可以根據(jù)設(shè)定自動(dòng)完成)。本算例中W′與查詢向量W進(jìn)行比較,取{(粵菜),(包房),(停車位),(信用卡)}4 個(gè)單元進(jìn)行信息比對(duì),再進(jìn)行數(shù)值化,形成被查詢向量的數(shù)學(xué)表達(dá)。
在實(shí)際的系統(tǒng)運(yùn)行中,首先是形成被查詢信息的索引信息,并且形成了相應(yīng)的權(quán)重系數(shù),完成整個(gè)搜索空間的構(gòu)建,然后查詢向量映射到這個(gè)搜索空間,進(jìn)行向量之間的比對(duì)計(jì)算。
最后,基于式(3)進(jìn)行被查詢信息與查詢向量之間的相似度計(jì)算。例如,省略其他計(jì)算步驟,經(jīng)過搜索引擎處理后一個(gè)查詢向量為X=(0.7,0.8,0.2,0.9),被查詢的數(shù)據(jù)庫記錄為兩條,處理后的被查詢向量為Y1=(0.6,0,0,0.5),Y2=(0.2,0.3,0.1,0.3),則應(yīng)用歐式語義距離公式計(jì)算的過程如下:
由計(jì)算結(jié)果可知,Y2與X相關(guān)程度要優(yōu)于Y1與X的相關(guān)程度。
系統(tǒng)將Y2首先返回給電信業(yè)務(wù)排序模塊以便根據(jù)電信相關(guān)的業(yè)務(wù)需求以靈活排序方式對(duì)查詢結(jié)果進(jìn)行排序,并根據(jù)排序后的結(jié)果將其提供給用戶。當(dāng)然,也可以直接將Y2返回關(guān)鍵詞查詢界面以便座席人員根據(jù)搜索結(jié)果與用戶進(jìn)行交流,使用戶獲得滿意的信息,之后進(jìn)行自動(dòng)話音報(bào)號(hào)。
結(jié)構(gòu)化小文本搜索引擎的核心是應(yīng)用歷史服務(wù)知識(shí)及搜索引擎面向服務(wù)對(duì)象的分析,進(jìn)行搜索知識(shí)的積累及應(yīng)用,包括搜索請(qǐng)求分析、搜索擴(kuò)展、相關(guān)度計(jì)算模塊等,如圖1所示,主要介紹如下。
結(jié)構(gòu)化小文本搜索引擎系統(tǒng)包括:
·業(yè)務(wù)層,負(fù)責(zé)對(duì)外與業(yè)務(wù)系統(tǒng)的接口定義,業(yè)務(wù)邏輯所需的關(guān)鍵參數(shù)的輸出;
·業(yè)務(wù)生成層,負(fù)責(zé)對(duì)搜索請(qǐng)求進(jìn)行分析,調(diào)用下層搜索引擎進(jìn)行搜索及實(shí)現(xiàn)相應(yīng)的搜索邏輯;
·基礎(chǔ)能力層,本層打包系統(tǒng)所需的各種基礎(chǔ)能力,如內(nèi)外部不同基礎(chǔ)搜索引擎或先進(jìn)系統(tǒng)的能力調(diào)用,并且可以提供搜索算法定制所需的各種基礎(chǔ)搜索元數(shù)據(jù)的存儲(chǔ)及調(diào)用;
·搜索服務(wù)數(shù)據(jù)及日志模塊,存儲(chǔ)搜索所需的各類數(shù)據(jù),根據(jù)搜索請(qǐng)求對(duì)外提供服務(wù),同時(shí)記錄服務(wù)過程中的各類日志;
·數(shù)據(jù)挖掘及分析模塊,主要提供各類對(duì)外服務(wù)報(bào)表,同時(shí)需要對(duì)服務(wù)日志進(jìn)行挖掘,挖掘結(jié)果反饋給搜索引擎優(yōu)化調(diào)整模塊進(jìn)行搜索引擎的優(yōu)化調(diào)整,如自動(dòng)擴(kuò)展模塊所需的同義詞等;
·支撐層,主要定義了搜索引擎業(yè)務(wù)邏輯的應(yīng)用開發(fā)接口,方便根據(jù)業(yè)務(wù)系統(tǒng)要求進(jìn)行搜索引擎的二次開發(fā)及算法的調(diào)整定制,此外還有標(biāo)準(zhǔn)數(shù)據(jù)接口及專用數(shù)據(jù)接口供搜索引擎服務(wù)引入外部數(shù)據(jù)進(jìn)行搜索服務(wù)。
對(duì)比傳統(tǒng)搜索引擎,本系統(tǒng)更加強(qiáng)調(diào)在服務(wù)數(shù)據(jù)的搜集、整理、提煉過程中的結(jié)構(gòu)化處理,以對(duì)搜索引擎進(jìn)行相應(yīng)的優(yōu)化。其中結(jié)構(gòu)化小文本的計(jì)算方法,即對(duì)文本類信息描述的實(shí)際應(yīng)用,使用結(jié)構(gòu)化方法確定一條信息的不同部分的小文本的描述集合對(duì)于這條信息表達(dá)和理解的作用的強(qiáng)弱關(guān)系。在信息搜索過程中,轉(zhuǎn)化關(guān)鍵詞查詢?yōu)橐唤M關(guān)鍵詞或是搜索特征組成的查詢向量。同時(shí),數(shù)據(jù)庫中被搜索信息根據(jù)數(shù)據(jù)模型的定義,也被表示成一組關(guān)鍵詞或信息特征組成的向量。這樣傳統(tǒng)數(shù)據(jù)庫關(guān)鍵詞的全文檢索,被轉(zhuǎn)化成兩組特征向量的相關(guān)度計(jì)算。根據(jù)結(jié)構(gòu)化小文本的計(jì)算,可以綜合算出許多數(shù)據(jù)庫全文檢索無法分辨的信息的排序關(guān)系,此方法有效地解決了話音服務(wù)平臺(tái)對(duì)于信息的排序問題,使撥打“114”的用戶信息需求和后臺(tái)信息收集的方法有效地對(duì)應(yīng)起來,方便信息的組織整理和應(yīng)用。應(yīng)用特征向量或其變體進(jìn)行信息查詢,還可以把服務(wù)信息的特征疊加到搜索引擎的設(shè)計(jì)及搜索服務(wù)過程中,方便地根據(jù)服務(wù)信息的種類和特性開發(fā)精準(zhǔn)的搜索服務(wù)。
傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)庫檢索,沒有把信息的結(jié)構(gòu)化定義的因素應(yīng)用到信息搜索服務(wù)中,本文在搜索算法及模型的構(gòu)建過程中考慮了服務(wù)信息的定義因素,在分析以“114”(號(hào)碼百事通)呼叫中心為代表的話音信息服務(wù)平臺(tái)服務(wù)、平臺(tái)信息組織、原有基于數(shù)據(jù)庫查詢系統(tǒng)特點(diǎn)的基礎(chǔ)上,結(jié)合語義搜索的最新進(jìn)展,提出基于可設(shè)定信息模型條件下的結(jié)構(gòu)化小文本搜索算法,在話音信息服務(wù)平臺(tái)上引入了搜索引擎的設(shè)計(jì)開發(fā)思想。
在此基礎(chǔ)上設(shè)計(jì)了以話音信息服務(wù)平臺(tái)為應(yīng)用領(lǐng)域的基于結(jié)構(gòu)化小文本搜索引擎的信息搜索系統(tǒng),為廣大電話用戶提供便捷的生活信息服務(wù)。更重要的是這種方式將搜索引擎的技術(shù)引入海量數(shù)據(jù)庫檢索中,可以積累搜索引擎應(yīng)用過程中產(chǎn)生的各種知識(shí),并應(yīng)用這些知識(shí)在未來的搜索過程中,提升了搜索能力和搜索效率。未來,結(jié)構(gòu)化小文本搜索引擎還需進(jìn)一步根據(jù)話音信息服務(wù)平臺(tái)資源類型及服務(wù)業(yè)務(wù)種類的特點(diǎn),細(xì)化結(jié)構(gòu)化數(shù)據(jù)的定義,構(gòu)建更加精確的算法模型,完善計(jì)算調(diào)用的邏輯及相關(guān)計(jì)算權(quán)值的動(dòng)態(tài)維護(hù)標(biāo)準(zhǔn)等。
1 楊震,夏艷等.基于結(jié)構(gòu)化小文本的號(hào)碼百事通搜索系統(tǒng)和方法.中華人民共和國(guó)國(guó)家知識(shí)產(chǎn)權(quán)局授權(quán)專利,ZL200710084911.7
2 吳立德.大規(guī)模中文文本處理.上海:復(fù)旦大學(xué)出版社,1997
3 Gudivada V N,Raghavan V V,et al.Information retrieval on the world wide Web.IEEE Internet Computing,1997,1(5):58~68
4 Salton G.A vector space model for automatic indexing.CACM,1975,18(11):613~620
5 黃萱菁,夏迎炬,吳立德.基于向量空間模型的文本過濾系統(tǒng).軟件學(xué)報(bào),2003,14(3):435~442
6 Wenlei Mao,Wesley W Chu.The phrase-based vector space model for automatic retrieval of free-text medical documents.Data&Knowledge Engineering,2007,61(1):76~92
7 龐劍鋒,卜東波,白碩.基于向量空間模型的文本自動(dòng)分類系統(tǒng)的研究與實(shí)現(xiàn).計(jì)算機(jī)應(yīng)用研究,2001,18(9):23~26
8 唐明偉,卞藝杰,陶飛飛.基于語義向量空間模型的文檔檢索系統(tǒng)研究.情報(bào)雜志,2010,29(5):167~170,177
9 邢軍,韓敏.基于兩層向量空間模型和模糊FCA本體學(xué)習(xí)方法.計(jì)算機(jī)研究與發(fā)展,2009,46(3):443~451