方濱興 中國工程院院士
搜索引擎毫無疑問是促進互聯(lián)網(wǎng)應用的一個重大支撐杠桿,撬動了巨量的互聯(lián)網(wǎng)市場。應該說,在互聯(lián)網(wǎng)任何應用中都離不開搜索引擎,不論是百度、360那樣的通用搜索引擎,還是淘寶網(wǎng)、新浪微博內(nèi)嵌的專用搜索引擎,都是支持互聯(lián)網(wǎng)應用不可缺少的基本要素。
隨著信息技術的不斷發(fā)展,搜索引擎也必將進入跨越式發(fā)展的階段。這一跨越式發(fā)展將受到大數(shù)據(jù)、物聯(lián)網(wǎng)、云計算、社交網(wǎng)絡、移動寬帶等新興信息技術的共同推動,使得搜索引擎不再是互聯(lián)網(wǎng)的專屬產(chǎn)物,還將進一步輻射到物聯(lián)網(wǎng)、社交網(wǎng)絡等應用載體中;它將會依托大數(shù)據(jù)處理技術,在云計算、寬帶移動網(wǎng)絡技術的支撐下,以為用戶提供解決方案的面目出現(xiàn)。由此,新的搜索引擎不僅能夠形成一種向網(wǎng)絡要智慧的應用模式,還能夠極大地促進物聯(lián)網(wǎng)產(chǎn)業(yè)的快速發(fā)展。這種技術,我們稱之為“大搜索”技術。
眾所周知,大數(shù)據(jù)是當前最為熱門的一個領域,它有五個被稱為“5V”的重要屬性,即規(guī)模巨大(Volume)、產(chǎn)生高速(Velocity)、形式多樣(Variety)、不確定性(Veracity)、潛在價值(Value)。其中,前四種屬性表明大數(shù)據(jù)處理所面對的挑戰(zhàn),而“潛在價值”才是人們對大數(shù)據(jù)技術追求的根本,因為發(fā)覺“潛在價值”是促進社會發(fā)展的一個重要手段。
潛在價值的發(fā)現(xiàn)依靠的是發(fā)掘技術。人們可以通過統(tǒng)計的手段來解決指定目標的發(fā)掘,例如研判哪只股票成長性最好;可以通過聚類的方法來解決沒有預期的發(fā)掘,例如網(wǎng)上突發(fā)了什么社會熱點;可以通過關聯(lián)技術來解決最佳方案的發(fā)掘,例如到哪里看急診最快。
從大數(shù)據(jù)中去發(fā)掘潛在價值成為企業(yè)所采取的重要手段,所產(chǎn)生的經(jīng)濟效益反映出其潛在價值所在。例如,亞馬遜的個性化推薦系統(tǒng),使得提前銷售額超過30%。但是,這僅限于在企業(yè)內(nèi)部,使用企業(yè)自己的數(shù)據(jù)及知識發(fā)掘系統(tǒng)來為企業(yè)自身提供服務。如果數(shù)據(jù)是開放的、知識發(fā)現(xiàn)能力也是通用的,可否就能將知識發(fā)掘作為一種服務提供給公眾呢?事實上,目前已經(jīng)存在類似的知識發(fā)掘服務,例如新浪微博的“知微”分析服務,就是利用自身的數(shù)據(jù)為公眾來提供知識發(fā)掘的服務。
目前搜索引擎的應用領域涉及三個方面。一是“存在性信息搜索”。如搜信息、商品、聯(lián)網(wǎng)設備、傳感設備、人物、物體位置、物流狀態(tài)、附近的人等。存在性搜索本質上是將已存在的、符合用戶需求的搜索結果提交給用戶,關鍵在于如何能夠給出最符合用戶需求的信息。二是“服務搜索”。如搜標準時間服務、指定地域氣象服務、指定機票服務、當日匯率服務、指定股票走向服務、特定游戲服務、特定視頻節(jié)目播放服務等。服務搜索是以“盡力而為”為原則,通過匯集大量“服務”的方式,在用戶提出搜索需求時,首先判斷這個需求是否和系統(tǒng)服務庫之中的某個服務對應上,如果能對應上,就為用戶啟動相應的服務。但所有服務都是確定的,不具有推理與知識發(fā)現(xiàn)的能力。三是“知識搜索”。如搜人際關系、作者關系、社會熱點、路徑規(guī)劃等。知識搜索是根據(jù)用戶的需求,為用戶提供答案。當然,答案的優(yōu)良與可信程度取決于搜索引擎的智能程度。
從大數(shù)據(jù)演變出來的知識發(fā)掘服務,到搜索引擎演變出來的知識搜索,兩者交匯到一起便形成了“基于搜索引擎的知識發(fā)現(xiàn)服務”,這就是“大搜索”?,F(xiàn)在的導航系統(tǒng),不僅有路徑規(guī)劃,還擁有交通流量信息,因此,可以根據(jù)實際路況來推薦更為合理、便捷的路徑,這就是“大搜索”要完成的事情。
那么,什么是“大搜索”?簡單地說,就是從泛在網(wǎng)(網(wǎng)絡空間)上獲取事件、人和物體等信息,針對物聯(lián)網(wǎng)和Web2.0/3.0應用模式及大數(shù)據(jù)價值發(fā)掘的需求,通過正確理解用戶意圖,在對網(wǎng)絡空間對象收集、建模和索引的基礎上,給出滿足用戶需求的智慧解答。
“大搜索”技術要解決的問題是用戶能夠到網(wǎng)絡空間中尋找智慧,求得解決方案。這就涉及到幾個技術要素,即如何在泛在網(wǎng)空間中獲取數(shù)量巨大、種類繁多的實體(人、物、事件),如何理解用戶的真實意圖,用戶意圖與實體之間的關系如何發(fā)現(xiàn)、如何關聯(lián)、如何構建為用戶需求來服務的知識結構。
本質上來說,“大搜索”技術體系主要包括五個核心要素。一是信息獲取能力。這是智慧的源泉,主要是在網(wǎng)絡空間中抓取所需要的信息,并形成大數(shù)據(jù)的管理結構。二是問題理解能力。這是智慧的推手,主要是解決情景感知、意圖理解,以進行必要的預處理。三是知識庫構建能力。這是智慧平臺,主要是進行多源綜合、構建搜索對象空間,并形成用戶搜索接口。四是提供解決方案的能力。這是智慧的體現(xiàn),主要是將知識發(fā)掘的結果以恰當?shù)男问匠尸F(xiàn)給用戶。五是安全保護能力。這是智慧的保障,主要是解決隱私保護等安全問題。類比大數(shù)據(jù),我們可以把“大搜索”的技術體系描述為“5S”,包括四個核心能力和一個重要保障。核心能力包括“泛網(wǎng)獲取(Sourcing)”、“用戶感知(Sensing)”、“多源綜合(Synthesizing)”、“智慧解答(Solution)”,重要保障是指“安全可信(Secure)”。
1)“泛網(wǎng)獲取”(Sourcing from Cyberspace)目的在于支持定向信息獲取。傳統(tǒng)的搜索引擎只是從互聯(lián)網(wǎng)上爬取網(wǎng)頁數(shù)據(jù);而“大搜索”則會根據(jù)給定的目標和任務,在泛在網(wǎng)絡的多通道中獲取包括人、物、事件、時間、空間等各類信息。
2)“用戶感知”(Sensing in Context)目的在于解決基于場景感知的意圖理解。傳統(tǒng)的搜索引擎只關心所提交的查詢詞;而“大搜索”則不僅能夠在語義級別上對用戶搜索意圖進行理解,還能根據(jù)用戶的時空位置、情緒狀態(tài)以及歷史偏好等來感知用戶的需求,并以恰當?shù)姆绞竭M行表示,提交給搜索引擎。
3)“多源綜合”(Synthesizing Multi-channel)目的在于構建搜索對象空間。傳統(tǒng)的搜索引擎只是根據(jù)PageRank給出最相關的結果;而“大搜索”則是從多模態(tài)數(shù)據(jù)(如位置、傳感器、交通、社交網(wǎng)絡等數(shù)據(jù))中進行關聯(lián)關系綜合,并構建由巨規(guī)模實體及關聯(lián)關系所構成的知識倉庫,同時,通過知識的迭代來形成相應的知識框架及索引體系,用以存儲和管理網(wǎng)絡知識,服務于為求解用戶智慧答案的知識索取。
4)“智慧解答”(Intellifent Solution)目的在于為用戶求解出智慧答案。傳統(tǒng)的搜索引擎僅提供符合用戶搜索要求的存在信息;而“大搜索”則可根據(jù)用戶的搜索意圖,基于知識倉庫對關聯(lián)的知識進行求解,通過推理演算形成若干個智慧綜合的解決方案,其能囊括涉及用戶需求的多層面要素,并將之以合適的方式提交給用戶。
“安全可信”(Secure&Trust)目的在于在搜索過程中進行必要的安全保護,主要包括5個層面。
1) 設備可靠。處理大規(guī)模數(shù)據(jù)涉及的設備眾多,設備可靠性成為“大搜索”安全的基礎問題。
2) 系統(tǒng)安全。一方面,“大搜索”平臺龐大的計算環(huán)境存在系統(tǒng)復雜、運行不穩(wěn)定的風險;另一方面,“大搜索”在進行數(shù)據(jù)分析過程中產(chǎn)生的知識和價值容易引發(fā)黑客攻擊;因此,“大搜索”涉及的系統(tǒng)需要完善安全機制。
3) 數(shù)據(jù)可信?!按笏阉鳌焙诵哪芰Φ膶崿F(xiàn)通常需要依賴云計算平臺的存儲和計算能力,因此,可能會出現(xiàn)數(shù)據(jù)被云服務商破壞和竊取的情況;同時“大搜索”數(shù)據(jù)來源的繁雜性,也使得對數(shù)據(jù)的合規(guī)性和真實性檢查成為必要。
4) 數(shù)據(jù)可溯源。傳統(tǒng)的搜索引擎只有簡單的信息過濾措施;而“大搜索”則可對數(shù)據(jù)來源進行確認,并對之進行標簽,以保證數(shù)據(jù)可溯源。
5) 訪問控制。大搜索是從泛在網(wǎng)絡的多通道上獲取各類多維信息,將大數(shù)據(jù)用于不同場景,因此,訪問控制需求十分突出。利用大搜索技術,根據(jù)大數(shù)據(jù)的密集程度和用戶的不同需求,對搜索結果進行細粒度的訪問控制,將數(shù)據(jù)和用戶設定為不同的權限等級,使受限制的信息不會被非授權所獲取,從而滿足多樣化的訪問控制需求。
6) 隱私保護。這是“大搜索”大量、多源特征引發(fā)的新問題。過去人們發(fā)布數(shù)據(jù)時只是簡單地隱藏部分敏感信息,但“大搜索”出現(xiàn)后,一些較為隱秘的信息都有可能被挖掘出來,因此,亟需更為先進、強大的技術手段,能夠在不侵犯用戶隱私的前提下對搜索數(shù)據(jù)進行有效地分析、開放和共享。
“大搜索”從搜索范圍來看,是從傳統(tǒng)的互聯(lián)網(wǎng)擴展到綜合互聯(lián)網(wǎng)、電信網(wǎng)與傳感網(wǎng)絡的泛在網(wǎng)絡空間中;從具體的搜索內(nèi)容來看,是從傳統(tǒng)的信息搜索擴展到人、事件、物體;從搜索的結果呈現(xiàn)方式來看,是從傳統(tǒng)順序給出的標量結果展示擴展到包含了時間序列、空間位置序列的向量展示模式;從安全防護重點來看,是從傳統(tǒng)的設備、系統(tǒng)安全擴展到數(shù)據(jù)可信、可溯源以及用戶隱私的保護。
“大搜索”的定義如下:在安全可信的前提下,根據(jù)一定的策略和方法,從包括互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、電信網(wǎng)的泛在網(wǎng)中實時、快速、精準地獲取各種物理實體、人物、信息等,針對Web2.0/3.0應用模式及大數(shù)據(jù)價值發(fā)掘的需求,具備洞察理解用戶搜索意圖的“智能”,能夠對網(wǎng)絡空間各種對象進行高效地組織和管理,包括對海量、多源、異構、多態(tài)、不確定的數(shù)據(jù)進行收集、建模和索引;具備為用戶構建盡可能符合用戶需求答案的智慧;能夠以“向量”的方式提供智慧解答。其具有以下特點:一是搜索內(nèi)容由信息擴展到了物體、信息和人物,從傳統(tǒng)搜索面對的虛擬世界擴展到了現(xiàn)實的物理世界;二是以智能的方式理解用戶意圖,以智慧的手段為用戶構建答案;三是搜索結果由標量結果變成了向量結果,即由原先的內(nèi)容呈現(xiàn)結果變成了內(nèi)容、時間、空間三個維度的結果呈現(xiàn)。