林艷芳
(中國移動通信集團設計院有限公司重慶分公司,重慶 401121)
物聯(lián)網(wǎng)物(Internet of Things,IoT)理實體的數(shù)據(jù)搜索服務通常根據(jù)設備和用戶在任何時間及地點的需求而進行設計。數(shù)據(jù)質(zhì)量、搜索延遲、可信任性、可訪問性、可靠性與連續(xù)性是影響物聯(lián)網(wǎng)實體數(shù)據(jù)和服務的高效搜索與訪問的關(guān)鍵。然而,物聯(lián)網(wǎng)的當前數(shù)據(jù)和服務搜索、發(fā)現(xiàn)以及訪問方法與解決方案更適合于小批量、靜態(tài)的數(shù)據(jù)和服務資源。BI Intelligence的數(shù)據(jù)表明,2015年,物聯(lián)網(wǎng)感知設備的數(shù)量已超過智能手機、個人電腦,到2020年,其數(shù)量將突破240億。IDC預計,到2020年全球物聯(lián)網(wǎng)感知設備數(shù)量將達到250億。隨著物聯(lián)網(wǎng)感知資源的大規(guī)模部署,我們將面臨異構(gòu)性、復雜性以及數(shù)據(jù)量方面不同的物聯(lián)網(wǎng)生態(tài)系統(tǒng)。從各種感知資源中有效地發(fā)現(xiàn)、排序、選擇、訪問、融合以及對數(shù)據(jù)和服務產(chǎn)生理解,需要網(wǎng)絡、數(shù)據(jù)/服務提供商的搜索引擎在適當?shù)臅r間選擇適當?shù)母兄Y源。物聯(lián)網(wǎng)環(huán)境的分布式、規(guī)?;?、異構(gòu)性、多樣性、動態(tài)性意味著傳統(tǒng)的互聯(lián)網(wǎng)文本搜索模式將遠遠不適用于大規(guī)模物聯(lián)網(wǎng)物理實體信息的搜索。本文闡述了研究強大而全面的物聯(lián)網(wǎng)搜索解決方案的一些要求和挑戰(zhàn)。
互聯(lián)網(wǎng)早期的信息訪問和檢索主要依靠簡單的功能和方法。早期的搜索引擎基于Unix下的文字查詢功能,但并無排序的機制。其中一些早期的搜索引擎甚至用縮小搜索框的大小以阻止用戶添加更多關(guān)鍵字,以便在高峰時間減少服務器的負載(顯然,輸入更多的關(guān)鍵字增加了搜索復雜性)?;ヂ?lián)網(wǎng)在過去二十年中取得了長足的進步,盡管目前信息搜索的能力不斷發(fā)展,但是一些復雜的方法和解決方案提供了對大量信息進行索引、排序、搜索的能力。新一代的Web搜索引擎專注于信息抽取和個性化定制知識的抽取技術(shù)。盡管使用大量背景知識(即知識圖譜)的語義搜索,如瀏覽個性化的廣告第一次可以追溯到2000年,但這種方法也僅僅在過去幾年成為主流。一些由結(jié)構(gòu)化數(shù)據(jù)和知識圖譜驅(qū)動的搜索服務成為互聯(lián)網(wǎng)搜索服務商的主營業(yè)務。
物聯(lián)網(wǎng)演進的下一步是從物理世界中更好地收集并發(fā)布多模、多源物理實體信息。這要求機器以對話方式反映用戶的信息需求,或基于情境信息(例如時間,位置和類型),而不是用戶在搜索框中簡單地鍵入關(guān)鍵字。原始數(shù)據(jù)通常也需要從不同的來源集成,并進一步分析以提取信息與知識(而不是呈現(xiàn)原始觀察和測量結(jié)果)。圖1展示了物聯(lián)網(wǎng)數(shù)據(jù)發(fā)現(xiàn)場景。在圖1中,數(shù)據(jù)需要在索引/發(fā)現(xiàn)服務器上索引并發(fā)布,搜索與發(fā)現(xiàn)機制應能夠基于情境信息發(fā)現(xiàn)物理實體相關(guān)數(shù)據(jù)。
過去,網(wǎng)絡搜索引擎被用于處理和索引網(wǎng)頁信息?,F(xiàn)在,搜索引擎可能還需處理海量的物聯(lián)網(wǎng)設備產(chǎn)生的數(shù)據(jù)。在查詢時,描述感知設備提供的數(shù)據(jù)信息將使搜索引擎能夠找到數(shù)據(jù)的來源。這樣的數(shù)據(jù)無法預測,但數(shù)據(jù)的參數(shù)和上下文可以被注冊和索引。例如,索引服務器可以包含有關(guān)數(shù)據(jù)源及其提供者的信息。最近,Schema.org的研究表明:若內(nèi)容開發(fā)人員能夠描述數(shù)據(jù)的信息,則有助于搜索引擎表征數(shù)據(jù)并快速匹配用戶查詢。對于物聯(lián)網(wǎng)而言,需要研究一個類似的解決方案,除了描述內(nèi)容(數(shù)據(jù))之外,還需要描述數(shù)據(jù)源的信息(即設備和網(wǎng)絡信息)。使用基于語義Web方法的Linked Open Data可以很好地解決這個問題。W3C的語義傳感器網(wǎng)絡孵化器組及其后續(xù)的W3C Web空間數(shù)據(jù)工作組(www.w3.org/2015/spatial)也在數(shù)據(jù)的描述方面取得了一些研究成果。
圖1 物聯(lián)網(wǎng)數(shù)據(jù)發(fā)現(xiàn)框架
物聯(lián)網(wǎng)在感知設備、通信協(xié)議以及物理世界實體對象與當前互聯(lián)網(wǎng)Web架構(gòu)的集成方面取得了越來越大的進步。在不久的將來,物聯(lián)網(wǎng)將真正成為互聯(lián)網(wǎng)的內(nèi)在延伸。通過使用底層網(wǎng)絡和通信技術(shù),用戶將可以通過互聯(lián)網(wǎng)與物理世界實體進行交互。圖2顯示了一個物聯(lián)網(wǎng)框架,其中包含各種傳感器設備以及可通過社交媒體和其他應用程序發(fā)布的用戶和群智感知信息。數(shù)據(jù)可以由各種設備(圖中的無線傳感器網(wǎng)絡)以及其他智能設備(圖中的網(wǎng)絡使能設備),應用程序和社交媒體流提供。數(shù)據(jù)可以由網(wǎng)關(guān)和其他中間件組件直接發(fā)布或中繼。索引和發(fā)現(xiàn)服務將能夠讀取數(shù)據(jù)提供者的參數(shù)和屬性,并創(chuàng)建高效、分布式、可擴展的解決方案,以查找、發(fā)現(xiàn)和訪問數(shù)據(jù)。查詢可由用戶、應用程序和其他需要根據(jù)不同標準(如位置、時間)獲取數(shù)據(jù)的設備發(fā)起。
然而,目前的物聯(lián)網(wǎng)信息訪問和檢索方法仍處于20世紀90年代后期互聯(lián)網(wǎng)文本搜索階段。大規(guī)模物聯(lián)網(wǎng)的信息檢索基于這樣一種假設:設備和消費者知道信息的來源,以便查找其他相關(guān)資源并與之交互。例如,Google的Physical Web項目(http://google.github.io/physical-web)也是基于此假設而設計。Physical Web在自動駕駛、車輛與基礎(chǔ)設施通信等場景中具有極大的應用前景。然而,物聯(lián)網(wǎng)系統(tǒng)還需要在環(huán)境監(jiān)測、智慧城市和災難應急等場景中搜索和發(fā)現(xiàn)大型分布式網(wǎng)絡中的資源。
最近,研究人員為IoT設備、服務及其數(shù)據(jù)的(語義)注釋和描述提供了解決方案。然而,大多數(shù)這些方法依賴于集中式解決方案和復雜的查詢機制,這些機制阻礙了復雜的物聯(lián)網(wǎng)系統(tǒng)的可擴展性及大規(guī)模部署與應用的潛力。Shodan(www.shodan.io)和Thingful(http://thingful.net)等一些正在進行中的研究項目為物聯(lián)網(wǎng)搜索提供了解決方案。但是,它們主要依賴于集中索引和用戶手動提供數(shù)據(jù)的元數(shù)據(jù)信息,這些元數(shù)據(jù)的描述能力非常有限(如傳感器的位置描述無法依據(jù)位置變化而改變)。目前的方法無法解決用戶諸如搜索“北京市的交通傳感器”等搜索問題,并且在搜索語義化方面還有很長的路要走。