楊濤
摘要:本文描述了大數(shù)據(jù)時(shí)代下,在信息檢索領(lǐng)域可以延伸的前沿研究,基于人工智能技術(shù),對信息進(jìn)行處理、檢索的方法,對已有技術(shù)的分析介紹,以及存在問題的解決方案。
Abstract: This paper describes the frontier research that can be extended in the field of information retrieval in the era of big data, and the method of processing and retrieving information based on artificial intelligence technology, the introduction and analysis of existing technology, and the solution to the problem.
關(guān)鍵詞:大數(shù)據(jù);智能檢索
Key words: big data;intelligent retrieval
中圖分類號:TP18;TP311.13 ? ? ? ? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識碼:A ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文章編號:1006-4311(2019)10-0173-03
0 ?引言
至今,“大數(shù)據(jù)時(shí)代”的概念已經(jīng)不斷滲透進(jìn)我們的生活。最早提出“大數(shù)據(jù)時(shí)代”到來的公司麥肯錫稱:“數(shù)據(jù),已經(jīng)滲透到當(dāng)今每一個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)因素。人們對于海量數(shù)據(jù)的挖掘和運(yùn)用,預(yù)示著新一波生產(chǎn)率增長和消費(fèi)者盈余浪潮的到來”?!按髷?shù)據(jù)”這項(xiàng)概念數(shù)年前還不被人們所熟悉,雖然它在物理科學(xué)、生物醫(yī)學(xué)以及軍事金融等領(lǐng)域應(yīng)用許久,卻是因?yàn)榻鼛啄陙砘ヂ?lián)網(wǎng)和信息行業(yè)的飛速發(fā)展而引起人們的關(guān)注,“大數(shù)據(jù)”對信息檢索所產(chǎn)生的影響和意義是巨大的。
1 ?大數(shù)據(jù)下智能信息檢索技術(shù)
1.1 大數(shù)據(jù)
大數(shù)據(jù)下信息資源極其龐大并多樣化,而且還在不斷增長,以至于人們無法使用常規(guī)辦法在一定時(shí)間內(nèi)對其進(jìn)行管理的數(shù)據(jù)集合。大數(shù)據(jù)具有四個(gè)大的特點(diǎn),第一,大數(shù)據(jù)的種類繁多并且來源廣泛,已不僅限于某一種類型的數(shù)據(jù),當(dāng)前包括文本圖片視頻等多種類型,且在不斷增加;第二,大數(shù)據(jù)具有很強(qiáng)的時(shí)效性與真實(shí)性,隨著時(shí)間不斷增加改動(dòng);第三,大數(shù)據(jù)的體量巨大,從TB級別,躍升到PB級別;第四,由于其較大規(guī)模的特點(diǎn),不能采用陳舊的數(shù)據(jù)存儲(chǔ)分析方式。
1.2 人工智能
人工智能(Artificial Intelligence),簡稱AI,是當(dāng)前科學(xué)技術(shù)中發(fā)展最為前沿的一門學(xué)科,它被用來模擬、延伸和擴(kuò)展智能的理論、方法、技術(shù)以及應(yīng)用系統(tǒng)。這門學(xué)科涉及數(shù)學(xué)、計(jì)算機(jī)、心理學(xué)、哲學(xué)等多門學(xué)科,應(yīng)用領(lǐng)域廣泛,包括智能檢索、問題求解、專家系統(tǒng)、人工神經(jīng)網(wǎng)絡(luò)、自然語言理解、機(jī)器學(xué)習(xí)和模式識別等。它在信息檢索的領(lǐng)域主要包括自然語言理解ID3算法、神經(jīng)網(wǎng)絡(luò)算法、基于本體論的算法、遺傳算法等的智能檢索方法
1.3 信息檢索
信息檢索(Information Retrieval)指在信息系統(tǒng)中將已有信息按照一定的方式管理組織起來,并根據(jù)需求找出信息的過程。狹義的信息檢索主要指信息查詢,即用戶借助檢索工具是用一定的方法根據(jù)需要從信息集合中查找所需的查找過程。廣義的信息檢索是先將信息按一定的方式整理加工組織并存儲(chǔ)起來,再需要的時(shí)候進(jìn)行信息查詢的過程。下文所指信息檢索均為廣義的信息檢索[1]。
2 ?人工智能技術(shù)在信息檢索領(lǐng)域中的體現(xiàn)
智能檢索即人工智能技術(shù)在信息檢索中的應(yīng)用,它主要實(shí)現(xiàn)了可以通過用戶的信息來進(jìn)行信息的收集與處理,并在此過程中根據(jù)用戶的身份場景需求以及偏好篩選信息,當(dāng)用戶表現(xiàn)的查詢請求并不明確時(shí),系統(tǒng)即使用知識庫中的推理機(jī)制來推測用戶的可能需求并在多種需求中選擇出最適合的需求,實(shí)現(xiàn)對信息的存儲(chǔ)與檢索。
2.1 信息過濾技術(shù)
信息過濾技術(shù)又稱內(nèi)容過濾技術(shù),主要用于兩個(gè)方面,一是在信息檢索過程中對數(shù)據(jù)的過濾與查詢;二是對網(wǎng)絡(luò)內(nèi)容的管理,用于防范垃圾郵件、版權(quán)保護(hù)、病毒防護(hù)等領(lǐng)域。傳統(tǒng)的過濾實(shí)現(xiàn)比較簡單缺少靈活性,對匹配到的數(shù)據(jù)進(jìn)行直接篩選,無法結(jié)合全文分析語義。在人工智能技術(shù)下的智能過濾技術(shù)能夠識別文檔的內(nèi)容進(jìn)行語義的分析并智能化過濾篩選。
2.2 自然語言處理技術(shù)
自然語言處理是人工智能領(lǐng)域的一個(gè)重要研究方向,它研究人類的語言特點(diǎn),并將其應(yīng)用到計(jì)算機(jī)語言中,實(shí)現(xiàn)人與計(jì)算機(jī)的有效通信。使用復(fù)雜的語言規(guī)則嵌入在信息檢索系統(tǒng)中,可以識別可疑信息并判斷是否為垃圾信息,可以分析句子與全文的含義。
2.3 語音識別技術(shù)
語音識別技術(shù)涉及信號處理、模式識別、概率論和信息論、發(fā)聲機(jī)理和聽覺機(jī)理、人工智能等,是一種應(yīng)用廣泛的人工智能技術(shù),在信息檢索中起到了重要作用。它主要將人類復(fù)雜的語言進(jìn)行識別,過濾掉不必要的垃圾語言,提取有用語音信息,進(jìn)行信息檢索。在此過程中先將難以識別的信息單獨(dú)存儲(chǔ),在經(jīng)過對語音內(nèi)容的整體分析后,重新排列組合并檢索。
2.4 圖像識別與視頻檢索技術(shù)
圖像識別與視頻檢索技術(shù)也稱機(jī)器視覺,主要是使機(jī)器通過圖像攝取設(shè)備攝取目標(biāo)轉(zhuǎn)化為圖像信號,來得到目標(biāo)對象的特征、形態(tài)等信息。
每個(gè)圖像都有自己的特征,圖像識別技術(shù)便以圖像最主要的一些特征為基礎(chǔ)。生物研究表明人在識別圖像時(shí),視線往往集中在圖像的主要特征上,這些特征又往往是在圖像輪廓方向突然改變或曲度最大的地方,這些地方能夠獲取的信息最多最重要,并依據(jù)這些來分辨事物,而且眼睛的識別路線也有一定規(guī)律,它總是在特征上輪轉(zhuǎn),從一個(gè)特征到另一個(gè)特征[2]。正因如此,系統(tǒng)在識別過程前先要通過大量的數(shù)據(jù)在已有的經(jīng)驗(yàn)和基礎(chǔ)上利用計(jì)算機(jī)和數(shù)學(xué)的方法進(jìn)行學(xué)習(xí),此為學(xué)習(xí)階段,主要提取樣本的特征,找尋分類的規(guī)律,然后根據(jù)得到的分類規(guī)律對目標(biāo)樣本集攝取,進(jìn)行分類和識別,此為實(shí)現(xiàn)階段。
視頻檢索技術(shù)目前主要包括目標(biāo)檢測、目標(biāo)跟蹤、目標(biāo)識別、行為分析、基于內(nèi)容的視頻檢索和數(shù)據(jù)融合等五類,在檢索過程中分析視頻對象,計(jì)算它的顏色直方圖,并用運(yùn)動(dòng)跟蹤算法(KLT)對主要數(shù)據(jù)進(jìn)行跟蹤處理,而這所有的特征點(diǎn)構(gòu)成了特征向量。在視頻的各個(gè)片段中根據(jù)特征向量對其進(jìn)行分類與檢索。具體的工作流程分為五個(gè)階段:系統(tǒng)訓(xùn)練階段、視頻片段的聚焦、視頻片段的檢索、特征提取算法和用于分類和檢索的人工智能算法(包括反饋式人工神經(jīng)網(wǎng),自適應(yīng)匹配算法)。
3 ?智能技術(shù)在信息檢索的應(yīng)用方法
3.1 基于本體論
傳統(tǒng)方法使用的匹配關(guān)鍵字以及分類檢索的工具使用效果差強(qiáng)人意,而其根本原因在于這些方法都沒有深刻挖掘理解每個(gè)概念間的內(nèi)在聯(lián)系,對概念的理解只存在于表面。而本體論是對一個(gè)概念的精確表述,它的基本方法是用一組屬性來描述每條數(shù)據(jù)、信息或知識項(xiàng),這些屬性整合在一起就能夠描述信息的元模型、信息的內(nèi)容和信息的研究背景。本體論可用語義網(wǎng)絡(luò)來表示,其中網(wǎng)絡(luò)的一個(gè)節(jié)點(diǎn)代表一個(gè)概念,節(jié)點(diǎn)間的線代表了概念之間的關(guān)系,我們可以用以一個(gè)關(guān)系數(shù)據(jù)庫來管理存放一個(gè)本體論。在搜索過程中,有兩種搜索方式,分別為盲目搜索和啟發(fā)式搜索,盲目搜索即為以查找信息為根據(jù),直接進(jìn)行全內(nèi)容的檢索,而啟發(fā)式搜索充分應(yīng)用了人工智能的思想,在搜索求解過程中,依據(jù)問題本身的特性以及在搜索過程中不斷產(chǎn)生的一些信息來實(shí)時(shí)地調(diào)整或改變繼續(xù)搜索的方向,找到一個(gè)最適合的方向進(jìn)行查找,不僅使查詢過程加速,而且得到的解往往更優(yōu)[3]。
3.2 基于神經(jīng)網(wǎng)絡(luò)
神經(jīng)網(wǎng)絡(luò)是由生物大腦神經(jīng)元,細(xì)胞,觸點(diǎn)等組成的網(wǎng)絡(luò),用于產(chǎn)生生物的意識,幫助生物進(jìn)行思考和行動(dòng)。而現(xiàn)在人工智能一個(gè)巨大突破便是研究出了人工神經(jīng)網(wǎng)絡(luò),可以更智能的處理信息,其主要以生物的神經(jīng)網(wǎng)絡(luò)行為特征為例,使用分布式并行信息處理的方法,人工神經(jīng)網(wǎng)絡(luò)有大量的節(jié)點(diǎn)以及節(jié)點(diǎn)間的關(guān)系和權(quán)值,通過不斷的調(diào)整改進(jìn)權(quán)值,來更有效地處理信息。人工神經(jīng)網(wǎng)絡(luò)可以模擬人的形象思維模式,能夠大規(guī)模并行協(xié)同處理事務(wù),它具有較強(qiáng)的學(xué)習(xí)能力、容錯(cuò)力和聯(lián)想力。按網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)可以劃分為兩種:無反饋網(wǎng)絡(luò)和反饋網(wǎng)絡(luò),反饋網(wǎng)絡(luò)的學(xué)習(xí)能力相對更強(qiáng)。區(qū)別在于用戶在使用瀏覽器進(jìn)行查詢過程中,系統(tǒng)會(huì)持續(xù)跟蹤用戶的興趣,并將其記錄反饋給查詢過程,不斷優(yōu)化改良搜索方向,向用戶提供更優(yōu)的搜索結(jié)果。反饋大致分為兩種:“正例”與“反例”,系統(tǒng)預(yù)先設(shè)置一個(gè)閾值來評判,查詢開始時(shí),對檢索對象進(jìn)行分析量化,獲取它的特征量,再依據(jù)所選的相似度函數(shù)來給定一個(gè)滿足閾值的檢索結(jié)果,接下來用戶依照需求評判這些檢索結(jié)果并標(biāo)記,劃分為“正例”或“反例”,隨后這個(gè)評判結(jié)果被反饋給系統(tǒng)作用于下一輪的檢索,這樣循環(huán)直到有用戶滿意的結(jié)果為止,使得檢索結(jié)果最優(yōu)化[4]。
4 ?優(yōu)化檢索質(zhì)量尚需解決的問題
4.1 存在的問題
在最初獲取信息資源時(shí),用戶因?yàn)楦髯月殬I(yè)、愛好、年齡等所引起的需求不同,各個(gè)領(lǐng)域的專家可以解決他們的問題,但對于計(jì)算機(jī)系統(tǒng)來說,合理的定位用戶的類別也是一項(xiàng)困難的事?!靶g(shù)業(yè)有專攻”,各個(gè)領(lǐng)域的專業(yè)性嚴(yán)重阻礙了計(jì)算機(jī)系統(tǒng)化整理信息,每一領(lǐng)域的專家對本領(lǐng)域有獨(dú)到的見解,但計(jì)算機(jī)對專家經(jīng)驗(yàn)的認(rèn)知缺乏就導(dǎo)致了很難實(shí)現(xiàn)對信息檢索專家?guī)斓慕ⅰ?/p>
在信息體量巨大的情況下,信息檢索一般會(huì)使用兩種基礎(chǔ)技術(shù),一種技術(shù)是分類技術(shù),將數(shù)據(jù)或信息按照學(xué)科上、物理上的概念劃分成不同的類別,另一種技術(shù)則是整體檢索技術(shù),即對文檔或數(shù)據(jù)庫進(jìn)行整體的搜索,但為了精簡搜索過程必須先進(jìn)行分類。在大數(shù)據(jù)時(shí)代,數(shù)據(jù)信息成幾何增長,這兩種技術(shù)在應(yīng)用過程中也出現(xiàn)了更多的不足之處。其中分類技術(shù)由于對信息概念的理解不夠深刻,導(dǎo)致分類不夠精確細(xì)致,搜索過程中會(huì)出現(xiàn)遺漏。整體檢索技術(shù)相對來說更加細(xì)致,但其搜索過于淺顯,對信息只停留在文字表面,匹配到檢索對象時(shí)會(huì)直接提取出這部分信息,若信息量十分龐大時(shí),檢索到的信息也會(huì)隨之增加,這就使得檢索的準(zhǔn)確性下降。大多數(shù)情況下,用戶進(jìn)行信息檢索時(shí)可能并不明確,無法用幾個(gè)字眼來描述所需,這樣使得檢索的難度更大了。
4.2 可嘗試方法:智能代理系統(tǒng)
智能代理(IntelligentAgent,IA)技術(shù),起始于20世紀(jì)80年代,也是人工智能研究的一個(gè)重要領(lǐng)域方向。通常,廣義的智能代理包括人類,物理世界中的移動(dòng)機(jī)器人和信息世界中軟件機(jī)器人。而狹義的智能代理則專指信息世界中的軟件機(jī)器人,它是代表用戶或其他程序,以主動(dòng)服務(wù)的方式完成的一組操作的機(jī)動(dòng)計(jì)算實(shí)體,主動(dòng)服務(wù)包括主動(dòng)適應(yīng)性和主動(dòng)代理。總之,智能代理是指收集信息或提供其他相關(guān)服務(wù)的程序,它不需要人的即時(shí)干預(yù)即可定時(shí)完成所需功能。
智能代理是一套輔助人和充當(dāng)他們代表的軟件,人們可以借助于智能代理進(jìn)行網(wǎng)絡(luò)上的操作,以提高用戶的檢索效率,并且達(dá)到更深層次的智能化。一般智能代理有以下4個(gè)特征:代理性,智能性,機(jī)動(dòng)性和個(gè)性化。
代理性主要是指智能代理的自主與協(xié)調(diào)工作能力。主要表現(xiàn)為智能代理從事行為的自動(dòng)化程度,即操作行為可以離開人或代理程序的干預(yù)的程度。但代理在其系統(tǒng)中必須通過操作行為加以控制,當(dāng)其他代理提出請求時(shí),只有代理自己才能決定是接受還是拒絕這種請求。智能性是指代理的推理和學(xué)習(xí)能力,它描述了智能代理接受用戶目標(biāo)指令并代表用戶完成任務(wù)的能力,如理解用戶用自然語言表達(dá)的對信息資源和計(jì)算資源的需求,幫助用戶在一定程度上克服信息內(nèi)容的語言障礙,捕捉用戶的偏好和興趣,推測用戶的用途并為其代勞等。機(jī)動(dòng)性是指智能代理在網(wǎng)絡(luò)之間的遷移能力,操作任務(wù)和處理能從一臺(tái)計(jì)算機(jī)運(yùn)行到另一臺(tái)計(jì)算機(jī)上。在很多時(shí)候互通的智能代理能夠更好的比較用戶之間檢索需求的差異,進(jìn)行深度追蹤。所以在必要時(shí),智能代理需要有同其他代理和人進(jìn)行交流的能力,并且都可以從事自己的操作以及幫助其他代理和人。另外,智能代理擁有個(gè)性化,通過個(gè)性化的渲染和個(gè)性化的設(shè)置,用戶就會(huì)在瀏覽信息的過程中,逐步優(yōu)化檢索結(jié)果的展現(xiàn)方式,例如有的信息需要文字?jǐn)⑹?,有的可以利用表格展現(xiàn),有的用圖像或視頻更加清晰。
以往我們的搜索引擎是被動(dòng)的,也就是只有我們在檢索時(shí)才會(huì)運(yùn)行,智能代理技術(shù)是一種與傳統(tǒng)模式大相徑庭的信息檢索模式,它更像是一個(gè)“個(gè)人助手”,能滿足用戶的個(gè)性化需求,并在系統(tǒng)黑盒中跟蹤用戶的以往搜索,智能地模擬用戶需求,監(jiān)視用戶的潛在需求信息,減少用戶的查詢負(fù)擔(dān)。智能代理系統(tǒng)是應(yīng)用智能代理技術(shù)、信息檢索技術(shù)和用戶知識學(xué)習(xí)技術(shù),構(gòu)建一個(gè)智能的推理機(jī)制,更好地幫助用戶進(jìn)行信息的劃分和查詢處理。以智能搜索代理技術(shù)為主,結(jié)合搜索引擎“面向主題”的檢索模式,在密切關(guān)注個(gè)體需求、提高信息與用戶需求相關(guān)系統(tǒng),彼此間可以通過統(tǒng)一的傳輸協(xié)議進(jìn)行溝通,交換信息,從而使更多相關(guān)的信息得以挖掘,以彌補(bǔ)智能代理信息搜索范圍有限的缺陷。這種模式充分利用了智能搜索代理的流動(dòng)性、交互性、智能性特點(diǎn),同時(shí)又吸取了搜索引擎的主題相關(guān)的思想,提供了高質(zhì)量的信息個(gè)性化檢索服務(wù)[5]。
5 ?結(jié)束語
人工智能技術(shù)的飛速發(fā)展對信息檢索領(lǐng)域產(chǎn)生了巨大的影響,成功的結(jié)合使得檢索不斷智能化,并且在當(dāng)前大數(shù)據(jù)時(shí)代下,對于海量的數(shù)字信息資源,大量的數(shù)據(jù)類型進(jìn)行了智能的集成與管理,實(shí)現(xiàn)了分布式信息資源的智能化管理。人工智能使得信息檢索更加快捷、準(zhǔn)確化以及智能化,反之智能檢索又為人工智能技術(shù)的發(fā)展提供了大量相關(guān)學(xué)科的知識體系,兩者相輔相成,互相促進(jìn),相得益彰。
參考文獻(xiàn):
[1]莫祖英.數(shù)字圖書館信息檢索技術(shù)研究綜述[J].情報(bào)探索,2010-09-15.
[2]梁滌塵.人工智能在信息檢索中的應(yīng)用.
[3]段韶鵬,溫文豪,軒春青,于景茹.大數(shù)據(jù)下人工智能技術(shù)在信息檢索中的應(yīng)用[J].信息通信,2018-07-15.
[4]崔文.淺析人工智能技術(shù)在信息檢索領(lǐng)域中的體現(xiàn)[J].2010.
[5]張玉峰,文燕平.智能檢索Agent系統(tǒng)研究[J].中國圖書館學(xué)報(bào),2002-09-15.