• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      國(guó)內(nèi)可視化搜索引擎研究進(jìn)展:核心內(nèi)容

      2020-08-14 06:16孫雨生雷曉芳
      現(xiàn)代情報(bào) 2020年2期
      關(guān)鍵詞:研究進(jìn)展

      孫雨生 雷曉芳

      摘 要:[目的/意義]從可視化表征、可視化機(jī)制、可視化資源組織3方面揭示國(guó)內(nèi)可視化搜索引擎研究進(jìn)展。[方法/過(guò)程]文章用內(nèi)容分析法歸納了185篇文獻(xiàn)內(nèi)容,從可視化表征、可視化機(jī)制、可視化資源組織3方面闡述了國(guó)內(nèi)可視化搜索引擎研究進(jìn)展。[結(jié)果/結(jié)論]可視化表征主要研究表征對(duì)象及形式、表征方法;可視化機(jī)制主要研究特征提取、數(shù)據(jù)分析、可視化映射和視圖變換;可視化資源組織主要研究信息采集和數(shù)據(jù)預(yù)處理。

      關(guān)鍵詞:可視化搜索引擎;研究進(jìn)展;可視化表征;可視化機(jī)制;可視化資源組織

      DOI:10.3969/j.issn.1008-0821.2020.02.018

      〔中圖分類(lèi)號(hào)〕TP399;G202 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821(2020)02-0160-08

      Research Development of Visual Search Engine in China:Core Content

      Sun Yusheng1,3 Lei Xiaofang2

      (1.School of Economics and Management,Hubei University of Technology,Wuhan 430068,China;

      2.Vocational and Technical Teachers College,Hubei University of Technology,Wuhan 430068,China;

      3.National Engineering Center of Science and Technology Information,Institute of Scientific & Technical

      Information of China,Beijing 100038,China)

      Abstract:[Purpose/Significance]In order to reveal research development of visual search engine in China from three aspects of visual representation,visualization mechanism and visual resource organization.[Method/Process]Using the content analysis method,the authors summed up the contents of the 185 articles,and introduced research development of visual search engine in China from three aspects of visual representation,visualization mechanism and visual resource organization.[Result/Conclusion]Visual representation focused on representation objects,representation forms and representation methods;Visualization mechanism focused on feature extraction,data analysis,visual mappings and view transformations;Visual resource organization focused on information collection and data pre-processing.

      Key words:visual search engine;research development;visual representation;visualization mechanism;visual resource organization

      伴隨Web2.0時(shí)代的到來(lái),網(wǎng)絡(luò)信息級(jí)數(shù)劇增與用戶(hù)有限認(rèn)知及處理能力間矛盾日益凸顯,隨著讀圖時(shí)代人們接受信息方式呈視覺(jué)可視化趨勢(shì),這導(dǎo)致搜索引擎提高搜索結(jié)果查全率查準(zhǔn)率、可視化顯示搜索過(guò)程及結(jié)果以輔助用戶(hù)高效處理海量信息成為迫切需求,在這種形勢(shì)下,可視化搜索引擎應(yīng)運(yùn)而生并備受青睞,其將可視化技術(shù)用于搜索引擎各環(huán)節(jié),綜合自然語(yǔ)言處理、機(jī)器學(xué)習(xí)等技術(shù)識(shí)別用戶(hù)需求[1]提高搜索結(jié)果查全率查準(zhǔn)率,以用戶(hù)易理解圖形界面[2]直觀[2-8]顯示搜索詞與搜索結(jié)果間關(guān)系及搜索結(jié)果內(nèi)部關(guān)系[5,9-10]縮短用戶(hù)理解信息時(shí)間[5,11]并輔助其充分挖掘信息價(jià)值[7,10,12-15],通過(guò)信息反饋機(jī)制支持搜索策略調(diào)整減少用戶(hù)記憶負(fù)擔(dān)[16]并最終提升用戶(hù)搜索體驗(yàn)和效率。而現(xiàn)有可視化搜索引擎研究?jī)?nèi)容雖廣但存在理論研究不系統(tǒng)(集中于闡述信息可視化技術(shù)、構(gòu)建模型、分析功能而未將其系統(tǒng)融合)、不深入(集中于闡述某個(gè)搜索環(huán)節(jié)而非搜索全程(組織資源、轉(zhuǎn)換機(jī)制、表征對(duì)象)可視化),因此,系統(tǒng)研究可視化搜索引擎核心內(nèi)容有重要意義。

      本文首先以知網(wǎng)、萬(wàn)方的學(xué)位論文庫(kù)、期刊論文庫(kù)及維普的期刊論文庫(kù)為信息源,分別以“可視化”、“搜索”和“可視化”、“檢索”為關(guān)鍵詞組合在題名中檢索相關(guān)文獻(xiàn)(截至2019年8月4日,以“可視化”、“搜索”為關(guān)鍵詞組合,從知網(wǎng)獲取碩博論文12篇、期刊論文30篇,從萬(wàn)方獲取碩博論文21篇(新發(fā)現(xiàn)2篇)、期刊論文29篇(新發(fā)現(xiàn)0篇),從維普獲取期刊論文32篇(新發(fā)現(xiàn)2篇);以“可視化”、“檢索”為關(guān)鍵詞組合,從知網(wǎng)獲取碩博論文18篇、期刊論文113篇,從萬(wàn)方獲取碩博論文27篇(新發(fā)現(xiàn)2篇)、期刊論文113篇(新發(fā)現(xiàn)6篇),從維普獲取期刊論文115篇(新發(fā)現(xiàn)0篇);合計(jì)185篇)。然后詳讀185篇文獻(xiàn)歸納國(guó)內(nèi)可視化搜索引擎核心內(nèi)容研究進(jìn)展并根據(jù)提及頻次、內(nèi)容質(zhì)量詳細(xì)標(biāo)注參考文獻(xiàn),本著最大限度反映國(guó)內(nèi)可視化搜索引擎核心內(nèi)容研究重要文獻(xiàn)、優(yōu)中選優(yōu)(剔除標(biāo)注次數(shù)少、與其他標(biāo)注文獻(xiàn)內(nèi)容重復(fù)文獻(xiàn))原則選出47篇參考文獻(xiàn)(內(nèi)容覆蓋185篇文獻(xiàn));最后從可視化表征、可視化機(jī)制、可視化資源組織3方面闡述國(guó)內(nèi)可視化搜索引擎研究進(jìn)展。

      1 可視化表征研究進(jìn)展

      1.1 表征對(duì)象及形式

      表征對(duì)象主要涉及用戶(hù)搜索請(qǐng)求(含搜索界面接收的用戶(hù)反饋)、搜索過(guò)程及搜索結(jié)果,多按搜索流程、數(shù)據(jù)結(jié)構(gòu)分類(lèi):何明貴[3]、王孟君[13]提出基于搜索流程[3]分搜索界面可視化、搜索過(guò)程可視化、搜索結(jié)果可視化[13];孫巍[17]、黃豐[18]、蔚元方[19]、王恬[20]提出基于數(shù)據(jù)結(jié)構(gòu)分一維信息、二維信息、三維信息、多維信息、層次信息、網(wǎng)狀信息、時(shí)序信息可視化,王恬[20]提出一維、二維、三維信息是多維信息特例,層次信息是網(wǎng)狀信息特例,時(shí)序信息是一維信息特例;此外,馮靜[21-22]提出表征對(duì)象涉及日志信息。

      1.1.1 搜索界面可視化

      針對(duì)傳統(tǒng)搜索界面(搜索框、垂直列表)難以勝任探索式搜索增加、海量異構(gòu)數(shù)據(jù)動(dòng)態(tài)搜索、信息空間整體結(jié)構(gòu)直觀展現(xiàn)等問(wèn)題[23],可視化搜索界面以其豐富視覺(jué)效果及交互性[24]界面可視化用戶(hù)搜索需求[13],支持調(diào)整搜索策略[3,16](提供界面(普通用戶(hù)、專(zhuān)家)[3,16]、語(yǔ)言選擇[25])、反饋信息[3,16]導(dǎo)引用戶(hù)發(fā)現(xiàn)信息資源隱含知識(shí)[23],支持分類(lèi)搜索、聚類(lèi)導(dǎo)航[23]動(dòng)態(tài)處理信息,支持可視化表征搜索對(duì)象間關(guān)系[6,26]。

      搜索界面可視化主要分基于分類(lèi)可視化表征搜索界面(提供大量有意義分類(lèi)(結(jié)構(gòu)清楚、標(biāo)識(shí)匹配結(jié)果序列、支持位置獨(dú)立多類(lèi)分類(lèi))以按類(lèi)可視化表征搜索結(jié)果并提供文字幫助輔助用戶(hù)瀏覽[16];典型代表為VisualNet,其基于主題地圖分類(lèi)表征Office文檔(類(lèi)型、日期、大小)、Web頁(yè)、E-mail等信息,可點(diǎn)擊圖上類(lèi)目搜索信息[27])、基于特征可視化表征搜索界面(通過(guò)構(gòu)建非文本(常難基于關(guān)鍵詞搜索)特征可視化表征搜索意圖以縮小用戶(hù)與計(jì)算機(jī)間語(yǔ)義鴻溝,典型實(shí)例見(jiàn)表1[23])、基于用戶(hù)體驗(yàn)可視化表征搜索界面(提供高效用戶(hù)反饋和信息排序機(jī)制提升用戶(hù)搜索滿(mǎn)意度,主流形式見(jiàn)表2[28])。

      需注意的是,文本搜索中常通過(guò)可視化表征檢索式表征用戶(hù)搜索需求:何明貴[3]提出分別基于表格(用單元格間、行間、子表間關(guān)系表征檢索式關(guān)系)、圖表(用圖表(概念圖、網(wǎng)絡(luò)圖、結(jié)構(gòu)圖、流程圖)要素(點(diǎn)、圖形(方形、矩形、圓))表征異構(gòu)數(shù)據(jù))、圖標(biāo)(用圖標(biāo)集表征客觀世界及系統(tǒng)操作功能)及混合法可視化表征檢索式;何明貴[3]、文燕平[29]提出主要可視化表征檢索式所含關(guān)鍵詞(詞本身及數(shù)量(統(tǒng)計(jì)分詞結(jié)果而得[3]))、操作符(如布爾邏輯符)、詞干(去除表示語(yǔ)法意義的詞尾而得[3])、其它同義(相關(guān)[3])詞。此外,王孟君[13]用本體技術(shù)可視化語(yǔ)義網(wǎng)環(huán)境下用戶(hù)搜索需求。

      1.1.2 搜索過(guò)程可視化

      搜索過(guò)程可視化以二維、三維圖形表征搜索過(guò)程隱含語(yǔ)義關(guān)系[24]以可視化搜索步驟[5,10,13,14,16,30]及交互活動(dòng)[24],輔助用戶(hù)重構(gòu)、修改搜索策略以形象簡(jiǎn)明掌握并融入搜索過(guò)程,最終提高搜索效率[5]及體驗(yàn)。何明貴[3]、饒文星[24]以文獻(xiàn)間關(guān)系為抽象信息空間[24],為其增加Ben Shneiderman信息可視化分類(lèi)法分析后的搜索路徑供用戶(hù)拓展搜索路徑參考[3]。

      1.1.3 搜索結(jié)果可視化

      搜索結(jié)果可視化以二維、三維[30]可視化形式(包括散列圖、盒狀圖(基于描述性數(shù)據(jù)挖掘而得)、決策樹(shù)等)[4]清晰直觀[4-8]表征搜索詞與搜索結(jié)果間、搜索結(jié)果內(nèi)部關(guān)系[5,9-10](等級(jí)、并列、等同(同義、準(zhǔn)同義、語(yǔ)義等價(jià)等)[3]關(guān)系)以縮短理解信息時(shí)間[5,10-11](生動(dòng)形象[7]、語(yǔ)義性更強(qiáng)[23])、充分挖掘信息價(jià)值[7,10,12-15]。蔚元方[19]提出用支持人機(jī)交互的信息可視化地圖可視化網(wǎng)站集(通過(guò)站點(diǎn)間連線(xiàn)網(wǎng)絡(luò)可視化表征站點(diǎn)集主題信息,鼠標(biāo)指向網(wǎng)絡(luò)時(shí)顯示主題信息);陳勇躍等[6]、竇淑慶[10]提出搜索結(jié)果可視化分文獻(xiàn)集總體情況可視化和單文獻(xiàn)細(xì)節(jié)可視化。

      1.2 表征方法

      表征方向?;诒碚鲗?duì)象選擇,多按搜索流程、數(shù)據(jù)結(jié)構(gòu)分類(lèi)。此外,孫巍等[31]提出基于引文可視化搜索引擎AuthorLink、ConceptLink、PNASLink用共引網(wǎng)絡(luò)可視化引文中特征詞關(guān)系(分析功能較弱、可視化形式單調(diào)、圖形清晰度與直觀性低)。

      1.2.1 基于搜索流程分類(lèi)

      何明貴[3]、王孟君[13]提出基于搜索流程[3]分搜索界面可視化、搜索過(guò)程可視化、搜索結(jié)果可視化[13]。對(duì)于搜索界面可視化,趙蘭榮等[32]提出通過(guò)確定圖形坐標(biāo)位置(基于搜索結(jié)果與檢索式相似度算出搜索文檔在顯示區(qū)域位置)、選擇圖形形狀(基于Silverlight中樣式模板、文檔類(lèi)型構(gòu)建并加載標(biāo)準(zhǔn)圖形樣式(Web類(lèi)選擇圓形,Excel、Word類(lèi)選擇矩形,其他選擇三角形))、消除視圖重疊(基于布局優(yōu)化算法)可視化搜索界面;對(duì)于搜索過(guò)程可視化,周寧[4]、竇淑慶[10]、王孟君[13]、任洪平[14]、歐亮[16]提出通過(guò)操作人性化[4]的可視化圖標(biāo)(點(diǎn)擊按鈕、選擇菜單項(xiàng))向搜索引擎提交請(qǐng)求并與之交互;對(duì)于搜索結(jié)果可視化,周寧等[9]、竇淑慶[10]、歐亮[16]提出基于分類(lèi)文檔簇法[9,10,16](文檔聚類(lèi)[3],找出含相同詞且相同詞較多文檔放入同簇,基于簇中文檔主要語(yǔ)義內(nèi)容給出總標(biāo)題[9])、基于超鏈法[9,10,16](用文檔間超鏈關(guān)系可視化搜索結(jié)果間關(guān)系[9])、基于語(yǔ)義內(nèi)容法[3,9-10,16](通過(guò)關(guān)鍵詞、關(guān)鍵詞間關(guān)系分別代表文檔語(yǔ)義內(nèi)容、文檔間關(guān)系實(shí)現(xiàn)用關(guān)鍵詞操作代表文檔操作[9])在有限顯示空間可視化搜索結(jié)果[33],歐亮[16]、周寧等[34]提出用Java Applet可視化文獻(xiàn)搜索結(jié)果[16,34](依次為數(shù)據(jù)預(yù)處理、映射、用Applet繪制圖形圖像、顯示[34])。

      1.2.2 基于數(shù)據(jù)結(jié)構(gòu)分類(lèi)

      孫巍[17]、黃豐[18]、蔚元方[19]、王恬[20]提出基于數(shù)據(jù)結(jié)構(gòu)分一維信息、二維信息、三維信息、多維信息、層次信息、網(wǎng)狀信息、時(shí)序信息可視化,詳見(jiàn)表3。

      2 可視化機(jī)制研究進(jìn)展

      2.1 特征提取

      周寧等[35]、許德山等[36]提出特征提取是可視化搜索引擎準(zhǔn)備數(shù)據(jù)關(guān)鍵步驟[37],用信息對(duì)象語(yǔ)義描述、詞切分統(tǒng)計(jì)、圖像識(shí)別、語(yǔ)音識(shí)別等關(guān)鍵技術(shù)從文、圖、聲[35]眾多特征中提取對(duì)研究目標(biāo)最具價(jià)值文本、圖像、聲頻特征以壓縮特征空間維數(shù)[36]、提升搜索效率。

      2.1.1 文本特征提取

      何明貴[3]提出通過(guò)確定文本在頁(yè)面中位置(決定與頁(yè)面主題相關(guān)性)、切分關(guān)鍵詞并結(jié)合文本可視化特征(包括字體、對(duì)齊、大小、顏色等)提取;關(guān)岳[38]提出通過(guò)TF-IDF法(以特征詞集及其權(quán)值[38](用特征詞在文本中出現(xiàn)頻率、全部文本中出現(xiàn)頻率[38]區(qū)分特征詞在小部分、大部分文檔出現(xiàn)重要性及其對(duì)文檔內(nèi)容描述度[13])向量表示文本特征)、Minhash法(用局部敏感哈希策略通過(guò)同分布哈希函數(shù)族將高維文本特征映射到低維空間,用時(shí)可保留全部關(guān)鍵詞)提取。

      2.1.2 圖像特征提取

      圖像特征提取主要研究提取內(nèi)容及方法,對(duì)于前者,周寧等[35]提出提取圖像內(nèi)容特征[35,39](顏色、紋理、形狀[3,35,37,39])、文本特征(標(biāo)題、關(guān)鍵詞)、語(yǔ)義特征,后兩者用專(zhuān)用程序自動(dòng)提取;焦斌星[37]提出基于圖像重要性提取其特征,從圖像層、網(wǎng)頁(yè)塊層、網(wǎng)頁(yè)層、站點(diǎn)層提取圖像特征,詳見(jiàn)表4。對(duì)于后者,黃天云等[39]提出用多尺度下高斯函數(shù)濾波法均勻采樣并提取圖像特征,濾波后構(gòu)建多尺度圖像特征向量集;關(guān)岳[38]提出基于底層特征圖像金字塔和稀疏表示的特征提取法(速度很快且語(yǔ)義表達(dá)能力強(qiáng)):先用SIFT法均勻提取圖像大量局部特征(有可旋轉(zhuǎn)、一定仿射不變形但語(yǔ)義性不強(qiáng)特性),再用蓄水池抽樣法從大量局部特征中選出較小樣本集并用稀疏編碼法找出含1 024個(gè)基的基底,用新基底將所有SIFT特征表示為更具語(yǔ)義表達(dá)力的1 024維特征,再結(jié)合BoF法(類(lèi)似詞包)提取每張圖像特征(通過(guò)多維度全面揭示)并用空間金字塔(強(qiáng)化圖像特征空間性)表示。

      2.1.3 聲頻特征提取

      聲頻數(shù)據(jù)文件格式多樣,常需轉(zhuǎn)換格式后處理。何明貴[3]、周寧等[35,40]、李豐等[41]提出聲頻信息主要包括語(yǔ)音[3,35,40](聲頻重要組成部分[40])、音樂(lè)[3,35,41]。對(duì)于前者,何明貴[3]、周寧等[35,40]提出用基于概率統(tǒng)計(jì)[40]的語(yǔ)音識(shí)別技術(shù)將其轉(zhuǎn)為文本后再提取其特征[3,35]:先提取語(yǔ)音波形中隨時(shí)間變化的語(yǔ)音特征,用聲學(xué)模型(由已提取語(yǔ)音特征訓(xùn)練生成)構(gòu)建發(fā)音模型并在識(shí)別時(shí)比較匹配未知語(yǔ)音特征,再用語(yǔ)言模型分析識(shí)別結(jié)果語(yǔ)法、語(yǔ)義特征[40];對(duì)于后者,何明貴[3]、周寧等[35]提出用音樂(lè)文件中歌詞、音樂(lè)對(duì)象語(yǔ)義描述[35]提取樂(lè)譜、節(jié)奏、韻律、樂(lè)器等特征[3]。此外,何明貴[3]提出視頻(多以數(shù)據(jù)流形式存在)特征提?。ㄧR頭分割、關(guān)鍵幀提取、視頻摘要等)最復(fù)雜但其離不開(kāi)聲頻流,可基于此提取視頻特征。

      2.2 數(shù)據(jù)分析

      數(shù)據(jù)分析用統(tǒng)計(jì)[10,42]、分類(lèi)[43](從已知類(lèi)別數(shù)據(jù)集中發(fā)現(xiàn)分類(lèi)模型以預(yù)測(cè)新數(shù)據(jù)類(lèi)別[26])、聚類(lèi)[10,43]、關(guān)聯(lián)分析等分析特征提取結(jié)果[10]并形成數(shù)據(jù)表以縮小搜索空間進(jìn)而提升搜索速度與精度[26]:統(tǒng)計(jì)按文中詞出現(xiàn)頻率降序排列并用自然數(shù)等級(jí)編號(hào)以自動(dòng)標(biāo)引并生成詞—詞矩陣[42];分類(lèi)(有監(jiān)督學(xué)習(xí)法)前基于人工或其他方式按對(duì)象特征確定分類(lèi)類(lèi)別,再由分類(lèi)程序用決策樹(shù)、神經(jīng)網(wǎng)絡(luò)、遺傳算法、粗糙集及貝葉斯等方法[26]基于對(duì)象特征判別其類(lèi)別,最終把數(shù)據(jù)集中數(shù)據(jù)項(xiàng)映射到給定類(lèi)[26];聚類(lèi)(無(wú)監(jiān)督學(xué)習(xí)法,非人工指定)[43]常先計(jì)算對(duì)象間相似度生成相似度矩陣[36]并用劃分聚類(lèi)法、層次聚類(lèi)法、自組織映射法、遺傳算法[26]聚類(lèi)對(duì)象(類(lèi)內(nèi)盡量相似、類(lèi)間盡量相異)[26,36,43];關(guān)聯(lián)分析基于高頻數(shù)據(jù)項(xiàng)集挖掘無(wú)直接引用關(guān)系數(shù)據(jù)間聯(lián)系[20]。

      2.2.1 分類(lèi)標(biāo)注

      分類(lèi)標(biāo)注常用于提高圖像搜索引擎響應(yīng)速度[44],多通過(guò)分詞[8,33]工具自動(dòng)從海量圖像描述信息中精準(zhǔn)提取核心詞作為標(biāo)注信息存入圖像對(duì)應(yīng)標(biāo)注文件[44]。沈同平等[45]提出混合生成式和判別式階段圖像自動(dòng)標(biāo)注法,其基于生成式階段連續(xù)概率潛在語(yǔ)義分析模型建模圖像得出模型參數(shù)和圖像主題分布(作為圖像中間表示向量),再基于判別式階段集群分類(lèi)器鏈構(gòu)建法學(xué)習(xí)圖像主題分布、構(gòu)建分類(lèi)器鏈并集成圖像標(biāo)注關(guān)鍵詞間上下文信息提升標(biāo)注精度、搜索效果。

      2.2.2 分類(lèi)器

      分類(lèi)器基于已有部分輸入、輸出數(shù)據(jù)間對(duì)應(yīng)關(guān)系構(gòu)建分類(lèi)方法以將輸入映射到合適輸出,其分類(lèi)訓(xùn)練人工收集的帶標(biāo)注訓(xùn)練集得出判別未標(biāo)記數(shù)據(jù)準(zhǔn)則,典型代表為基于圖像底層特征(紋理等)識(shí)別高層語(yǔ)義特征(圖像含義)的SVM(常用于圖像分類(lèi)的監(jiān)督學(xué)習(xí)法,且穩(wěn)定性、靈活性、可操作性多較強(qiáng))模型,其依次抽取海量圖像訓(xùn)練集特征、設(shè)置SVM參數(shù)、基于圖像訓(xùn)練集特征構(gòu)建分類(lèi)器[44]。

      2.3 可視化映射

      可視化映射基于可視化映射算法[17,42,46](將數(shù)據(jù)從多維空間映射到二維或三維空間[40,42,46]以降維[13,19,29,31,40,42])將數(shù)據(jù)表轉(zhuǎn)為可視化結(jié)構(gòu)[3,13,16-17,20,42,46](由空間基[3,13,16,42]、圖形標(biāo)記、圖形屬性構(gòu)成[3,13,16,20,42])以將抽象信息屬性特征轉(zhuǎn)為易理解視覺(jué)屬性[13],常用方法、技術(shù)有自組織圖[13,16-17,4042,46]、尋徑網(wǎng)絡(luò)[13,16-17,40,42,46]、多維尺度分析[13,16-17,29,41-42,46]、潛在語(yǔ)義標(biāo)引[16-17,29,40,42,46]、因素分析[16,29](核心是主成分分析法[16,41])、連續(xù)相似度環(huán)[41]。

      2.4 視圖變換

      視圖變換通過(guò)定義位置、縮放比例、裁減調(diào)整圖形參數(shù)以構(gòu)建可視化結(jié)構(gòu)視圖[3,13,16-17]并用可視化技術(shù)顯示[13,42],其中王孟君[13]提出視圖形式多樣(多為樹(shù)、圖)且易理解(用戶(hù)多熟悉),常用技術(shù)有雙曲樹(shù)[17,19,42,46]、錐形樹(shù)[17,42]、樹(shù)圖[17,42,46]。

      3 可視化資源組織研究進(jìn)展

      3.1 信息采集

      信息采集是為數(shù)據(jù)處理及可視化搜索準(zhǔn)備數(shù)據(jù),分爬取信息、抽取信息以及存儲(chǔ)信息。

      3.1.1 爬取信息

      爬取信息主要針對(duì)Web信息,王文武[1]、李睿等[33]提出基于用戶(hù)所輸關(guān)鍵詞遍歷信息集[33]并抓取網(wǎng)頁(yè)[1]。

      3.1.2 抽取信息

      抽取信息主要是Web信息抽取,其基于已爬取網(wǎng)頁(yè)所含非結(jié)構(gòu)[1,20,35]和半結(jié)構(gòu)[20,35]信息抽取用戶(hù)所需數(shù)據(jù)并結(jié)構(gòu)化[20,35]、語(yǔ)義化[20]。對(duì)于非結(jié)構(gòu)信息(聲頻,即:語(yǔ)音、音樂(lè)、視頻),周寧等[35]提出轉(zhuǎn)換格式(如用語(yǔ)音識(shí)別技術(shù)將語(yǔ)音轉(zhuǎn)為文本文件[3,35])后再集成存儲(chǔ);對(duì)于半結(jié)構(gòu)信息(如HTML文檔),王恬[20]提出用基于HTML結(jié)構(gòu)信息抽取法(按Web頁(yè)面文檔結(jié)構(gòu)特征定位待抽取信息,常將Web源碼解釋為語(yǔ)法樹(shù)再按需用對(duì)應(yīng)方法生成抽取規(guī)則[20])、基于自然語(yǔ)言信息抽取法(常處理包含眾多文本的Web源文件,基于人工編制或自動(dòng)學(xué)習(xí)語(yǔ)料庫(kù)中人工標(biāo)注結(jié)果獲取短語(yǔ)及短語(yǔ)間關(guān)系生成抽取規(guī)則)、基于包裝器信息抽取法(半結(jié)構(gòu)化有監(jiān)督學(xué)習(xí)法,常基于信息源結(jié)構(gòu)、內(nèi)容特征定制包裝器并依次抽取文檔結(jié)構(gòu)、編寫(xiě)抽取規(guī)則并調(diào)用其程序)抽取Web頁(yè)面所含信息;對(duì)于結(jié)構(gòu)化數(shù)據(jù),劉曉慧[47]提出基于樹(shù)局部調(diào)整的網(wǎng)頁(yè)結(jié)構(gòu)化數(shù)據(jù)抽取法(分段Web頁(yè)面?zhèn)€人數(shù)據(jù)記錄進(jìn)而抽取數(shù)據(jù))。

      3.1.3 存儲(chǔ)信息

      陳穎[46]提出用文本文件存儲(chǔ);王恬[20]提出用XML文件實(shí)現(xiàn)按用戶(hù)自定義結(jié)構(gòu)存儲(chǔ)以提升搜索、更新效率并支持并發(fā)訪(fǎng)問(wèn),方便用戶(hù)管理、維護(hù)數(shù)據(jù);劉曉慧[47]提出用MySQL存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù)。

      3.2 數(shù)據(jù)預(yù)處理

      數(shù)據(jù)預(yù)處理主要針對(duì)文本搜索,旨在加工并抽取有搜索價(jià)值詞以準(zhǔn)確表達(dá)原始數(shù)據(jù)主題概念[34]并供后續(xù)步驟使用,包括準(zhǔn)確分詞[8,33](準(zhǔn)確理解網(wǎng)頁(yè)信息、判斷網(wǎng)頁(yè)內(nèi)容相關(guān)性重要步驟[32],常用算法有基于字符串匹配分詞法[2,20,46](速度快、算法簡(jiǎn)單易實(shí)現(xiàn)但無(wú)消解歧義能力、效果較差[20])、基于統(tǒng)計(jì)分詞法[2,20,46](基于分詞詞典,即:常用詞詞典,實(shí)現(xiàn)基于字符串匹配分詞同時(shí)用統(tǒng)計(jì)法識(shí)別新詞,速度快、效率高且可消除歧義[2])、基于理解分詞法[2,20,46](分詞同時(shí)分析句法、語(yǔ)義以消解歧義[2]))、解析詞干[17,33,42](去除詞綴,即:前、后綴,去除名詞復(fù)數(shù),復(fù)原簡(jiǎn)寫(xiě)詞,標(biāo)注詞性,即:排除因詞兼類(lèi)產(chǎn)生的歧義,替換同義詞[17],識(shí)別詞組[42],更適合英文文本同詞不同時(shí)態(tài)、人稱(chēng)情形[33]以保證搜索效果[42])、去除停用詞[8,17,20,33,42](語(yǔ)氣詞、助詞[33]、虛詞[33-34]、副詞[34]、介詞、冠詞[42]等高頻但與用戶(hù)需求低匹配的詞[33],常構(gòu)建停用詞表[8,20]并在搜索引擎運(yùn)行前加載至內(nèi)存以去除分詞結(jié)果中停用詞[33])、提取高頻詞[33,43](旨在高度概述文檔并支持對(duì)應(yīng)標(biāo)簽聚類(lèi)[33])。

      4 結(jié)束語(yǔ)

      綜上,本文從可視化表征、可視化機(jī)制、可視化資源組織3方面闡述了國(guó)內(nèi)可視化搜索引擎核心內(nèi)容研究進(jìn)展:可視化表征核心研究表征對(duì)象及形式、表征方法,表征對(duì)象主要涉及搜索需求、搜索過(guò)程、搜索結(jié)果,多按搜索流程、數(shù)據(jù)結(jié)構(gòu)分類(lèi):前者分搜索界面可視化、搜索過(guò)程可視化、搜索結(jié)果可視化,后者分一維信息、二維信息、三維信息、多維信息、層次信息、網(wǎng)狀信息、時(shí)序信息可視化;可視化機(jī)制核心研究特征提?。杏谖谋咎卣?、圖像特征、聲頻特征)、數(shù)據(jù)分析(集中于聚類(lèi)分析、分類(lèi)分析(多基于分類(lèi)標(biāo)注、分類(lèi)器分類(lèi)圖像))、可視化映射(集中于構(gòu)建可視化結(jié)構(gòu))、視圖變換(集中于構(gòu)建可視化視圖);可視化資源組織核心研究信息采集(集中于爬取信息、抽取信息、存儲(chǔ)信息)、數(shù)據(jù)預(yù)處理(集中于準(zhǔn)確分詞、解析詞干、去除停用詞、提取高頻詞)。

      接下來(lái),筆者將研究文獻(xiàn)可視化搜索引擎、基于用戶(hù)行為可視化搜索引擎、聚類(lèi)可視化搜索引擎構(gòu)建問(wèn)題,供相關(guān)研究及實(shí)踐參考。

      參考文獻(xiàn)

      [1]王文武.某搜索引擎可視化搜索結(jié)果功能的開(kāi)發(fā)與應(yīng)用[D].北京:北京郵電大學(xué),2013.

      [2]武娜.視頻搜索結(jié)果分析及其可視化方法研究與應(yīng)用[D].上海:東華大學(xué),2009.

      [3]何明貴.可視化搜索引擎模型與方法研究[D].武漢:武漢大學(xué),2010.

      [4]周寧.21世紀(jì)信息組織與檢索的可視化、智能化發(fā)展方向[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2002,(4):4-6.

      [5]趙靜.網(wǎng)絡(luò)信息檢索可視化研究[J].數(shù)字技術(shù)與應(yīng)用,2010,(8):59.

      [6]陳勇躍,周寧,夏火松.知識(shí)檢索中的知識(shí)抽取與可視化研究[J].情報(bào)科學(xué),2010,28(11):1719-1723.

      [7]禹夏.基于虛擬現(xiàn)實(shí)技術(shù)的檔案館信息檢索可視化研究[J].山西檔案,2018,(3):81-83.

      [8]沙麗瓦爾·阿里木.維文文本檢索評(píng)測(cè)集構(gòu)建及可視化方法研究[D].烏魯木齊:新疆大學(xué),2016.

      [9]周寧,文燕平.檢索結(jié)果的可視化研究[J].中國(guó)圖書(shū)館學(xué)報(bào),2002,28(6):48-50,53.

      [10]竇淑慶.圖書(shū)館可視化文獻(xiàn)檢索系統(tǒng)研究[J].情報(bào)探索,2009,(10):11-13.

      [11]秦雪梅,高凡,陳烈英.可視化情報(bào)檢索[J].圖書(shū)情報(bào)工作,2002,46(4):89-92.

      [12]劉姝.知識(shí)可視化在信息檢索中的實(shí)際應(yīng)用[J].圖書(shū)館雜志,2011,30(6):68-71.

      [13]王孟君.WWW信息檢索可視化研究及在信用領(lǐng)域的應(yīng)用[D].杭州:浙江工業(yè)大學(xué),2010.

      [14]任洪平.可視化信息檢索研究[J].魅力中國(guó),2008,(26):120-120.

      [15]張莉,閔波,楊帆,等.面向知識(shí)發(fā)現(xiàn)的生物醫(yī)學(xué)文獻(xiàn)信息檢索與可視化設(shè)計(jì)[J].醫(yī)學(xué)信息學(xué)雜志,2017,38(12):65-68.

      [16]歐亮.信息檢索可視化研究綜述[J].情報(bào)探索,2011,(3):83-87.

      [17]孫巍.基于引文的信息檢索可視化系統(tǒng)研究[D].哈爾濱:黑龍江大學(xué),2007.

      [18]黃豐.信息可視化檢索模型及應(yīng)用探析[J].情報(bào)探索,2007,(10):45-47.

      [19]蔚元方.文獻(xiàn)檢索的信息可視化技術(shù)研究[D].鄭州:中原工學(xué)院,2015.

      [20]王恬.農(nóng)業(yè)文本信息檢索可視化平臺(tái)研究[D].楊凌:西北農(nóng)林科技大學(xué),2015.

      [21]馮靜.我國(guó)信息可視化檢索研究[J].邊疆經(jīng)濟(jì)與文化,2012,(7):154-155.

      [22]馮靜.信息檢索可視化現(xiàn)狀與展望[J].科技文獻(xiàn)信息管理,2012,26(3):32-34.

      [23]汪飛,李強(qiáng),左伍衡.可視化搜索用戶(hù)界面[J].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2014,26(5):708-716.

      [24]饒文星.可視化多語(yǔ)言目錄檢索平臺(tái)研究[D].南寧:廣西民族大學(xué),2013.

      [25]洪菀吟.多語(yǔ)言信息檢索系統(tǒng)可視化初探[J].圖書(shū)情報(bào)工作,2011,55(2):25-28.

      [26]孫潔麗,朱智清.基于數(shù)據(jù)挖掘技術(shù)的檢索可視化系統(tǒng)的研究[J].現(xiàn)代情報(bào),2008,28(3):106-109.

      [27]陳艷.信息檢索可視化技術(shù)[J].情報(bào)理論與實(shí)踐,2006,29(5):618-621,566.

      [28]耿東海,樊一陽(yáng).基于用戶(hù)體驗(yàn)的可視化信息檢索模型及界面研究[J].現(xiàn)代情報(bào),2014,34(3):162-167.

      [29]文燕平.WWW信息檢索可視化實(shí)現(xiàn)原理研究[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2005,(4):10-13,50.

      [30]陳莉莉,劉正龍.基于用戶(hù)模型BMB_PRUM的可視化信息檢索研究[J].內(nèi)江師范學(xué)院學(xué)報(bào),2009,24(S1):58-60.

      [31]孫巍,張學(xué)福.基于引文的信息檢索可視化相關(guān)系統(tǒng)比較分析[J].情報(bào)理論與實(shí)踐,2008,31(4):598-601.

      [32]趙蘭榮,朱學(xué)芳.基于元搜索的農(nóng)業(yè)信息可視化平臺(tái)實(shí)現(xiàn)研究[J].農(nóng)業(yè)圖書(shū)情報(bào)學(xué)刊,2011,23(12):5-8,11.

      [33]李睿,聶晨光,龍文磊,等.信息可視化技術(shù)在搜索引擎結(jié)果知識(shí)體系化輸出應(yīng)用方案設(shè)計(jì)[J].中國(guó)管理信息化,2015,18(13):211-213.

      [34]周寧,徐潔,肖楠.文獻(xiàn)檢索結(jié)果的可視化研究[J].情報(bào)探索,2007,(6):3-6.

      [35]周寧,張弛,張會(huì)平.信息可視化與知識(shí)檢索系統(tǒng)設(shè)計(jì)[J].情報(bào)科學(xué),2006,24(4):571-574.

      [36]許德山,張智雄,邢美鳳.面向本體知識(shí)庫(kù)的可視化檢索研究[J].情報(bào)理論與實(shí)踐,2010,33(8):114-117.

      [37]焦斌星.用于搜索的網(wǎng)頁(yè)可視化摘要技術(shù)研究[D].合肥:中國(guó)科學(xué)技術(shù)大學(xué),2012.

      [38]關(guān)岳.大規(guī)模微博數(shù)據(jù)的品牌檢索與可視化[D].大連:大連理工大學(xué),2015.

      [39]黃天云,孫世新,龐朝陽(yáng).基于Gauss濾波的多媒體圖像的可視化檢索[J].系統(tǒng)工程與電子技術(shù),2001,23(1):77-81,89.

      [40]周寧,劉瑋.可視化語(yǔ)音信息檢索模型研究[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2006,(2):46-49.

      [41]李豐,周維彬.國(guó)外音樂(lè)信息檢索可視化研究綜述[J].情報(bào)探索,2010,(12):103-106.

      [42]韓麗華.信息檢索可視化效率若干問(wèn)題研究[D].哈爾濱:黑龍江大學(xué),2008.

      [43]朱光楠.基于聚類(lèi)的搜索可視化呈現(xiàn)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].北京:北京郵電大學(xué),2012.

      [44]孫雙琛.基于熱點(diǎn)標(biāo)簽學(xué)的可視化時(shí)尚商品搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[D].廣州:中山大學(xué),2012.

      [45]沈同平,董尹,俞磊.基于知識(shí)圖譜的我國(guó)圖像檢索研究進(jìn)展可視化分析[J].通化師范學(xué)院學(xué)報(bào),2019,40(1):134-141.

      [46]陳穎.基于摘要信息的中文信息檢索可視化系統(tǒng)研究與實(shí)現(xiàn)[D].哈爾濱:黑龍江大學(xué),2007.

      [47]劉曉慧.基于可視化檢索的廣告信息增強(qiáng)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].廣州:中山大學(xué),2013.

      (責(zé)任編輯:郭沫含)

      猜你喜歡
      研究進(jìn)展
      豬δ冠狀病毒的研究進(jìn)展
      MiRNA-145在消化系統(tǒng)惡性腫瘤中的研究進(jìn)展
      冠狀動(dòng)脈介入治療慢性完全閉塞的研究進(jìn)展
      離子束拋光研究進(jìn)展
      獨(dú)腳金的研究進(jìn)展
      自噬與衰老的研究進(jìn)展
      EVA的阻燃研究進(jìn)展
      氫在治療燒傷中的研究進(jìn)展
      Marchiafava-Bignami病研究進(jìn)展
      EGFR核轉(zhuǎn)位與DNA損傷修復(fù)研究進(jìn)展
      牙克石市| 哈密市| 汤阴县| 新河县| 珠海市| 嵊州市| 肇东市| 卢湾区| 江阴市| 海兴县| 安康市| 高阳县| 武乡县| 滨州市| 茌平县| 万宁市| 安溪县| 班戈县| 开鲁县| 武乡县| 高邑县| 凌云县| 共和县| 清水河县| 阳西县| 永德县| 吉木乃县| 昌江| 稷山县| 凌源市| 西乌珠穆沁旗| 类乌齐县| 玛多县| 绥德县| 高雄市| 台东市| 那曲县| 安化县| 永修县| 武穴市| 徐汇区|