邱金水,莊會富,金 濤
(中國科學(xué)院昆明植物研究所科技信息中心,云南 昆明 650201)
近年來,隨著科學(xué)研究進入數(shù)據(jù)驅(qū)動的第四范式,科學(xué)數(shù)據(jù)資源成為國家重要的戰(zhàn)略性支撐資源[1]。植物圖像包括植物的彩色圖像和標(biāo)本圖像,它們是植物學(xué)科領(lǐng)域的重要科學(xué)數(shù)據(jù)資源。植物圖像不僅是比較直觀地了解和認識植物的參考資料,同時也是植物學(xué)領(lǐng)域的科技工作者研究植物不可或缺的科研材料。隨著電子科技的進步尤其是智能手機的廣泛普及和標(biāo)本數(shù)字化的快速發(fā)展,植物的彩色圖像和標(biāo)本圖像都呈現(xiàn)爆發(fā)式增長。利用海量的植物圖像構(gòu)建一個智能的植物圖像檢索系統(tǒng),不僅能對廣大人民群眾起到科普教育和科普宣傳的作用,同時還可以支撐植物學(xué)領(lǐng)域的科技工作者進行植物物種鑒定和植物分類等科學(xué)研究工作。
使用當(dāng)前比較流行的搜索引擎如百度和Google也能檢索植物圖像,但檢索出來的植物圖像有些標(biāo)注信息(如物種鑒定信息)是錯誤的。用于植物分類學(xué)研究的植物圖像(如植物器官特征圖像)會比較缺乏,在支撐植物科學(xué)研究方面比較有限。主要是因為這些通用的搜索引擎缺乏植物領(lǐng)域?qū)I(yè)性,它們僅僅是將整個互聯(lián)網(wǎng)開放的植物圖像簡單地網(wǎng)羅在一起。目前國內(nèi)較大的植物圖像庫有中國植物圖像庫(Plant Photo Bank of China, PPBC)[2]、中國數(shù)字植物標(biāo)本館(Chinese Virtual Herbarium, CVH)[3]等,它們都是專業(yè)的植物圖像庫,植物圖像保存數(shù)量均超過800萬張。由于它們的植物圖像主要來自于國內(nèi)的標(biāo)本數(shù)字化圖像和個人拍攝的植物圖像,尚未整合國內(nèi)外開放的專業(yè)植物圖像數(shù)據(jù)庫,因此其植物圖像數(shù)量的年增長率均比較低。此外,PPBC和CVH的搜索引擎不支持根據(jù)植物圖片、部位顏色和圖片大小進行檢索,因此還有進一步完善和優(yōu)化的空間。
在植物圖像研究和應(yīng)用領(lǐng)域,研究人員在植物圖像分割[4-5]、植物圖像分類[6-7]、植物圖像管理[8]、植物圖像識別[9-11]和基于圖像處理技術(shù)的植物圖像檢索[12-13]等方面均進行了相關(guān)的研究。這些研究主要基于植物圖像的內(nèi)容,側(cè)重于植物圖像的輪廓特征、紋理特征、圖像顏色等方面的算法研究,而對植物圖像的采集、整理、存儲以及構(gòu)建智能檢索系統(tǒng)等方面的開發(fā)設(shè)計或研究則比較少。因此本文利用大數(shù)據(jù)技術(shù)、人工智能技術(shù)、搜索引擎技術(shù)和網(wǎng)絡(luò)爬蟲技術(shù)嘗試對海量植物圖像的檢索系統(tǒng)進行設(shè)計,對其他相關(guān)領(lǐng)域的研發(fā)設(shè)計與應(yīng)用具有一定的參考意義。
在傳統(tǒng)的軟件設(shè)計過程中,采用單臺植物圖像文件服務(wù)器和關(guān)系型數(shù)據(jù)庫構(gòu)建植物圖像檢索系統(tǒng)是常用的技術(shù)手段,通過植物拉丁名或中文名等文字信息進行檢索亦是普遍的檢索方式。但隨著大數(shù)據(jù)時代的到來以及人工智能技術(shù)的高速發(fā)展,科學(xué)數(shù)據(jù)日益呈現(xiàn)出4V特征[14]:體量(volume)、類型(variety)、速度(velocity)和最重要的價值(value)。傳統(tǒng)的軟件設(shè)計技術(shù)已無法滿足海量植物圖像的存儲需求和檢索性能需求,單一的文字檢索方式亦不能滿足植物學(xué)領(lǐng)域科技工作者的個性化檢索需求。因此,本文提出利用百度Artificial Intelligence(AI)技術(shù)、ImageSharp圖像分割技術(shù)和OpenCV 2.X(CV2)顏色識別技術(shù)實現(xiàn)植物圖像的智能檢索,利用FastDFS技術(shù)實現(xiàn)檢索系統(tǒng)的動態(tài)擴容、負載均衡和植物圖像的快速加載,利用Solr搜索引擎技術(shù)提高海量植物圖像的檢索效率,利用Python爬蟲技術(shù)不斷豐富植物圖像檢索系統(tǒng)的數(shù)據(jù)量從而實現(xiàn)檢索系統(tǒng)的可持續(xù)化發(fā)展。實驗結(jié)果表明,通過上述技術(shù)能夠構(gòu)建一個面向海量植物圖像的智能檢索系統(tǒng)。
傳統(tǒng)軟件技術(shù)設(shè)計的植物圖像檢索系統(tǒng)存在以下問題:
1)檢索方式單一。傳統(tǒng)的植物圖像檢索方式主要以植物拉丁名或中文名進行檢索。隨著人工智能技術(shù)的快速發(fā)展,圖像識別技術(shù)和目標(biāo)檢測技術(shù)愈發(fā)成熟,基于人工智能技術(shù)可以實現(xiàn)根據(jù)植物圖片、部位和顏色進行檢索。
2)檢索系統(tǒng)難以擴容,檢索高并發(fā)時植物圖像加載速度慢。傳統(tǒng)的軟件技術(shù)普遍采用的是單臺植物圖像文件服務(wù)器,當(dāng)文件服務(wù)器的存儲空間耗盡時,需要重新部署新的文件服務(wù)器,且需要對應(yīng)用服務(wù)器的代碼層級進行修改,而檢索請求高并發(fā)時單臺文件服務(wù)器亦無法及時處理植物圖像的下載請求從而造成植物圖像加載比較慢的問題。
3)檢索效率低下。傳統(tǒng)關(guān)系數(shù)據(jù)庫系統(tǒng)的設(shè)計主要面向企業(yè)級應(yīng)用,系統(tǒng)運行在獨立的服務(wù)器上。隨著用戶及相應(yīng)數(shù)據(jù)量的急劇增加,傳統(tǒng)的集中式關(guān)系數(shù)據(jù)庫在可擴展性上的弊端日益顯現(xiàn)[15],且檢索效率低下。如當(dāng)植物圖像的數(shù)據(jù)量超過1000萬時,采用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫如SQL Server 2014進行模糊檢索時,即使設(shè)計了索引字段耗時也需要大約116 s。這主要受限于關(guān)系型數(shù)據(jù)庫自身的設(shè)計機制。
4)傳統(tǒng)的植物圖像檢索系統(tǒng)一般基于現(xiàn)有的植物圖像進行設(shè)計,很少考慮數(shù)據(jù)量增長和可持續(xù)化發(fā)展等問題。隨著網(wǎng)絡(luò)爬蟲技術(shù)的發(fā)展,利用Python技術(shù)對國內(nèi)外各大專業(yè)的植物圖像庫進行圖像數(shù)據(jù)采集,可以不斷豐富植物圖像檢索系統(tǒng)的圖像。
本文設(shè)計的海量植物圖像智能檢索系統(tǒng)的系統(tǒng)架構(gòu)從上往下可以分為4層:應(yīng)用層、應(yīng)用支撐層、數(shù)據(jù)資源層和基礎(chǔ)設(shè)施層。其中,應(yīng)用層提供給用戶既可以按照傳統(tǒng)的植物拉丁名或中文名進行檢索圖像,也可以根據(jù)植物圖片、部位、顏色和大小等條件檢索植物圖像;應(yīng)用支撐層主要包括為了支撐應(yīng)用層所采取的關(guān)鍵性技術(shù),如植物圖像識別技術(shù)、植物圖像標(biāo)注服務(wù)、植物部位顏色識別技術(shù)和植物圖像信息抽取技術(shù)等;數(shù)據(jù)資源層主要包括植物圖像檢索系統(tǒng)的底層數(shù)據(jù),如Solr數(shù)據(jù)、FastDFS分布式存儲的文件、業(yè)務(wù)數(shù)據(jù)庫、歷史數(shù)據(jù)和爬蟲數(shù)據(jù)等;基礎(chǔ)設(shè)施層主要包括支撐植物圖像檢索系統(tǒng)所需要的硬件設(shè)備和軟件系統(tǒng)。同時,為了保障檢索系統(tǒng)的安全穩(wěn)定運行和監(jiān)測用戶的檢索行為,檢索系統(tǒng)還建立了一個用戶檢索行為記錄與系統(tǒng)監(jiān)測體系。具體的植物圖像檢索系統(tǒng)架構(gòu)如圖1所示。
本文設(shè)計的海量植物圖像智能檢索系統(tǒng)由眾多服務(wù)器組成,其中Web服務(wù)器用于部署植物圖像檢索系統(tǒng),接受用戶在檢索客戶機發(fā)出的檢索請求;歷史數(shù)據(jù)服務(wù)器用于存儲現(xiàn)有的植物圖像;爬蟲服務(wù)器用于抓取國內(nèi)外各大專業(yè)植物圖像庫對外免費開放的植物圖像;數(shù)據(jù)處理服務(wù)器用于處理尚未入庫的植物圖像數(shù)據(jù),處理植物圖像時需要調(diào)用圖像標(biāo)注服務(wù)器提供的標(biāo)注服務(wù),處理完后圖像文件傳輸?shù)紽astDFS分布式文件存儲服務(wù)器進行保存,并將FastDFS返回的地址信息和其它已處理好的結(jié)構(gòu)化數(shù)據(jù)保存到數(shù)據(jù)庫服務(wù)器;Solr服務(wù)器集群則通過連接數(shù)據(jù)庫服務(wù)器構(gòu)建Solr底層索引數(shù)據(jù),并為Web服務(wù)器提供智能檢索支持。具體的植物圖像檢索系統(tǒng)網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
本文設(shè)計的海量植物圖像智能檢索系統(tǒng)的功能模塊包括檢索頁面和檢索結(jié)果展示2個部分,具體的植物圖像檢索系統(tǒng)功能模塊如圖3所示。
用戶在植物圖像檢索客戶端發(fā)出檢索請求后,檢索系統(tǒng)首先判斷用戶是按圖片檢索還是按文字檢索。如果是按圖片檢索,則調(diào)用植物圖像識別應(yīng)用程序接口(Application Programming Interface, API),然后處理接口返回識別信息并根據(jù)可信度最高的物種信息去調(diào)用Solr集群的API。如果是按文字檢索,檢索系統(tǒng)先對檢索關(guān)鍵詞進行初步處理,處理完后根據(jù)相關(guān)的檢索條件去調(diào)用Solr集群的API,然后處理返回的結(jié)果信息,接著檢索系統(tǒng)將處理好的結(jié)果信息返回給客戶端,從而響應(yīng)檢索請求??蛻舳藶g覽器對于返回的文字信息直接顯示,對于返回的圖像地址信息則根據(jù)地址信息請求FastDFS分布式文件存儲服務(wù)器,然后FastDFS下載圖像返回給客戶端的瀏覽器進行顯示,從而完成一個檢索流程。具體的植物圖像檢索系統(tǒng)業(yè)務(wù)流程如圖4所示。
本文設(shè)計的海量植物圖像智能檢索系統(tǒng),其構(gòu)建步驟主要包括植物圖像數(shù)據(jù)抓取、植物圖像數(shù)據(jù)處理、植物圖像文件存儲、植物圖像結(jié)構(gòu)化數(shù)據(jù)存儲、植物圖像索引數(shù)據(jù)存儲和植物圖像的智能檢索等。使用的關(guān)鍵技術(shù)包括數(shù)據(jù)抓取與處理技術(shù)、分布式存儲技術(shù)、搜索引擎技術(shù)和智能檢索技術(shù)等。構(gòu)建植物圖像智能檢索系統(tǒng)的具體技術(shù)路線如表1所示。
表1 構(gòu)建植物圖像智能檢索系統(tǒng)技術(shù)路線
為了實現(xiàn)植物圖像檢索系統(tǒng)底層數(shù)據(jù)的持續(xù)增長,本文通過Python網(wǎng)絡(luò)爬蟲技術(shù)實現(xiàn)對互聯(lián)網(wǎng)免費開放的植物圖像數(shù)據(jù)進行抓取。Python是一款優(yōu)秀的爬蟲工具,它通過使用Beautiful Soup、Selenium和XPath這3個組件可以很便捷地實現(xiàn)爬蟲技術(shù)[16]。植物圖像數(shù)據(jù)抓取的基本原則包括:只抓取植物圖像類的專業(yè)數(shù)據(jù)庫,確保數(shù)據(jù)的可靠性和專業(yè)性;只抓取免費開放的數(shù)據(jù),并注明數(shù)據(jù)的來源且不用于盈利,確保原始植物圖像數(shù)據(jù)的知識產(chǎn)權(quán)得到保護;采取定期和延時抓取策略,避免對目標(biāo)數(shù)據(jù)庫造成過大負載,不影響目標(biāo)數(shù)據(jù)庫的正常運行。
對抓取的植物圖像數(shù)據(jù)需要經(jīng)過一系列的處理才能進入植物圖像檢索系統(tǒng):需要對開放的圖像元數(shù)據(jù)如種中文名、種拉丁名、作者信息、來源信息、時間信息等進行清洗、格式校正等常規(guī)處理;計算植物圖像文件的Message Digest 5(MD5)值,根據(jù)MD5值判斷該圖像文件是否已存在;讀取植物圖像的特征信息包括拍攝時間、GPS信息、像素、分辨率、相機型號、光圈、曝光時間和焦距等基本圖像信息;調(diào)用圖像自動標(biāo)注服務(wù)API對植物部位進行標(biāo)注;通過ImageSharp圖像分割技術(shù)和CV2顏色識別技術(shù)識別植物部位的顏色;生成植物圖像縮略圖;將原圖和縮略圖保存到FastDFS分布式文件系統(tǒng)并獲取存儲路徑;將上述處理獲得的所有結(jié)構(gòu)化數(shù)據(jù)保存到數(shù)據(jù)庫,并定期更新Solr集群的索引數(shù)據(jù)。具體的植物圖像數(shù)據(jù)處理流程如圖5所示。
植物圖像檢索系統(tǒng)在檢索請求高并發(fā)時,需要從圖片服務(wù)器加載大量的植物縮略圖到客戶端。采用傳統(tǒng)的單臺文件服務(wù)器顯然無法滿足需求,而分布式文件系統(tǒng)能夠?qū)?shù)據(jù)管理任務(wù)均衡地分布到每個存儲節(jié)點上,達到各司其職和彼此協(xié)同的目的[17],如FastDFS,其充分考慮了文件的冗余備份、負載均衡和支持動態(tài)擴容等機制,解決了文件的大容量存儲和負載均衡等問題[18]。因此本文通過引入在小文件處理表現(xiàn)優(yōu)秀的FastDFS分布式文件系統(tǒng)來提高植物圖像的加載速度。
當(dāng)植物圖像檢索系統(tǒng)客戶端發(fā)出高并發(fā)請求植物圖像時,檢索系統(tǒng)客戶機通過基于虛擬IP(Virtual IP Address, VIP)的植物圖像地址請求FastDFS的Client。Client由1主N備的客戶機構(gòu)成,通過Nginx和Keepalived保證Client的高可用性。Client將請求地址發(fā)送給Tracker Server。Tracker Server由多臺對等跟蹤服務(wù)器構(gòu)成,能實現(xiàn)負載均衡的功能。Tracker Server根據(jù)請求地址信息尋找一臺可用的Storage Server地址和端口返回給Client。Client根據(jù)返回的地址和端口信息和Storage Server建立聯(lián)系。Storage Server根據(jù)地址信息查找圖像并返回給Client。Client再將圖像返回給檢索系統(tǒng)客戶機。
由于植物圖像在上傳到FastDFS前需要經(jīng)過一系列處理工作,因此在本文構(gòu)建的植物圖像檢索系統(tǒng)中,上傳圖像采用了基于C#開發(fā)并部署在植物圖像數(shù)據(jù)處理服務(wù)器的UploadClient模塊。上傳植物圖像時,UploadClient首先向Tracker Server發(fā)出上傳請求。Tracker Server根據(jù)負載均衡優(yōu)先級選擇優(yōu)先級最高的Storage Server并將其地址和端口信息返回給UploadClient。UploadClient根據(jù)返回的地址和端口信息與Storage Server建立聯(lián)系并上傳文件。上傳完畢Storage Server將文件的存儲地址信息返回給UploadClient。UploadClient保存返回的文件地址信息結(jié)束上傳。植物圖像FastDFS分布式文件存儲結(jié)構(gòu)如圖6所示。
FastDFS除了在文件下載和上傳時提供高可用性、冗余備份和負載均衡外,還支持動態(tài)擴容功能。當(dāng)植物圖像的文件數(shù)量不斷增加時,可通過動態(tài)增加Storage Server的Group實現(xiàn)存儲擴容。
傳統(tǒng)的關(guān)系型數(shù)據(jù)庫如SQL Server在海量數(shù)據(jù)的查詢尤其是模糊查詢方面效率比較低。為此科研人員可通過優(yōu)化搜索算法[19]或采用非關(guān)系型數(shù)據(jù)庫如MongoDB來提升查詢效率[20]。工業(yè)界常用方法是將數(shù)據(jù)遷移到集成了數(shù)據(jù)存儲和檢索功能的垂直分布的搜索引擎[21],例如Solr[22-23]、Elasticsearch[24-25]。本文研究通過引入Solr集群來實現(xiàn)海量植物圖像的結(jié)構(gòu)化數(shù)據(jù)的極速查詢。
單臺Solr服務(wù)器在千萬級海量數(shù)據(jù)的模糊搜索時能實時返回檢索結(jié)果,但在面對億級海量數(shù)據(jù)的模糊搜索時仍然有一定的延時。因此為了提高植物圖像檢索系統(tǒng)的檢索效率和可擴展性,本文采用Solr的分布式集群搜索方案,通過使用Zookeeper來管理和協(xié)調(diào)SolrCloud[26]。Zookeeper由1臺Leader服務(wù)器和2臺Follower服務(wù)器構(gòu)成,它們主要實現(xiàn)配置管理、監(jiān)控SolrCloud集群狀態(tài)、接收客戶端請求、投票的發(fā)起和決議以及向客戶端返回結(jié)果的功能。SolrCloud可由多臺Solr服務(wù)器構(gòu)成,主要用于存儲Solr底層的索引結(jié)構(gòu)。一個Collection即是一個完整的索引結(jié)構(gòu)。為了提高檢索效率和實現(xiàn)檢索請求高并發(fā),通常將一個Collection分成多個Shard分片,并將Shard分片分布式存儲于多臺Solr服務(wù)器。當(dāng)檢索系統(tǒng)的數(shù)據(jù)量需要擴容時,可以通過增加Solr服務(wù)器和Shard分片來實現(xiàn)。
Solr集群通過配置Zookeeper配置文件目錄下的data-config.xml來實現(xiàn)與植物圖像結(jié)構(gòu)化數(shù)據(jù)庫的通信。在data-config.xml中可配置如SQL Server、Oracle和MySQL等多種關(guān)系型數(shù)據(jù)庫,通常將需要檢索的植物圖像字段如種拉丁名、種中文名、部位、顏色、圖片大小、圖片MD5值等字段以及其它必要的字段如圖像縮略圖的存儲路徑等添加查詢,并通過配置managed-schema來建立上述字段與Solr集群底層索引結(jié)構(gòu)的對應(yīng)關(guān)系。由于Solr集群默認的分詞是英文分詞器,植物圖像檢索系統(tǒng)需要滿足通過植物的中文名、植物圖像的部位和顏色等條件進行檢索,因此本文構(gòu)建的Solr集群還增加了IKAnalyzer中文分詞器,并將《中國植物志》(Flora of China, FOC)中的植物物種中文名稱和常用的中文檢索關(guān)鍵詞添加到分詞器的擴展詞典中。構(gòu)建好的Solr集群通過API接口形式向植物圖像檢索系統(tǒng)的Web應(yīng)用服務(wù)器和植物圖像數(shù)據(jù)處理服務(wù)器提供數(shù)據(jù)檢索服務(wù)。具體的植物圖像Solr集群結(jié)構(gòu)如圖7所示。
本文的植物圖像檢索系統(tǒng)除了提供基于百度植物圖像識別API接口[27]實現(xiàn)的根據(jù)圖片檢索植物圖像功能外,還能根據(jù)植物圖像的部位和顏色進行智能檢索植物圖像。這得益于基于百度EasyDL技術(shù)構(gòu)建的植物圖像自動標(biāo)注服務(wù)、ImageSharp圖像分割技術(shù)和CV2顏色識別技術(shù)。植物圖像自動標(biāo)注服務(wù)構(gòu)建流程如圖8所示。
為了提高植物圖像自動化標(biāo)注的效率,需要將訓(xùn)練好的標(biāo)注模型部署在本地服務(wù)器。植物圖像自動標(biāo)注模型部署到本地服務(wù)器后,可以對外提供植物圖像的部位自動標(biāo)注服務(wù)。數(shù)據(jù)處理服務(wù)器通過調(diào)用該服務(wù)接口實現(xiàn)對植物圖像的部位標(biāo)注,如葉子、花朵、果實、樹干等。同時利用返回的部位標(biāo)注Mask信息和ImageSharp圖像分割技術(shù)實現(xiàn)對植物圖像的部位進行分割。如圖9所示。再通過CV2顏色識別技術(shù)識別植物圖像部位的顏色,如葉子-綠色、花朵-紅色、果實-黃色等,從而實現(xiàn)對植物圖像的部位和顏色信息進行采集并保存到關(guān)系型數(shù)據(jù)庫中,并用于構(gòu)建Solr集群的部位和顏色索引信息,從而使植物圖像檢索系統(tǒng)支持通過植物的部位和顏色進行智能檢索。面向海量植物圖像的智能檢索系統(tǒng)界面設(shè)計如圖10所示。用戶使用該系統(tǒng)可以根據(jù)植物的種中文名、種拉丁名、植物圖片、圖片部位、部位顏色和圖片尺寸等屬性實現(xiàn)海量植物圖像的快速檢索。
通過對植物圖像智能檢索系統(tǒng)的原型系統(tǒng)進行測試,證實本文采用的技術(shù)和方案在提高海量植物圖像的檢索效率和加載速度,實現(xiàn)植物圖像的智能檢索和檢索系統(tǒng)的可持續(xù)化發(fā)展等方面是有效的。
1)在Intel(R) Xeon(R) Silver 4210 32核CPU、64 GB內(nèi)存和2 TB機械硬盤的服務(wù)器環(huán)境下,關(guān)系型數(shù)據(jù)庫SQL Server 2014對1.2億條已設(shè)置索引的GUID數(shù)據(jù)進行模糊檢索需要約480 s,Solr搜索引擎檢索僅需約3.7 s;Solr搜索引擎對1.2億條可分詞的數(shù)據(jù)進行模糊檢索僅需不到1 s,表明Solr搜索引擎在海量數(shù)據(jù)的檢索方面比關(guān)系型數(shù)據(jù)庫有明顯的效率提升。
2)搭建由2臺Client服務(wù)器、2臺Tracker Server服務(wù)器、一個Group中2臺Storage Server服務(wù)器組成的簡易植物圖像FastDFS分布式文件存儲系統(tǒng)。任意一臺Client服務(wù)器、Tracker Server服務(wù)器和Storage Server服務(wù)器關(guān)機情況下,檢索系統(tǒng)均能正常工作。植物圖像下載請求高并發(fā)時2臺Storage Server比單臺Storage Server的下載速率提高了約80%,表明FastDFS分布式文件存儲系統(tǒng)能有效提高檢索系統(tǒng)的可用性和高并發(fā)時植物圖像的下載速率。
3)本文基于百度EasyDL技術(shù)構(gòu)建的植物圖像自動標(biāo)注服務(wù)對植物圖像的部位標(biāo)注準(zhǔn)確率約為73%,基于ImageSharp圖像分割技術(shù)和CV2顏色識別技術(shù)構(gòu)建的植物圖像部位顏色識別服務(wù)對植物圖像部位顏色識別準(zhǔn)確率約為90%,能有效支撐植物圖像檢索系統(tǒng)的智能檢索。
4)本文基于Python技術(shù)實現(xiàn)的網(wǎng)絡(luò)爬蟲能有效地從目標(biāo)數(shù)據(jù)庫抓取免費開放的植物圖像數(shù)據(jù),數(shù)據(jù)處理模塊能有效地對抓取的數(shù)據(jù)進行處理、入庫和建立Solr集群索引,能支持植物圖像檢索系統(tǒng)的可持續(xù)化發(fā)展。
本文研究設(shè)計的面向海量植物圖像的智能檢索系統(tǒng),采用Solr集群技術(shù)有效地提高了海量植物圖像的檢索效率,使用FastDFS分布式文件存儲技術(shù)確保植物圖像檢索系統(tǒng)的高可用性和實現(xiàn)負載均衡,基于百度AI技術(shù)、ImageSharp圖像分割技術(shù)和CV2顏色識別技術(shù)實現(xiàn)海量植物圖像的智能檢索,通過Python網(wǎng)絡(luò)爬蟲技術(shù)不斷豐富植物圖像檢索系統(tǒng)的數(shù)據(jù),支持植物圖像檢索系統(tǒng)的可持續(xù)化發(fā)展。下一步工作,將研究提高植物圖像部位標(biāo)注準(zhǔn)確率的方法和技術(shù),并探索更加高效的植物圖像部位顏色識別方案。