謝娟英,曹嘉文,馬麗濱,甄文全,陳振寧,4,李曉東,李后魂,許升全*
1. 陜西師范大學計算機科學學院,西安 710119
2. 陜西師范大學生命科學學院,西安 710119
3. 欽州學院海洋學院,廣西欽州 535011
4. 青海師范大學生命科學學院,西寧 810008
5. 河池學院化學與生物工程學院,廣西河池 546300
6. 南開大學生命科學學院,天津 300071
數(shù)據(jù)庫(集)基本信息簡介
蝴蝶是節(jié)肢動物門昆蟲綱鱗翅目錘角亞目昆蟲的統(tǒng)稱[1]。其最引人關(guān)注的特征就是翅和身體表面由不同形態(tài)和色彩的鱗片所形成的絢麗多彩的圖案和花紋。這些色彩和花紋與蝴蝶的擬態(tài)、保護色、求偶等行為有關(guān);也是千百年來蝴蝶作為文化昆蟲而被人們描繪、歌頌的原因[1]。全球目前已知的蝴蝶種類約18 000種,每種蝴蝶都基本固定取食少數(shù)幾種植物,其發(fā)生與植物和生態(tài)系統(tǒng)的變化密切相關(guān),是重要的環(huán)境指示昆蟲和生物多樣性監(jiān)測指示生物[2-3]。對蝴蝶物種的快速準確鑒定是生物學多樣性保護和蝴蝶文化發(fā)展的迫切需求,但人工對蝴蝶進行鑒別和分類是一件非常耗時耗力的工作,且對專家的分類經(jīng)驗依賴度很高。近年來出現(xiàn)了不少關(guān)于蝴蝶自動識別的研究。例如,基于內(nèi)容檢索的蝴蝶所屬科的識別[4]、基于極限學習機的蝴蝶種類自動識別[5]和基于單隱層神經(jīng)網(wǎng)絡(luò)的蝴蝶識別[6]等。然而,這些研究所使用的數(shù)據(jù)集均為蝴蝶標本的模式照片,且涵蓋的種類較少,研究結(jié)果無法應(yīng)用到對蝴蝶生態(tài)照片的識別,特別是從生態(tài)照片中區(qū)別蝴蝶和環(huán)境背景。鑒于此,本數(shù)據(jù)集通過野外拍攝、蝴蝶愛好者捐贈等方式收集、篩選、整理了一組自然環(huán)境中的蝴蝶生態(tài)照片,并提供了PASCAL VOC 2007格式的記錄照片中蝴蝶種類和位置信息的標注文件,以及每張照片的掩模。本蝴蝶生態(tài)照片數(shù)據(jù)集是已完成的第三屆中國數(shù)據(jù)挖掘競賽(國際首次蝴蝶識別大賽)的競賽數(shù)據(jù),包括了競賽使用的全部蝴蝶生態(tài)照片訓練數(shù)據(jù),是目前世界上唯一的蝴蝶生態(tài)照片數(shù)據(jù)集,解決了蝴蝶自動識別領(lǐng)域現(xiàn)有數(shù)據(jù)只包含有蝴蝶標本照片且種類較少的局限,填補了蝴蝶自動識別領(lǐng)域尚無生態(tài)照片數(shù)據(jù)的空白。競賽使用的訓練數(shù)據(jù)還包括周堯先生的《中國蝶類志》[1]全部蝴蝶照片。希望本數(shù)據(jù)集能為昆蟲分類、目標檢測和自動識別領(lǐng)域的相關(guān)研究提供數(shù)據(jù)支持。
本數(shù)據(jù)集中蝴蝶的生態(tài)照片來源于野外實地拍攝和蝴蝶愛好者的捐贈,均為高清單反相機拍攝所得,保證了照片的質(zhì)量。
照片中的蝴蝶依據(jù)《中國蝶類志》[1]《中國蝴蝶圖鑒》[7]等蝴蝶分類文獻鑒定到物種。我們使用labelImg工具標記照片中蝴蝶的位置和類別,并生成PASCAL VOC 2007格式的標注文件,蝴蝶位置由矩形框給出,一張照片對應(yīng)一個標注文件。另外,為了方便圖像分割領(lǐng)域研究者使用,我們提供了每張照片的掩模,使用labelme工具,用多邊形描繪蝴蝶的外邊緣,每張照片生成一個標注文件并轉(zhuǎn)換為掩模圖片,以png格式的圖片保存。
數(shù)據(jù)集共包含721張照片,涵蓋94種蝴蝶。如圖1所示,自然環(huán)境中蝴蝶的照片與蝴蝶標本照片的不同在于姿態(tài)各異,有些是正面照、有些是側(cè)面照、有些正在展翅、有些雙翅合攏等。特別是為了躲避天敵的捕食,大部分蝴蝶具有擬態(tài)和保護色,它們翅和身體的顏色和花紋與周圍環(huán)境相似,難以辨認。
圖1 生態(tài)圖片部分樣本
蝴蝶生態(tài)照片的統(tǒng)計數(shù)據(jù)如圖2所示,大部分種類蝴蝶的樣本個數(shù)在13以內(nèi),每種蝴蝶至少有1個樣本,最多包含61個樣本,呈現(xiàn)典型的長尾分布。
圖2 蝴蝶生態(tài)圖片數(shù)據(jù)分布
每張照片都對應(yīng)一個PASCAL VOC 2007格式的xml標注文件,文件中包含對應(yīng)的圖片名、圖片大小、蝴蝶種類和蝴蝶位置信息。其中蝴蝶分類精確到種,蝴蝶的位置由矩形框標出,在標注文件中記錄矩形框的對角位置信息。同時,每張照片對應(yīng)一張png格式的掩模圖片,可用于提取蝴蝶精確位置區(qū)域,為圖像分割等算法評價研究提供支持。
本數(shù)據(jù)集中每張照片的蝴蝶都由昆蟲分類學專家按照《中國蝶類志》等蝴蝶分類文獻進行鑒定,保證了數(shù)據(jù)的準確性。
蝴蝶的位置信息均為人工標注,并經(jīng)過多次核查,以確保數(shù)據(jù)質(zhì)量。
本數(shù)據(jù)集已在“2018年第三屆中國數(shù)據(jù)挖掘競賽——國際首次蝴蝶識別大賽”中發(fā)布供參賽者使用,競賽圓滿結(jié)束。此次競賽的圓滿成功也說明了本數(shù)據(jù)集提供的照片數(shù)據(jù)和標注數(shù)據(jù)質(zhì)量可信,可以為相關(guān)研究提供數(shù)據(jù)支持。
本數(shù)據(jù)集提供了94種蝴蝶在其自然生態(tài)環(huán)境中的721張生態(tài)照片,并給出了照片中蝴蝶的種類和位置信息。由于蝴蝶有擬態(tài)和保護色,和周圍環(huán)境不易區(qū)別,所以識別生態(tài)照片中的蝴蝶種類是目標檢測領(lǐng)域的挑戰(zhàn)性難題。雖然本數(shù)據(jù)集只包含了94種蝴蝶,沒有涵蓋全部的中國蝴蝶種類,但蝴蝶物種的識別是同一大類內(nèi)的小類間區(qū)分識別問題,屬于細粒度分類,完全不同于常見的目標檢測是不同大類物體的識別問題,而且94類的分類問題也是一個很挑戰(zhàn)的多類分類問題;加上蝴蝶種類的識別主要依賴于蝴蝶翅膀圖案,而生態(tài)環(huán)境中拍攝的蝴蝶照片,其翅膀通常不會完全展開,使得其分類特征很難獲得。細粒度多類分類和高難分類特征,使得訓練自動識別方法難度非常大。本數(shù)據(jù)集在為相關(guān)研究提供基礎(chǔ)數(shù)據(jù)的同時,也能促進相關(guān)實際應(yīng)用的開發(fā),使得大眾及昆蟲愛好者能更加方便地了解和認識蝴蝶。
致 謝
本數(shù)據(jù)集曾在蝴蝶識別大賽中使用,在數(shù)據(jù)的整理和測試階段得到了南京大學計算機系高陽教授、北京郵電大學杜軍平教授、北京交通大學于劍教授、山東財經(jīng)大學尹義龍教授、復旦大學張軍平教授、南京航空航天大學譚曉陽教授的指導。特別感謝山東財經(jīng)大學呂鵬副教授、北京交通大學景麗萍教授、南京大學史穎歡副教授帶領(lǐng)各自團隊在競賽前對數(shù)據(jù)驗證所做的大量工作。本數(shù)據(jù)在聽取 2018年第三屆中國數(shù)據(jù)挖掘競賽——國際首次蝴蝶識別大賽部分參賽隊伍建議的基礎(chǔ)上進行了完善,對這些隊伍和隊員表示感謝。