蝴蝶物種自動識別研究的生態照片數據集

蝴蝶物種自動識別研究的生態照片數據集
作者:謝娟英 曹嘉文 馬麗濱 甄文全 陳振寧 李曉東 李後魂 許升全
2019年9月19日
本作品收錄於《中國科學數據
謝娟英, 曹嘉文, 馬麗濱, 等. 蝴蝶物種自動識別研究的生態照片數據集[J/OL]. 中國科學數據, 2019, 4(3). (2019-04-08). DOI: 10.11922/csdata.2018.0092.zh.


摘要&關鍵詞 編輯

摘要:蝴蝶物種的自動識別能夠為生態環境監測、生物多樣性保護、害蟲防治等領域提供技術支持,減少對專家人工鑑定的依賴。針對目前蝴蝶自動識別研究中主要依靠標本照片,缺少蝴蝶自然生態照片數據的狀況,本數據集提供了一組蝴蝶生態照片、對應的PASCAL VOC 2007格式的標註文件以及每張照片的掩模。本數據集包含的721張中國蝴蝶生態圖片,涵蓋94種蝴蝶。每張照片對應一個標註文件,標註文件中包含照片大小、照片中蝴蝶的種類和位置等信息。每張照片的掩模對應照片中的蝴蝶區域。本數據集可為自動識別、目標檢測、圖像分割和昆蟲分類等研究提供基礎數據。

關鍵詞:蝴蝶分類;生態照片;自動識別;目標檢測

Abstract & Keywords 編輯

Abstract: While reducing reliance on experts, automatic species identification can provide strong technical assistance to ecological environment monitoring, biodiversity protection, pest control. However, all the datasets used for butterfly species auto-identification are currently based on specimen images, and there is a lack of ecological butterfly images. Therefore, we set up a dataset of butterfly images which includes ecological images of the butterfly species in China, corresponding annotation files in PASCAL VOC 2007 format, and a mask for each image. The dataset contains 721 butterfly images, covering 94 butterfly species. Each annotation file corresponds to an image, which contains the image size, taxonomic information and location of the butterfly. The mask file for each image corresponds to the specific location of the butterfly in the image. This dataset can support researches on automatic butterfly species recognition, object detection, image segmentation and insect taxonomy.

Keywords: butterfly taxonomy; ecological images; automatic recognition; object detection

數據庫(集)基本信息簡介 編輯

數據庫(集)名稱 蝴蝶物種自動識別研究的生態照片數據集
數據作者 謝娟英、曹嘉文、馬麗濱、甄文全、陳振寧、李曉東、李後魂、許升全
數據通信作者 許升全(xushengquan@snnu.edu.cn)
數據時間範圍 2012–2017年
地理區域 中國
數據量 4.48 GB
數據格式 *.jpg, *.xml, *.png
數據服務系統網址 http://www.sciencedb.cn/dataSet/handle/706
基金項目 國家自然科學基金(61673251、31872273);中央高校基本科研業務費專項資金(GK201701006)。
數據庫(集)組成 本數據集由3部分數據組成:(1)JPEGImages.zip是蝴蝶生態照片,共721張;(2)Annotations.zip 是對應生態照片的721個標註文件,包含照片大小、照片中蝴蝶的種類和位置等信息;(3)masks.zip 是對應生態照片的掩模,以圖片形式保存,共721張。

Dataset Profile 編輯

Title A dataset of butterfly ecological images for automatic species identification
Data corresponding author Xu Shengquan (xushengquan@snnu.edu.cn)
Data authors Xie Juanying, Cao Jiawen, Ma Libin, Zhen Wenquan, Chen Zhenning, Li Xiaodong, Li Houhun, Xu Shengquan
Time range 2012 – 2017
Geographical scope China
Data volume 4.48 GB
Data format *.jpg, *.xml, *.png
Data service system <http://www.sciencedb.cn/dataSet/handle/706>
Sources of funding National Natural Science Foundation of China (61673251, 31872273); Fundamental Research Funds for the Central Universities under Grant No. GK201701006
Dataset composition The dataset consists of 3 subsets in total: (1) JPEGImages.zip is made up of 721 butterfly ecological images; (2) Annotations.zip is made up of 721 annotation files corresponding to the ecological images, and contains the image size, species and location of the butterfly; (3). masks.zip is made up of 721 mask files corresponding to the ecological images.


引 言 編輯

蝴蝶是節肢動物門昆蟲綱鱗翅目錘角亞目昆蟲的統稱[1]。其最引人關注的特徵就是翅和身體表面由不同形態和色彩的鱗片所形成的絢麗多彩的圖案和花紋。這些色彩和花紋與蝴蝶的擬態、保護色、求偶等行為有關;也是千百年來蝴蝶作為文化昆蟲而被人們描繪、歌頌的原因[1]。全球目前已知的蝴蝶種類約18000種,每種蝴蝶都基本固定取食少數幾種植物,其發生與植物和生態系統的變化密切相關,是重要的環境指示昆蟲和生物多樣性監測指示生物[2][3]。對蝴蝶物種的快速準確鑑定是生物學多樣性保護和蝴蝶文化發展的迫切需求,但人工對蝴蝶進行鑑別和分類是一件非常耗時耗力的工作,且對專家的分類經驗依賴度很高。近年來出現了不少關於蝴蝶自動識別的研究。例如,基於內容檢索的蝴蝶所屬科的識別[4]、基於極限學習機的蝴蝶種類自動識別[5]和基於單隱層神經網絡的蝴蝶識別[6]等。然而,這些研究所使用的數據集均為蝴蝶標本的模式照片,且涵蓋的種類較少,研究結果無法應用到對蝴蝶生態照片的識別,特別是從生態照片中區別蝴蝶和環境背景。鑑於此,本數據集通過野外拍攝、蝴蝶愛好者捐贈等方式收集、篩選、整理了一組自然環境中的蝴蝶生態照片,並提供了PASCAL VOC 2007格式的記錄照片中蝴蝶種類和位置信息的標註文件,以及每張照片的掩模。本蝴蝶生態照片數據集是已完成的第三屆中國數據挖掘競賽(國際首次蝴蝶識別大賽)的競賽數據,包括了競賽使用的全部蝴蝶生態照片訓練數據,是目前世界上唯一的蝴蝶生態照片數據集,解決了蝴蝶自動識別領域現有數據只包含有蝴蝶標本照片且種類較少的局限,填補了蝴蝶自動識別領域尚無生態照片數據的空白。競賽使用的訓練數據還包括周堯先生的《中國蝶類志[1]全部蝴蝶照片。希望本數據集能為昆蟲分類、目標檢測和自動識別領域的相關研究提供數據支持。

1 數據採集和處理方法 編輯

1.1 數據採集方法 編輯

本數據集中蝴蝶的生態照片來源於野外實地拍攝和蝴蝶愛好者的捐贈,均為高清單反相機拍攝所得,保證了照片的質量。

1.2 數據處理方法 編輯

照片中的蝴蝶依據《中國蝶類志[1]中國蝴蝶圖鑑[7]等蝴蝶分類文獻鑑定到物種。我們使用labelImg工具標記照片中蝴蝶的位置和類別,並生成PASCAL VOC 2007格式的標註文件,蝴蝶位置由矩形框給出,一張照片對應一個標註文件。另外,為了方便圖像分割領域研究者使用,我們提供了每張照片的掩模,使用labelme工具,用多邊形描繪蝴蝶的外邊緣,每張照片生成一個標註文件並轉換為掩模圖片,以png格式的圖片保存。

2 數據樣本描述 編輯

數據集共包含721張照片,涵蓋94種蝴蝶。如圖1所示,自然環境中蝴蝶的照片與蝴蝶標本照片的不同在於姿態各異,有些是正面照、有些是側面照、有些正在展翅、有些雙翅合攏等。特別是為了躲避天敵的捕食,大部分蝴蝶具有擬態和保護色,它們翅和身體的顏色和花紋與周圍環境相似,難以辨認。


圖片

圖片

圖片

圖1 生態圖片部分樣本


蝴蝶生態照片的統計數據如圖2所示,大部分種類蝴蝶的樣本個數在13以內,每種蝴蝶至少有1個樣本,最多包含61個樣本,呈現典型的長尾分布。


圖片

圖2 蝴蝶生態圖片數據分布


每張照片都對應一個PASCAL VOC 2007格式的xml標註文件,文件中包含對應的圖片名、圖片大小、蝴蝶種類和蝴蝶位置信息。其中蝴蝶分類精確到種,蝴蝶的位置由矩形框標出,在標註文件中記錄矩形框的對角位置信息。同時,每張照片對應一張png格式的掩模圖片,可用於提取蝴蝶精確位置區域,為圖像分割等算法評價研究提供支持。

3 數據質量控制和評估 編輯

本數據集中每張照片的蝴蝶都由昆蟲分類學專家按照《中國蝶類志》等蝴蝶分類文獻進行鑑定,保證了數據的準確性。

蝴蝶的位置信息均為人工標註,並經過多次核查,以確保數據質量。

本數據集已在「2018年第三屆中國數據挖掘競賽——國際首次蝴蝶識別大賽」中發布供參賽者使用,競賽圓滿結束。此次競賽的圓滿成功也說明了本數據集提供的照片數據和標註數據質量可信,可以為相關研究提供數據支持。

4 數據價值 編輯

本數據集提供了94種蝴蝶在其自然生態環境中的721張生態照片,並給出了照片中蝴蝶的種類和位置信息。由於蝴蝶有擬態和保護色,和周圍環境不易區別,所以識別生態照片中的蝴蝶種類是目標檢測領域的挑戰性難題。雖然本數據集只包含了94種蝴蝶,沒有涵蓋全部的中國蝴蝶種類,但蝴蝶物種的識別是同一大類內的小類間區分識別問題,屬於細粒度分類,完全不同於常見的目標檢測是不同大類物體的識別問題,而且94類的分類問題也是一個很挑戰的多類分類問題;加上蝴蝶種類的識別主要依賴於蝴蝶翅膀圖案,而生態環境中拍攝的蝴蝶照片,其翅膀通常不會完全展開,使得其分類特徵很難獲得。細粒度多類分類和高難分類特徵,使得訓練自動識別方法難度非常大。本數據集在為相關研究提供基礎數據的同時,也能促進相關實際應用的開發,使得大眾及昆蟲愛好者能更加方便地了解和認識蝴蝶。

致 謝 編輯

本數據集曾在蝴蝶識別大賽中使用,在數據的整理和測試階段得到了南京大學計算機系高陽教授、北京郵電大學杜軍平教授、北京交通大學於劍教授、山東財經大學尹義龍教授、復旦大學張軍平教授、南京航空航天大學譚曉陽教授的指導。特別感謝山東財經大學呂鵬副教授、北京交通大學景麗萍教授、南京大學史穎歡副教授帶領各自團隊在競賽前對數據驗證所做的大量工作。本數據在聽取2018年第三屆中國數據挖掘競賽——國際首次蝴蝶識別大賽部分參賽隊伍建議的基礎上進行了完善,對這些隊伍和隊員表示感謝。

參考文獻 編輯

  1. ^ 1.0 1.1 1.2 1.3 周堯. 中國蝶類志[M]. 鄭州: 河南科學技術出版社, 1998.
  2. 馬方舟, 徐海根, 丁暉, 等. 我國蝴蝶多樣性的保護現狀與對策[J]. 世界環境, 2016(s1): 29-31.
  3. ESPELAND M, BREINHOLT J, WILLMOTT K R, et al. A Comprehensive and Dated Phylogenomic Analysis of Butterflies[J]. Current Biology, 2018, 28(5): 770-778.
  4. WANG J, JI L, LIANG A, et al. The identification of butterfly families using content-based image retrieval[J]. Biosystems Engineering, 2012, 111(1): 24-32.
  5. KAYA Y, KAYCI L, TEKIN R, et al. Evaluation of texture features for automatic detecting butterfly species using extreme learning machine[J]. Journal of Experimental & Theoretical Artificial Intelligence, 2014, 26(2): 267-281.
  6. KANG S H, SONG S H, LEE S H. Identification of butterfly species with a single neural network system[J]. Journal of Asia-Pacific Entomology, 2012, 15(3): 431-435.
  7. 武春生, 序堉峰. 中國蝴蝶圖鑑(全四冊)[M]. 福州: 海峽書局, 2017.

數據引用格式 編輯

謝娟英, 曹嘉文, 馬麗濱, 等. 蝴蝶物種自動識別研究的生態照片數據集[DB/OL]. Science Data Bank, 2018. (2019-04-08). DOI: 10.11922/sciencedb.706.


 

本作品在「知識共享-署名 4.0 國際」協議下發表。

Public domainPublic domainfalsefalse