大田作物病害識別研究圖像數據集

大田作物病害識別研究圖像數據集
作者:陳雷 袁媛
2019年12月31日
本作品收錄於《中國科學數據
陳雷, 袁媛. 大田作物病害識別研究圖像數據集[J/OL]. 中國科學數據, 2019, 4(4). (2019-06-11). DOI: 10.11922/csdata.2019.0008.zh.


摘要&關鍵詞

編輯

摘要:根據聯合國糧農組織報告,每年農業病蟲害造成的自然損失率超過37%,農業病蟲害識別與防治對於提高農業產量具有重要意義。傳統人工識別方法依賴經驗,主觀因素較大,不夠準確。近年來計算機視覺方法逐漸發展,該方法更加客觀,並支持實時在線診斷,但需要大規模訓練樣本的支持。因此,構建可供機器學習建模使用的圖像數據集對於實現高效的農業病蟲害識別至關重要。為此我們構建了農業病蟲害研究圖庫(IDADP),涵蓋農業病蟲害圖像採集、分類、標記、存儲與建模等多方面的內容,面向科研學者與農技人員兩大類用戶群體提供農業病害在線診斷及相關的技術諮詢等服務。本數據集目前包括以水稻、小麥、玉米為主的大田作物的高質量農業病害圖像數據約200 GB。與現有大多僅含有3–5幅典型症狀圖像的農業病害圖譜類資源存在本質區別,本圖像數據集由高分辨率和高相似度的同類農作物病害原始圖像數據構成,每種病害的圖像數量有幾百乃至上千幅,可作為病害識別建模的訓練樣本使用。本數據集將為農業病害識別研究領域提供寶貴的基礎數據資源,同時可作為大數據環境下機器學習建模的標準圖庫,對促進農業病害圖像識別研究的發展具有重要的實際應用價值。

關鍵詞:農業病害;大田作物;病害識別;標準圖庫;訓練樣本

Abstract & Keywords

編輯

Abstract: According to the report of Food and Agriculture Organization of the United Nations, the annual natural loss rate caused by agricultural pests and diseases reached more than 37%. Identification and control of agricultural pests and diseases is significant for improving agricultural yield. Traditional manual recognition methods are not accurate enough since they rely on subjective experience. In recent years, computer vision-based methods have developed gradually. These methods are more objective and support real-time online diagnosis. As these methods depend on large-scale training samples, building an image dataset for machine learning modeling is very important for efficiently identifying agricultural diseases and pests. Therefore, we have constructed an image dataset for agricultural diseases and pests research (IDADP) which covers such aspects of agricultural diseases and pests as image acquisition, classification, labeling, storage and modeling. Meanwhile, this image dataset provides online diagnosis of agricultural diseases and related technical consultation services for scholars and agricultural technicians. The image dataset currently has about 200 GB of high-quality agricultural disease images, including field crops such as rice, wheat and corn. Essentially different from existing agricultural disease map resources which mostly contain only 3 to 5 typical symptom images, our dataset consists of the original image data of the same kind of crop diseases with high resolution and high similarity. Each disease has hundreds or even thousands of images, which can be used as training samples for machine learning modeling of disease identification. As a standard dataset for machine learning modeling in large data environment, this image dataset will provide valuable basic data resources. And it has important applicability in promoting the development of agricultural disease identification.

Keywords: agricultural disease; field crops; disease identification; standard image dataset; training sample

數據庫(集)基本信息簡介

編輯
數據庫(集)名稱 大田作物病害識別研究圖像數據集
數據作者 陳雷、袁媛
數據通信作者 陳雷(chenlei@iim.ac.cn);袁媛(yuanyuan@iim.ac.cn)
數據時間範圍 2013–2018年
地理區域 中國境內
數據量 200 GB
數據格式 SQL Server
基金項目 中國科學院信息化專項(XXH13505-03-104);國家自然科學基金面上項目(31871521)。
數據服務系統網址 http://www.scidb.cn/journalDetail?dataSetId=633694461276192770&code=5c36e22c13f6b34064283d5e&tID=journalOne&dataSetType=journal&language=zh_CN&lan=2
數據庫(集)組成 本數據集共有水稻、小麥和玉米3種大田作物的15種病害圖像,每種病害對應一個文件夾。其中水稻病害6個文件夾,包括水稻白葉枯病、水稻稻曲病、水稻稻瘟病、水稻胡麻斑病、水稻紋枯病、水稻細菌性條斑病;小麥病害5個文件夾,包括小麥白粉病、小麥赤霉病、小麥梭條斑花葉病、小麥雪霉葉枯病、小麥葉銹病;玉米病害4個文件夾,包括玉米大斑病、玉米南方銹病、玉米小斑病、玉米銹病。每個文件夾中包含該病害圖像以流水號命名的原始JPG文件,以及介紹該病害基本信息與防治方法的intro.txt文件。本數據集共有高質量的jpg圖像17624張。

Dataset Profile

編輯
Title An image dataset for field crop disease identification
Data corresponding author Lei Chen (chenlei@iim.ac.cn), Yuan Yuan (yuanyuan@iim.ac.cn)
Data authors Lei Chen, Yuan Yuan
Time range 2013 – 2018
Geographical scope China
Data volume 200 GB
Data format SQL Server
Data service system <http://www.scidb.cn/journalDetail?dataSetId=633694461276192770&code=5c36e22c13f6b34064283d5e&tID=journalOne&dataSetType=journal&language=zh_CN&lan=2>
Sources of funding The 13th Five-year Informatization Plan of Chinese Academy of Sciences (XXH13505-03-104); National Natural Science Foundation of China (31871521).
Dataset composition The dataset contains 15 disease images of rice, wheat and maize, each of which corresponds to a folder. Concretely, there are 6 folders of rice diseases, including bacterial blight of rice, rice false smut, rice blast, rice brown spot, rice sheath blight and rice bacterial leaf streak; 5 folders of wheat diseases, including wheat powdery mildew, wheat head blight, wheat spindle streak mosaic virus, gerlachia nivalis and wheat leaf rust; and 4 folders of maize diseases, including corn northern leaf blight, southern corn rust, corn southern leaf blight and corn rust. Each folder contains the original JPG files named by pipeline number of the disease image and the intro.txt file which introduces the basic information of the disease and its control methods. This dataset contains 17 624 high quality JPG image data.


引 言

編輯

近些年來,利用計算機視覺和人工智能等技術進行農作物病蟲害防治,為農作物病蟲害的無損檢測和智能化診斷提供了新的方式和思路。尤其是2006年Hinton提出深度學習以來,在諸多領域尤其是圖像分類方面取得了顯著的效果,為進一步提高基於計算機視覺技術的農業病蟲害圖像識別效果提供了新的思路。而深度學習方法的效果依賴於大規模的訓練數據,因此出現了圖像識別最大數據庫ImageNet、最有影響的人臉圖像數據庫LFW等著名的標準圖像數據集。同樣,在農業病蟲害圖像識別領域則是需要大規模的農業病蟲害基礎圖像資源。農業病蟲害圖像數據庫的規模和質量在很大程度上決定了病蟲害圖像識別系統的效果。建設規模化、標準化、可共享的農業病蟲害圖像資源是該領域應當先行的基礎研究。

目前現有的農業病蟲害圖像資源大多是圖譜的形式,如紙質出版物的病蟲害圖譜包括《中國蔬菜病蟲原色圖譜[1]中國果樹病蟲原色圖譜[2]中國經濟作物、糧食作物、藥用植物病蟲害原色圖鑑[3]等。幾經改版,現已成為主流的病蟲害圖譜書籍。本世紀以來,網絡版的農業病蟲草害數據庫在國內外開始出現並應用,國際上最權威的是國際農業和生物科學中心編輯出版的作物保護大全檢索系統(CABI-CPC, Center of Agriculture and Biological International-Crop Protection Compendium)[4],收錄了世界上150多個國家和地區、3000多種有害昆蟲、病害和天敵的信息,部分配有圖片。國內電子版的病蟲害圖譜有中國農業科學院作物科學研究所建立的作物病蟲害數據庫、河北科技師範學院研製的智能蔬菜病蟲害診斷與防治專家系統[5]、安徽省農業科學院農業經濟與信息研究所開發的農業病蟲草害圖文基礎數據庫、中國醫學科學院藥用植物研究所植物保護中心開發的藥用植物病蟲害數據庫等。以上這類圖譜,對每種病蟲害僅給出幾張典型症狀圖片,主要是以科普介紹和形象對照應用為主,不能作為機器學習方法的訓練數據集,無法應用於後續的病蟲害圖像計算機識別方法的研究。由於農作物品種繁多、地域差別以及學科交叉等原因,目前我國還沒有建立起可供機器學習使用的農作物病蟲害識別研究標準圖像數據集。

文章作者在有關項目的支持下,通過採集、整合數據,建設了農業病蟲害研究圖庫(IDADP)。此次公開的數據集包含大量的水稻、小麥、玉米等作物病害圖像資源,每種病害有幾百乃至上千幅圖片,其原始圖片分辨率達到2000萬像素,建立了一個可為機器學習建模提供訓練和測試樣本的農作物病蟲害識別研究圖像數據集。

1 數據採集和處理方法

編輯

本研究中圖像採集設備為Canon EOS 6D型數碼單反相機,配備佳能EF 17-40mm f/4L USM鏡頭與佳能EF 100mm f/2.8L IS USM微距鏡頭,以及索尼DSC-RX100M3數碼相機。拍攝時採用相機的最優畫質與最大分辨率5472×3648,其中佳能數碼單反相機採用原始的RAW格式,其後在計算機上使用佳能Digital Photo Professional軟件將RAW文件轉化為JPG圖像文件,索尼數碼相機直接採用JPG格式進行拍攝。拍攝時採用光圈優先模式,調整適當的光圈使得圖像景深足夠大,以保障被拍攝的作物器官在畫面中有一定的清晰度。

在採集作物病害圖像時,主要是在露天或大棚的自然光照條件下,拍攝角度使光路儘量垂直於作物器官所在平面,並利用側面光保證作物器官受光均勻,所拍攝的作物器官占據畫面的中央主要位置。

2 數據樣本描述

編輯

本數據集以圖像數據庫的形式進行存儲與管理。其中第一層圖像數據詞典以Microsoft SQL Server的數據表形式存儲,數據表的各字段說明以示例如表1所示,其中圖像路徑是指向存放在計算機硬盤上的原始圖像文件的索引,作為數據庫的主鍵。此外還有一些圖像數據的關鍵信息,如拍攝時間、拍攝地點、圖像大小等,已經蘊含在圖像文件的exif信息中,因此不在數據表中重複表示。本數據集結構設計較簡單,便於數據集管理人員的日常維護與農業病害識別研究人員與農技專家等用戶的直接使用。


表1 作物病害圖像數據詞典的數據表字段與示例

列1 列2 列3 列4 列5
作物名稱 器官名稱 病蟲害名稱 圖像路徑 備註
小麥 葉部 赤霉病 小麥赤霉病\IMG2015.jpg -
小麥 葉部 白粉病 小麥白粉病\IMG1882.jpg -
小麥 葉部 白粉病 小麥白粉病\IMG1883.jpg -
水稻 葉部 稻瘟病 水稻稻瘟病\DSC18_2083.jpg -
水稻 穗部 稻曲病 水稻稻曲病\IMG17_5657.jpg -


第二層是圖像基礎數據,保存在計算機硬盤上。本數據集按照作物病害名稱建立文件夾,共有15個文件夾。其中水稻病害6個文件夾,包括水稻白葉枯病、水稻稻曲病、水稻稻瘟病、水稻胡麻斑病、水稻紋枯病、水稻細菌性條斑病;小麥病害5個文件夾,包括小麥白粉病、小麥赤霉病、小麥梭條斑花葉病、小麥雪霉葉枯病、小麥葉銹病;玉米病害4個文件夾,包括玉米大斑病、玉米南方銹病、玉米小斑病、玉米銹病。每個文件夾中包含該病害圖像以流水號命名的原始JPG文件,以及介紹該病害基本信息與防治方法的intro.txt文件,每張圖像代表一個數據樣本。例如本數據集中水稻白葉枯病有974張圖像,則文件夾「水稻白葉枯病」中含有974張JPG圖像樣本以及1個介紹水稻白葉枯病基本信息與防治方法的intro.txt文件。本數據集中的部分圖像樣本示例如圖1所示。


圖片(a)

圖片(b)

圖片(c)

圖片(d)

圖1 大田作物病害識別研究圖像數據集中的樣本示例(a)水稻稻曲病 (b)水稻稻瘟病(c)小麥赤霉病 (d)玉米南方銹病


3 數據質量控制和評估

編輯

本研究中採集的作物病害圖像來源主要有兩種方式:一種是人工接種,該方式下所拍攝的作物病害圖像完全能夠保障分類準確;另一種方式是拍攝各類生產基地的作物病害圖像,並沒有經過人工接種,病害是自然發生的,因此所拍攝的病害圖像後期經過植保專家的實驗室分析與鑑定,以保障病害圖像的分類準確。同時,圖像採集工作由從事農業病害圖像識別研究的專業技術人員按照標準操作流程和規範進行,並在後期對所採集的圖像進行人工篩選,將不符合要求的文件剔除,保證本數據集中作物病害圖像數據來源的質量和可靠性。

4 數據價值

編輯

本數據集與現有作物病蟲害圖譜的最主要區別是本數據集中的每種病害圖像具有幾百乃至上千張,可以通過機器學習方法建立病害識別相關的模型,為作物病害圖像研究領域提供基礎數據資源。隨着本數據集的發展,今後將建設成為國內標準的農業病蟲害圖像識別研究數據資源,為業內相關研究人員提供統一的訓練集與測試集數據,從而使得不同的方法可以在同一數據集下進行比較,推動農業病蟲害圖像識別研究的發展。

5 數據使用方法和建議

編輯

由於作物病害發生是一個複雜的過程,同種病害在不同品種、不同部位上的表現症狀也不完全相同,因此使用本數據集的圖像數據時可按照具體需求進行二次篩選。同時由於作物病害圖像原始數據文件較大,建立在用於機器學習模型訓練時根據所選取的框架進行相應的壓縮或裁剪。

本數據集中的大田作物病害圖像沒有對病害位置進行人工標記,在構建模型時需要一定數量的無病害的作物圖像作為正樣本,所需的正樣本圖像數據可前往IDADP網站下載(http://www.icgroupcas.cn/website_bchtk/index.html),因此正样本数据不单独在本数据集中提供。

此外,由於數據版權原因,本文中所上傳的圖像數據均帶有水印,如需獲取無水印的原始圖像數據需要前往圖庫網站聯繫數據庫負責人,下載並簽署相應的使用協議。

致 謝

編輯

感謝安徽省農業科學院的戚仁德、王士梅、王大剛、張愛芳、陸麗娟、黃亮、汪濤、董偉和安徽農業大學金秀提供作物病害圖像拍攝基地,協助對作物病害圖像進行鑑定與分類。

參考文獻

編輯
  1. 呂佩珂. 中國蔬菜病蟲原色圖譜[M]. 北京: 中國農業出版社, 1992.
  2. 呂佩珂. 中國果樹病蟲原色圖譜[M]. 北京: 華夏出版社, 1993.
  3. 呂佩珂. 中國糧食作物、經濟作物、藥用植物病蟲原色圖鑑[M]. 呼和浩特: 遠方出版社, 1999.
  4. International C, Wallingford (RU). Crop protection compendium[M]. Berlin: Blackwell Verlag GmbH, 2006.
  5. 王久興, 劉介丹, 陳秀敏. 基於. NET的智能蔬菜病蟲害診斷與防治專家系統構建[J]. 河北科技師範學院學報, 2013, 27(2): 18-22.

數據引用格式

編輯

陳雷, 袁媛. 大田作物病害識別研究圖像數據集[DB/OL]. Science Data Bank, 2019. (2019-03-20). DOI: 10.11922/sciencedb.745.


 

本作品在「知識共享-署名 4.0 國際」協議下發表。

Public domainPublic domainfalsefalse