全國地表類型遙感影像樣本數據集

全國地表類型遙感影像樣本數據集
作者：趙理君　鄭柯　史路路　白洋　唐吉文　張偉　饒夢彬　鄒松　李艷艷
2019年6月5日

本作品收錄於《中國科學數據》

趙理君, 鄭柯, 史路路, 等. 全國地表類型遙感影像樣本數據集[J/OL]. 中國科學數據, 2019, 4(2). (2019-02-04). DOI: 10.11922/csdata.2018.0058.zh.

姊妹計劃: 數據項

摘要&關鍵詞

摘要：全國地表類型遙感影像樣本數據集是對全國（除港澳台地區外）31個省、自治區、直轄市的十米級Landsat 8多光譜影像數據和米級GF-1、QuickBird多光譜影像數據進行人工解譯採集而得。本數據集使用了2013–2017年的影像數據，覆蓋夏季和冬季兩個典型時相，採用了面向測繪地物波譜的分類體系。所構建數據集可為土地覆蓋分類提供先驗訓練和測試樣本，指導待分類影像中同類影像樣本點的採集，為應用示範研究提供樣本數據支持。為了更好地利用這些數據，採用統一規範的數據處理方法、樣本採集規則和質量控制體系，對地表類型遙感影像樣本數據進行採集和質量控制，並已經公開共享和提供下載。

關鍵詞：地表類型；全國；遙感影像樣本；十米級多光譜；米級多光譜

Abstract & Keywords

Abstract: This dataset of remote sensing images of land cover types in China is obtained through manual interpretation of ten-meter-level Landsat 8 multispectral image data and meter-level GF-1 and QuickBird multispectral image data, which covers 31 provinces, municipalities and autonomous regions of China excluding Hong Kong, Macao and Taiwan. Based on satellite images of the past five years (2013 – 2017), including summer and winter seasons, the study uses the classification system of the ground object spectral library. The dataset can offer priori training and testing samples for land cover classification, and provide sample data support for the research on the application of land cover classification. It can also be used to guide the collection of similar image sample points in the image. To promote convenient data usage, we adopted unified and standard data processing methods, sample collecting rules and quality control system, based on which the land cover image data are formed. So far, this dataset has been made publicly available online.

Keywords: land cover type; China; remote sensing image sample; ten meter level multispectral data; meter level multispectral data

數據庫（集）基本信息簡介

數據庫（集）名稱	全國地表類型遙感影像樣本數據集
數據作者	趙理君、鄭柯、史路路、白洋、唐吉文、張偉、饒夢彬、鄒松、李艷艷
數據通信作者	趙理君（zhaolj01@radi.ac.cn）
數據時間範圍	2013–2017年
地理區域	全國（除港澳台地區外）31個省、自治區、直轄市等區域
空間分辨率	2.4–30 m
數據量	647 MB （解壓縮後）
數據格式	.tif, .jpg, .txt, .xml
數據服務系統網址	http://www.sciencedb.cn/dataSet/handle/663
基金項目	科技基礎性工作專項（2014FY210800）
數據庫（集）組成	本數據集由2個分卷壓縮文件構成，解壓後包含了米級空間分辨率樣本點的GF1和QuickBird這兩個文件夾，以及十米級空間分辨率樣本點的Landsat文件夾，各個文件夾下又由以不同採樣地區命名的子文件夾組成。每個子文件夾下，存儲了覆蓋土壤、水體、岩礦、植被、冰雪凍土、人工目標6大類地表類型的樣本點壓縮文件，每個壓縮文件中僅壓縮存儲同一景影像中同一種地表類型的多個樣本點數據。解壓縮後，每個樣本點數據又由4個數據文件組成，分別為：樣本點原始影像數據文件（.tif），樣本點預覽圖文件（.jpg），樣本點的影像波段DN值文件（.txt），樣本點的元數據文件（.xml）。

Dataset Profile

Title	Remote sensing image sample dataset of land cover types in China
Data corresponding author	Zhao Lijun (zhaolj01@radi.ac.cn)
Data authors	Zhao Lijun, Zheng Ke, Shi Lulu, Bai Yang, Tang Jiwen, Zhang Wei, Rao Mengbin, Zou Song, Li Yanyan
Time range	2013 – 2017
Geographical scope	31 provinces, municipalities or autonomous regions of China excluding Hong Kong, Macao and Taiwan
Spatial resolution	2.4–30 m
Data volume	647 MB (after decompression)
Data format	.tif, .jpg, .txt, .xml
Data service system	http://www.sciencedb.cn/dataSet/handle/663
Sources of funding	Basic Research Foundation of Science and Technology (2014FY210800)
Dataset composition	The dataset consists of two compressed files, made up of two folders storing meter-level sample data, namely GF1 and QuickBird, and one folder storing ten-meter-level sample data, namely Landsat. Each folder is comprised of several subfolders which are named after sampling regions. Each subfolder consists of compressed files that store data of six major land cover types in the sampling regions, including soil, water body, rock, vegetation, snow and ice, and man-made objects. Each of the compressed files includes only data of several samples of the same remote sensing image of the same land cover type. After being decompressed, each file is made up of four types of data files, including an original satellite image of the sample (.tif), a sample image preview file (.jpg), a text file of DN values of different spectral bands (.txt), and a metadata file (.xml).

引言

地表覆蓋是地球表面各種物質類型及其自然屬性與特徵的綜合體，其空間分布直接影響着地球表面的物質和能量的循環過程^[1]。利用遙感影像開展地表覆蓋監測是生態環境變化研究、土地資源管理和可持續發展的重要基礎，在全球資源監測、全球變化檢測中發揮着重要作用^[2]。目前，遙感影像的計算機分類成為主要的發展方向，湧現出多種分類方法，如統計模式識別方法、人工智能分類法、遙感與GIS結合法、面向對象的分類法、多源信息複合分類法等^[3]。遙感影像分類就是把圖像中的每一個像元或區域劃分為若干類別中的一種，即通過對各類地物的光譜特徵分析來選擇特徵參數，將特徵空間劃分為互不重疊的子空間，然後將影像內各個像元劃分到各子空間中去，從而實現分類^[4]。在遙感影像地表覆蓋分類的過程中，影像樣本的採集可支持監督分類模型的構建，為地表類型的遙感影像分類提供類別先驗知識。目前，國家基礎地理信息中心發布了2010年GlobalLand 30全球30米地表覆蓋分類產品（http://www.webmap.cn/commres.do?method=globeIndex），可免费下载使用；中国科学院遥感与数字地球研究所发布了连续多年的中国土地覆盖遥感监测产品；清华大学发布了FROM-GLC2010地表覆盖分类产品（http://data.ess.tsinghua.edu.cn/landsat_ pathList_fromglc_0_1. html）以及全球範圍的驗證樣本點數據（http://data.ess.tsinghua.edu.cn/ data/temp/GlobalLandCoverValidationSampleSet_v1.xlsx），但訓練樣本並未完全公開。

本文構建的數據集是依託科技基礎性工作專項「測繪地物波譜本底數據庫建設」（2014FY210800）完成，與項目中的典型水體反射率數據集、典型地物反射率數據集、典型地表類型全波段波譜數據集、作物生長季時間序列反射率數據集、森林和作物多尺度反射率波譜數據集、多頻率多角度森林微波輻射亮溫數據集、全國岩礦標本反射率數據集等其他數據集共同構成了項目最終的測繪地物波譜本底數據庫，所有數據將通過平台網站（http://210.72.27.78/spectrum/）向公众发布。需要指出的是，项目中其他数据集数据均来自地面实测波谱，而本数据集样本数据则是从遥感影像的角度采集影像样本，以期为研究影像与地面波谱之间的关联关系提供支撑，同时也期望能够为遥感影像的分类提供补充样本。本数据集利用了全国范围内与项目其他数据集试验区域相近的遥感影像，通过人工判读与比对得到最终的影像样本。相比已有的影像样本数据集（如GlobeLand 30，FROM-GLC數據集^[5]^[6]），本數據集特色在於：（1）時相更新（2013–2017年）；（2）包含影像樣本空間分辨率更高（最高2.4–8 m）；（3）樣本類型更精細（面向測繪地物類型）；（4）服務方式完全免費（所有樣本數據在平台完全公開）。

1 數據採集和處理方法

本數據集包括十米級和米級兩種影像的樣本數據，其中十米級影像以Landsat 8衛星的30 m空間分辨率數據為主，米級影像以國產GF-1衛星的8 m空間分辨率數據為主，補充了部分QuickBird衛星的2.4 m空間分辨率數據。所有的影像數據通過地理空間數據云平台（http://www.gscloud.cn/）、购买等渠道获取下载。其中，Landsat 8數據使用L1T產品，據USGS提供的信息，該產品已使用地面控制點和數字高程模型數據進行精確校正，幾何校正精度為12 m，小於0.5個像元；GF-1數據使用L1級產品，無幾何信息，利用RPC參數文件進行了RPC幾何精校正；QuickBird數據使用L2A級產品，已經過了幾何精校正處理。上述所有數據源影像均經過了幾何精校正處理，不做輻射和大氣校正處理，保留原始像元值（Digital Number，DN）數據，但需要注意的是樣本點的DN值一般不能直接應用於分類模型的構建。這裡更多地考慮幾何信息主要源於在實際應用中，不同傳感器會因波段設置上的差異造成像元波譜信息無法保持一致性，在遙感影像分類過程中，可以很容易地根據地理點位和類別信息構建訓練樣本。通過對待分類影像進行輻射和大氣校正便可以得到訓練樣本點的光譜反射率特徵。在影像空間範圍選擇上，十米級影像覆蓋全國（除港澳台地區外）31個省/自治區/直轄市的區域，每個行政區劃單元隨機選擇至少2景影像；米級影像覆蓋全國的7大分區，即東北、華北、華東、華中、華南、西南、西北地區，每個地區隨機選擇至少2景影像。在影像時相選擇上，主要考慮夏季和冬季兩個差異度最大的時相，其中冬季時相的時間跨度設定為12–3月，夏季時相的時間跨度設定為7–9月。在影像的獲取年份上，設定為最近5年時間內的影像，以保證樣本數據的時效性。最終，獲得待採樣的影像數據情況如表1所示。

表1 不同衛星影像數據獲取情況表

衛星影像數據源	分辨率等級	數量（景）	空間範圍劃分
Landsat 8	十米級	66	全國（除港澳台地區外）31個省/自治區/直轄市
GF-1	米級	14	東北、華北、華東、華中、華南、西南、西北等地區
QuickBird 02	米級	1	華北地區

基於上述預處理後的遙感影像，通過人工解譯開展地表類型影像樣本採集工作。類別體系嚴格遵從項目內部制定的標準規範《測繪地物波譜庫地物分類編碼規範（草案）》，該草案主要參考了已有的國家相關標準和公認度較高的分類原則、標準，根據測繪部門和遙感數據分類研究的實際需要制定，覆蓋地表類型種類包含植被、土壤、岩礦、冰雪凍土、水體、人工目標6大類一級類，植被向下劃分至6級分類體系，冰雪凍土向下劃分至5級分類體系，土壤、岩礦、水體、人工目標向下劃分至4級分類體系。根據遙感影像對地表區分的能力，對上述分類體系進行了精簡，表2給出本數據集構建中使用的類別體系劃分情況。

表2 類別體系簡表

1級類		2級類		3級類		4級類
編號	類別	編號	類別	編號	類別	編號	類別
1	植被	11	農林用地	1101	耕地	110101	稻田
						110102	旱地
						110103	菜地
						110104	水生作物
				1103	林地
				1104	天然草地	110402	草地
		12	城市綠地	1201	人工綠地
2	土壤	206	漠土
3	岩礦	31	岩石
4	冰雪凍土	41	冰	412	湖冰
				413	河冰
		42	雪
		43	凍土
5	水體	51	河流	511	常年河
				513	乾枯河（干河床）
		52	溝渠	522	幹渠
		53	湖泊	531	常年湖、塘	53101	湖泊
						53102	池塘
				533	乾枯湖
		54	水庫
		55	海洋要素	551	海域
				552	海岸線
				557	海島
6	人工目標	61	水系	6101	溝渠
		62	居民地及設施	6201	居民地
				6202	工礦及其設施
		63	交通	6302	城際公路
				6303	城市道路

在人工解譯採樣過程中參考了已有的專題產品和歷史資料以確保樣本類別標註的準確性。這裡的專題產品和歷史資料包括植被、水體等單一類別的分類專題產品，Google Earth高分辨率歷史影像，項目組其他課題採集的地面樣本實測數據等。針對不同分辨率的影像樣本數據（十米級和米級），每景影像中的每一個子類別，採樣數量控制在50–700個，採樣大小為7像元×7像元的區域，並在採樣過程中避免邊緣像元的選擇。按照項目內部數據入庫規範與要求，每一個樣本數據採用標準統一的數據組織和存儲格式進行記錄，每一個樣本數據對應4個文件，如表3所示。

表3 樣本記錄文件

文件明細	文件內容
image_<top class>_< sensor type>_<acquired time>_AXXX.tif	樣本點原始影像數據
view_<top class>_<sensor type>_<acquired time>_AXXX.jpg	樣本點預覽圖
pixel_<top class>__{_<acquired time>_AXXX.txt}	影像各波段DN值
pixel_<top class>__{_<acquired time>_BXXX.xml}	樣本點的元數據描述信息

在表3中，<top class>、_{、<sensor type>和<acquired time>有統一的命名規則。其中，<top class>為地物大類，限定為vege，soil，rock，snow，water，manmade，分別對應表2中的植被、土壤、岩礦、冰雪凍土、水體和人工目標等類別；_{為子類英文簡寫名稱，長度不超過15個字符；<sensor type>為傳感器的英文名，限定為OLI、PMS、QuickBird，分別對應Landsat 8、GF-1和QuickBird 02衛星；<acquired time>為數據獲取時間，記錄年月日時分秒，格式為YYYYMMDDHHMMSS；XXX為文件編號範圍從001–999；A和B為文件標識，A是對樣本點配套文件的標識，B是對元數據文件的標識。}}

2 數據樣本描述

全國地表類型遙感影像樣本數據集包含十米級和米級兩個空間分辨率等級，其中十米級影像樣本採集了118324個樣本（以省/自治區/直轄市為單元採樣，每個地區至少兩個時相），其中夏季58317個，冬季60007個；米級影像樣本採集了29551個（以全國大的區劃為單元採樣，每個區劃至少兩個時相），其中夏季15792個，冬季13759個。採樣點的空間分布如圖1所示。圖2和圖3分別給出了數據集中十米級影像樣本和米級影像樣本的組成情況。

圖片

圖1 全國地表類型遙感影像樣本數據集空間分布圖審圖號：GS（2019）1381號

圖片

圖2 十米級影像樣本數量統計

圖片

圖3 米級影像樣本數量統計

本數據集以「圖像+描述文檔」的方式組織存儲，包含了影像數據和文本數據，如表3所示。圖4以農林用地這一類別的一個樣本點數據為例，展示了其對應的存儲文件列表。

圖片

圖4 影像樣本數據組織存儲文件示例

其中，tif文件為7像元×7像元大小的原始影像文件；jpg文件為7像元×7像元大小的預覽圖像，與原始影像對應；txt文件為樣本點中心像元的DN值文件，內容的格式為兩列數值，以Tab鍵分隔，第一列數據為波長，第二列數據為DN值；xml文件為元數據描述文件，採用格式化存儲方式，內容如圖5所示：

圖片

圖5 影像樣本元數據描述文件內容示例

3 數據質量控制和評估

針對遙感影像樣本數據，數據質量控制過程包括對待採樣影像數據的檢查整理，單個樣本數據點的檢查，樣本點配套文件的生成和入庫，以及元數據的編寫、檢查和入庫。對待採樣影像數據的檢查包括影像投影信息、波段數、存儲損壞等明顯的數據問題以及文件格式等。單個樣本數據點的檢查，主要針對類別標註錯誤的樣本點數據進行修正、剔除。樣本點配套文件以及元數據文件的檢查包括文件命名、文件格式、文件內容中字段標準化命名以及文件內容的完整性等。

針對遙感影像樣本數據集的構建，在數據入庫階段建立了完善的質量控制過程（圖6），保證已入庫數據的正確性、完整性和一致性。在數據採集整理和入庫過程的質量控制方面，進行了原始遙感影像數據和影像樣本點數據的整理和格式統一，同時通過一系列質量控制方法，如正確性檢查、數據一致性檢查等，以保障數據的質量。影像樣本點配套文件和元數據文件由影像樣本數據採集人員根據項目制定的數據標準格式（包含圖像文件名、經緯度、傳感器型號、觀測時間、空間分辨率、光譜類型人員信息等）進行填寫，為減少人工填寫引起的錯誤，所有元數據信息均通過程序編寫自動從原始影像數據和採樣點數據中讀取填寫得到。

圖片

圖6 數據質量控制

為了對數據集的質量進行定量的精度評估，我們以樣本採集過程中使用到的那景遙感影像的分類結果作為評價對象，將該影像中採集到的樣本點隨機劃分為兩部分，即訓練樣本和測試樣本，使用訓練樣本訓練支持向量機（Support Vector Machine，SVM）分類器，使用測試樣本計算分類精度，統計總體分類精度和Kappa係數。我們隨機選取了不同地區不同時相的樣本進行評測（見表4）。最終得到平均分類精度為81.17%，平均Kappa係數為0.78。從抽檢結果可以看到，數據質量總體良好。

表4 數據集質量精度評價

樣點區域	季相	總體分類精度（%）	Kappa係數
天津地區	冬	82.25	0.80
新疆地區	冬	77.82	0.75
黑龍江地區	冬	75.80	0.71
湖南地區	夏	84.75	0.82
廣西地區	夏	85.25	0.81
平均值		81.17	0.78

4 數據使用方法和建議

本數據集是測繪地物波譜本底數據庫平台的原始入庫文件，可通過門戶網站（http://210.72.27.78/spectrum/）检索查询获得检索区域内样本点的相关信息，也可以通过编程的方式批量解析读取本数据集XML文件中的样本点空间信息。数据集可以为遥感影像分类算法研究提供训练和测试样本数据，通过地理坐标与待分类影像像元坐标的转换，得到待分类影像中的样本点分布，使用最大似然（Maximum Likelihood Classification，MLC）、支持向量機（Support Vector Machine，SVM）、卷積神經網絡（Convolutional Neural Network，CNN）等分類算法完成分類，使用流程如圖7所示。由於本數據集並沒有完全覆蓋全國的每一個地區，如待分類影像的空間範圍沒有包含到任何影像樣本點，建議相關研究者查詢周邊相鄰地區的影像樣本點，以篩選出的樣本點為參考樣本集，指導待分類影像中同類樣本點的採集，進而利用所得到的樣本點完成影像分類任務。

圖片

圖7 數據集用於影像分類的應用流程

另一方面，本數據集可以與地面實測波譜數據配合使用，通過與測繪地物波譜本底數據庫平台提供的其他地面實測波譜數據集進行空間位置配對（相同和相近位置），研究和分析地面實測波譜與影像波譜的關聯關係，為相關算法的研究提供數據基礎，為直接利用地面實測波譜數據指導影像樣本自動採集提供可能。

參考文獻

↑ 喬五十, 郭喜絨, 劉妍, 等. 地表覆蓋遙感製圖耕地要素提取的方法與相關問題探討[J]. 測繪標準化, 2013, 29(3): 21–23.
↑ 張偉, 鄭柯, 唐娉, 等. 深度卷積神經網絡特徵提取用於地表覆蓋分類初探[J]. 中國圖象圖形學報, 2017, 22(8): 1144–1153.
↑ 史澤鵬，馬友華，王玉佳, 等. 遙感影像土地利用/覆蓋分類方法研究進展[J]. 中國農學通報, 2012, 28(12): 273–278.
↑ 王昆, 戚浩平. 土地利用與土地覆蓋遙感分類方法研究綜述[J]. 山西建築, 2008, 34(5): 353–354.
↑ CHEN J, CHEN J, LIAO A P, et al. Global land cover mapping at 30 m resolution: A POK-based operational approach[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2015, 103: 7–27.
↑ GONG P, WANG J, YU L, et al. Finer resolution observation and monitoring of global land cover: first mapping results with Landsat TM and ETM+ data[J]. International Journal of Remote Sensing, 2013, 34(7): 2607–2654.

數據引用格式

趙理君, 鄭柯, 史路路, 等. 全國地表類型遙感影像樣本數據集[DB/OL]. Science Data Bank, 2018. (2018-10-15). DOI: 10.11922/sciencedb.663.

本作品在「知識共享-署名 4.0 國際」協議下發表。

Public domainPublic domainfalsefalse

[ref1-1] 喬五十, 郭喜絨, 劉妍, 等. 地表覆蓋遙感製圖耕地要素提取的方法與相關問題探討[J]. 測繪標準化, 2013, 29(3): 21–23.

[ref2-2] 張偉, 鄭柯, 唐娉, 等. 深度卷積神經網絡特徵提取用於地表覆蓋分類初探[J]. 中國圖象圖形學報, 2017, 22(8): 1144–1153.

[ref3-3] 史澤鵬，馬友華，王玉佳, 等. 遙感影像土地利用/覆蓋分類方法研究進展[J]. 中國農學通報, 2012, 28(12): 273–278.

[ref4-4] 王昆, 戚浩平. 土地利用與土地覆蓋遙感分類方法研究綜述[J]. 山西建築, 2008, 34(5): 353–354.

[ref6-5] CHEN J, CHEN J, LIAO A P, et al. Global land cover mapping at 30 m resolution: A POK-based operational approach[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2015, 103: 7–27.

[ref5-6] GONG P, WANG J, YU L, et al. Finer resolution observation and monitoring of global land cover: first mapping results with Landsat TM and ETM+ data[J]. International Journal of Remote Sensing, 2013, 34(7): 2607–2654.

[1]

[2]

[3]

[4]

[5]

[6]