緬甸植物多樣性數據集

緬甸植物多樣性數據集
作者:何延彪 莊會富 王雨華
2018年2月1日
本作品收錄於《中國科學數據
何延彪, 莊會富, 王雨華. 緬甸植物多樣性[J/OL]. 中國科學數據, 2018, 3(1). (2018-01-22). DOI: 10.11922/csdata.2017.23.zh.


摘要&關鍵詞

編輯

摘要:響應國家「一帶一路」建設和中國科學家走出去戰略,中國和緬甸聯邦共和國(簡稱緬甸)雙方在生物多樣性領域開展了多方面的合作。為支撐中國科學院東南亞生物多樣性研究中心開展植物學相關研究,中國科學院昆明植物研究所信息化團隊通過數據集成技術,將分散在世界各信息平台關於緬甸植物多樣的數據進行了系統的集成、清洗和整合,構建了緬甸植物多樣性基礎數據集,內容包括緬甸植物基礎名錄、生物性狀描述、標本採集記錄和文獻報道等。本數據集包含了緬甸約1.5萬餘種植物的相關生物多樣性數據45.73萬條,並開發了信息服務平台,其集成的科學數據服務將為緬甸植物學科研工作提供數據支撐。

關鍵詞:緬甸;植物多樣性;科學數據;多源數據集成

Abstract & Keywords

編輯

Abstract: In response to the Belt and Road Initiative and Chinese scientists’s 「Going-Out Strategy, China and Myanmar have extensively cooperated in the field of biodiversity. In order to support the Southeast Asian Biodiversity Research Institute of Chinese Academy of Sciences to carry out botanical research, the informatization work team of the Kunming Institute of Botany CAS has constructed a data set and developed an information service platform of plant biodiversity in Myanmar. The data set has systematically filtered and integrated most of published biodiversity data and information scattered in different platforms in the world. It contains information on plant lists, chorography, specimen records and related literature. This data set covers about 15 thousand plant species in Myanmar, with 457.3 thousand data records in total. This integrated data set is expected to support botanical research of this region.

Keywords: Myanmar; biodiversity; plant; heterogeneous data integration

數據庫(集)基本信息簡介

編輯
數據庫(集)名稱 緬甸植物多樣性數據集
數據作者 何延彪、莊會富、王雨華
數據通信作者 王雨華(wangyuhua@mail.kib.ac.cn)
數據時間範圍 1800~2017年
地理區域 緬甸及周邊區域
數據量 2 GB,合計總數據量45.73萬條
數據格式 結構化文本數據
數據服務系統網址 http://210.72.88.243http://www.sciencedb.cn/dataSet/handle/499
基金項目 國家科技基礎性工作專項(2013FY112600)
數據庫(集)組成 緬甸生物多樣性數據集由8部分整合而成,參考的數據源分別是(1)BHL:Biodiversity Heritage Library—緬甸植物,數據量2 921 736條;(2)中國植物物種信息—緬甸植物,數據量2 013 806條;(3)中國種子植物—緬甸植物,數據量15 842條;(4)Smithsonian Institution—緬甸植物,數據量14 473條;(5)GBIF:Global Biodiversity Information Facility—緬甸植物,數據量141 764條;(6)雲南植物志—緬甸植物,數據量153 396條;(7)eFloras中的FOC,英文版《中國植物志》的緬甸植物,數據量5 254條;(8)Tropicos—緬甸植物,數據量14 589條。以記載緬甸有分布為原則對上述數據源進行清洗和整合,完成緬甸植物多樣性數據集,共有45.73萬條數據。

Dataset Profile

編輯
Title A data set on plant biodiversity in Myanmar
Data authors He Yanbiao, Zhuang Huifu, Wang Yuhua
Data corresponding author Wang Yuhua (wangyuhua@mail.kib.ac.cn)
Time range From 1800 to 2017
Geographical scope Myanmar and its surrounding areas
Data volume 2GB, with 457,300 data entries in total
Data format *.CSV
Data service system http://210.72.88.243 http://www.sciencedb.cn/dataSet/handle/499
Sources of funding China Basic Research Project (No. 2013FY112600)
Dataset composition This data set consists of 8 subdsets, including: (1) Myanmar plants from the Biodiversity Heritage Library (BHL) (2,921,736 data entries); (2) Myanmar plants from the Database of Chinese Plant Species: Myanmar Plants (2,013,806 data entries); (3) Myanmar plants from Seed Plant of China (15,842 detail data); (4) the list of Myanmar plants from Smithsonian Institution (14,473 data entries); (5) plant diversity data of Myanmar from Global Biodiversity Information Facility (141,764 data entries); (6) the list of Myanmar plants from Flora of Yunnan (153,396 data entries); (7) Myanmar plants from the English version of Chinese Flora (5,254 data entries); (8) Myanmar plants in Tropicos database (14,589 data entries). We cleaned the above eight datasets of Myanmar plants using the principle of 「distribution in Myanmar」, and got 457.3 thousand data entries. These data were then integrated to generate the dataset on plant biodiversity in Myanmar.


引 言

編輯

緬甸聯邦共和國(簡稱緬甸)地處東南亞,是全球重要的生物多樣性熱點地區,也是全球生物多樣性保護和研究的熱點地區之一[1]。關於緬甸生物多樣性的研究由來已久,形成了大量文獻資料、科學數據記載[2],但因平台多、信息分散,迄今為止,緬甸還沒有一部科學完整的植物名錄和相關科學數據集,這給生物多樣性保護和資源的可持續利用帶來了巨大障礙。隨着國家「一帶一路」發展倡議和中國科學院「走出去」戰略的持續推進,中緬雙方在植物科學領域開展了廣泛的合作。近年來成立的中國科學院東南亞生物多樣性研究中心,為實現緬甸在環境保護、植物資源可持續利用等方面提供科技支持。為支撐該研究中心開展植物學相關工作,中國科學院昆明植物研究所信息化團隊通過數據集成和分析,將分散在世界各信息平台關於緬甸生物多樣的數據進行了系統的信息整合。收集了全球各大信息服務平台中關於緬甸植物多樣性的數據,主要包括標本記錄、歷史文獻記載、周邊區域已完成的植物志等多源信息,通過數據清洗、集成,結合物種區系分布,深度整合形成了緬甸植物多樣性數據集,將為後續的緬甸植物多樣性保護、研究和資源可持續利用提供數據支撐。

1 數據採集和處理方法

編輯

1.1 數據源的篩選

編輯

作為植物多樣性最為豐富的地區之一,緬甸向來是國際上植物學的研究熱點區域。基於植物區系與植物分布的地域分布連續性原則,項目組廣泛收集了緬甸及其臨近國家和地區的植物志、標本記錄和相關記載,如《中國植物志[3]Flora of China[4]雲南植物志[5]等,以已發表資料中記錄的「緬甸有分布」,為緬甸植物基礎名錄的確認依據。整合的資料有中國植物物種信息數據庫、iFlora信息平台和中國種子植物數據庫(光盤版);Smithsonian Institution發布的緬甸植物名錄;eFloras中緬甸相關記載;GBIF(Global Biodiversity Information Facility)、BHL(biodiversity heritage library)等平台上緬甸相關的植物多樣性數據[6][7]

1.2 基礎數據清洗與整合

編輯

中國植物物種信息數據庫內容涵蓋了中英文版本的中國植物志和雲南植物志,通過數據庫後台項目組整合得到了1.1萬條物種記錄。

Smithsonian Institution—緬甸植物名錄等信息平台的科技資料具有很高的參考價值,利用網絡蜘蛛技術來抓取該目標站點數據,通過提取數據索引URL列表、下載網頁數據、解析網頁數據等流程獲取了1.1萬條緬甸植物名稱信息。

GBIF:全球生物多樣性信息基礎設施,是由世界各國政府資助的開放數據研究基礎設施,旨在為任何人提供任何有關地球上所有類型生命的數據。從GBIF站點下載的緬甸植物數據,是帶格式的文本數據,通過專用的導入工具直接導入數據庫。在導入緬甸數據集時,使用的是PLSQL Developer數據庫客戶端附帶的文本導入器,完成了12餘萬條信息的整合。詳細的數據源信息參見表1。


表1 數據集參考的主要信息源

信息源名稱 說明 數據量(條)
Biodiversity Heritage Library BHL中關於緬甸分布植物的描述 2 921 736
中國植物物種信息 中國植物志中記載緬甸有分布的植物 2 013 806
中國種子植物 中國種子植物光盤中記載緬甸有分布的植物 15 842
Sithsonian Institution植物名錄 Sithsonian Institution—緬甸植物名錄 14 473
Global Biodiversity Information Facility GBIF信息平台中緬甸的植物分布信息 141 764
雲南植物志 雲南植物志中記載緬甸有分布的植物信息 153 396
eFloras eFloras中記載緬甸有分布的植物信息 5 254
Tropicos Tropicos中記載緬甸有分布的植物信息 14 589


1.3 提取拉丁學名索引,構建緬甸植物參考名錄

編輯

從結構化文本、半結構化的HTML格式等解析出來的相關緬甸數據,會存在一些異常值、特殊標記等,需要進一步對數據進行清洗處理。對於不確定的異常數據,挑出來由人工核對。從中國植物物種信息數據庫、Smithsonian Institution–緬甸植物名錄、GBIF中提取有關於緬甸的物種數據,形成3個子集。對子集的數據進行合併,合併的依據是拉丁名字段(包括屬名、種加詞、種下等級加詞)。如果是同一個拉丁名,則合併,合併之後標記來源。如果在原子集沒有對應的拉丁名,則作為新的拉丁名,並標識從而完成了GBIF、中國植物志、雲南植物志、Smithsonian Institution—緬甸植物名錄等多源資料的聚合,形成相對全面的緬甸植物參考名錄。

1.4 集成關聯數據,構建緬甸植物多樣性數據集

編輯

數據集成關聯數據主要包括:

(1)以拉丁名為數據集主鍵

以上述緬甸植物參考名錄為索引,以簡化的物種Latin名稱為主鍵,關聯BHL歷史文獻數據、GBIF地理數據、植物志物種描述數據、物種經濟利用等數據,從而構建信息全面的生物多樣性數據集。

(2)對不同分類系統,拉丁名為異名數據的集成

針對數據源中存在不同分類系統,拉丁名為異名的數據情況,本數據集做了如下處理:

建立正名與異名對應關係數據庫,主要來自於中國植物物種信息、eFloras.org中正名與異名對應關係數據,這樣可以解決數據集中使用異名的問題。

在數據關聯處理過程中,一個物種使用拉丁異名來實現連接時,與拉丁正名的對應關係,轉換為通過拉丁正名來實現連接。

本數據集是從物種層次集成,通過拉丁正名—異名對應關係來處理不同的數據集集成問題,所以對於使用不同分類系統的數據集在物種層次影響不大。

本次收集到的拉丁正名—異名關係數據只涵蓋了部分數據,今後還將收集全面正名—異名關係數據,如集成來源於species2000、EOL、UBIO的正名異名關係數據,可以大幅提高物種數據的集成度(通過拉丁正名或者異名來關聯集成不同數據源的數據)。

(3)拉丁名規範化處理(包括拉丁正名和拉丁異名)

數據集集成的關鍵點在於各子數據集的拉丁名遵守同一規範。因不同的子集會有不同的拉丁名格式,有的子集裡面的拉丁名屬名與種加詞之間可能有2個空格,有的是一個;有的帶有作者名,有的不帶作者名,並且作者名還完全有可能不同,可能是簡寫的,也可能是全拼的。此次集成採取的是簡化Latin名稱的辦法,只保留拉丁屬名、種加詞和種下等級加詞,最大可能保障關聯與匹配的準確性。

整合完成的緬甸生物多樣性數據集包含物種名錄信息1.5萬條,物種描述信息1.7萬條,生物多樣性GBIF基礎數據14.17萬條,其他BHL文獻信息近30萬條,數據量約2 GB。數據集成框架如圖1。


圖片

圖1 緬甸植物多樣性科學數據集成框架圖註:對收集到的各個數據源,對應數據拉丁名進行標準格式化,通過物種拉丁名關聯集成BHL歷史文獻數據、GBIF地理數據、植物志物種描述數據、物種經濟利用等數據;智能解析人工標引,提取各個數據源中數據標籤,為數據集搜索服務提高可用性。


1.5 信息服務平台的開發

編輯

為方便科研人員查詢和下載基礎科學數據,項目組完成了「緬甸植物多樣性信息平台」站點的開發,站點以一種簡單、易用、快速的方式,提供智能搜索服務(圖2)。解決了多個數據合併後存在的數據字段及類型眾多、用戶難以選擇搜索類型的問題,增加了數據使用的易用性。同時,隨着數據用戶的反饋,以及新知識的不斷出現,也有利於本數據集的及時更新。信息平台提供了統一的搜索窗口,程序根據用戶輸入智能判斷可能的類型,並給出提示列表和搜索結果。平台支持數據檢索、瀏覽和數據下載導出服務(需註冊)。對於BHL、GBIF和eFloras等外部數據,平台僅提供數據鏈接,詳細數據用戶需到各平台自行查詢。


圖片

圖2 緬甸植物多樣性信息平台主頁


2 數據樣本描述

編輯

以檢索「大百合 Cardiocrinum giganteum」為例,結果頁面給出聚合的數據源列表,包括中國植物志、Flora of China、中國種子植物光盤,以及BHL、GBIF的相關數據鏈接。點擊可直接跳轉至詳細數據頁面。典型的數據其整合情況為:物種分類等級信息,包括物種的科屬種等分類登記的中文名和拉丁學名,以及信息的來源出處;物種的英文描述主要來源於Flora of China;物種的中文描述,包括生境、海拔、國內外分布、是否引種栽培、標本情況等,詳細數據樣例參見圖3。

3 數據質量控制和評估

編輯

本數據集是一個基於已發布數據源集成的應用,所以數據質量控制,主要基於探查數據內容、結構和異常[2]方面着手。重點探查的過程如下:

(1)數據異常,探查解析後的數據是否存在特殊標記,如HTML標記;

(2)字段解析,探查解析後的字段是否與原數據源相一致,最大程度上避免在解析後數據字段丟失的情況。

(3)隨機抽查,發現可能的數據問題。

對於異常數據,字段解析錯誤的數據進行了全面排查(通過排查程序和人工查驗方式),在最終集成的數據集中刪除了異常和解析錯誤數據。集成後的數據集,與原始數據源的數據保持較高的一致。同時為保護數據版權,所有外部數據,在平台上僅提供索引和鏈接,均採用鏈接的方式提供給用戶。

通過隨機抽樣統計,數據質量水平被評估為較高。通過清洗、標準化、集成整合後的數據能夠實現較高的關聯度,各個數據與源數據源一致性均在95%以上。


圖片

圖3 物種信息詳細頁面展示


4 數據價值

編輯

近年來,生物多樣性科學數據迅速積累,科研工作者面臨的最大問題在於如何快速、精準地獲取整合數據。海量數據分散在類型單一、離散、數據存儲異構、標準規範不統一的信息平台中。與人們需要的多類型、多維度高度集成的數據需求不相符,所以如何聚合多源科學數據,並以此為基礎構建滿足科研需求的信息服務,將是以後科學數據庫研究人員的工作重點。通過開展專業數據庫和互聯網信息數據的聚合,集成整合形成了緬甸植物多樣性基礎數據,如歷史文獻數據(BHL數據),地理分布數據(GBIF數據、中國種子植物數據),多種類型的物種描述數據(eFloras.org物種信息、中國植物物種信息數據庫中的中國植物志、雲南植物志數據),經濟利用和保護等級名錄數據(中國植物物種信息數據庫中收錄的相關數據)等,從而形成緬甸植物多樣性大數據,可以初步展現緬甸植物物種多樣性信息,可以有效支撐科研人員在緬甸開展植物學採集、考查、研究、資源開發利用等研究工作。

目前,國內還很少有針對熱點地區的生物多樣性綜合科學數據集和信息服務平台。本數據集的構建、多數據源的集成等方法,可以為構建其他區域性或大尺度的生物多樣性數據集提供參考。

5 數據使用方法和建議

編輯

本數據集和信息平台服務網址為http://210.72.88.243,在Science Data Bank中的相關鏈接地址為http://www.sciencedb.cn/dataSet/handle/499。相關頁面與功能參考圖3。整合數據的下載見「資源下載」欄目,網址為http://210.72.88.243/Data/DataBaseList。信息平台後續將完善數據分析功能,旨在構建功能完善的緬甸植物多樣性信息服務平台。

致 謝

編輯

感謝中國科學院東南亞生物多樣性研究中心楊雪飛博士在數據集製作過程中提供的建設性意見和建議。

參考文獻

編輯
  1. Mon M S, Mizoue N, Htun N Z, et. al. Factors affecting deforestation and forest degradation in selectively logged production forest: A case study in Myanmar[J]. Forest Ecology and Management, 2012, 267(3): 190–198.
  2. ^ 2.0 2.1 TURNELL S. Myanmar’s Fifty-Year Authoritarian Trap[J]. Journal of International Affairs, 2011, 65(1): 79–92.
  3. 中國科學院中國植物志編輯委員會. 中國植物志[M]. 北京: 科學出版社. 1959–2004.
  4. Flora of China Editorial Committee. Flora of China[M]. Beijing: Science Press and Missouri Botanical Garden Press, 2013.
  5. 中國科學院昆明植物研究所. 雲南植物志[M]. 北京: 科學出版社, 1977–2006.
  6. 吳征鎰, 丁托婭. 中國種子植物數據庫光盤版[M/CD]. 昆明: 雲南科技出版社, 1999.
  7. 何延彪, 莊會富, 王雨華. 中國植物物種信息數據庫[EB/OL]. [2017-09-30] http://db.kib.ac.cn.

數據引用格式

編輯

何延彪, 莊會富, 王雨華. 緬甸植物多樣性[DB/OL]. Science Data Bank, 2017. (2018-01-19). DOI: 10.11922/sciencedb.499.


 

本作品在「知識共享-署名 4.0 國際」協議下發表。

Public domainPublic domainfalsefalse