2017年我國沿海漁港地理分布數據集
2017年我國沿海漁港地理分布數據集 作者:陳孟婕 徐碩 劉慧媛 蔣慶朝 2018年6月6日 |
|
摘要&關鍵詞
編輯摘要:科學數據的一系列數據屬性中,地理屬性是數據最直觀的表達方式。通過數據的地理屬性描述,有助於用戶理解、獲取、運用數據。以漁業科學數據平台中「漁港數量、分布、功能與現狀數據庫」作為分析對象,通過運用地理屬性分析方法,構建我國沿海主要漁港地理分布數據集,並利用數據分析方法對數據質量進行控制。數據地理屬性的研究可促進用戶對數據的理解和把握,為基於地理信息的數據應用奠定基礎。本文採用的方法也可為其他數據集的地理屬性標記提供參考。
關鍵詞:沿海漁港;地理信息;科學數據;地理分布
Abstract & Keywords
編輯Abstract: Among the numerous attributes of scientific data, geographical attributes are the most intuitive way of expressing data. Geographical description of the data will help users to understand the data, as well as to access and use it. Based on the Database of Fishing Port Quantity, Distribution, Function and Current Status of the Fishery Science Data Sharing Center, this study uses the geographical attribute analysis method to construct a dataset on the geographical distribution of fishing ports in coastal China, and conducts quality control through data analysis. By promoting users』 understanding and grasp of the data, the dataset lays the foundation for data applications based on geographical information. The method presented in this article also provides a template for the geographical attribute analysis of similar datasets.
Keywords: fishing port; geographical information; scientific data; geographical distribution
數據庫(集)基本信息簡介
編輯數據庫(集)名稱 | 2017年我國沿海漁港地理分布數據集 |
數據作者 | 陳孟婕、徐碩、劉慧媛、蔣慶朝 |
數據通信作者 | 徐碩(xushuo19850718@126.com) |
數據時間範圍 | 2017年 |
地理區域 | 地理範圍包括北緯18°15'28"~48°17'53"、東經108°15'23"~130°14'51",涉及中國沿海各省。 |
空間分辨率 | 1000 m |
數據量 | 657條 |
數據格式 | *.xlsx |
數據服務系統網址 | http://www.sciencedb.cn/dataSet/handle/542 |
基金項目 | 國家科技基礎條件平台專項「農業科學數據共享中心」(2005DKA31800);國家科技基礎條件平台專項「漁業科學數據平台」(2005DKA31800-03);中國水產科學研究院基本科研業務費專項(2017年),國家漁業科學數據中心數據匯聚與分析項目,2016HY-ZC10;中國水產科學研究院基本科研業務費專項(2016年),漁工所漁業工程學科數據體系結構研究,2016JC0110 |
數據庫(集)組成 | 數據集由657條漁港地理信息數據組成,主要採集了沿海地區的漁港分布地理信息。 |
Dataset Profile
編輯Title | Geographical distribution of fishing ports in coastal China, 2017 |
Data authors | Chen Mengjie, Xu Shuo, Liu Huiyuan, Jiang Qingzhao |
Data corresponding author | Xu Shuo (xushuo19850718@126.com) |
Time range | 2017 |
Geographical scope | 18°15'28" N – 48°17'53" N, 108°15'23" E – 130°14'51" E; specific areas include China’s coastal provinces |
Spatial resolution | 1000 m |
Data volume | 657 |
Data format | *.xlsx |
Data service system | <http://www.sciencedb.cn/dataSet/handle/542> |
Sources of funding | Special research project of the National Science and Technology Infrastructure Platform – 「Agricultural Science Data Sharing Center」 (2005DKA31800); Special research project of the National Science and Technology Infrastructure Platform – 「Fishery Science Data Sharing Center」 (2005DKA31800-03); Central Public-interest Scientific Institution Basal Research Fund,CAFS(2017) – 「data summary analysis of the National Aquatic Science Data Center」 (2016HY-ZC10); Central Public-interest Scientific Institution Basal Research Fund,CAFS(2016)–「Fisheries Engineering Data Architecture Research」 (2016JC0110) |
Dataset composition | The dataset consists of 657 data entries on the geographical distribution of fishing ports in Chinese coastal areas. |
引 言
編輯在移動互聯網時代,地理信息應用,尤其是基於位置的應用,在交通、購物、餐飲等領域開始廣泛發展和嘗試,並極大地改變了人們的生活方式。人們對於地理上下文信息的需求進一步驅動了該技術的發展[1][2][3][4][5]。在漁業科學數據資源中,地理屬性信息隱含在數據屬性、數據細節里。開展數據的地理屬性分析以及應用研究,促進用戶對數據的理解,是漁業科學數據的重要研究方向。漁業科學數據平台[6]匯聚了豐富的漁業科學數據集,並在平台上開放給用戶獲取和使用。不足是用戶對數據集的訪問量與數據集在平台上的展示位置直接相關,並且由於數據間關係、數據與用戶的關係不明顯,因此,數據主動服務能力較弱。為了提高用戶對數據的興趣,解決位置帶來的數據訪問量偏差,目前,較常見的技術方法是研究數據的個性化服務、數據挖掘、機器學習等[7][8]。對於該問題的另一種解決思路是,挖掘數據中的地理屬性信息,便於為數據、用戶建立地理上、位置上的上下文相關環境,以最直觀的地圖方式為用戶展示數據,促進用戶對關聯數據的訪問和使用。因此,本文選取具有代表性的數據集,採集地理屬性信息,形成新的數據集,為今後的數據科研以及支撐工作奠定基礎。
「漁港數量、分布、功能與現狀數據庫」[9]中,提供了全國1300多個漁港的避風等級、碼頭長度等參數的數據屬性,同時還提供了文本結構的「地理位置」屬性,例如大連市大連灣、東港市前陽鎮等描述信息,表明該數據集具有鮮明的地理屬性特點,可以通過相關技術手段,將數據轉換成便於地理位置標記的格式。本文通過運用字符串處理工具、位置解析工具、JS腳本語言等相關技術,對「漁港數量、分布、功能與現狀數據庫」數據進行解析,得到量化的地理屬性信息,為地理相關的漁港研究與實施工作提供基礎數據支持。
1 數據採集和處理方法
編輯1.1 數據來源與數據概況
編輯本數據集由「漁港數量、分布、功能與現狀數據庫」通過一定的計算方法獲取,因此,這兩個數據集的關係是因果關係。「漁港數量、分布、功能與現狀數據庫」的數據來源於農業部1990年公布的我國大陸沿海的漁業港口數據,屬於漁業科技基礎數據,數據詳細內容在漁業科學數據共享平台中提供,其在線鏈接地址為http://fishery.agridata.cn/grade3.asp?st=llsj&id=A040361。該數據集的數據飽滿度為85.5%,根據字段缺失數量與所有記錄總字段數量的比值計算得到,其中地理位置的飽滿度為99.2%,相對完整。因此,選取該數據集進行加工處理。
本數據集目前完成了數據採集、處理與存儲過程,並已發布在漁業科學數據平台網站上,其訪問地址為http://fishery.agridata.cn/grade3.asp?st=llsj&id=A040364。
1.2 數據採集與處理
編輯1.2.1 總體流程圖
編輯數據採集及處理流程包括五個階段:原始數據預處理、地理數據採集、數據加工處理、數據關聯、數據校驗。數據採集及處理總流程如圖1所示。後續章節將展開介紹各個階段的處理方法。
圖1 數據處理總流程
1.2.2 原始數據預處理
編輯在原始數據集中,每條數據由漁港名稱、地理位置、避風等級、碼頭長度、護岸長度、防波堤長度、數據提供單位、更新日期、更新時間組成。查看數據詳情,地理信息包含在漁港名稱、地理位置2個屬性中,而其他字段只與漁港本身的特性相關。原始漁港數據集中,有11條數據的地理位置屬性未填寫。對於這些漁港數據,只能通過漁港名稱進行地理信息辨別。對於其他記錄完整的情況,增加「地理位置漁港名稱」字段,其內容為漁港名稱、地理位置2個屬性的拼接,得到完整的地理屬性信息,作為數據加工處理的原材料。根據地址解析工具的輸入數據要求,將數據集所有的「地理位置漁港名稱」字段拼接成字符串數組格式,如圖2所示。
圖2 數據輸入格式
1.2.3 地理數據採集
編輯在數據預處理後,數據採集的任務是對漁港地理屬性信息的進一步處理,實現定性的自然地理位置屬性與定量的地理坐標信息的轉換。
國際經緯度坐標標準為WGS-84,稱作大地坐標,是目前廣泛使用的GPS全球衛星定位系統使用的坐標系。國內必須使用國測局制定的GCJ-02坐標系(也稱火星坐標系),對地理位置進行首次加密。通過常用的在線地圖應用,如百度地圖、高德地圖、騰訊地圖等,都提供了地理坐標拾取技術,即通過提供自然地理位置信息,得到絕對的經緯度坐標信息。出於安全考慮,各個服務提供商並不提供真實的坐標,而是對數據進行不同加密技術的處理後再提供給用戶。因此,其經緯度數值與真實值之間有一定偏差,而對於數據的位置關係分析、用戶與數據關係分析並不影響。在我國信息安全允許範圍內,本文採集了經加密處理的地理坐標信息。
本文選取百度坐標系作為數據標準,以百度開放平台的在線源代碼編輯器作為工具採集地理坐標信息。首先,百度坐標在火星坐標系的基礎上,進行了BD-09二次加密措施,更加保護了個人隱私。其次,百度在坐標轉換技術上提供了批量的坐標轉換的接口,包括地址解析和不同坐標系坐標的轉換,具有更高的坐標轉換效率。第三,工具對於輸入的數據具有一定的容錯性,並可以自動補全地址描述信息。第四,開放平台還提供了完整的文檔,尤其是完整的演示Demo,使工具的使用簡單易懂,並支持多種技術二次開發,如Android開發、IOS開發、Web開發、服務接口調用。針對本文中數據集採集需求,選擇JavaScript接口的批量地址解析工具,其訪問地址為http://lbsyun.baidu.com/jsdemo.htm?a#i7_3。
批量地址解析工具的輸入是地理位置組成的字符串數組,輸出是序號、地理位置、經度值、緯度值組成的地址信息。將預處理好的數據,代入該工具源代碼中運行,得到輸出結果A,執行時間約為10分鐘,包含了網絡延遲以及每條數據處理的等待時間,得到的輸出結果1046條,其輸出片段如圖3所示。
圖3 數據採集結果
為了後期對結果校驗,將地理位置和漁港名稱分別作為輸入數據,利用工具得到另外兩組輸出結果,分別為輸入結果B約900條、輸出結果C約200條。對於原數據集的漁港數據,有11.11%漁港數據在3組輸出結果中都沒有獲取地理坐標信息,需要運用其他的地理信息轉換方法進行坐標轉換。這些數據可以作為漁港地理分布數據集今後的增補數據來源。而3組輸出結果中,A通過詳細的輸入信息獲取;B的輸入數據在語義上地理覆蓋面更廣,得到的結果相對粗略,而且有很多重複的數據;C的位置較精細,查詢的結果也較少。
1.2.4 數據加工處理
編輯地址解析工具的輸出結果是非結構化的文本存儲格式。優點是體積較小,查看方便,適用於少量數據的存儲。當數據量增多,數據查詢、處理需求越來越複雜,需要將文本格式轉換為結構化數據存儲格式。常見的方法是用程序逐行讀取數據並轉換成結構化存儲格式,另一種更為簡單有效的方法是利用Excel電子表格豐富的數據函數來處理。通過結構化處理,新的數據集與原始數據集可以建立更加清晰的對應關係,例如以漁港名稱作為關聯字段。
對於規範化的輸出結果A,採用Excel處理。Excel有多種處理技巧,其一,直接書寫公式,截取漁港名稱、兩個地理坐標,涉及的函數為字符串截取函數MID、字符位置查找函數FIND。例如,截取漁港名稱的公式為:MID(A1,FIND("、",A1)+1,FIND(":",A1)-1-FIND("、",A1)),A1即輸出結果A的一條記錄。其二,Excel預定義了便捷操作,可以直接利用數據分列工具,以預定義分隔符或者指定特殊的分隔符,對數據進行切割,分成多列,分割過程如圖4所示。通過分列得到的數據結果可以直接存儲為結構化數據。
1.2.5 數據關聯
編輯數據基本轉換為結構化數據存儲格式後,初步形成了本數據集的主要內容。但由於該數據集關注點為地理分布,並不涉及漁港的其他參數信息,因此需要將新的數據集與原數據集「漁港數量、分布、功能與現狀數據庫」進行關聯。
通過解析原數據集所在的發布平台「漁業科學數據平台」的鏈接地址,可以得到新數據在原數據集中的唯一標識。例如,漁港名稱為「丹東市海洋紅中心漁港」的數據記錄,其唯一標識符id為2,如圖5所示。
圖4 數據格式化轉換
圖5 原數據URL解析
因此,漁港地理分布數據集需要對每一條數據增加關聯信息,即原數據集編碼和原id。數據集編碼為統一的A040360,id則需要通過兩個數據集的漁港名稱、地理位置的比對查找。利用Excel中VLOOKUP函數,逐一查找新數據集中名稱在原數據集中的位置,並獲取數據id編號,如圖6所示。漁港地理分布數據集的採集工作基本完成。
圖6 數據索引方法示意圖
1.2.6 數據校驗
編輯輸出結果A是數據集的主要數據,其輸入數據是地理位置和漁港名稱的連接,數據描述更加準確,然而會有冗餘、重複的信息。這樣的信息輸入到工具中,便可能得到不準確甚至錯誤的結果。當誤差過大直至錯誤時,則需要進行處理。
以A數據集作為漁港地理分布數據集的主要數據,通過A、B的對比檢驗數據的合理性,C從一定程度上補充A、B所採集數據的不足。
(1)三組輸出結果數據對比
輸出結果A、B、C中,其地理分布數值的歐氏距離從0~25不等,圖7為A和B的數值分布情況。
圖7 A和B數據分布圖
數值歐氏距離的概念比較抽象,需要轉換成實際距離。基於百度地圖開放平台,利用其中距離計算函數map.getDistance(pointA,pointB)計算距離。對A、B、C數據進行兩兩距離計算,可以得到3組距離,如圖8所示。其中,有些距離為空,其原因是地址解析工具沒有解析出相應的坐標點。通過對比距離,設定誤差值為1公里距離進行討論。當AB組距離在1公里誤差範圍以內時,認為該數據可以進入最終的漁港地理分布數據集;當AB組距離超過1公里時,參考C組數據,若C組數據接近A,則採用A輸出結果,否則採用B輸出結果。
圖8 三組數據距離計算結果示意圖
(2)漁港屬性校驗數據
在原數據集「漁港數量、分布、功能與現狀數據庫」中,碼頭長度、護岸長度、防波堤長度的數據單位為長度單位,體現漁港實際建設規模和大小。這些屬性對於漁港地理分布數據集的意義是對於有些數據,可以適當放大誤差範圍。例如,數據集AB的距離為2公里,而漁港規模有3公里,則所採集的地理信息數據是合理的,可以進入漁港地理分布數據集。漁港屬性提供的校驗方法補充了部分數據記錄。通過以上兩步數據校驗,最終形成漁港地理分布數據集,合理數據量657條。
2 數據樣本描述
編輯本數據集由657條數據記錄組成,每一條數據記錄包含id、name、x、y、dbcode、preid五個屬性信息。Id為數據記錄的唯一編號,一般是整型。Name是包含地理位置描述信息和漁港名稱的文本字段,為原數據集的地理位置與漁港名稱的連接。漁港在坐標系中的經度信息用x記錄,緯度信息用y記錄。Dbcode和preid指向原數據集代碼和數據編號。
以數據集第2條記錄為例(圖9)。該數據對應的漁港名稱即name字段的內容,是石塘車關村車關漁港,該漁港的經度屬性取值為117.641872,緯度屬性取值為31.93985,其引用的數據來源是漁業科學數據平台中A040360(decode)中第737(preid)條記錄。
3 數據質量控制和評估
編輯數據質量依賴於「漁港數量、分布、功能與現狀數據庫」的數據內容完整性、準確性以及地理信息解析工具的準確性。
對於「漁港數量、分布、功能與現狀數據庫」,主要來源於農業部1990年公布的我國大陸沿海的漁業港口數據,數據的可信度和準確性較高。
圖9 數據樣本
對於地理信息解析工具,獲取的地理信息坐標允許一定的誤差,其誤差主要來自地理描述信息的精度問題,另一方面是服務提供商對地理信息坐標的加密,以符合相關法律法規。但誤差範圍必須符合人們的常規認識。將數據集依次輸入百度地圖在線經緯度拾取工具(http://api.map.baidu.com/lbsapi/getpoint/index.html),对数据集中渔港位置进行定位对比,其中,有20条数据所在位置与实际偏差较大,数据的准确率为96.97%。
通過數據加工處理過程中數據校驗方法的應用,設置誤差範圍,得到相對準確的漁港地理分布數據集。
4 數據使用方法和建議
編輯數據集通過定量的數值對地理位置進行量化,使數據之間的關係更加易於分析和利用。(1)數據關聯關係分析。通過利用數據挖掘、數據統計、機器學習等算法工具,對數據自身的特性進行分析,例如分析漁港位置與漁港屬性的關係,對漁港聚類後分析其共同特點等。(2)用戶與數據關係分析。根據用戶的訪問位置,可以得到用戶與數據之間的位置關係,並據此進一步提供相關的應用服務,如數據主動推薦、個性化服務,例如將用戶感興趣的數據推送給用戶,將用戶周邊熱點數據進行推薦等。
數據應用的一個實例如圖10所示。基於用戶訪問位置,將閾值範圍內的漁港在百度地圖中標記。位置遠近、數據訪問熱度等都可以作為閾值的指標,據此,可以進一步為用戶規劃其感興趣的內容進行推薦。
圖10 應用實例
參考文獻
編輯- ↑ 韓厚繼, 肖慧, 楊寧生, 等. 個性化服務在漁業科學數據平台中的應用探索[J]. 廣東農業科學, 2012, 39(02): 151–154. DOI:10.16768/j.issn.1004-874x.2012.02.024.
- ↑ 唐科萍,許方恆,沈才樑. 基於位置服務的研究綜述[J]. 計算機應用研究, 2012, 29(12): 4432–4436.
- ↑ DENG Z L, YU Y P, YUAN X, et al. Situation and Development Tendency of Indoor Positioning[J]. China Communications, March 2013, 10(03): 42–55.
- ↑ 蔣鍇. 含地理位置信息的社交媒體挖掘及應用[D]. 合肥: 中國科學技術大學, 2014.
- ↑ 年雁雲, 翟世常, 薛晨光. 基於WebGIS的渤海漁業服務系統設計與開發[J]. 遙感技術與應用, 2015, 30(02): 391–398.
- ↑ 漁業科學數據共享中心[DB/OL]. [2017-12-04]. http://fishery.agridata.cn/.
- ↑ 陳飛翔, 楊崇俊, 申勝利, 等. 基於LBS的移動GIS研究[J]. 計算機工程與應用, 2006(02): 200–202, 210.
- ↑ 周傲英, 楊彬, 金澈清, 等. 基於位置的服務:架構與進展[J]. 計算機學報, 2011, 34(07): 1155–1171.
- ↑ 國家農業科學數據共享中心. 漁港數量、分布、功能與現狀數據庫[DB/OL].[2017-12-04]. http://fishery.agridata.cn/grade3.asp?st=llsj&id=A040361.
數據引用格式
編輯陳孟婕, 徐碩, 劉慧媛, 蔣慶朝. 2017年我國沿海漁港地理分布數據集[DB/OL]. Science Data Bank, 2017. (2017-12-04). DOI: 10.11922/sciencedb.542.