基於社交媒體的海南風災監測數據集

基於社交媒體的海南風災監測數據集
作者:張清蘭 解吉波 劉戰 楊騰飛 李振宇
2019年5月23日
本作品收錄於《中國科學數據
張清蘭, 解吉波, 劉戰, 等. 基於社交媒體的海南風災監測數據集[J/OL]. 中國科學數據, 2019, 4(2). (2019-05-04). DOI: 10.11922/csdata.2018.0095.zh.


摘要&關鍵詞

編輯

摘要:颱風是威脅人類生存與發展的主要自然災害之一。有效的涉災數據是政府開展防災減災救災工作的重要基礎。隨着互聯網的普及,社交媒體作為新興的災害數據源已得到廣泛的應用。本數據集以受颱風影響較重的海南島為研究區域,基於社交媒體平台收集和整理了2010–2018共8年間的嚴重侵襲海南島的14個颱風的相關數據,旨在從公眾觀測視角對颱風進行監測,以彌補傳統監測手段的不足,從而為及時、高效的減災服務提供重要的數據支持。本數據集主要包括颱風的屬性信息、涉災社交媒體的描述性文本以及圖片等3種數據形式。

關鍵詞:颱風;海南島;社交媒體;信息挖掘

Abstract & Keywords

編輯

Abstract: Typhoon is one of the main natural disasters threatening human survival and development. Effective disaster–related data is an important basis for the government to carry out disaster prevention, mitigation and relief work. With the popularization of the Internet, social media has been widely used as a new disaster data source. At the social media platform, we collected and collated the data of 14 typhoons that seriously affected Hainan Island in the period of 2010–2018, which was to monitor the typhoons from the perspective of public observation, so as to make up for the shortcomings of traditional monitoring methods, and to provide important data support for timely and efficient disaster reduction services. This data set mainly includes three data forms: typhoon attribute information, disaster-related social media descriptive text and pictures.

Keywords: Typhoon; Hainan island; social media; information mining

數據庫(集)基本信息簡介

編輯
數據庫(集)名稱 基於社交媒體的海南風災監測數據集
數據作者 張清蘭,解吉波,劉戰,楊騰飛,李振宇
數據通信作者 解吉波(xiejb@radi.ac.cn)
數據時間範圍 2010–2018年
地理區域 海南島 (北緯18°10』–20°10』,東經108°37』–111°03』)
數據量 164 MB
數據格式 *.sql、*.xlsx、*.jpg
數據服務系統網址 http://www.sciencedb.cn/dataSet/handle/715
基金項目 海南省重大科技計劃項目(ZDKJ2016021)
數據庫(集)組成 本數據集存儲為一個壓縮文件(*.zip),數據量為164 MB,壓縮後為138 MB。壓縮文件中包括以颱風編號命名的14個文件夾,每個文件夾由三部分數據組成,其一為微博文本數據(*.sql),其二是圖片數據(*.jpg),其三是颱風軌跡點數據(*.xlsx)。

Dataset Profile

編輯
Title Social media-based monitoring data of wind disasters in Hainan
Data corresponding author Xie Jibo (xiejb@radi.ac.cn)
Data authors Zhang Qinglan, Xie Jibo, Liu Zhan, Yang Tengei, Li Zhenyu
Time range 2010–2018
Geographical scope Hainan Island (18°10』N—20°10』N, 108°37』E— 111°03』E)
Data volume 164 MB
Data format *.sql, *.xlsx, *.jpg
Data service system <http://www.sciencedb.cn/dataSet/handle/715>
Sources of funding Major Science and Technology Program of Hainan Province (ZDKJ2016021)
Dataset composition Stored as a compressed file (*.zip), the data set has a data volume of 164 MB, and 138 MB after compression. The compressed file includes 14 folders named after respective typhoon code. Each folder consists of three parts of data, including micro–blog text data (*.sql), picture data (*.jpg), and typhoon trajectory point data (*.xlsx).


引 言

編輯

颱風是頻發於西太平洋和南海地區的自然災害,每年給周邊國家造成重大損失。據統計,近十年來,這些地區年均颱風數量達23.8個。海南島是我國遭受颱風災害侵襲最為嚴重的地區之一,不僅給社會經濟帶來巨大破壞,還嚴重威脅人

民的生命安全。因此,有效的災害信息是開展救災工作的基礎,對於研究災害防治、降低災害風險具有重要意義。以遙感衛星、航空攝影、視頻錄像、地面調查為主的傳統災害信息獲取方式所收集的涉災數據各有優勢,救災減災工作也因各種資源的充分應用而更加高效。

[1][2][3][4][5][6]

收集、整理以及挖掘社交媒體數據應用於颱風災害監測是一項很有意義的工作。2010–2018年,海南共遭受14次嚴重颱風侵襲,對人民的生命財產造成了巨大威脅。本文針對颱風災害,設計了海南島2010–2018年颱風災害期間的新浪微博規範化數據集合,並結合颱風屬性(風強、氣壓與軌跡等)完善數據集。通過公眾觀測的視角解讀颱風災害的進程與影響,為後續的颱風災害預警模型與災後影響分析提供有效的數據支持。新浪微博是國內應用最為普及的社交媒體平台之一,在擁有大批量用戶的同時,其博文體現了明顯的時空特徵。在遭受颱風災害時,受災區域的微博用戶通過平台發布文字、圖片及視頻信息,其數據常包含重要的災情信息。圖1中展示了1條新浪微博的原始信息,這些信息中含有大量的受災位置及災損情況,這為利用社交媒體數據進行救災減災工作研究提供了可行性。本文重點關注文本和圖像數據,以各個颱風為單位獲取原始數據後進行了數據的清洗工作。隨後以2014年「威馬遜」颱風為例,展示並分析了災區微博用戶的情感分布信息以及微博量的時間變化規律。


圖片

圖1 新浪微博原始博文展示


1 數據採集和處理方法

編輯

1.1 概況

編輯

本數據集記錄了2010–2018年過境海南省的以下14個颱風事件的信息:「山神」「艾雲尼」「莎莉嘉」「鯨魚」「海鷗」「威馬遜」「海燕」「飛燕」「貝碧嘉」「山神」「尼格」「納沙」「洛坦」及「康森」(表1)。


表1 2009–2018年颱風列表

年份 颱風編號 名稱(英文) 登陸時間
2018 1809 山神(Sontinh) 2018/07/18
1804 艾雲尼(Ewiniar) 2018/06/06
2016 1621 莎莉嘉(Sarika) 2016/10/18
2015 1508 鯨魚(Kujira) 2015/06/22
2014 1415 海鷗(Kalmaegi) 2014/09/14
1409 威馬遜(Rammasun) 2014/07/18
2013 1330 海燕(Haiyan) 2013/11/10
1309 飛燕(Jebi) 2013/08/02
1305 貝碧嘉(Bebinca) 2013/06/22
2012 1223 山神(Sontinh) 2012/10/27
2011 1119 尼格(Nalgae) 2011/10/04
1117 納沙(Nesat) 2011/09/29
1109 洛坦(Nock–tan) 2011/07/29
2010 1002 康森(Conson) 2010/07/16


颱風的基本信息,例如登陸時間、中心氣壓及風速,來自於官方網站——中國颱風網(http://typhoon.weather.com.cn/)。文本和图片数据来自非官方的大众社交媒体新浪微博(https://weibo.com/)。本文使用新浪微博平台的高级搜索功能来获取与台风事件相关的数据,选择台风的名称加上“台(台风)”作为设置检索条件的关键词,从新浪微博主要获取台风登陆当天,前一天及后三天的微博博文及相关图片。14个台风总计获取了93824条新浪微博博文。从新浪微博获取的数据主要从公众观察的角度描述当前灾难的情况。

為了更加直觀地了解颱風過境的具體發展進程及概況,本文收集整理了文本數據中的圖片,並根據發布時間進行編號。讀者通過圖片內容可以更直觀地了解颱風的發展進程及其社會影響,是文本數據的有效補充內容。

1.2 數據收集過程

編輯

基於已開發的數據採集系統對數據進行採集與整理,如圖2所示。通過收集模塊獲取來自不同平台的數據,然後將它們解析為結構化形式。來自中國颱風網的數據經過預處理後存放到Excel表格中,來自新浪微博的數據以sql格式儲存到MySql數據庫中。然後進行數據清洗工作,數據的清洗主要包括刪除重複信息,將繁體中文翻譯成簡體中文,將全角字符轉換成半角字符等。最後,這些數據以結構化形式存儲。同時利用已收集到的圖片鏈接數據,利用批量下載工具收集圖片,並人工刪除無關圖片,例如表情包等。數據結構如表2所示。


圖片

圖2 社交媒體數據採集系統流程圖


1.3 數據分類

編輯

社交媒體數據來源於公眾對於事件的直接反饋與表述,其中包含大量的公眾情感信息。例如,來自新浪微博的文字「風最大的時候,我家玻璃門靠餐桌以及我們的雙手頂着!太恐怖了!」,表達了公眾對於颱風的負面信息。我們可以根據文字中包含的公眾情感的傾向,將數據劃分為正面情感、中性情感及負面情感等不同的類別。根據這3種情感傾向類型對數據進行分類,樣例如表2。


表2 情感分類示例

情感類別 數據數量
正面 51
中性 115
負面 499


社交媒體中的圖片信息在一定程度上更能直觀反映事件的發展進程,圖片中的內容也能有效反映事件的狀態。我們可以根據圖片中的不同描述內容將圖片進行分類。例如,可以根據受損對象的不同,將圖片分為樹木倒塌、道路積水、房屋倒塌等不同種類。

2 數據樣本描述

編輯

2.1 數據集信息

編輯

基於社交媒體的海南風災監測數據集(2010–2018年)包括了14個颱風的軌跡點數據及社交媒體中的文本數據與圖片數據,如表3所示。本數據集中共含有14個文件夾,每個文件夾以颱風的編號進行命名,每個文件夾下面包括3個下一級文件,包括1個Excel表格和2個文件夾,表格以颱風編號命名存放該颱風的軌跡點信息,另外兩個文件夾分別存放來自社交媒體的文本數據與圖片數據(在1002號颱風康森登錄海南島前一天至後三天期間新浪微博平台上無有效圖片數據可以利用)。其中文本數據的格式為sql,命名規則為「颱風名稱_城市_關鍵詞_日期」;圖片數據的格式為jpg,命名規則為「年份+月份+日+時+分+_+id+圖片序號」。數據集詳細信息如表3。


表3 數據集結構

文件夾(.zip) 年份 颱風名稱 文件夾 下一級文件夾
數據.zip 2018 山神 1809 軌跡點表格文本數據圖片數據
艾雲尼 1804
2016 莎莉嘉 1621
2015 鯨魚 1508
2014 海鷗 1415
威馬遜 1409
2013 海燕 1330
飛燕 1309
貝碧嘉 1305
2012 山神 1223
2011 尼格 1119
納沙 1117
洛坦 1109
2010 康森 1002 軌跡點表格、文本數據


2.2 數據樣本

編輯

颱風軌跡點數據的字段主要包括到達時間、經度、緯度、中心氣壓、風速、未來移向、未來移速等(表4)。可以將颱風軌跡點數據加載到ArcGIS中,從而獲得颱風軌跡點的矢量數據,將軌跡點按時間順序進行連接可以生成颱風軌跡的線矢量數據,例如將編號為1409的威馬遜颱風的軌跡點數據加載到ArcGIS中生成相關矢量數據(圖3)。


表4 颱風軌跡點信息

颱風編號 1409
到達時間 2014-07-12 14時
經度 142.8
緯度 13.4
中心氣壓 1002百帕
風速 18米/秒


圖片

圖3 颱風威馬遜的軌跡


社交媒體中的文本數據字段包括id、關鍵字、省份、城市、內容、位置、圖片鏈接、發布時間、平台、轉發數、評論數、點讚數。數據中的主題主要包括公眾對於颱風的情感傾向及各種不同類型的災難損失信息,如表5所示。


表5 來自新浪微博的數據

Id id 563
keyword 關鍵詞 威馬遜š
province 省份 海南
city 城市 海口
content_text 內容 #颱風「威馬遜」#親身經歷過2005年「達維」超強颱風,這次的「威馬遜」更厲害,島民深受其害,希望明天全民儘早災後重建,翁田加油,文昌加油,海南加油。 2 新大洲大道
location 位置 新大洲大道
picture 圖片鏈接 http://ww2.sinaimg.cn/thumb150/3ede5b0fjw1eih7ftvsgoj20qn0hs3z5.jpg
time 發布時間 2014年07月18日 20:07
w_from 平台 Android客戶端
transmiCount 轉發量 2
commentCount 評論量 7
praiseCount 點讚量 3


圖片數據根據時間信息進行編號命名。其具體命名規則為:年份+月份+日+時+分+_+id+圖片序號。例如,編號為「201407201932_348_1」的圖片(圖4),其發布時間為2014年7月20日19時32分,發布的id為348,圖片序號為1。圖片中的描述內容直觀地反映了颱風對於公眾生活的影響,例如圖4中編號為「201407202149_138_1」的圖片清晰地展示了颱風造成了道路旁邊的樹木倒塌。


圖片

圖4 圖片樣例


根據給出的數據,在統計類型軟件中,可以清楚地了解到不同時期海南颱風過境時,公眾對於颱風的反饋信息。可以製作颱風過境前後公眾反饋信息數量的變化趨勢圖,如圖5表示威馬遜颱風登陸海口前一天及登陸後3天的社交媒體中文本及圖片數據量隨時間的變化趨勢,圖6分別表示威馬遜颱風登陸海口當日19–22時(即2014年7月18日)含關鍵詞「威馬遜」的社交媒體中文本數據量及圖片數據量隨時間的變化趨勢。


圖片

圖5 文本及圖片數據量隨時間的變化趨勢


圖片

圖6 颱風登陸當日數據量變化情況


3 數據質量控制和評估

編輯

對指定颱風事件有關的關鍵詞進行多樣化和優化,以確保從每個社交媒體平台最大限度地檢索相關信息。數據收集完成後,人工手動檢查數據的有效性,並刪除與颱風災害無關或不完整的數據。此外,通過建立數據庫索引來避免完全重複的數據。對於數據集中的分類示例,提前制定分類標準,並利用專業的自然語言處理工具對這些原始數據進行分類,以確保最終分類結果的正確性。最後,從每個平台隨機抽取500個數據進行檢查,發現數據準確率接近100%。

4 數據價值

編輯

海南省作為我國重要的旅遊城市,其城市災害的研究對旅遊發展具有重要的意義。在國內還沒有專門為海南省風災編制基於社交媒體的數據集,特別是針對長時間的社交媒體數據進行追蹤的數據集。本數據集主要收集了海南省2010–2018年的針對颱風的社交媒體數據及颱風基本信息數據,其中不僅有文本數據,而且含有圖片,以便更加直觀地了解颱風的發展進程。通過分析收集整理的數據,可以進行海南省2010–2018年的風災研究。例如,利用本文提供的颱風軌跡點數據可以很容易對颱風的進程進行可視化展示,同時軌跡點數據中的氣壓、風速等信息可以為災情評估提供可靠的參考[7]。本文提供的社交媒體文本及圖片數據可以根據公眾在不同時間段對於颱風的情感傾向進行重新分類及相關影響因素的挖掘[8]。同時通過數據集的數據可以對災難損失信息進行提取和分類,並進行快速有效的災害損失評估[9]

針對颱風社交媒體數據的定性及相對定量化分析方面,通過論證社交媒體與災害損失評估之間的相關關係,可以為減災準備和響應提供新的研究視角。根據與颱風災害相關的社交媒體數據,為災害發生前、發生中和發生後的情況意識和損害評估制定了新的指標模型。利用語義分析方法從社交媒體信息中抽取相關指標(例如災情描述、公眾需求),基於TF-IDF方法計算相關指標權重,最後綜合對颱風災情進行評估並用於指導減災工作[10]

參考文獻

編輯
  1. 韓雪華, 王卷樂, 卜坤, 等. 基於Web文本的災害事件信息獲取進展[J]. 地球信息科學學報, 2018 (08): 1037-1046.
  2. 王艷東, 李昊, 王騰, 等. 基於社交媒體的突發事件應急信息挖掘與分析[J]. 武漢大學學報·信息科學版, 2016, 41(3): 290-297.
  3. CHEN Z, LIM S. Collecting Typhoon Disaster Information from Twitter Based on Query Expansion[J]. ISPRS INTERNATIONAL JOURNAL OF GEO–INFORMATION, 2018, 7(1394). DOI: 10.3390/ijgi7040139.
  4. RUDRA K, GANGULY N, GOYAL P, et al. Extracting and Summarizing Situational Information from the Twitter Social Media during Disasters[J]. ACM TRANSACTIONS ON THE WEB, 2018, 12(173). DOI:10.1145/3178541.
  5. YOO S, SONG J, JEONG O. Social media contents based sentiment analysis and prediction system[J]. EXPERT SYSTEMS WITH APPLICATIONS, 2018, 105: 102-111.
  6. 楊騰飛, 解吉波, 李振宇, 等. 微博中蘊含颱風災害損失信息識別和分類方法[J]. 地球信息科學學報, 2018 (07): 906-917.
  7. 劉雅玉. 基於案例推理的颱風災害快速評估方法[D]. 武漢: 武漢大學, 2018.
  8. LI J, HE Z, PLAZA J, et al. Social Media: New Perspectives to Improve Remote Sensing for Emergency Response[J]. Proceedings of the IEEE, 2017, 105(10): 1900-1912.
  9. 嚴麗軍. 自然災害的災情信息集成: 理論與實證研究[D]. 上海: 上海師範大學, 2016.
  10. DENG Q, LIU Y, ZHANG H, et al. A new crowdsourcing model to assess disaster using microblog data in typhoon Haiyan[J]. Natural Hazards Journal of the International Society for the Prevention & Mitigation of Natural Hazards, 2016, 84(2):1-16.

數據引用格式

編輯

張清蘭, 解吉波, 劉戰, 等. 基於社交媒體的海南風災監測數據集[DB/OL]. Science Data Bank, 2018. (2018-12-17). DOI: 10.11922/sciencedb.715.


 

本作品在「知識共享-署名 4.0 國際」協議下發表。

Public domainPublic domainfalsefalse