基於社交媒體的海南旅遊景區評價數據集

基於社交媒體的海南旅遊景區評價數據集
作者:林振宇 解吉波 覃佐淼 楊騰飛 趙靜
2019年5月22日
本作品收錄於《中國科學數據
林振宇, 解吉波, 覃佐淼, 等. 基於社交媒體的海南旅遊景區評價數據集[J/OL]. 中國科學數據, 2019, 4(2). (2019-04-17). DOI: 10.11922/csdata.2018.0094.zh.


摘要&關鍵詞

編輯

摘要:本文從社交媒體中採集並處理了2012–2018年海南所有4A及5A級景區的評論數據構建了海南旅遊景區評價數據集。本數據集旨在用於對海南旅遊景區的質量評估、景區的容量管理、景區傳播效果評價、景區網絡輿情監測預警、景區網絡口碑管理、景區形象管理、景區個性化推薦等研究。同時,結合多源化數據,本數據集可為研究海南省旅遊發展提供數據支持。

關鍵詞:海南旅遊;社交媒體;景區評價;個性化推薦

Abstract & Keywords

編輯

Abstract: This paper collected and processed the review data of all 4A and 5A scenic spots in Hainan from 2012 to 2018 to construct the Hainan tourism scenic spot evaluation data set. This dataset is intended to be used for the quality assessment of Hainan tourist attractions, the capacity management of scenic spots, the evaluation of scenic spot communication effects, the monitoring and early warning of scenic spot network, the management of scenic spot network reputation, the management of scenic spot image, and the personalized recommendation of scenic spots. At the same time, combined with multi-source data, this data set can provide data support for the study of tourism development in Hainan Province.

Keywords: Hainan tourism; social media; scenic evaluation; personalized recommendation

數據庫(集)基本信息簡介

編輯
數據庫(集)名稱 基於社交媒體的海南旅遊景區評價數據集
數據作者 林振宇,解吉波,覃佐淼,楊騰飛,趙靜
數據通信作者 解吉波(xiejb@radi.ac.cn)
數據時間範圍 2012年1月至2018年10月
地理區域 地理範圍包括海南島(北緯18°10′–20°10′,東經108.37°–111.03°)。
數據量 58.8 MB
數據格式 *.rar, *.sql, *.xlsx
數據服務系統網址 http://www.sciencedb.cn/dataSet/handle/714
基金項目 海南省重大科技計劃項目(ZDKJ2016021)
數據庫(集)組成 數據集由1個壓縮包組成,主要包括5個文件夾,數據量約125 MB,壓縮後數據量約58.8 MB。5個文件夾分別為美團、同程、途牛、攜程、樣例數據,每個文件夾下由各旅遊網站的景區評論數據組成,以兩種數據形式存放(*.sql, *.xlsx)。

Dataset Profile

編輯
Title Evaluation data set for Hainan tourism scenic spots based on social media
Data corresponding author Xie Jibo (xiejb@radi.ac.cn)
Data authors Lin Zhenyu, Xie Jibo, Qin Zuomiao, Yang Tengfei, Zhao Jing
Time range January 2012–October 2018
Geographical scope 18°10′N–20°10′N, 108°37′E–111°03′E
Data volume 58.8MB
Data format *.rar, *.sql, *.xlsx
Data service system <http://www.sciencedb.cn/dataSet/handle/714>
Sources of funding Major Science and Technology Program of Hainan Province (ZDKJ2016021)
Dataset composition The dataset consists of 1 compressed package, which mainly includes 5 folders, the data volume of about 125MB, and the compressed data volume of about 58.8MB. The five folders are Meituan, Tongcheng, Tuniu, Ctrip, and sample data. Each folder is composed of scenic review data of each travel website and stored in two forms of data (*.sql, *.xlsx).


引 言

編輯

旅遊是海南省的經濟支柱產業之一,對其他相關產業的發展有着較強的帶動作用。研究和提高海南各景區的服務質量,滿足遊客多元化的旅遊需求,對進一步促進海南旅遊產業的發展至關重要。

隨着旅遊互聯網的快速發展,大量和旅遊景區相關的用戶評論信息為旅遊業的發展研究提供了有力數據支持。更多的潛在遊客,會在出行前根據這些評論信息制定旅遊路線,協助旅遊決策[1–3]。通常,這些數據信息多以文本、圖片的形式出現在各大社交媒體平台上。這些信息通常表達了遊客對於相關景區的意見、建議和滿意度,從而為景區質量和服務的進一步提升提供有效參考。目前,國內外已有不少學者對景區的社交媒體信息展開相關研究,並從不同方面探討它們的應用。如文獻[1]以眾包的形式收集秦皇島高校大學生對當地旅遊景區的評論信息,並結合這些數據提供者的個人信息開展用戶畫像的旅遊情境化推薦服務研究;文獻[2]利用多模態的景點信息(文本、地理標記圖片以及視頻生成景點的信息摘要),根據用戶的查詢為用戶個性化地推薦景點;文獻[6–8]基於簽到記錄數據來進行旅遊路線的推薦等。然而目前,可用的基於社交媒體的開放旅遊景區評論數據集並不多,這嚴重製約了旅遊信息挖掘的研究。為此,本文以海南島為研究對象,從主流旅遊網站(包括美團網、途牛網、同程網以及攜程網等)上收集和處理了2012–2018年間所有4A和5A級旅遊景區的評論數據構建了數據集。

1 數據採集和處理方法

編輯

本數據集的生產流程包括數據採集與清洗,數據管理和數據分類。數據製作流程如圖1所示。


圖片

圖1 數據集製作流程圖


1.1 景區評論數據的採集與清洗

編輯

該部分數據以海南島4A和5A級景區為研究對象,將4A和5A級景區分為4種類型,分別為自然景區、歷史人文景區、民俗風情景區、休閒度假景區。獲取了2012–2018共7年的評論數據,這些數據主要來源於包括美團、攜程、同程以及途牛在內的4個旅遊網站。原始數據形式為HTML,本文通過Java編程語言對其進行了解析和清洗,最終形成了283072條結構化文本數據。其中,數據清洗操作包括全半角字符的轉化、繁簡體文字的轉化、去除同一用戶的多次評論以及文本去重等。同時,為方便讀者使用,該部分數據以sql和xlsx兩種格式存儲。如下表1–4顯示了數據的基本結構信息,如圖2展示了旅遊景區在海南島的分布情況。


表1 海南島自然景區名稱及評論數據量

序號 名稱 等級 美團 攜程 同程 途牛 地址
1 海南分界洲島旅遊區 5A 8350 2771 966 285 陵水縣
2 三亞大小洞天旅遊區 5A 6321 2835 3232 651 三亞市
3 七仙嶺溫泉國家森林公園 4A 1756 626 133 15 保亭
4 海南熱帶野生動植物園 4A 11 410 1389 851 75 海口市
5 中國雷瓊海口火山群世界地質公園 4A 0 1283 1007 278 海口市
6 南灣猴島生態旅遊區 4A 5130 1977 729 530 陵水縣
7 天涯海角遊覽區 4A 30 510 2966 3146 3509 三亞市
8 亞龍灣熱帶天堂森林旅遊區 4A 20 000 2978 5789 4017 三亞市
9 東山嶺文化旅遊區 4A 740 560 196 16 萬寧市
10 興隆熱帶植物園 4A 1773 2011 375 63 萬寧市
11 三亞水稻公園 4A 0 98 66 10 三亞市
12 鹿回頭風景區 4A 23 100 2846 4827 3341 三亞市


表2 海南島歷史人文景區名稱及評論數據量

序號 名稱 等級 美團 攜程 同程 途牛 地址
1 三亞南山文化旅遊區 5A 26 633 2944 2839 2028 三亞
2 海南文筆峰盤古文化旅遊區 4A 4016 250 162 17 定安縣
3 博鰲亞洲論壇永久會址景區 4A 1725 1125 341 28 瓊海市


表3 海南島民俗風情景區名稱及評論數據量

序號 名稱 等級 美團 攜程 同程 途牛 地址
1 檳榔谷黎苗文化旅遊區 5A 5095 2620 1139 260 保亭縣
2 海南呀諾達雨林文化旅遊區 5A 9693 2876 2362 1270 保亭縣


表4 海南島休閒度假景區名稱及評論數據量

序號 名稱 等級 美團 攜程 同程 途牛 地址
1 三亞蜈支洲島度假中心 5A 22 340 2978 4168 1261 三亞市
2 海口觀瀾湖旅遊度假區 4A 46 334 103 30 海口市
3 海口假日海灘旅遊區 4A 0 1217 0 0 海口市
4 三亞大東海旅遊區 4A 305 2793 0 0 三亞市
5 三亞西島海洋文化旅遊區 4A 8290 2824 1937 0 三亞市
6 亞龍灣愛立方濱海樂園 4A 785 194 168 9 三亞市
7 清水灣旅遊區 4A 0 330 0 0 陵水


2.jpg 圖片

圖2 旅遊景區在海南島分布情況


1.2 數據分類

編輯

景區社交媒體評論信息蘊含着公眾對於景區不同方面的評價,這對於發現和解決旅遊景區存在的問題,提高遊客滿意度等具有重要的參考價值。為此,本數據集從多個主題對這些評論信息進行公眾情感分類。

我們根據整個文本的情感傾向,將該文本分為積極情感、消極情感和中性情感3個類別[3],用以從宏觀上對該景區作出評價。從細粒度主題上分,我們則根據國家A級景區的評價指標,基於這些評價指標對該景區作出情感分類,旨在從多個主題方面刻畫景區質量,以提供個性化服務需求。其中細粒度的主題指標包括景區飲食(飲食口味、飲食價格)、景區娛樂(娛樂趣味性、項目價格)、景區購物(物價、商業氛圍)、景區遊覽(購票、景色、導遊解說)、景區特色、景區衛生、景區交通、景區住宿、景區服務質量、景區安全10個方面。圖3為根據國家A級景區評價指標的細粒度分類標準。


圖片

圖3 細粒度分類標準


2 數據樣本描述

編輯

2.1 數據集信息

編輯

本數據集從美團、攜程、同程和途牛4個旅遊網站上收集並處理了海南島所有4A和5A級景區的評論數據,數據的時間跨度為7年(2012–2018年)。

整個數據集由1個壓縮文件包組成,壓縮文件包由5個文件夾組成。其中4個文件夾分別以上述4個旅遊網站命名,每個文件夾下分別為24個景區在該旅遊網站中的所有評論數據,數據儲存格式包括sql和xlsx,命名規則為「旅遊網站+景區名稱」;第5個文件夾以樣例數據命名,該文件夾下為經過分類處理的數據,命名規則為「旅遊網站+景區名稱+積極/消極/中性+分類細則序號〔1 景區飲食(11飲食口味,12飲食價格),2 景區交通,3 景區特色,4 景區遊覽(41購票,42 景色,43 導遊解說),5 景區住宿,6 景區衛生,7 景區娛樂(71娛樂趣味性,72 項目價格),8 景區服務質量,9 景區購物(91 物價,92商業氛圍),10 景區安全〕」。數據集詳細信息如表5。


表5 海南島旅遊數據集信息

序號 文件夾名稱 數據格式 文件數量和大小
1 美團 sql,xlsx 40;75.2 MB
2 攜程 sql,xlsx 48;28.4 MB
3 同程 sql,xlsx 42;14.2 MB
4 途牛 sql,xlsx 40;7.00 MB
5 樣例數據 sql,xlsx 80;642 KB


2.2 分類樣本描述

編輯

樣本集以途牛網上分界洲島旅遊區的評論數據為基礎,將這些原始數據進行多個主題的情感分類,從而得到表6所示的結果。


表6 示例樣本情況

分類標準細則 分類標準細則 總數量(條) 時間 情感分類數量(條)
景區飲食 飲食口味 4 2012.9–2018.10 積極情感3中性情感0消極情感 1
飲食價格 6 2012.9–2018.10 積極情感2中性情感3消極情感 1
景區交通 4 2012.9–2018.10 積極情感3中性情感0消極情感 1
景區特色 20 2012.9–2018.10 積極情感17中性情感1消極情感 2
景區遊覽 購票 71 2012.9–2018.10 積極情感53中性情感5消極情感 13
景色 49 2012.9–2018.10 積極情感43中性情感1消極情感 5
導遊解說 0 2012.9–2018.10 積極情感0中性情感0消極情感0
景區住宿 2 2012.9–2018.10 積極情感1中性情感 0消極情感 1
景區衛生 7 2012.9–2018.10 積極情感5中性情感0消極情感 2
景區娛樂 娛樂趣味性 27 2012.9–2018.10 積極情感10中性情感3消極情感 14
項目價格 9 2012.9–2018.10 積極情感1中性情感1消極情感7
景區服務質量 18 2012.9–2018.10 積極情9中性感情2消極情感7
景區購物 物價 0 2012.9–2018.10 積極情感0中性情感0消極情感0
商業氛圍 2 2012.9–2018.10 積極情感1中性情感0消極情感1
景區安全 0 2012.9–2018.10 積極情感0中性情感0消極情感 0


3 數據質量控制和評估

編輯

評論海南景區旅遊質量的社交媒體平台有很多。為保障數據的豐富性,我們通過比較選出了具有代表性的4個旅遊網站,以確保最大程度地獲取相關信息。數據收集完成後,我們人工檢查了數據的有效性並刪除了不完整的及與海南旅遊景區無關的評論數據。在分類樣例中,本文所用的細粒度主題則是根據國家A級景區的評價指標來擬定。對於分類樣例中的文本情感類別標籤,我們安排了2個同事進行人工判讀,並對結果進行複議和討論,以確保最終分類的正確性。

4 數據使用方法和建議

編輯

本數據集包含海南島4A級以上所有景區2012–2018年以來283072條社交媒體評論數據。研究人員可通過互聯網文本情感分析算法抽取公眾對景區不同主題特徵的態度信息,同時結合時間維度從公眾觀測的角度探究景區質量的變化特徵,為景區網絡口碑、形象管理等提供數據參考。通過互聯網主題聚類算法,如LDA(Latent Dirichlet Allocation)、K-means聚類算法、或者簡單的詞頻計算等語義挖掘算法從各景區海量評論信息中抽取公眾關注熱點,以服務於旅遊景區的個性化推薦、景區發展規劃等。官方發布的諸如旅遊景區統計年鑑等數據,可以與本數據集作為相互驗證和補充的數據,將會在景區容量管理、景區傳播效果評價、景區形象管理、景區熱度分析、景區質量評價分析、景區發展趨勢等研究上發揮重要作用。

參考文獻

編輯
  1. 劉海鷗, 孫晶晶, 蘇妍嫄, 等. 基於用戶畫像的旅遊情境化推薦服務研究[J]. 情報理論與實踐, 2018, 41(10): 87-92.
  2. WU X, LI J, ZHANG Y, et al. Personalized multimedia web summarizer for tourist[C]. Proceedings of the 17th international conference on World Wide Web. ACM, 2008: 1025-1026.
  3. 陸林, 朱申蓮, 劉曼曼. 杭州城市旅遊品牌的演化機理及優化[J]. 地理研究, 2013, 32(3):556-569.

數據引用格式

編輯

林振宇, 解吉波, 覃佐淼, 等. 基於社交媒體的海南旅遊景區評價數據集[DB/OL]. Science Data Bank, 2018. (2018-12-17). DOI: 10.11922/sciencedb.714.


 

本作品在「知識共享-署名 4.0 國際」協議下發表。

Public domainPublic domainfalsefalse