南京百年人物數據集
南京百年人物數據集 作者:郭暢 胡迪 杜曉晗 李岱蔚 楊逸塵 2020年1月15日 |
|
摘要&關鍵詞
編輯摘要:人物數據集是信息化時代歷史人物研究的重要基礎。本數據集以《南京百年城市史·人物卷》為主要數據源,包含126位在政治、教育、科技、文學和藝術等領域具有重大影響力的南京籍和客籍歷史人物信息,包含人物的通用名稱、別名、生卒時間、出生地、經歷、人物關係等數據項。本數據集可為南京歷史人物信息查詢和統計、人物關係可視化和分析及人物生平地圖等研究提供數據基礎,促進南京歷史文化的深入挖掘和利用。
關鍵詞:歷史GIS;人物數據庫;時空數據;歷史文化;南京
Abstract & Keywords
編輯Abstract: Character dataset is an important basis for the study of historical figures in the information age. This dataset takes Nanjing Centennial City History, Volume of People as the main data source, including the information of 126 Nanjing and guest historical people with great influence in the fields of politics, education, science and technology, literature and art, which contains data items such as the common name, alias, birth and death time, birthplace, experience, and relationship with people. This dataset can provide data basis for the research of Nanjing historical figures information query and statistics, figure relationship visualization and analysis, figure life map, etc., and promote the in-depth mining and utilization of Nanjing history and culture.
Keywords: historical GIS; database of figures; spatio-temporal data; history and culture; Nanjing
數據庫(集)基本信息簡介
編輯數據庫(集)名稱 | 南京百年人物數據集 |
數據作者 | 郭暢,胡迪,杜曉晗,李岱蔚,楊逸塵 |
數據通信作者 | 胡迪(hud316@gmail.com) |
數據時間範圍 | 1912–2012年 |
地理區域 | 中國江蘇省南京市 |
數據量 | 126條,126個 |
數據格式 | *.xlsx,XML |
數據服務系統網址 | http://www.sciencedb.cn/dataSet/handle/937 |
基金項目 | 國家自然科學基金(41771421、41601421);江蘇高校品牌專業建設工程資助項目。 |
數據庫(集)組成 | 數據集由126位南京傑出歷史人物的人物信息數據組成,包括通用名稱、別名、出生時間、出生地點、逝世時間、逝世地點、人物經歷、人物關係等數據項。Excel格式文檔供普通用戶使用,XML格式文檔供專業用戶使用。 |
Dataset Profile
編輯Title | A dataset of Nanjing’s centennial figures |
Data authors | Guo Chang, Hu Di, Du xiaohan, Li daiwei, Yang yichen |
Data corresponding author | Hu Di(hud316@gmail.com) |
Time range | 1912–2012 |
Geographical scope | Nanjing City, Jiangsu Province |
Data volume | 126 rows, 126 documents |
Data format | *.xlsx,XML |
Data service system | <http://www.sciencedb.cn/dataSet/handle/937> |
Sources of funding | National Nature Science Foundation of China (41771421, 41601421); Top-notch Academic Programs Project of Jiangsu Higher Education Institutions (TAPP). |
Dataset composition | The dataset consists of the information data of 126 outstanding historical figures in Nanjing, including common name, alias, time of birth, place of birth, time of death, place of death, experience of figures, relationship of figures, etc. Documents in Excel format are for ordinary users, while documents in XML format are for professional users. |
引 言
編輯古往今來,歷史人物一直是歷史研究者們所關注和研究的重要對象[1]。研究歷史人物有助於再現歷史舞台,對歷史進行再詮釋,從而達到鑑古、察今、知來的目的。歷史人物的活動受客觀社會環境制約,因此,歷史人物背後不單是個人的歷史,而是包含了一定時空範圍內的社會政治和文化背景的大歷史[2]。這方面的數據通常收錄於書籍報刊等紙質資料中,零散且更新速度緩慢[3]。隨着科技的發展,人物數據庫應運而生,它對在某一方面乃至多個方面對人類社會做出特殊貢獻的典型人物的相關信息進行集中的計算機管理[4]。建立人物數據集能夠以人物為中心整合相關信息,更新周期短,可以滿足更加深入的歷史人物研究的需求。
目前的人物數據庫根據研究對象的不同可以分為兩類:單一人物數據庫和群體人物數據庫。單一人物數據庫從多種信息來源採集研究對象的所有相關資料[5],並對其進行合理羅列。數據格式涵蓋文本、圖片、音頻、視頻、網頁、地圖等多種形式[6][7]。其中較為典型的是蔣介石資料數據庫,該數據庫收錄的資料相當豐富,涵蓋了研究對象一生的各個方面[8]。群體人物數據庫是以一定的時間或空間為範圍,將在此範圍內且具有某類特徵的人物作為研究對象形成的數據庫。國外具有代表性的這類數據庫是英格蘭聖公會神職人員數據庫和ASP世界歷史人物索引庫。前者收錄了研究對象的任職時間、職務詳情等信息,後者記錄了世界歷史事件所發生的第一個人物的信息,包括個人信函、日記、口述歷史等[9]。國內應用較多的有中國歷史人物傳記數據庫(China Biographic Database,CBDB),其中包含人名、生卒年等數據項[10][11]。CBDB分為線上和Access兩種查詢系統,它提供多個相互關聯的表格,可以將人物信息整理出來,以便學者進行批量分析[12]。另一個著名的人物數據庫為湖南近代人物資源庫,它包含了高級的檢索功能,可以讓用戶在使用時根據自己的特殊研究需求獲取相應的信息[13][14]。
南京鐘靈毓秀,是著名的文化古都,有着重要的歷史地位。自1927年被設為中華民國首都開始,南京市在近百年來飛速發展。在這段歷史時期內,政治、教育、科技、文學和藝術等各方面都湧現出了一批傑出的人才,他們為南京的發展做出了重要的貢獻,是南京城市史不可或缺的基本構成要素,反應了南京的歷史及其特色。建立南京地方人物數據集不僅能夠為南京歷史人物的進一步研究提供幫助,更能進一步完善中國人物數據庫,為歷史文化傳承做出貢獻。因此,本文以1912–2012年南京傑出歷史人物為研究對象,查閱並收集有關數據,將所有歷史人物數據保存為Excel電子表格和XML兩種格式的數據,以便進行更深層次的分析和可視化研究。
1 數據採集和處理方法
編輯1.1 數據來源
編輯本數據集的主要數據來源是《南京百年城市史·人物卷》[15]。該書為南京市檔案局(館)和南京大學中華民國史研究中心合作,組織廣大學術力量所研究編著的「南京百年城市史」叢書的第十三卷。該系列叢書通過從多角度展現了1912–2012年這一百年裡南京城市建設、經濟發展、社會轉型、文化繁榮的歷史進程。其中人物卷記錄了這期間有着突出貢獻或模範事例的南京名人,從這些為南京建設傾注心血的有識之士的角度剖析了南京百年變遷的過程。
《南京百年城市史·人物卷》以文字描述的形式,詳細記錄了南京百年歷史名人的生平事跡(圖1),對此進行進一步研究和歸納後可知,其包含的歷史人物信息組成包括:人物姓名、人物類別、曾用名、字、號、籍貫、出生日期、逝世日期、出生地點;入學時間、入學地點、入讀專業、所學成果;居住地點、入住時間;歷史事件名稱、歷史事件內容、歷史事件發生地點;工作名稱、入職時間、所屬單位、工作地點;相關人物、結識時間、結識地點、人物關係;文學作品、建築成果、藝術作品、政治成就、賽事成就、宗教活動、醫學成果、科技成果、教育成果、**活動以及各類成果和成就發生的時間和影響。
圖1 《南京百年城市史·人物卷》
1.2 數據特徵分析
編輯本數據集收錄的信息主要反映人物自身信息。學者普遍認為,每個人都具有生物屬性、社會屬性和精神屬性,這些屬性與時空交織在一起,衍生出一系列的人物信息。對此,我們可以將其分為特徵信息、時間信息和空間信息(表1)。
(1)特徵信息
特徵屬性是人物最重要的屬性,它是人物本身所特有的、將其與其他人物區別開的屬性,包括姓名、別名、人物類型、性別、民族、特徵標籤、人物關係等。
(2)時間信息
在一維的、單向的時間軸上,歷史人物信息通過離散的時間點來記錄人物數據的變化,包括屬性範圍的變化、歷史事件的發展和實體的消亡等。
除去特徵信息,剩餘的人物信息幾乎都具有時間特徵,如出生時間、逝世時間、歷史事件發生時間等,這些歷史人物信息內容以時間為軸,展示了不同的歷史人物一生的發展過程。
(3)空間信息
基礎歷史地理的數據可抽象為三種基本的圖形要素,即點、線、面三種基本空間圖形。由於歷史人物信息的側重點不同,並且存在空間信息豐富度不足的問題,因此空間中只需要表達歷史人物信息的點的幾何圖形。
歷史人物信息中具有空間特徵的信息包括籍貫、出生地點、學校地點、工作地點、居住地點、歷史事件發生地點和相關人物結識地點,此外還包括由這些信息而衍生的活動地點的坐標信息和所屬的行政區劃(都以現存的空間信息為準)。
其中較為特殊的是經歷屬性,它同時具有時間信息和空間信息,屬於多重屬性,需要通過地點、時間、事件等多個對象來表示[16]。
表1 人物信息內容分析
信息類型 | 信息內容 |
特徵信息 | 姓名、別名、人物類型、性別、民族、特徵標籤、人物關係…… |
時間信息 | 出生時間、逝世時間、歷史事件發生時間…… |
空間信息 | 籍貫、出生地點、學校地點、工作地點、居住地點、歷史事件發生地點…… |
1.3 數據採集與處理
編輯本數據集屬於南京地方人物數據集,所收錄的人物採取以下兩條標準:第一種,人物的籍貫(出生地)為南京;第二種,人物的活動或影響地點為南京。在中國社會中,人們對籍貫有着強烈認同,採用籍貫作為人物收錄標準強調了血緣、地緣性[17]。以活動和影響點作為人物收錄標準則強調了社會性,不管人物來自何方,一律以是否在南京產生過作用、具有影響作為標準。兩種收錄方法相結合,對人物的選擇更有包容性,提供的信息更完整。
本數據集採用人工電子化錄入的方法進行數據採集。同時通過對人物傳記、南京大學校史、南京師範大學校史、河海大學校史等資料的查閱,對缺失信息進行了補充和完善,不可考信息以「無數據」代替。
本數據集包含通用名稱、別名、類型、出生時間、出生地點、逝世時間、逝世地點、特徵標籤、主要經歷等數據項。
每個人物都有唯一對應的人物編碼,即標識符,其命名格式為6位字母加6位數字。六位字母RWNJBN中前2位表示該數據集為人物數據集,後四位取自主要數據源《南京百年城市史·人物卷》的書名前4個字的拼音首字母。6位數字則表示人物序號,其順序採用《南京百年城市史·人物卷》中的順序。
《南京百年城市史·人物卷》將書中涉及的歷史人物分為11類,具體類型如表2所示。
表2 南京百年人物類型
人物類型 | 人物數量 | 人物類型 | 人物數量 |
城市領導者 | 18 | 史哲名流 | 10 |
城市建設者 | 13 | 宗教名人 | 5 |
文教名家 | 13 | 中西名醫 | 5 |
科技棟梁 | 23 | 體育名宿 | 5 |
文學巨匠 | 9 | 外籍友人 | 8 |
藝術大師 | 17 |
在Excel格式的數據集中,主要經歷數據項指該歷史人物主導或參與的、發生於南京或對南京產生較大影響的事件。而經歷數據包含地點、時間和事件等多重時空屬性,故在XML文件中採用時態點作為數據單位進行表達。本數據集對人物所參與的歷史事件進行了命名,其通用名稱為該歷史事件最常用的名稱,一般以動賓結構短語高度概括事件內容。該信息主要可用於人物生平地圖繪製。
特徵標籤為描述歷史人物主要特徵的簡短文字[16],提取自《南京百年城市史·人物卷》中各個歷史人物的章節標題和人物綜述中的評價。
除上述數據項外,XML格式的數據集還包含了人物關係數據項。根據歷史人物與關聯對象有無婚姻或血緣關係,人物關係可分為親屬關係和社會關係。親屬關係可進一步分為父–子、母–子、夫–妻等,社會關係可進一步分為同事、師生、朋友等。具體類型如表3所示。該信息主要可用於人物關係圖譜生成。
表3 人物關係類型
人物關係 | 親屬關係 | 父–子 |
兄–弟 | ||
夫–妻 | ||
其他親屬關係 | ||
社會關係 | 同事 | |
師生 | ||
朋友 | ||
其他社會關係 |
2 數據樣本描述
編輯本數據集採用Excel電子表格和XML文件兩種數據存儲載體。其中Excel電子表格對人物信息進行了合理羅列,可供普通用戶進行簡單的查詢和統計分析。而XML文件不僅易於在任何應用程序中讀寫數據,便於進行數據交換,而且能夠更好地表達人物相關的時空信息、人物關係以及多屬性和層次嵌套關係,可支撐進一步的空間分析和可視化研究,因而供專業用戶使用。
數據樣本展示包括Excel與XML兩種格式,如圖2和圖3所示。
圖2 南京百年人物數據集(Excel格式)
圖3 南京百年人物數據集(XML格式)
3 數據質量控制和評估
編輯本數據集的數據質量依賴於現有書籍資料記錄的完整性和準確性。其中大部分數據來源於由南京市檔案局(館)和南京大學中華民國史研究中心合作編纂的《南京百年城市史·人物卷》,數據的可信度較高。由於本數據集中所涉及的時間跨度較長,出現了行政區劃調整導致的古今地名不統一的現象,因此在數據處理的過程中對縣市名進行了修正,一律以現今地名為準。此外,對書籍資料中的部分錯誤(如人物年齡錯誤等)進行了勘誤。數據錄入的完整性和準確性經多次人工檢查,確認無誤。
4 數據使用方法和建議
編輯本數據集收錄了126條南京傑出歷史人物數據,可為了解近現代南京傑出人物數據提供一手資料。隨着歷史人物和地方文化研究的進一步深入,用戶不僅可以據此進行綜合統計分析,還可以設計特徵查詢,製作人物關係圖和人物生平地圖進行可視化表達與研究。
特徵查詢可通過姓名、別名等人物特徵實現對歷史人物詳細信息的查詢(圖4)。
圖4 南京百年人物數據集查詢示意
人物關係圖對歷史人物的社會關係和親屬關係進行了可視化展示,通過時間軸的控制展現空間對象在某一特定時期內的人物關係,隨着時間的改變,可能會出現新增的或發生變更的人物關係。此外,還可以根據關係遠近生成關係圖譜(圖5)。
圖5 人物關係圖
歷史人物生平地圖將大量存在於文字中的信息進行可視化表達,以有形的地圖語言展現人物生平,能夠有效地更加深刻生動地表達歷史,同時對歷史研究也具有重要作用和意義(圖6)。用戶可綜合多方面的信息來源,進行數據融合、同化和挖掘後提取最有價值的數據信息。
圖6 吳貽芳生平地圖
參考文獻
編輯- ↑ 周興樑. 歷史人物研究評價的幾個問題[J]. 福建論壇(人文社會科學版), 2004 (6): 57-61.
- ↑ 段金生. 讀王勁教授著《鄧寶珊傳》——兼談歷史人物研究的魅力[J]. 天水師範學院學報, 2005, 25(4): 127-128.
- ↑ 洪拓夷, 王增清, 韋雲波. 湖州歷史人物數據庫建設芻議[J]. 蘭台世界, 2007 (14): 16-17.
- ↑ 蔡璐, 羅力可, 伍藝. 試論湖南近代人物數據庫建設[J]. 高校圖書館工作, 2009, 29(6): 29-31.
- ↑ 葛美玲, 田麗君. 成仿吾人物全文數據庫構建實踐與思考[J]. 蘭台世界, 2017(15): 118-120.
- ↑ 張曉源. 人物數據庫人物信息收錄範圍研究[J]. 圖書館論壇, 2004, 24(2): 87-90.
- ↑ 徐晶晶, 葛紅梅. 國內圖書館自建人物數據庫的現狀分析[J]. 數字圖書館論壇, 2015 (12): 50-55.
- ↑ 趙曉紅, 周維煦. 人物數據庫建設新模式探索——以蔣介石資料數據庫為例[J]. 浙江檔案, 2016 (6): 15-17.
- ↑ 劉小花, 羅力可. 基於知識地圖的人物數據庫模型構建研究[J]. 圖書館, 2013(4): 91-93.
- ↑ 孫妙凝. CBDB體現多學科交叉理念[N]. 中國社會科學報, 2013-04-15(A03).
- ↑ 中國近代人物傳記資料庫(CBDB)[DB/OL]. [2019-12-28]. https://projects.iq.harvard.edu/chinesecbdb.
- ↑ 徐力恆. 唐代人物資料的數據化:中國歷代人物傳記資料庫(CBDB)近年工作管窺[J]. 唐宋歷史評論, 2017 (00): 20-32,381.
- ↑ 全丹丹, 李雯. 人物資料數據庫優化淺析——以湖南大學圖書館特色數據庫《湖南人物庫》為例[J]. 高校圖書館工作, 2010, 30(3): 39-41.
- ↑ 蔡璐. 淺談人物數據庫網站的核心表現——以湖南近代人物資源庫建設為例[J]. 圖書館, 2010 (3): 107-108.
- ↑ 馬振犢. 南京百年城市史·人物卷[M]. 南京:南京出版社, 2014: 412.
- ^ 16.0 16.1 胡迪, 閭國年, 江南, 等. 地理與歷史雙重視角下的歷史GIS數據模型[J]. 地球信息科學, 2018, 20(6): 713-720.
- ↑ 張曉源. 人物數據庫人物收錄標準研究[J]. 圖書與情報, 2006 (1):69-73.
數據引用格式
編輯郭暢, 胡迪, 杜曉晗, 等. 南京百年人物數據集[DB/OL]. Science Data Bank, 2020. (2020-01-13). DOI: 10.11922/sciencedb.937.