基於化合物分子結構的量化計算結果數據庫

基於化合物分子結構的量化計算結果數據庫
作者:韓清珍 趙月紅 溫浩
2018年9月29日
本作品收錄於《中國科學數據
韓清珍, 趙月紅, 溫浩. 基於化合物分子結構的量化計算結果數據庫[J/OL]. 中國科學數據, 2018, 3(3). (2018-09-28). DOI: 10.11922/csdata.2018.0037.zh.


摘要&關鍵詞

編輯

摘要:目前,大量已知結構的化合物缺乏基本物性數據和熱動力學數據。為了進一步提高化學數據庫中數據的完備性和拓展使用性,本數據庫利用Gaussian03軟件程序基於化合物結構數據庫以及化合物基本信息資源對約20萬個化合物的結構進行了數據分析和量化幾何結構優化、光譜和頻率以及熱動力學計算模擬,並對量化計算結果文件按國際標準分別提取了化合物物種及相應的紅外吸收光譜、偶極矩、絕對極化率、轉動溫度及轉動常數、零點振動能、零點校正、分子內能、焓、自由能、分子動能、等容熱容、熵等熱動力學參數及其計算譜圖數據等。經數據分析、挖掘和查重等二次加工處理後得到18000個化合物的量化計算結果數據(其中5321個化合物含有譜圖數據)。為了提高數據的可使用性,本數據庫對所有結果數據都進行了規範化和使用便利化加工處理。

關鍵詞:化合物結構;量化計算;數據分析加工;熱動力學數據;譜圖數據

Abstract & Keywords

編輯

Abstract: At present, a large number of compounds of known structure lack basic physical property data and thermodynamic data. In order to promote data integrity and usability in chemistry database, the study calculates the structure of about 200,000 compounds using Gaussian03 software programs based on compounds structure data and compounds profiles. Meanwhile, the study performs geometric structure optimization, thermodynamic data analysis, and spectrum analysis. Then, compound species, together with their thermodynamic parameters and spectrum data, are extracted from quantum calculation results according to international standards, including infrared absorption spectrum, dipole moment, absolute polarizability, turning temperature and constant, zero-point vibrational energy, zero-point correction, molecular internal energy, molecular kinetic energy, enthalpy, free energy, heat capacity at constant volume, and entropy. A second processing (i.e., data analysis, mining and duplicate checking) results in quantum chemical calculation data of 18000 compounds (including spectrum data of 5321 compounds). To improve data reusability, all the resulted data have been standardized and processed for easier reuse.

Keywords: compounds structure; quantum chemical calculation; data analysis and processing; thermodynamic data; spectrum data

數據庫(集)基本信息簡介

編輯
數據庫(集)名稱 量化計算結果數據庫
數據作者 韓清珍、趙月紅、溫浩
數據通信作者 韓清珍(qzhan@ipe.ac.cn)
數據時間範圍 2015–2017年
數據量 766 KB
數據格式 *.xls
數據服務系統網址 http://www.sciencedb.cn/dataSet/metaData/630
基金項目 國家科技基礎條件平台項目,國家基礎科學數據共享服務平台,DKA2017-12-02-05;「十三五」院信息化專項,化學學科領域重點數據庫建設與應用服務,XXH1350303-103
數據庫(集)組成 數據集由13部分數據組成:一是偶極矩數據、二是絕對極化率數據、三是相對極化率數據、四是轉動溫度數據、五是轉動常數數據、六是零點振動能數據、七是零點校正數據、八是熱能數據、九是熱焓數據、十是熱自由能數據、十一是總分子動能數據、十二是等容熱容數據和十三是熵數據。數據集包含1個數據文件:Quantumdata.zip。

Dataset Profile

編輯
Title A database of quantum chemical calculation results
Data authors Han Qingzhen, Zhao Yuehong, Wen Hao
Data corresponding author Han Qingzhen (qzhan@ipe.ac.cn)
Time range 2015 – 2017
Data volume 766 KB
Data format *.xls
Data service system < http://www.sciencedb.cn/dataSet/metaData/630>
Sources of funding The National R&D Infrastructure and Facility Development Program of China, Fundamental Science Data Sharing Platform (DKA2017-12-02-05); CAS informatization project during the Thirteenth Five-Year Plan – "Key Database Construction and Application Services for the Discipline of Chemistry" (XXH1350303-103).
Database composition The dataset consists of 13 subsets in total: Dipole moment (Debye), Exact polarizability, Approx. polarizability, Rotational temperatures (Kelvin), Rotational constants (GHZ), Zero-point vibrational energy (kJ/mol), Zero-point correction (Hartree/Particle), Thermal energy (kJ/mol), Thermal enthalpy (kJ/mol), Thermal free energy (kJ/mol), Total molecular kinetic energy (kJ/mol), CV (J/Mol-Kelvin), S (J/Mol-Kelvin). The database contains one compressed data file titled Quantumdata.xls, which stores thermodynamic chemical properties data resulted from quantum calculation.


引 言

編輯

近年來,隨着新材料需求的擴大和研發能力的提高,具有各種特定性能、面向不同需求的各種結構的材料不斷出現,但這些材料及其相關衍生物的許多熱動力學性質卻都不夠詳細,形成了大量已知結構的化合物缺乏物性基本數據及其相關熱動力學數據的局面。如果將目前化學主題數據庫中已知結構信息的化合物進行量化計算分子模擬,將量化計算獲得的熱動力學數據和譜圖數據提取整理成數據庫,將對化工模擬和材料分子設計行業的研發人員的查詢使用提供極大方便。因此開發建設量化計算結果數據庫對於化工模擬行業和材料設計的相關行業發展都具有重要意義。

量化計算結果數據庫的數據收集是出於化工模擬和材料設計的需求而進行的,這些數據幾乎沒有文獻數據或者很難用實驗手段獲得。因此採用可靠性較好的量化計算方法模擬出結果,一方面經過不斷的計算模擬檢驗,另一方面在化工模擬、分子設計和水污染處理、空氣淨化等領域推廣使用,逐漸形成一個類似查詢工具包的數據包免費提供給用戶使用。量化計算結果數據庫收集了化學主題數據庫中已知分子結構的化合物量化計算結果的熱動力學數據和紅外譜圖數據等,並逐漸建成一個信息數據比較完備的數據管理與信息服務系統,實現網絡服務和信息查詢,並成為集成在化學主題數據庫(ChemDB)內的一個附屬子庫,提供網絡化管理和Web化數據共享平台。

1 數據採集和處理方法

編輯

1.1 數據預處理

編輯

首先利用Open Babel2.3.1軟件將化學主題數據庫中的化合物結構mol文件或者sdf文件轉換為高斯計算軟件的輸入格式文件,進一步運用批處理命令將量化計算擬採用的雜化泛函模型、基組和電荷、自旋多重度等計算命令行和分子結構相關信息寫入文本,生成分子結構優化、頻率分析、電荷分布分析和相關熱動力學參數分析以及等光譜計算和頻率分析的高斯計算輸入文件。

1.2 熱動力學數據計算方法

編輯

使用Gaussian03[1]和Gaussian09[2]軟件包,採用密度泛函理論B3LYP/6-31G基組[3],設定體系溫度T=298.15 K,壓強P=101.3 kPa,對所有輸入文件的化合物進行結構優化和頻率計算分析,得到優化幾何構型及其完整的化合物熱動力學參數,運用批處理程序尋找正常收斂結束的輸出結果文件,提取化合物的物種,得到優化幾何構型及其完整化合物熱動力學參數信息,利用C語言編輯的批處理程序提取化合物的偶極矩、絕對極化率、相對極化率、轉動溫度及其轉動常數、零點振動能、零點校正、分子熱能、焓、自由能、分子動能、等容熱容、熵等熱動力學參數信息(見表1),並將其進行物理量的標準單位轉換和規範化處理[4],生成對應的表格,上傳到量化計算結果數據庫,並實現在線服務,具體流程見圖1。


表1 化合物熱動力學參數及其單位

物理量 符號及定義 SI單位
偶極矩 Dipole Moment(μ) Debye
絕對極化率 Exact Polarizability
相對極化率 Approx Polarizability
轉動溫度 Rotational Temperatures K
轉動常數 Rotational Constants GHZ
零點振動能 Zero-point Vibrational Energy kJ∙mol−1
零點校正 Zero-point Correction Hartree/Particle
分子熱能 Thermal Energies kJ∙mol−1
分子反應焓 Thermal Enthalpies kJ∙mol−1
分子反應自由能 Thermal Free Energies kJ∙mol−1
分子總動能 Total Molecular Kinetic Energy (298.15 K) kJ∙mol−1
q 或Q J
w 或W J
內能 圖片 J
圖片 J
熱力學溫度 T K
圖片 J∙K−1
Gibbs自由能 圖片 J
等壓熱容 圖片 J∙K−1
等容熱容 圖片 J ∙mol−1∙K−1
熱容比 圖片
壓縮因子 圖片
化學勢 圖片 J∙mol−1
標準化學勢 圖片圖片 J∙mol−1
反應的標準Gibbs自由能 圖片 J∙mol−1
反應親和勢 圖片 J∙mol−1
反應的標準焓 圖片 J∙mol−1
反應的標準熵 圖片 J∙mol−1∙K−1
平衡常數 圖片


圖片

圖1 量化計算結果數據庫的計算和實現流程概圖


1.3 光譜數據計算方法

編輯

對所有編譯後的化合物結構輸入文件進行光譜計算分析,得到優化幾何構型及其完整的紅外譜圖數據(見表2),運用批處理程序尋找正常收斂結束的結果輸出文件,提取化合物物種,並利用GaussSum2.2程序提取這些化合物的振動頻率及相應的紅外吸收光譜數據,使用Gnuplot作圖軟件對其進行批處理作圖,生成Spectum.zip文件,將結果文件上傳到量化計算結果數據庫實現在線服務和運行。


表2 光譜數據及其單位

物理量 符號及定義 SI單位
波長 λ m
折射率 圖片
頻率 圖片 Hz
圓頻率, 角頻率 ω = 2πν s−1, rad∙s−1
波數 圖片 m−1 m−1
Planck常數 h J∙s
吸收比, 吸收因子 None
吸光度 圖片
躍遷波數 None m−1
躍遷頻率 圖片 Hz
電子項 圖片 m−1
振動項 圖片 m−1
轉動項 圖片 m−1
轉動常數 圖片 m−1 Hz
非對稱參數 圖片
諧振動波數 圖片  ; 圖片 m−1
分子電偶極矩 圖片 C∙m
分子磁偶極矩 圖片 J∙T−1
分子躍遷偶極矩 圖片 C∙m
振動力常數 圖片 J∙s−2 可變可變
化學位移, δ標 圖片


1.4 數據使用的便利化

編輯

量化計算結果數據庫為集成在ChemDB內的一個子庫,提供了多樣化的檢索手段,來自世界各地的用戶都可以通過Internet和Web瀏覽器方便快捷地獲取所需數據。為了與之前的化學主題數據庫統一標識,量化計算結果數據庫採用ID、CAS RN、InChIKey以及化合物參考庫登錄號(SRN)作為化合物的標識信息,其存儲及獲取方式見表3。


表3 各種標識的存儲及獲取方式

外文詞 存儲及獲取方式
ID 化合物ID來源於化合物自身的CAS RN,並經過校驗碼檢查確認其正確性。對於部分無法確定CAS RN的化合物,採用B加流水號的方式存儲,如「B2000166」。
CAS RN 化合物ID映射化學主題數據庫的ID和CAS RN收集自各種資料,並經過校驗碼檢查確認其正確性。
InChIKey 化合物ID映射數據庫使用國際純粹與應用化學聯合會的共享軟件InChI Software Version 1.02由化合物結構生成化合物的InChIKey標識。
SRN SRN生成自化合物參考庫的化合物結構登錄系統,是一個十進制整數,由本體部分和個位的數字校驗碼1組成,用以代表化合物ID映射數據庫中的一個化合物。


注1:SRN校驗碼使用ISO 7064∶1983標準的Mode 11 校驗碼計算方法。

2 數據樣本描述

編輯

目前已計算化合物結構約200000餘個,收集相關熱動力學數據25000餘條。使用數據庫前端應用程序已錄入分子結構量化計算結果化學數據約18000條,且服務器量化計算仍在不斷進行中,數據量仍在持續不斷增長中。

基於量化計算結果數據庫的內容,確定數據庫(元)數據的基本元素需求,作為數據庫結構設計的主要參考。其中,著錄結構是經仔細分析確認的數據庫數據著錄所需元素及元素的先後排序,各項說明見表4。

需求元素設置表主要是把數據庫所需要的字段經系統化、結構化之後,列成表格進行數據庫結構分析和設計,以及撰寫程序時參考使用,見表5。需求元素設置表各項說明如下:

元素中文名稱:數據庫所需字段的中文名稱。

元素英文名稱:數據庫所需字段的英文名稱。

數據類型:int存放純數字型態的數據;text存放文字型態的數據;varchar存放其他類型數據。

大小:元素所需之空間,以byte為單位。一個英文字符或一個阿拉伯數字需用一個byte表示,而一個漢字字符則需兩個byte表示。

3 數據質量控制和評估

編輯

量化計算結果數據庫採集的基本原則和策略是針對所收集數據的可靠性,對化合物結構的量化計算均採用已經成熟且經過實驗結果驗證可靠的理論方法和計算模型。數據收集中,對有明顯錯誤或不符合物理化學基本規律的計算數據亦予以剔除。整體批量的數據輸入、數據更新和處理的頻度約為半年一次,手工輸入則按月進行。

量化計算結果數據庫對數據要求的制約基本內容包括:

1. 時間範圍約定:在100小時內收斂結束的化合物結構量化計算結果。2. 學科範圍約定:主要來自化學主題數據庫化合物結構。3. 數據量:目前已積累大約18 000條數據,且服務器正在持續計算中,數據來源豐富。4. 數據精度約定:通常為小數點後5位有效數字。5. 語言約定:英語、中文。6. 數據類型約定:數據庫數據的基本類型為文本、數字、圖片、自定義的二進制格式等。

目前,數據庫的輸入輸出的數據類型為文本、數字和圖片類型以及自定義二進制格式,類型與數值都在數據庫系統的正常允許範圍之內。量化計算優化好的結果數據篩選提取出來後先使用EXCEL進行數據整理,為了保證數據質量,統計整理後的數據要求能夠排除輸入錯誤、類型錯誤,並能夠進行部分數據轉換功能。


表4 數據庫著錄結構

著錄項 範例 說明
化合物結構 OseChemX C.20110210.111413.257D8 8 0 0 0 0 0 0 0 0999 V20000.0000 0.0000 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0-1.2124 0.7000 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0-2.4249 0.0000 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0-3.6373 0.7000 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0-3.6373 2.1000 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0-2.4249 2.8000 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0-1.2124 2.1000 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 01.2124 0.7000 0.0000 O 0 0 0 0 0 0 0 0 0 0 0 01 2 1 02 3 1 03 4 2 04 5 1 05 6 2 06 7 1 02 7 2 01 8 2 0M END 以mol文件格式為例
化合物英文名稱 benzaldehyde 非必須
化合物中文名稱 苯甲醛 必須
化合物分子式 C7H6O 非必須
CAS RN 100-52-7 非必須
內部編號 E-PN-001 必須


表5 需求元素表

元素中文名稱 元素英文名稱 數據類型 長度
化合物結構 Str_compound Image
化合物InChI_Key InChI_Key varchar 27
化合物InChI碼 InChI text
分子式 Formula varchar 100
中文名稱 Name_CN varchar 100
英文名稱 Name_EN varchar 150
中文別名 OthName_CN text
英文別名 OthName_EN text
化合物CAS登錄號 CASRN int 10
內部id ID varchar 25
分子量 Mol_weight float
吉布斯自由能 G float
偶極矩 Dipole float
絕對極化率 Exact Polarizability float
相對極化率 Approx Polarizability float
轉動溫度 Rotational Temperatures float
轉動常數 Rotational Constants float
零點振動能 Zero-point Vibrational Energy float
零點校正 Zero-point Correction float
分子熱能 Thermal Energies float
分子反應焓 Thermal Enthalpies float
分子反應自由能 Thermal Free Energies float
分子總動能 Total Molecular Kinetic Energy (298.15 K) float
熱力學溫度 T float
S float
等容熱容 Cv float


4 數據使用方法和建議

編輯

量化計算結果數據庫資源的數據描述共計13個子類,分別為偶極矩(Dipole Moment)、精確極化率(Exact Polarizability)、相對極化率(Approx Polarizability)、轉動溫度(Rotational Temperatures)、轉動常數(Rotational Constants)、零點振動能(Zero Point Vibrational Energy)、零點校正(Zero Point Correction)、熱能(Thermal Energies)、熱焓(Thermal Enthalpies)、自由能(Thermal Free Energies)、總分子動能(Total Molecular Kinetic Energy)、等容熱容(CV )和熵(Entropy),另外還提供部分結構的紅外譜圖(Infrared Spectrum)。用戶可以利用化合物的CAS RN、結構、SRN或者InChIKey碼查詢其相應的上述熱動力學計算結果數據(如圖2所示),而不需要自己進行繁瑣的分子結構模型構建、計算分析和結果提取等,這對新材料的評估分析、結構設計以及化學化工應用等都是十分便利的。


圖片

圖2 氮化硼的量化計算熱化學性質數據的檢索結果界面


量化計算結果數據可通過化學主題數據庫頁面(http://www.chemdb.csdb.cn)访问。

參考文獻

編輯
  1. FRISCH M J, et al. Gaussian 03, Revision B.03[M]. Pittsburgh, PA: Gaussian Inc, 2003.
  2. FRISCH M J, et al. Gaussian 09, Revision A.02[M]. Pittsburgh, PA: Gaussian Inc, 2009.
  3. BECKE A D. Density-functional thermochemistry. III. The role of exact exchange[J]. Journal of Chemical Physics, 1993, 98(7): 5648-5652.
  4. 姜璐璐. 基於ChDR本體的化學數據資源集成的研究[D]. 北京: 中國科學院大學, 2015.

數據引用格式

編輯

韓清珍, 趙月紅, 溫浩. 量化計算結果數據庫[DB/OL]. Science Data Bank, 2018. (2018-07-20). DOI: 10.11922/sciencedb.630.


 

本作品在「知識共享-署名 4.0 國際」協議下發表。

Public domainPublic domainfalsefalse