商品化合物数据库

商品化合物数据库
作者:续冉 赵月红 韩清珍 温浩
2019年12月11日
本作品收錄於《中国科学数据
续冉, 赵月红, 韩清珍, 温浩. 商品化合物数据库[J/OL]. 中国科学数据, 2019. (2019-12-09). DOI: 10.11922/csdata.2019.0076.zh.


摘要&关键词 编辑

摘要:现有化学物质名录中收录的化合物安全、环境和健康风险已知,可以直接进入实验室和进一步的工业实验,降低项目研究时间和经济成本。目前,名录中只含有CAS号等基本信息,无法满足功能化合物筛选的需求,我们根据中国、美国和欧盟的现有化学物质名录,进行数据挖掘、计算和二次加工,建立了商品化合物数据库(Existing Commercial Compounds Database, ECCD)。除了名录中的基本信息外,ECCD根据CAS登录号添加了表征化合物结构信息的mol文件,并在此基础上利用基团贡献法估算了化合物的物性信息,包括摩尔质量、熔点、沸点、密度、蒸气压、表面张力和黏度等,作为化合物筛选的基础信息。为了实现功能化合物的批量筛选,ECCD中还添加了分配系数、选择性、溶解能力和溶剂损失等描述相间行为的重要物理化学特征参数。此外,还可根据筛选目的的不同,以ECCD为基础,添加化合物的特定物性和功能数据,以满足特定功能化合物筛选的需求。为进行计算机辅助分子设计、材料表面设计和功能化合物结构设计等提供极大的便利。

关键词:化学物质名录;商品化合物;物性数据;化合物筛选

Abstract & Keywords 编辑

Abstract: The compounds in the existing chemical substance inventory, with known safety, environmental, and health risks, can be easily obtained and be tested in laboratories and further industrial experiments, reducing project research time and economic costs compared with new compounds. At present, the inventories only contain basic information of substance such as CAS numbers, which can not meet the needs of functional compound screening. We establish a commercial compound database (Existing Commercial Compounds Database, ECCD), by processing the compounds data contained in the existing chemical substance inventories in China, United States and European Union to get additional information. For example, a mol file that characterizes the structure information of the compound is collected via its CAS registration number. Further we estimated the physical properties of the compound using the group contribution method, including molar mass, melting point, boiling point, density, vapor pressure, surface tension, and viscosity, serving as basic information for compound screening. Furthermore, in order to realize the batch screening of functional compounds for extract purpose, specific physical and chemical characteristic parameters such as partition coefficient, selectivity, solubility, and solvent loss, which describe the behavior between two liquid phases, have been added to ECCD. It should be noted, for the different screening purposes, specific physical properties and functional data of compounds should be added to ECCD to meet the specific screening needs. Thus it provides great convenience for computer-aided molecular design, material surface design, and functional compound structure design.

Keywords: chemical substances inventory ; commercial compounds; physical property data; compound screening

数据库(集)基本信息简介 编辑

数据库(集)名称 商品化合物数据库
数据作者 续冉、赵月红、韩清珍、温浩
数据通信作者 赵月红(yhzhao@ipe.ac.cn)
数据时间范围 2017–2019年
数据量 74 KB
数据格式 *.xls
数据服务系统网址 http://www.sciencedb.cn/dataSet/handle/914(89个样例数据集)
基金项目 国家科技基础条件平台项目,国家基础科学数据共享服务平台,DKA2017-12-02-05;“十三五”院信息化专项,化学学科领域重点数据库建设与应用服务,XXH1350303-103。
数据库(集)组成 中国、美国、欧盟现有化学物质名录中的34177种化合物,包含标识信息(CAS登录号、中英文名称、所属名录、化学式、摩尔质量、SMILES码)、理化性质数据(熔点Tm 、正常沸点Tb 、蒸汽压P、密度ρ、表面张力σ、黏度η)和萃取性能(分配系数mij 、选择性βij 、溶解能力SPij 、溶剂损失SLi )。

Dataset Profile 编辑

Title Existing commercial compounds database
Data authors Xu Ran, Zhao Yuehong, Han Qingzhen, Wen Hao
Data corresponding author Zhao Yuehong (yhzhao@ipe.ac.cn)
Time range 2017–2019
Data volume 74 KB
Data format *.xls
Data service system <http://www.sciencedb.cn/dataSet/handle/914> (89 samples)
Sources of funding The National R&D Infrastructure and Facility Development Program of China, Fundamental Science Data Sharing Platform (DKA2017-12-02-05); CAS informatization project during the Thirteenth Five-Year Plan – "Key Database Construction and Application Services for the Discipline of Chemistry" (XXH1350303-103).
Database composition 34,177 compounds in the existing chemical substances inventories in China, United States, and European Union, including identification information (CAS registration number, Chinese and English names, belonging inventory, chemical formula, molar mass, SMILES code), physical and chemical properties (melting point Tm , normal boiling point Tb , vapor pressure P, density ρ, surface tension σ, viscosity η) and extraction performance (partition coefficient mij, selectivity βij , dissolution capacity SPij , solvent loss SLi ).


引 言 编辑

目前许多国家和地区都编制了本国的化学物质管理法规,要求对生产、加工、销售、使用或从国外进口的化学物质进行注册/通报。我国自2003年开始建立并执行新化学物质登记制度[1][2],根据是否列入目录,将化学物质分为现有化学物质和新化学物质。现有化学物质的安全、环境和健康风险已知,对可能出现的危害具有有效的技术手段和监管措施,且可根据CAS登录号获得化合物的化学物质安全技术说明书(Material safety data sheet,MSDS),可为安全生产/储存/运输/使用/处置、泄露应急处理、劳动保护和救护措施等提供指导。

为了便于利用名录中的化合物,中国科学院过程工程研究所基于中国、美国和欧盟的现有化学物质名录,建立了商品化合物数据库(ECCD)。ECCD中除了包含名录中化合物的基本信息外,还根据CAS登录号添加了表征化合物结构信息的mol文件。由于缺乏实验数据,无法满足化合物筛选数据一致性和完备性的要求,我们利用化合物分子结构信息,采用基团贡献法和基团匹配工具CACTVS开发了化合物物性估算程序,进行物性估算,用于扩充化合物的物性信息,包括熔点、正常沸点、密度、黏度等,作为功能化合物筛选的基础数据集。对于有特定功能需求的化合物筛选,可以在基础数据集的基础上,增加专题功能数据。如,为了满足萃取剂筛选的需求,实现煤化工废水中多种污染物的萃取,我们在ECCD库中补充了针对废水中12种典型污染物的萃取性能数据,并进一步开发了基于多物性联合检索的高通量筛选方法。基于ECCD中化合物环境健康风险已知,有可能进一步发现“老”化合物的“新”功能,有利于提高功能化合物开发效率,降低经济和时间成本。

1 数据采集和处理方法 编辑

1.1 数据源 编辑

目前,世界主要国家和地区的化学物质名录有:中国现有化学物质名录(Inventory of existing chemical substances, IECSC)、美国有毒物质控制名录(The toxic substances control act, TSCA)、欧洲现有商业化学物质名录(European inventory of existing commercial chemical substances, EINECS)、加拿大国内物质清单(Domestic substances list, DSL)、日本现有和新化学物质(Existing and new chemical substances, ENCS)、韩国现有化学物质清单(Korea existing chemical list, KECI)、菲律宾化学品和化学物质名录(Philippine inventory of chemicals and chemical substances, PICCS)、澳大利亚化学物质名录(Australia inventory of chemical substances, AICS)等[3][4]

我们选取了收录化合物数量最多的3个名录,分别是欧洲现有商业化学品名录 (EINECS)[5]、美国有毒物质控制名录(TSCA)[6]和中国现有化学物质名录(IECSC)[7][8]。3个名录中化学物质的数量如表1所示,总共有10万多种化学物质。名录中的化学物质一般包含CAS号、流水号、物质名称和化学分子式等基本信息。为了扩充数据库信息,以支持功能化合物筛选,我们以CAS号为依据从中国科学院上海有机化学研究所获取了化合物的mol文件。排除重复的化合物后,ECCD中共有34177种含分子结构信息的化合物。


表1 3个名录中的化合物情况

名录 更新时间 物质个数 有CAS号 有mol文件
EINECS 2019 ~100,000 100,204 31,773
TSCA 2018 ~84,000 67,635 16,876
IECSC 2018 ~45,000 37,127 10,611


1.2 物性数据的计算 编辑

为了扩展数据库的应用范围,ECCD添加了化合物的物性数据,包括摩尔质量M、熔点Tm 、正常沸点Tb 、蒸汽压P、密度ρ、表面张力σ和粘度η等。由于实验数据完备性不足,ECCD中的物性数据采用基团贡献法进行估算。现有物性计算方法中,基团贡献法具有适用范围广、计算简单、估算精度误差范围可接受等优点。表2总结了本数据库中采用的物性计算方法[9][10][11],包括C-G法、Joback法、GCVOL法和CSGC法。


表2 物性数据的计算方法

物性数据 计算方法
熔点Tm C-G, Joback
正常沸点Tb C-G, Joback
密度ρ C-G, GCVOL
蒸气压P CSGC_PRV
表面张力σ CSGC_ST1
黏度η CSGC_VK


物性估算程序包括3个步骤:首先利用Open Babel 2.3.2软件将化合物结构mol文件转化成SMILES码;根据SMARTS码的编码规则,对不同基团贡献法中的基团进行表达。然后利用CACTVS化学工具库[12]进行SMILES码和SMARTS码的匹配,将分子结构拆解成基团。最后采用相应的基团贡献法估算化合物的性质。物性估算程序采用Tcl语言(Tool Command Language)[13]编写,可以实现不同物性估算任务的批处理作业,以及程序与外部数据的连接。

根据不同的化合物筛选需求,用户可以在现有ECCD数据库上的基础上添加专用的物性数据和功能数据,实现相应的功能化合物的筛选。例如,为了将ECCD数据库应用于煤化工废水中多种污染物脱除的萃取剂设计,我们在库中添加了萃取性能数据。考虑到废水中污染物浓度很低,萃取操作液液相平衡计算采用了无限稀活度系数。各候选化合物对12种典型污染物(苯酚、甲基酚、二甲基酚、苯二酚、苯三酚、联苯、三联苯、萘、茚、吡啶、吲哚、喹啉)的分配系数mij 、选择性βij 、溶解能力SPij 、溶剂损失SLi 。萃取性能的计算方法如下:

图片 ...(1)

图片 ...(2)

图片None ...(3)

图片 ...(4)

其中,下角标i和j分别指萃取剂和污染物,下角标w指水。Mw 和Mi 分别是水和萃取剂的摩尔质量。mij 是污染物j在萃取相和水相中的分配系数,βij 是萃取剂i对污染物j和水的选择性,SPij 是萃取剂i对污染物j的溶解能力,SLi 是萃取剂i在水中的溶剂损失。图片图片图片图片分别是j在w中、j在i中、w在i中和i在w中的无限稀释活度系数。

1.3 数据使用的便利化 编辑

为了方便使用ECCD进行萃取剂筛选,以SQL Server 2008作为数据库管理系统,在Windows 7环境下,利用C#语言和Visual Studio 2010开发了ECCD的图形用户界面。ECCD的主界面和检索界面如图1和图2所示。


图片

图1 现有商品化合物数据库的登录界面


图片

图2 现有商品化合物数据库检索栏


2 数据样本描述 编辑

ECCD采用CAS号作为唯一标识字段,化合物的基本信息、物性数据和功能数据均通过CAS号集成到数据库中。针对不同功能化合物筛选扩充的物性数据表也可以通过CAS登录号集成到ECCD中。表3–5分别是化合物的标识数据表、理化性质数据表和萃取性能数据表。其中各个表包含的信息为:(1)标识数据:CAS登录号、中文名称、英文名称、所属名录、分子式、SMILES码、摩尔质量;(2)理化性质数据:正常沸点、熔点、密度、蒸汽压、黏度、表面张力;(3)萃取性能数据:分配系数、选择性、溶解能力、溶剂损失。


表3 ECCD的化合物标识数据表

字段 数据类型 含义 说明
IDnum int 主键 非空
CAS nvarchar(255) CAS登录号 唯一,非空
Name_CN nvarchar(255) 中文名称 IUPAC命名
Name_EN nvarchar(255) 英文名称 IUPAC命名
Inventory nvarchar(255) 所属名录
MF nvarchar(255) 化学式
smiles nvarchar(255) SMILES码
M float 摩尔质量 单位:g∙mol−1


表4 ECCD的理化性质数据表

字段 数据类型 含义 说明
CAS nvarchar(255) 外键,CAS登录号 唯一,非空
Tb float 正常沸点 单位:K
Tm float 熔点 单位:K
Den float 密度 单位:g∙cm−3 在323.15 K和101.325kPa下
P float 蒸气压 单位:kPa,在323.15 K下
V float 黏度 单位:mPa∙s,在323.15 K下
ST float 表面张力 单位:N∙m−1,在323.15 K下


表5 ECCD的相间行为参数数据表

字段 数据类型 含义 说明
CAS nvarchar(255) 外键,CAS登录号 唯一,非空
SL float 溶剂损失 摩尔分数,在323.15 K下
mj float 分配系数 在323.15 K下
betaj float 选择性 在323.15 K下
SPj float 溶解能力 摩尔分数,在323.15 K下

注:其中j代表不同的污染物,1是苯酚,2是甲基酚,3是二甲基酚,4是苯二酚,5是苯三酚,11是联苯,22是三联苯,33是萘,44是茚,55是吡啶,66是吲哚,77是喹啉。

3 数据质量控制和评估 编辑

分子结构和基团的表达以及基团匹配顺序将对拆解结果的正确性产生影响,本库通过对分子mol文件进行了显氢处理,以避免SMILES码因隐氢引起的拆解错误。此外,修改了部分基团的SMARTS码和基团匹配顺序,以保证基团匹配结果的正确性。

无限稀释活度系数采用Dortmund UNIFAC模型[14][15]计算,它改进了活度系数组合项和剩余项,能更好地描述稀释区的真实行为。关联模型参数的数据集来自多特蒙德数据库(Dortmund Data Bank,DDB),关联中不仅使用了汽–液平衡数据,还使用了超额焓、超额等压热容、液–液平衡、共沸、固–液平衡数据、无限稀释活度系数数据,与原始UNIFAC模型相比,Dortmund UNIFAC模型估算精度更高,估算范围更广,预测无限稀释活度系数的误差可比原始UNIFAC模型降低40%–50%[16]

4 数据使用方法和建议 编辑

ECCD数据已经在Chem DB存储和发布,并且提供数据查询服务和数据可视化工具。ECCD数据库包括两个账户,管理员账户和普通用户账户。管理员可以实现数据的检索、导入、导出和删除。普通用户可以进行数据的检索和导出。图3是检索后的结果界面。点击图中的“查看”,可以得到基本信息、理化性质和萃取性能。用户可以设定物性约束范围进行检索,批量下载筛选后的结果。本数据库还可以根据不同的体系添加相应的物性数据,更新数据集扩展其应用范围。需要指出的是ECCD系统尚未对外提供服务,如需使用本系统,可联系作者,或从Science Data Bank(http://www.sciencedb.cn/dataSet/handle/914)下载样例数据集(包含89组样例数据)。


图片


参考文献 编辑

  1. 环境保护部. 新化学物质环境管理办法. 环境保护部令第7号[EB/OL]. (2010–02–04) [2019–11–26]. http://www.gov.cn/flfg/2010-02/04/content_1528001.htm.
  2. 国家环境保护总局. 新化学物质环境管理办法. 国家环境保护总局令第17号[EB/OL]. (2003–09–12) [2019–11–26]. http://www.gov.cn/gongbao/content/2004/content_62688.htm.
  3. Chemical Inspection and Regulation Service Ltd. Global Chemical Inventories 2011[EB/OL]. (2011–11–01) [2019–11–26]. http://www.cirs-reach.com/Inventory/Global_Chemical_Inventories.html.
  4. ChemSafetyPRO. Global Chemical Inventories[EB/OL]. (2019–11–06) [2019–11–26]. https://www.chemsafetypro.com/Topics/Category/Global_Chemical_Inventories.html.
  5. European Chemicals Agency. EC Inventory[EB/OL]. (2019–10–10) [2019–11–26]. https://www.echa.europa.eu/information-on-chemicals/ec-inventory.
  6. United States Environmental Protection Agency. TSCA Chemical Substance Inventory[EB/OL]. (2018–10–05) [2019–11–26]. https://www.epa.gov/tsca-inventory.
  7. 生态环境部. 关于增补《中国现有化学物质名录》的公告. 生态环境部公告 2018年第58号[EB/OL]. (2018–11–22) [2019–11–26]. http://www.mee.gov.cn/xxgk2018/xxgk/xxgk01/201811/t20181130_676779.html.
  8. 环境保护部. 关于发布《中国现有化学物质名录》的公告. 环境保护部公告 2013年第1号[EB/OL]. (2013–01–14) [2019–11–26]. http://www.mee.gov.cn/gkml/hbb/bgg/201301/t20130131_245810.htm.
  9. 董新法, 方立国, 陈砺. 物性估算原理及计算机计算[M]. 北京: 化学工业出版社, 2006.
  10. Poling B E, Prausnitz J M and O’connell J P. The properties of gases and liquids[M]. 5th ed. New York: McGraw-Hill, 2001.
  11. PRETEL E J, LOPEZ P A, BOTTINI S B, et al. Computer-aided molecular design of solvents for separation processes[J]. AIChE Journal, 1994, 40(8): 1349-1360.
  12. TORVS Research Team. The CACTVS system home page[EB/OL]. (1996–12–18) [2019–11–26]. http://www2.ccc.uni-erlangen.de/software/cactvs/.
  13. OUSTERHOUT J K, JONES K. Tcl / Tk 入门经典[M]. 第2版. 张元章, 译. 北京: 清华大学出版社, 2010.
  14. CONSTANTINESCU D, GMEHLING J. Further development of modified UNIFAC (Dortmund): Revision and extension 6[J]. Journal of Chemical and Engineering Data, 2016, 61(8): 2738-2748.
  15. WEIDLICH U, GMEHLING J. A modified UNIFAC model. 1. Prediction of VLE, hE, and γ∞[J]. Industrial & Engineering Chemistry Research, 1987, 26(7): 1372-1381.
  16. LOHMANN J, JOH R, GMEHLING J. From UNIFAC to modified UNIFAC (Dortmund)[J]. Industrial & Engineering Chemistry Research, 2001, 40(3): 957-964.

数据引用格式 编辑

续冉, 赵月红, 韩清珍, 温浩. 商品化合物数据库[DB/OL]. Science Data Bank, 2019. (2019-11-26). DOI: 10.11922/sciencedb.914.


 

本作品在“知识共享-署名 4.0 国际”协议下发表。

Public domainPublic domainfalsefalse