您是第位访问嘉宾!
当前位置: 首页 > 政策法规

医药卫生科学数据共享工程技术标准(科学数据部分)

  • 发布者:admin 发布时间:2015-11-07 17:02:52.0

4 术语和定义
4.1 科学数据
科学数据,是指人类在认识世界、改造世界的科技活动所产生的原始性、基础性数据,以及按照不同需求系统加工的数据产品和相关信息。它既包括了社会公益性事业部门所开展的大规模观测、探测、调查、实验和综合分析所获得长期积累与整编的海量数据,也包括国家科技计划项目实施与科技工作者长年累月科学实践所产生的大量数据。[1]
4.2 医药卫生科学数据分类
医药卫生科学数据分类主要是根据医药卫生科学数据的属性或特征,将其按照一定的原则和方法进行区分和归类,并建立起一定的分类体系和排列顺序,以便更好地管理和使用。
4.3 医药卫生科学数据编码
编码是一个对特定对象或事物进行分类的过程,或是对事物进行多轴分类的分类集合。在大多数分类中,各类用代码表示。事实上,编码是对对象多方面性质的解释,代码可以是数字,字母或两者兼具。[2]
医药卫生科学数据编码就是在分类的基础上,给医药卫生科学数据赋予有一定规律性、计算机容易识别与处理的符号。最终目的实现数据集的唯一标识。
4.4 线分类法
又叫层级分类法、体系分类法。是将分类对象按所选定的若干个属性或特征,作为分类的划分基础,逐次地分成相应的若干个层级的类目,并排成一个有层次的,逐级展开的分类体系。
4.5 面分类法
面分类法是把给定的分类对象,依据其本身固有的各种属性,分成相互之间没有隶属关系的面,每个面都包含了一组类目。
4.6 数据集
医药卫生科学数据共享最小单元为数据集,医药卫生数据集指:有独立主题、规范格式,能够通过计算机采集、整合、存储和展现,应用于医药卫生业务、科研、管理和公众服务等方面的信息服务资料。
英国卫生部数据字典定义介绍了数据集:全国统一的数据集的主要的目的是为了使独立的国内组织和系统获取的数据能够产生的相同的健康信息。一旦达成这个目的,NHS信息部将能够使医疗卫生专家评测和比较所提供的医疗服务和质量,并且可以也为更大范围的医疗卫生专家提供信息共享。[3]
4.7 数据集标引
指分析数据集的内容属性及相关外表属性,并用特定语言表达分析出的属性或特征,从而赋予数据集检索标识的过程。
5 分类与编码研究目的
为《医药卫生科学数据共享与服务工程》资源规划,数据集的组织、整合、汇交、发布和目录查询提供系统化、规范化、实用性的分类和编码办法,建立医药卫生科学数据共享与服务数据集分类编码标准体系。
5.1 资源规划
医药卫生科学数据共享工程所要达到的目标是实现本领域内各学科间、与业务无关的科学数据资源的共享,以及基于共享资源的各类服务功能的实现和提供。
根据学科分类,医药卫生科学数据共享的共享资源域主要分为基础医学、临床医学、预防医学、中医药学、药学、特种医学、人口与生殖健康几大类。在每一个资源域中再根据“医药卫生科学数据共享分级分类标准”,组织、加工相应数据资源,形成对应的数据集。各分中心根据资源调查结果确定可以共享的数据集,中心再对各类数据集进行整合形成相应的主题数据库。
5.2 组织、汇交、发布
医药卫生科学数据资源分布在不同的主管部门和数百家科研院所和大医院,缺乏统一的管理与规划。通过分类与编码的研究,对相同属性的数据集进行组织,借助分类提供元数据标识信息中数据集分类的信息,借助编码提供数据集唯一的元数据标识符,从而实现数据集元数据汇交到医药卫生共享网,发布信息,实现网上服务。
5.3 目录查询(资源展现)
数据集查询具有多种方式,目录查询是数据集查询的一种,一定意义起到资源展现的作用。为满足数据集共享用户单点登录、多角度查询,应用数据集元数据标准构建查询系统。数据集元数据标准基本内容包括标识信息、内容信息、分发信息、数据质量信息、数据表现信息、扩展信息、数据模式信息、限制信息和维护信息九项内容组成,注册的数据集元数据通过《科学数据管理与共享服务》数据库系统进行管理,通过门户网站进行发布。
6 分类的原则
6.1 系统性原则
医药卫生信息资源多以业务一致性为基本内容,因此医药卫生学科领域间信息资源存在着密切的联系和广泛的交叉。信息资源分类应坚持系统性原则;即在满足学科领域相对独立的基础上,简化分类体系,减少信息冗余,优化分类结构。
6.2 实用性原则(可操作性)
信息资源分类的终点是数据集实体层,也是用户的最终应用层。因此在医药卫生信息分类的终点处要充分考虑实用性原则。实用性强的分类体系既能满足用户对信息使用的简洁易懂需求,也有利于信息提供者设计和编制数据集。
6.3 可扩充性原则
医药卫生信息资源内容会随着时间推移,业务发展而得以扩展,因此医药卫生信息资源分类体系应保证充分地可扩充性,确保信息种类和数量的增加不会因分类体系而造成影响。
6.4 兼顾科学性原则
医药卫生拥有一个独立的信息资源域体系,各业务领域的信息资源均有规范抽象的属性特征。因此在医药卫生信息资源域分类研究中,应遵循科学性原则,优先选择最能代表该资料属性的本质特征进行分类。
7 分类方法
医药卫生科学数据分类与编码以实现医药卫生科学数据共享为目标,该分类方法从医药卫生科学数据本身的内容属性出发,在充分调研现有各综合分类法与行业领域专用分类方法的基础上,分析这些分类方法的特点和适用范围,吸取其中适用于医药卫生科学数据分类的因素,并结合前沿的信息组织技术方法。
采用面分类法和线分类法相结合的技术路线进行分类研究。
应用面分类法将所有医药卫生现有或可能产生的数据集的属性或特征视为若干个“面”,每个“面”再分为彼此独立的若干个类目。根据需要将这些“面”中的类目组合在一起,形成一个复合类目。面分类法的分类原则是根据需要选择分类对象本质属性或特征作为分类对象的各个“面”;不同“面”内的条目间相互不交叉;对每个“面”都给出明确的定义。面分类法具有较大的弹性,一个面内类目的改变,不会影响其他的面;适应性强,可根据需要组成任何类目,同时也便于应用计算机处理信息;易于添加和修改类目。
应用线分类法将初始的分类对象按所选定的若干个属性或特征(作为分类的划分基础)逐次地分成相应的若干个层级的类目,并排成一个有层次的、逐级展开的分类体系。在这个分类体系中,同位类的类目之间存在着并列关系,下位类与上位类的类目之间存在着隶属关系,同位类的类目不重复,不交叉。线分类法遵循的基本原则:由某一上位类划分出的下位类类目的总的范围应与其上位类类目的范围相等;当某一个上位类的类目划分为若干个下位类的类目时,应选择一个划分基础;同位类的类目之间只对应于一个上位类;分类要依次进行,不应有空层或加层。