元数据注册系统

元数据注册系统(Metadata registries,MDR)

简介

最近在看 DAMA 的时候知道了 ISO/IEC 11179 标准,所以针对相关内容进行一些学习和记录。

注:GB/T 18391 等同于 ISO/IEC 11179 仅有编辑性修改。关键术语请参照原文。

概念

通常,将描述性的数据称为元数据,即,元数据是用于描述其他数据的数据。元数据注册系统是支持注册功能的一个元数据的数据库。系统的主要目的为:标识、来源和质量监控。标识由赋予(注册系统内)每个注册对象一个唯一的标识符来实现;来源指明元数据及其描述对象的来源;质量监控确保元数据完成其被赋予的任务。

元数据注册用于管理数据的语义。对数据的理解是设计、协调、标准化、应用、重用以及交换数据的基础。设计元数据注册系统的基本模型,目的在于获取数据语义的所有基本成分,而与应用或主题域无关。

元数据注册系统的目标是,各类应用能够确定在现有的元数据注册系统中是否存在合适的对象。如果确认需要一个新对象,鼓励通过适当修改现有描述来派生,以免类似的描述产生不必要的差异。注册也可以辨别两个或多个管理项描述的是同一对象,更为重要的是,可以发现在一个或多个方面存在显著差异的管理项是否使用了相似或相同的名称。

数据的基本容器也称为数据元(Data Element)。它可以抽象地存在,也可存在于某个应用系统中,但其描述是相同的。数据元描述既有语义成分,也有表示成分。语义可以进一步细分为语境型和符号型。

语境语义由数据元概念(DEC)描述。数据源概念描述数据所指的对象种类和用于度量该对象的独特特征。符号语义由概念域(CD)描述。概念域是种类的集合,它不必是有限集合。在此,种类表示数据元值域中允许值的含义。

框架

数据元的基本模型如下:

  • 数据元概念:数据源概念是一个数据元的形式表示的概念,其描述与任何特定表示法无关。
  • 表示:表示由值域、数据类型、计量单位(如果需要)、表示类(可选)。组成

数据元概念由以下两部分构成:

  • 对象类:可以对其界限和含义进行明确的标识,且特性和行为遵循相同规则的观念、抽象概念或现实世界中事务的集合。
  • 特性:一个对象类所有成员所共有的特征。

数据元基本模型

对象类是我们希望采集和存储数据的事务。对象类是概念,在面向对象的模型中与类相对应,在实体关系模型中与实体对应,例如轿车、人、家庭、雇员和订单等。特性用来区别和描述对象,是对象类的特征,但不一定是本质特征,它们构成对象类的内涵。特征也是概念,对应于面向对象模型或实体关系模型中的属性(不包括相关的数据类型),例如颜色、模型、性别、年龄、收入、地址、价格等。

对象类可能是一般概念。当对象类所对应的对象集有两个或多个元素时,就是一般概念。上段的例子就是一般概念。记录级数据以这种方式描述。对象类也可以是个别概念。当对象类对应的对象集仅有一个元素时,就是个别概念,例如 ’美国自然人集合‘ 或 ’澳大利亚服务行业公司集合‘。聚合数据以这种方式描述。特性作为个别概念的例子有:平均收入或总收入。

在组织内部,数据库或文件由记录、段和元组等组成,而记录、段和元组则由数据元组成。数据元本身包含有字符、图像、声音等多累数据。

组织需要将数据传输给其他组织时,数据元是构成事务集的基本单元。事务主要发生于数据库间或文件间,单文件和数据库结构(如记录或元组)在不同组织间并不一定相同。因此,信息(数据加上理解)传输的公共单元就是数据元。

数据元传输

值域是允许值的集合,其有以下子类:

  • 可枚举值域:由允许值(值和它们的含义)列表规定的值域;
  • 不可枚举值域:由描述规定的值域。

概念的外延构成了概念域,每个值域都是概念域的一个元素。一个概念域是一个值含义的集合。一个概念域的内涵是它的值含义。多个值域可能是同一个概念域的外延。但一个值域只与一个概念域关联。概念域之间可以存在关系,所以可能创建概念域的一个概念体系。值域之间也可以存在关系,根据这些关系提供的框架,就能够获得相关值域和它们关联概念的结构。

概念域也有两种子类:

  • 可枚举概念域:由值含义列表规定的概念域;
  • 不可枚举概念域:由描述规定的概念域。

总体模型

分类

注:此章节大部分内容都是图,暂时没理解清楚,之后补充吧。

分类元模型区

命名和定义元模型区

管理和标识元模型区

管理和标识区——复合数据类型的类

注册系统元模型(metamodel)与基本属性

元模型是描述其他模型的一个模型。一个元模型为理解特定模型的准确结构及其成分提供一种机制,它对于用户和/或软件工具成功地共用该特定模型来说是必需的。

在样例中会用一个元模型来描述元数据注册系统的结构。该注册系统依次将被用于描述和模拟其他数据,例如:关于企业,公共管理或商业应用方面的数据。该注册系统元模型是作为一个概念数据模型来被规定的,亦即描述自然世界中相关信息是如何构造为模型的。作为一个概念模型,不需要把模型中的属性于数据库中的字段、列、对象以及其他事项作一对一地匹配。每一属性可对应的不只是一个字段,并且某些实体和关系可以由多个字段实现,而不必在意一个实现对于每个关系或实体是否都有一个表。该元模型不需要在物理上作特定的实现。

由这种元模型描述的框架结构可以分为多种实现。这些实现可以是数据库、数据仓库、元数据注册簿、元数据注册系统、词典及其他等等。

命名与定义元模型区

分类元模型区域

数据元概念元模型区域

概念域和值域元模型区域

整理过的元模型

数据定义的形成

数据定义应:

  1. 用单数形式阐述;
  2. 要阐述其概念是什么,而不是仅阐述其概念不是什么;
  3. 用描述性的短语或句子阐述;
  4. 仅可使用人们普遍理解的缩略语;
  5. 表述不应包括其他数据或基本概念的定义。

数据定义宜:

  1. 阐述概念的基本含义;
  2. 准确而无歧义;
  3. 简练;
  4. 能单独成立;
  5. 表述中不应加入理由、功能用法、领域信息或程序信息;
  6. 避免循环定义;
  7. 对相关定义使用相同的术语和一致的逻辑结构;
  8. 适合被定义的元数据项的类型。

命名和标识原则

命名由描述性命名和规定性命名两种。命名约定也可以在一个引用文件中规定。命名约定应涵盖命名的所有方面。包括:

  • 命名约定的范围,例如,已确定的行业(产业名称);
  • 建立机构的名称;
  • 管理那些在名称中使用的术语的来源和内容的语义规则,例如:从数据模型中得到的术语、在学科中公共使用的术语等;
  • 涵盖所需的术语顺序的句法规则;
  • 涵盖所管理的术语列表,名称长度,字符集和语言的词法规则;
  • 确定名称是否必须唯一的规则。

描述性的命名约定可使用于那些不受注册系统管理或早期进入注册系统的其他机构控制的管理项。描述性命名约定至少应记录范围和机构规则,适当的时候也可以记录语义、句法、词法和唯一性规则。

规定性的命名除了记录描述性的命名约定所需的范围和机构规则外,还应记录语义、句法、词法和唯一性规则:

  • 语义规则使得含义可被传达。
  • 句法规则使这些项按一致的、规定的顺序相关联、
  • 词法(词的构成和词汇)规则减少了项的冗余并增加了准确性。
  • 唯一性规则记录了如何防止在命名约定范围内同名现象的出现。

语义规则:语义涉及到名称各部分和它们幻定界限的分隔符语义。语义规则记录了名称是否传达了含义,如果转达,则记录如何转达。 句法规则:句法规定了一个名称和各部分的排列。这个排列可以按相对或绝对,或两者的组合来规定。相对排列按照其他部分来规定某部分的位置,例如,一个命名约定中的规则可以要求一个限定词术语应总是出现在所限定词术语的前面。绝对排列规定某部分固定出现的位置。例如规则可能要求特性术语总是放置在名称的最后部分。 词法原则:词法问题涉及到名称的表现形式:首选和非首选的术语,同义词,缩写词,各部分长度,拼写,允许的字符集以及大小写敏感性等等。应用词法规则的结果应是由特定命名约定管理的所有名称都有一致的表现形式。 唯一性原则:在名称的范围中,可以有或没有对名称的唯一性要求。

注册

整个注册流程有两类状态:注册状态是指注册、元数据的质量或者管理项的进程的级别。管理状态是指注册机构处理注册请求的管理流程中的状态。进入到元数据注册系统中的每个管理项都应当有一个注册状态。

管理状态详述了某个注册状态下的管理项所经历的过程。它标识出管理项在某一注册状态中发展的过程。管理状态的允许值很可能依赖于该管理项当前所处的注册状态。注册机构负责管理状态的设置和使用,并决定管理状态的允许值。注册机构负责挂你状态的细化、发布和实施。

注册状态详细说明了元数据注册系统中的管理项的情况。注册状态类别应当应用到已经进入元数据注册簿中的单个管理项。管理项的注册状态分两类,生命周期型和记录型。生命周期型注册状态处理的是管理项的元数据的质量逐渐提高、完善的过程、以及管理项使用上的优先选择问题。记录型注册状态用于表明元数据的质量不再继续优化或者管理项不再被推荐使用。这些状态类的关系,以及管理项要达到某个特定的注册状态级别的准则:

管理项注册状态类别 状态准则
生命周期状态
首选 注册机构确认该管理项:
1.在使用该注册系统的团体中被优先选用
标准 注册机构确认该管理项:在使用该注册系统的团体中,
1. 质量合格;
2. 且得到广泛应用
合格 注册机构确认:
1. 必须元数据属性完整,
2. 且必须元数据属性符合应用质量要求
已记录 注册机构确认:
1. 所有必选元数据属性完整
候选 管理项被提议按照注册级别逐渐完善
未完成 提交者期望使用该元数据注册系统的团体意识到其本领域内的一个管理项的存在
失效 注册机构批准该管理项:
1. 不再推荐给该元数据注册系统的团体使用;
2. 且不应当继续被使用
被替代 注册机构确认该管理项:
1. 不再推荐给该元数据注册系统的团体使用;
2. 且一个继承的管理项被优先选用
记录状态
历史 提交者希望使用该元数据注册系统的团体,意识到在其本领域内一个管理项曾经存在过
应用 注册机构希望使用该元数据注册系统的团体,意识到其本领域内一个管理项的存在,该管理项存在于一个应用系统中,尚未在逻辑层次上进行规范。有可能会对该管理项进行规范描述

参考资料

GB/T 18391 国标


元数据注册系统
https://wangqian0306.github.io/2022/metadata/
作者
WangQian
发布于
2022年9月23日
许可协议