为什么企业对自身内部的数据资产总是混沌不清?其实是缺少一种有效的工具来进行数据资产的梳理和盘点。而元数据管理工具就是一种有效的盘点工具或手段。
元数据是数据资产盘点的重中之重
元数据是企业中用来描述数据的数据。它可理解为比一般意义的数据范畴更加广泛的数据,不再仅仅表示数据的类型、名称、值等信息,它可以进一步提供数据的上下文描述信息,比如数据的所属域、取值范围、数据间的关系、业务规则,甚至是数据的来源。
元数据相当于企业数据的DNA,在传统意义上,元数据有两方面的用处:
- 帮助数据平台了解自己本身的情况:例如我有哪些数据、我存储的数据有多大、如何找到我所需要的数据、我的数据何时产出等信息,当我们拿到这些信息后,就可以做对应的运维报警等工作;
- 帮助数据平台制定数据统计的标准:例如数据口径如何统一、计算指标如何统一、数据之间的关系如何、数据的上下游关联数据是什么等信息,打通了上下游数据之间的关联关系,就可以为数据质量及维护可视化奠定基础。
可以说,元数据有重要的应用价值,对于数据管理,提供诸如计算、存储、成本、质量、安全、模型等方面有重大的利用价值。企业元数据管理的本质是有效利用企业数据资产,让数据发挥出尽可能大的价值。
元数据如何管理才能发挥作用
元数据管理要符合企业数据现状,要能支撑企业数据人员分析数据的需要,元数据是企业数据资产的原始词典,我们需要从这本词典中获取到准确的数据信息,准确、便捷、深度、广度是元数据管理努力的方向。
要实现企业元数据管理需从两个方面考虑,一是盘点企业数据情况,搞清楚要管理哪些元数据以及这些元数据在什么地方,以何种形态存储,他们之间有着怎样的联系。二是建模,这里的建模是建立元数据的模型及元模型,要抽象出企业的元模型,建立个元模型之间的逻辑关系。总的来说,盘点企业数据资产和建立企业元模型是元数据管理的两个基本步骤。下面我们展开的讲一下这两点:
1、企业数据资产盘点。首先要把元数据建设的定位定义清楚,短期解决什么问题,长期达到什么目的,基于短期目标要重点细化。
举个例子要实现企业物理模型的全面管理,实现数据结构变更一体化管理这个短期目标,那么就需要盘点企业有多少应用系统,每个应用系统有多少个数据库,数据库的种类有什么,哪些是业务数据表,哪些是垃圾数据表,每个数据字段的含义是否完整,每个系统哪个业务部门使用,哪些管理员进行运维,企业的数据变更是否有流程驱动等。将以上信息分为两大类,一类是数据模型本身的元数据信息,一类是支撑数据模型管理的元数据信息,这两类信息都是需要盘点的内容。
2、元数据建模。元数据建模是对企业要管理的元数据进行结构化、模型化。元模型的构建要一般要参考公共仓库元模型CWM,但也不能照搬CWM,否则构建的元模型太过臃肿,不够灵活。在构建元模型过程中不但要关心模型的结构更要关心模型间的关系,每个模型在元数据的世界里是一个独立的个体,个体和个体之间的关系赋予了模型间错综复杂的关系圈,这些关系的创建往后衍生会支撑数据图谱或知识图谱的构建。
再拿数据资产盘点的例子来讲,我们要建立数据库元模型、表元模型、字段元模型、管理员元模型,其中库-表-字段是通过组合关系来构建的,而表-表、字段-字段是通过依赖关系来构建的。通过这样的关系构建就能将企业中的所有有交互的数据形成一个错综复杂庞大的数据关系网络,数据分析人员就可以基于这张网络进行各种信息的挖掘。
如何选择适合企业的元数据管理工具
通过大量元数据项目的实践,我们总结出了在理想情况下,元数据管理工具需要具备的元数据采集、元数据存储、元数据查找、血缘分析/关系分析、基于角色的访问控制和分层、元数据变更控制、元数据对比分析、数据生命周期管理、与其他系统的集成等十种能力。
亿信华辰拥有自主研发的元数据管理产品EsPowerMeta,是亿信华数据治理产品体系的重要组成,该产品既可独立部署使用,也可与其他数据治理工具(如数据质量管理、数据标准管理、数据模型管理等)协同应用,完全可以满足构建企业级元数据管理平台的需求。
- 对技术人员而言,亿信华辰元数据管理平台通过对分散、存储结构差异大的资源信息进行描述、定位、检索、评估、分析,实现信息的描述和分类的结构化,从而为机器处理创造了可能,大大降低数据治理人工成本。
- 对业务人员而言,亿信华辰元数据管理平台通过对业务指标、业务术语、业务规则、业务含义等业务信息进行描述、定位、检索、评估、分析,协助业务人员了解业务含义、行业术语和规则、业务指标、数据口径和影响范围等。
下面是亿信华辰元数据管理产品部分特性:
1、技术上强拓展
(1)全面适配
平台内置丰富的适配器,全面保障各类源头的元数据自动化采集,一键采集对接,同时可支持适配器快速扩展。亿信华辰元数据管理平台不仅适配各种数据库、各类ETL、各类数据仓库和报表产品,还适配各类结构化或半结构化数据源。
(2)自动采集
对元数据信息的维护除界面手动操作方式外,亿信元数据管理平台利用内置采集适配器,让用户通过配置数据源参数及定时采集任务,进行自动化采集,实现直连数据源的端到端元数据采集。采集模板定制允许用户根据自己的采集需求,灵活选择需要采集的元数据及其属性,并自动生成 EXCEL 采集适配器可识别的 EXCEL 模板文件。用户可使用模板文件将数据批量录入。
(3)丰富接口
亿信华辰元数据管理平台,提供丰富的接口以支持与外部系统进行交互:
①支持嵌入其它平台
②支持通过接口进行元数据信息查询
③支持通过接口获取元数据变更信息
④提供接口支持对适配器进行扩展
能方便地嵌入到企业各个场景中,给其他系统提供自动化能力,让元数据管理集成到企业信息化的方方面面。
2、业务上强结合
(1)自定义拓展元模型,满足不同管理需要
元数据的应用都基于元模型。亿信元数据管理平台中的元模型支持CWM(公共仓库元模型)规范的同时,提供了一套便捷的自定义管理接口功能,可完全自定义扩展,能够满足元数据管理快速实施的需要,可适应用户在不同时期的不同管理需要。
(2)完善的元数据管理,跟踪业务运作
亿信华辰元数据管理平台提供了完善的元模型和元数据维护功能,采用多种方式简化元数据维护的复杂性。系统支持元数据的自动获取和时间调度管理,支持手工创建和变更元数据,并配合版本管理,能完整存储元数据整个生命周期动态和变化,方便用户跟踪业务运作的历史数据。
(3)丰富的元数据分析应用,赋能业务
亿信华辰元数据管理平台提供了丰富的分析应用,包括:血缘分析、影响分析、全链分析、关联度分析、属性差异分析、元数据对比分析、重复元数据分析、元数据对比分析、重复元数据分析、同时支持将分析结果进行导出和收藏保存。
(4)数据地图鸟瞰全局
一般情况下,元数据管理的业务繁多、形式各异,在集中管理后,如何提供便捷的使用方式,是发挥信息资产价值的关键。数据地图从宏观层面组织信息,力求以用户视角对信息资产进行归并、整理,全局展现资产的宏观信息,有效挖掘信息的潜在价值。
如今,元数据已经成为了很多大型数据治理项目的核心。亿信华辰元数据管理软件成功应用多个行业客户,嵌入企业的数据开发活动,使企业数据资产看得见、读得懂、可管理;并与数据服务、数据应用管理协同,帮助企业进一步促进数据资产用得了、打得通,将在项目实践中持续演进,为客户数据资产的高效管理和价值充分释放提供核心基础支撑。