绑定完请刷新页面
取消
刷新

分享好友

×
取消 复制
数据开放的本质到底是什么?
2022-06-16 17:17:39


以下文章来源于公众号-大鱼的数据人生 ,作者讨厌的大鱼先生  

有好友负责企业数据治理的工作,近制定了一部企业内的数据开放管理办法,初稿出来后,就发给各个部门征求意见了,然后各种意见纷至沓来,令他惊讶的是,大家似乎对数据开放这个概念的理解并不一致,比如:


A部门建议:“公司内部的数据流通不能叫数据开放,应该叫数据共享!”


B部门建议:“系统间的数据流动需要在数据开放管理办法考虑!”


C部门建议:“报表的开放需要在数据开放管理办法中予以考虑!”


D部门建议:”部门内的数据流动需要在数据开放管理办法中予以考虑!“


数据开放这个概念看着简单,但每个部门每个人似乎都会受到自身背景的影响而对这个概念产生不同的理解,比如搞安全的很容易把数据开放与数据共享、数据交换等概念混为一谈,认为这些都是需要在办法中考虑的。


那么,数据开放和数据共享有没有区别?部门内的数据流动是否属于数据开放的范畴?报表算不算数据开放的形式?


今天就来聊一聊。


《数据资产管理实践白皮书(5.0版)》中,我找到了以下的关于数据开放、数据共享及数据交易概念的诠释:


数据共享是指打通组织各部门间的数据壁垒,建立统一的数据共享机制,加速数据资源在组织内部流动。数据开放是指向社会公众提供易于获取和理解的数据,对于政府而言,数据开放主要是指公共数据资源开放,对于企业而言,数据开放主要是指披露企业运行情况、推动政企数据融合等。数据交易是指交易双方通过合同约定,在安全合规的前提下,开展以数据或其衍生形态为主要标的的交易行为。


数据共享、数据开放、数据交易的区别在于交换数据的属性与数据交换的主体范围。对于具备公共属性的数据,在组织体系内部流通属于数据共享,如政府机构之间的数据交换,在组织体系外部流通属于数据开放,如公共数据向社会公众开放。对于具有私有(商品)属性的数据,在组织内部流通属于企业数据共享,如企业部门间数据交换,在组织外部流通属于数据交易。


《数据治理-工业企业数字化转型之道》中,也有类似的解释:


数据共享主要指的是面向企业内部的数据流动,其中由数据应用单位提出企业内部跨组织跨部门的数据获取需求,由对应数据供给单位进行授权并由信息部门向该数据应用部门开放数据访问权限。而数据开放则指企业向政府部门、外部企业、组织和个人等外部用户提供数据的行为。


可以看到,数据开放似乎变成了政府公共数据对外开放的专有名词,但站在企业的角度看自己内部,如果这个企业拥有一个统一的企业数据管理组织,即数据供给组织,它已经归集了企业所有的数据并且有管理权,那么就存在一个向各部门开放数据的问题,这理所当然也是数据开放的范畴。


很多企业还没有企业级的数据管理组织,数据开放的主体并不存在,无所谓数据开放,因此把各个部门间网状的数据流动叫作数据共享。


但如果像华为一样,企业已经建立了数据责任人制度,明确了企业数据责任人和领域责任人,这个时候企业数据责任人也需要履行跟政府类似的职能,比如制定数据开放管理办法,用以规范向各部门开放数据的行为,将以前无序、低效的数据流动(比如数据共享)转变成有序、高效的数据开放,只有这样才能充分释放出数据要素的价值。


那么,报表下载这种算不算数据开放呢?我们可以先看看业界对数据开放的定义:


世界银行:


开放数据是指“能被任何人出于任何目的不受限制地进行自由利用、再利用和分发,并大程度保持其原始出处和开放性的数据”。


G8《开放数据宪章》:


开放数据是指“具备必要的技术和法律特性,从而能被任何人、在任何时间和地点进行自由利用、再利用和分发的电子数据”。


浙江省政府:


公共数据开放是指“公共管理和服务机构面向社会提供具备原始性、可机器读取、可供社会化利用的数据集的公共服务”。


上海市政府:


公共数据开放是指“公共管理和服务机构在公共数据范围内,面向社会提供具备原始性、可机器读取、可供社会化再利用的数据集的公共服务”。


从这些定义了会发现几个关键词即“原始数据”、“可机器读取”、“可供社会化利用”,为什么要强调这些特征呢?


数据开放的目的是让别人也能有效利用数据产生价值,但不同层面的数据可供再利用的潜力是不一样的。就拿政府的信息公开来讲,你说这些公开的信息有没有价值,当然有,但这些“信息”往往经过了分析、加工和解读,被赋予了特定意义,其再被利用的价值已经很低了,举个例子:


气象局告诉你“今天会下雨”,这是一个信息,但你很难利用这个信息再进行二次创造,但如果气象局把得出“今天会下雨”这个结论依赖的原始数据和预测算法也告诉你,比如温度,湿度等等,那么你就可以利用这些原始数据用于更多的用途,比如预测灾难。可以说,数据是信息的底层,数据比信息具有更大的再利用空间和挖掘潜力。


但如果气象局只是把温度,湿度等原始数据通过文档或网页文本的形式提供出来,由于这些文本数据无法被机器直接读取,或者需要通过人工或NLP等方法处理后才能使用,这样成本就太高了,这种数据开放的价值就大打折扣了。


因此,在各国的数据开放实践中,开放数据通常呈现为以电子化、结构化、可机读格式开放的数据集。数据集是指由数据组成的集合,通常以表格形式出现,每一列代表一个特定变量,每一行则代表一个样本单位。


报表虽然也是一种数据流通的方式,但一般不把报表看做数据开放,一方面是因为大多报表数据是面向特定业务高度加工过后的信息,另一方面是报表往往无法被机器直接读取,需要一定的转化处理,很多企业动辄说我有10000张报表,1000个指标,你看我数据的利用很好吧,但数量多并不意味着质量,也许生成10000张报表的基础只是50张原始表而已,大家都在自己画的圈里面内卷。


同样的,数据可视化、数据服务、数据产品一般也不属于数据开放的范畴,因为用户无法有效获得可视化、数据服务、数据产品背后的原始数据集,也无法对这些数据进行再次利用。


很多企业部门间数据开放,数据提供部门由于各种利益的考虑,往往只愿意提供汇总数据,不愿意提供原始数据,而且要求数据需求部门说明业务用途,这种数据开放的价值其实不大,因为只能定向解决一个特定的业务问题,跟数据开放的目标相去甚远,企业所以要建立统一的数据管理组织,就是要规范这种问题,数据共享是应用思维,强调解决某个具体问题,数据开放则是平台思维,追求的是打造出生态价值。


当前主流的数据开放形式有两种,一种是数据集合,另一种就是API。


数据开放是跨组织数据消费的基础,明确数据开放的定义和范围,形成大家对数据开放的共识,是推动数据开放能力提升的前提,希望对你有所启示。



分享好友

分享这个小栈给你的朋友们,一起进步吧。

大数据之我观
创建时间:2020-05-20 11:12:12
关注 Hadoop, Hive, HBase, YARN, Shark, Spark, 大规模数据处理相关的开源项目,数据挖掘,个性化推荐,反作弊诚信...
展开
订阅须知

• 所有用户可根据关注领域订阅专区或所有专区

• 付费订阅:虚拟交易,一经交易不退款;若特殊情况,可3日内客服咨询

• 专区发布评论属默认订阅所评论专区(除付费小栈外)

栈主、嘉宾

查看更多
  • yukang
    栈主

小栈成员

查看更多
  • 栈栈
  • gaokeke123
  • wojiuzhuai
  • fenyun689
戳我,来吐槽~