绑定完请刷新页面
取消
刷新

分享好友

×
取消 复制
从 "垃圾 "数据到数据完整性的转变
2022-03-23 16:51:25
数据产生的速度越来越快,这已经不是什么秘密。根据IDC的数据,由于在家里工作、学习和做事的人数突然增加,2020年产生和复制了更多的数据。此外,据预测,未来5年创造的数字数据量将是数字存储出现以来所创造数据量的两倍以上。


但这引出了一个问题,这些数据有用吗?还是只是“垃圾”?答案在于组织如何管理他们的数据,那些做得好的组织不太可能遇到垃圾数据。但对于那些没有正确的工具来管理所有的数据来源的企业来说,答案是肯定的,他们正在处理垃圾数据。

在我们讨论公司如何摆脱垃圾数据的麻烦(和成本)之前,让我们更深入地了解什么是垃圾数据。首先,我们应该解决什么是垃圾数据的问题:原始数据不是垃圾数据。这包括从交易系统、产品、设备和其他来源创建的任何数据。

什么是垃圾数据?
另一方面,垃圾数据是任何不受治理的数据,当你创建了一个数据副本,然后为一个特定的使用案例进行操作,而没有将改进的数据返回到原始数据存储,为下一次使用提高质量时,就会产生垃圾数据。Salesforce将垃圾数据分为四类:缺失的信息、不准确的信息、过时的数据和重复的数据。

当个人从一个更大的数据集中为一个特定的用例复制数据,对其进行修改,然后不将这些修改整合到更大的数据集中时,垃圾数据就开始积累。例如,如果你在你的记录系统中有一个正式的客户地址数据库,只复制了那些在芝加哥地区的客户,并更新了该数据的子集,而没有更新源数据,你就创造了垃圾数据。有了垃圾数据,你就没有一个明确的脉络或省份,它就不能被其他人轻易地访问和使用;更糟糕的是,你有多个不一致的“真相”版本。这终会在一个组织内产生多个一次性的数据集,而这些数据并不能为所有用户提供价值。垃圾数据带来了问题。

为什么垃圾数据是一个问题?

垃圾数据会给组织带来许多问题,例如:
  • 不一致的结果,取决于你是用原始的还是复制的、修改过的数据集,如果数据包含不同的信息,会有不同的结果,包括不同的匹配率、运营失败,也许糟糕的是导致糟糕的客户体验。


  • 不准确的结果,如果数据集是过时的,不完整的,或包含错误的信息,输出也会是这样。


  • 隐私问题,包含任何敏感信息的无人管理的数据副本是有风险的,因为可能不符合监管的要求,而这种风险往往是高层管理人员所不知道的,直到严重的问题发生,为时已晚。


  • 信息安全,在任何可以创建垃圾数据的环境中,都存在着安全问题。这个问题类别的严重程度将根据数据的类型而有所不同。常见的例子包括不遵循内部程序,违反许可证或知识产权,以及数据被黑客攻击,因为它被储存在公司的安全操作之外。


  • 财务成本,由于上述任何一个原因,创建和使用垃圾数据是低效的。


然而,垃圾数据造成的大问题是,它为实现数据完整性构建了一个障碍。通过建立数据完整性,一个组织能够更好地发展和管理一个可信赖的数据基础,这个数据基础是准确的、一致的、有背景的,并带来更明智的商业决策。

为什么数据完整性很重要
数据完整性是指数据集的质量、可靠性、可信度和完整性。它建立在四个关键支柱上:企业范围内的整合、准确性和质量、位置智能和数据丰富。

在更大的范围内,如果一个组织的数据具有完整性,企业领导人就可以利用这些数据做出准确的业务决策,从而获得更好的结果。在垃圾数据的背景下,如果一个公司已经实现了数据的完整性,他们就不再需要花时间去解决数据的不一致性,纠正和审查数据。完整性的数据已经在手边,这些数据可靠并准备好,可以开始工作了。
从垃圾数据到数据完整性的转变

摆脱垃圾数据的好方法是消除对它的需求。如果一个组织创建了具有高完整性的可访问数据资产,并在一个受管理的环境中确保数据可以按照公司的政策、权利和指导方针使用,那么员工将不再需要创建和维护数据的副本来执行一个特定的任务。通过花时间在前期投资其数据完整性,公司可以确保其数据资产的质量和安全性,并适当地提供给企业,终节省时间和金钱。
作者:任朝阳


分享好友

分享这个小栈给你的朋友们,一起进步吧。

大数据之我观
创建时间:2020-05-20 11:12:12
关注 Hadoop, Hive, HBase, YARN, Shark, Spark, 大规模数据处理相关的开源项目,数据挖掘,个性化推荐,反作弊诚信...
展开
订阅须知

• 所有用户可根据关注领域订阅专区或所有专区

• 付费订阅:虚拟交易,一经交易不退款;若特殊情况,可3日内客服咨询

• 专区发布评论属默认订阅所评论专区(除付费小栈外)

栈主、嘉宾

查看更多
  • yukang
    栈主

小栈成员

查看更多
  • 栈栈
  • gaokeke123
  • wojiuzhuai
  • fenyun689
戳我,来吐槽~