数据是怎么一步步变得不可爱的

2019-10-05 17:51:10

近在看一些国外的数据盛会的vedio，今天share的是一篇关于数据的Vedio. 这段Vedio 主要说的是数据，关于如何鉴别什么是好的数据，什么是糟糕的数据的一段表述，及一些其他文字的汇总与分析。（如何仅仅只关心数据库技术，则这段纯理论的东西可以jump）

首先错误的数据代价高昂。随着数据驱动很多的决策，坏数据的成本确实影响着所有，IBM估计，不良数据每年给美国经济造成3.1万亿美元的损失。更多的时间是你根本不知道不良的数据是怎么产生的。某篇文章给出Experian Data的另一项研究发现，不良数据对88%的美国公司有直接影响，平均每家公司损失约12%的总收入。到底不良的数据可能在那些阶段产生，或者怎么产生。

OK Let's go

首先主讲人提到了关于数据质量的六个指标

1 完整性

2 性

3 时间性

4 有效性

5 准确性

6 一致性

同时获取数据的同时需要对数据进行 5部分的Checking

1 数据的来源

2 数据如何获取

3 数据如何清洗

4 数据如何存储

5 数据是如何分析的

那么这6个状态和5个行为之间的有什么关系，我们可以开始对应的看

1 数据的准确性与数据的获取和来源是有直接的关系，如果在数据的获取的方式，或者选择错误的数据来源这两者中存在一者，这样的事情，那你获取的数据的准确性，则一定是要大打折扣的。

2 数据的完整性与数据的获取的方式有关同时也和数据的清晰有关，而且很多时候，即使数据源没有问题，而在后期由于获取数据的方式，以及数据清洗当中对数据的损坏和改变，可能会摧毁数据的完整性。同时数据完整性还可能毁坏于取数中的四舍五入，或者由于数据长度后导致的截取，或者由于字符集等等各种原因造成你的数据的不完整。

3 数据的有效性与数据的获取方式有关，而没有check的数据进入数据库将可能导致一些意外，例如系统应用程序中用户输入的数据 9月31日，而如果数据库没有检查，则错误的数据可能会进入到数据中，导致数据的有效性大打折扣。我们可以通过约束，索引，或者默认值等方式来弥补一些由于意外或者疏忽造成的数据有效性的缺失。

4 数据的存储：数据的存储需要选择正确的存储的尺寸来进行存储，例如有些数据库中的数据的长度在另一个数据库中存储成为一个问题，或者一个种数据库的TYPE的数据，无法找到转移到其他数据库的可以选择的存储模式，都会在数据的存储中，导致数据的完整性，正确性，有效性的问题。例如POSTGRESQL 有间短的类型，而其他的数据库则没有，如何处理这样的数据。

5 数据的一致性，什么会导致数据一致性的问题，例如不同的collection的转换，传输数据时的不同的type造成的数据的转换，例如之前我有一篇文章关于四种数据库在进行小数计算时，结果的不一致（有兴趣的可以翻翻我之前的一篇文字），或者由于歧义，例如 YES ,NO 大家都明白表达的含义，但如果用 1 , 0 来表达，则很可能别人不知道你在表达什么，所以在数据的抽取中可能会产生不必要的误会。

6 NULL 在数据库中的存在如果不是必须的则好将其设置为一个有效值，在视频里面，讲演者用夸张的表情，说 NULL is a black hole。并且阐述NULL 在数据各个处理层次中可能产生的问题，尤其在数据的 ETL 阶段可能阐述各种怪异的问题，以及处理的难度。并且在后强调，不要用NULL 那么的随意。

7 数据的TIMELINE，大部分时候，数据的抽取ETL 仅仅关系数据的起源时间，而不关注自己数据抽取的时间，例如原始数据可能标注与10月1 日，但后期数据的分析当中，10月1日的数据你是何时抽取的，这个时间你没有，那也可能造成你数据不一致，因为整体的数据抽取，必须比数据源端要想得更多，在不同的维度使用数据也可能和你数据的抽取的时间有关，所以单纯仅仅关系数据源端的标记时间，而忘记数据抽取时的时间，也是造成数据时间点问题以及后期数据分析的误差问题给出了可能性。

8 数据的物理存储，由于在选择了不同的数据存储的目的地，以及可能存在不同的数据样本以及数据的，会造成大量的存储容量的问题，已一天的数据为目标，如果需要存储数据的SNAPSHOT ，数据的存储= N * （每天的数据及基于每天数据的增量），这很可能会造成数据存储空间的浪费，可以考虑数据的收缩，以及数据存储的时效性合理的利用数据存储物理空间。

9 数据的清洗包含哪些方面，清洗的粒度，转换的数据类型，过滤和修剪，重复数据的清理，如何鉴定可能的错误数据。

而更可怕的是AI 近的流行，而AI形成与大量的数据分析是有关的，“坏数据可能会出现两次——次是用于训练预测模型的历史数据，第二次是该模型用于做出未来决策的新数据，但如果数据不准确，是否会误导AI 的学习与实现，根据另一篇文字，其中提到目前可能仅有3%的数据达到某些质量标准。