数据质量测试是企业在进行数据分析之前需要进行的一项测试工作,而今天我们就一起来了解一下,关于数据质量标准的一些基础知识,下面就开始今天的主要内容吧。
对于特定的业务和功能,我们需要去定义好数据质量的checklist,定义如何处理数据、数据状态及结果等,为评估数据质量提供基准。
所以我们在构建checklist时,除了业务相关还需要考虑一些通用的领域:
数据获取,如何获取数据是当前企业所真正拥有的数据吗还是来源三方
可访问下,数据是否可访问给谁访问有多快
可用性,当前企业是否可使用这些数据吗
结构,数据是否具备良好的结构化,并且以一种易于使用的方式
可靠性,数据的可靠性如何我们是否可以相信它它是否适合使用
一致性和完整性,数据的一致性如何是否是完整的其约束关系是否正常
数据质量测试
一旦确定了目标数据质量标准,那么我们就可以计划进行数据质量测试了,数据质量测试一般有几个步骤:
定义特定的数据质量指标
测试实施并标定基准
尝试一个或多个解决方案
评估结果
下面我就这四个步骤进行相对详细的说明。
定义特定的数据质量指标
仅仅定制数据质量标准对于实际测试工作还是远远不够的,我们还需要针对特定的指标进行测试。例如:它是什么类型的数据我们拿这些数据用来干什么仔细的考量数据的业务用途,将会更利于我们定义影响业务的特定指标,一些简单的业务场景如下:
-邮件退回量
-手机号码
-地址格式
-个性化服务用户数
所以重要的数据质量指标应该是根据业务领域、技术、用户特征、应用场景等进行变化。
测试实施并标定基准
如果不定义基准状态指标,就无法推动数据质量的改进,而且随着测试的深入基准应该进行一定的修订,以适应数据质量改进带来的变化。
尝试一个或多个解决方案
在测试实施过程中,一旦意识到严重的数据质量问题时,要立即着手解决。可以探索和实践不同的解决方案来解决与团队、人员、流程或技术相关的数据质量问题,甚至是修订测试方案。
评估结果
在一段时间的测试实施后,应该根据初始的度量标准对结果进行一定的评估,从而根据实际的评估结果、问题等情况调整、甚至更改解决方案,以确保每次测试实施后数据质量得到改进。
【免责声明】:本内容转载于网络,转载目的在于传递信息。文章内容为作者个人意见,本平台对文中陈述、观点保持中立,不对所包含内容的准确性、可靠性与完整性提供形式地保证。请读者仅作参考。