你的数据也需要这样一个“超级医生”


更新时间:2019-03-06

△13种检查规则

正确性问题:数据记录可能浮现错误或者数据本身存在异样,比喻字符型数据在数据库中存取时可能出现乱码气象;年事个别介于1-100之间;概率性的取值须要在0-1之间或利用百分比表示。然而,有些弊病数据在不表现出明显异样时,是很难被直观发现的。

在大数据时代的当下,数据剖析为企业的决议供应强有力支撑,然而,数据质量却是数据分析精确性的前提,因此,咱们对数据质量的管控必不可少。数据存在哪些质量问题

越来越多的企业领导者开始意识到大数据对企业的巨大影响,然而,有一个主要的提醒:假如企业的数据不准确,不完整且不一致,则在做出业务决定时可能会导致重大失误。实际上,Gartne估计数据质量不佳对企业的平均财务影响为每年1,500万美元,这象征着数据质量发挥着重要作用。

及时性问题:对分析师来说,需要第二天就能看到数据,如果数据过了多少蠢才生成,那这些数据再准确,也丧失了意思。所以数据的及时性也是数据质量检测的重要组成部分。有效检测数据的品德问题

一致性问题:同类数据的编码跟格式是否一致,比如网站中用户id设置为15位数,图书馆设置图书的编码格局为一个大写英文字母表示分类,加上4位数字表示摆放位置,一致性问题是数据品质检测中相对复杂的部分。

完全性问题:数据量大时很可能呈现数据行或某行数据的某些字段的缺失,而数据的完整性是数据质量的基础。