当前位置:首页 > 网站运营 > 如何全面评价一份数据的质量高低?

如何全面评价一份数据的质量高低?

4年前 (2021-09-29)网站运营

“数据质量的治理,是数据治理的主要内容之一。数据质量的全面评价,是数据质量治理的准绳。”

这一系列的文章,分享一下如何进行数据治理。数据治理包括很多方面了,之前有分享过《数据仓库》相关的内容,也属于数据治理的范畴。今天聊聊数据质量的评估。

一、为什么要进行质量评估

可能很多小伙伴,之前都没有关注过数据质量的事。但如果是经常和数据打交道的话,以下的场景应该不陌生:

场景一:作为分析师,要统计一下近7天用户的购买情况,结果从数仓中统计完发现,很多数据发生了重复记录。

场景二:业务看报表,发现某一天的成交gmv暴跌,经过排查发现,是当天的数据缺失。

以上就是随便举了两个例子。其实很多时候数据有问题,都属于数据质量的范畴。数据质量差,会导致业务分析的结果不准确、导致决策失误、导致内部不一致等等情况。

提升数据质量,是数据治理的必须,是数据发挥价值的基础。没有质量的数据,还不如没有数据。

关于如何提升数据质量,我们后面再来分享。在这之前,首先要知道,我们说的数据质量好或者数据质量差,到底是好在哪、差在哪。这也就是数据质量的评估。只有知道如何评估数据质量,才能有的放矢,有针对性的提升数据质量。

二、如何进行质量评估

那如何进行数据质量的评估呢?先来张总体的概览。

如何全面评价一份数据的质量高低?

数据质量的评估,主要围绕着以下六个方面进行。

1、数据完整性

这个其实比较好理解,通俗上来讲,就是我们常说的数据全不全嘛。

但如何用指标来衡量呢,通常看一份数据的总记录数是否正常。比如成交记录是1万条,但数据表只有9000条,这就是不完整的。

当然了,再细一些,可以看到表中具体字段。比如总条数是1万,但是用户ID字段有2000是空的,这也是不完整的。

2、数据唯一性

唯一性也比较容易理解,就是没有重复的。

这个其实和数据完整性是相对的。完整性看的是数据少没少,数据唯一性看的是数据多没多。

还是上面的例子,比如真实成交1万条,但数据表有3000重复了,成了1.3万条成交记录,这就不符合数据唯一性的评估。

3、数据有效性

这个主要是看数据是否符合公司业务的真实情况。比如手机号字段,取值是32988,明显是脏数据。

这里列举了几个方面:

代码值域约束:比如**类型的代码值要包含在数据标准的公共代码中

长度约束:比如约束身份证字段长度要等于18位

取值范围约束:比如要求字段值不能是负数

标志取值约束:比如要求字段取值只能是1、2、3

通过以上方面,可以衡量数据内容的质量是否达标

4、数据一致性

数据一致性的含义,就是通过不同方式取出来的数据,不能是冲突的。这里强调的是多个表或者来源。只有多个对比,才有不一致的概念。

这其实经常是我们交叉验证时的内容,经常会说的一句话:“这数对不上啊!”

通常分为以下三个方面:

等值一致性:一个核验对象的数据取值必须与另外一个或多个核验对象在一定规则下相等。比如,“进出口经营权许可证号”长度13位,后9位应该与“组织机构代码证”一致

存在一致性:一个核验对象的数据值必须在另一个核验对象满足某一条件时存在。比如,“登录状态”是已登录,“登录日期”不能为空

逻辑一致性:一个核验对象上的数值必须与另一个核验对象的数据值满足某种逻辑关系。比如,“支票起号”小于等于“支票止号”

5、数据准确性

多个表有不一致的概念,单个数据表呢?这就是数据准确性了。这个比较容易理解,比如用户的实际地址是青岛市,但数据表存的是烟台市。

一般原始数据不准的情况不多,都是统计表、汇总表容易出现数据不准的情况。比如统计用户最近30天的成交金额出现偏差。

另外值得注意的是,准确性强调数据是否与真实世界值一致。这个校验有时候不容易进行。

6、数据及时性

这个也比较容易理解,主要是满足时效性的。这里也划分到了数据质量的范畴。

比如一份数据是统计离线T-1日的,结果都是第二天下午甚至第三天才能统计完,这种数据的应用价值就会大打折扣了。

数据质量的评估维度,就先分享到这里。后面会针对如何落实数据质量的管理、提升数据质量,进行详细分享


来源/作者:首席数据科学家

扫描二维码推送至手机访问。

版权声明:本文由汇运营发布,如需转载请注明出处。

本文链接:http://huiyunying.com/baike/1066.html

标签: 数据运营
分享给朋友:

“如何全面评价一份数据的质量高低?” 的相关文章

如何从PC页面重定向到移动页面?

如何从PC页面重定向到移动页面?

有很多时候,用户在移动设备上会访问到PC页面的地址,这种情况下,我们需要以极快的速度跳转到对应的移动端页面,尽量减少用户的感知,给用户最好的体验。那么,如何从PC页面重定向到移动页面呢?本文将为你解答。如何能快速地由PC页重定向到移动页面,我们按照不同站点的类型,给出了几种常见的实现方式。1. 站点...

百度不收录原因分析——spider抓取篇

目前百度spider抓取新链接的途径有两个,一是主动出击发现抓取,二就是从搜索资源平台的链接提交工具中获取数据,其中通过主动推送功能“收”上来的数据最受百度spider的欢迎。对于站长来说,如果链接很长时间不被收录,建议尝试使用主动推送功能,尤其是新网站,主动推送首页数据,有利于内页数据的抓取。那么...

大数据在各领域应用之精准营销

大数据在各领域应用之精准营销

01概述随着移动互联网的发展,用户的一切行为在企业面前变得越来越“可视化”。大数据时代的到来,为企业的经营发展带来了新的挑战和方法,企业逐渐摒弃之前传统的营销方式,更加专注于如何利用大数据实现产品的精准营销,构建企业的基础用户画像数据,深度挖掘大数据的商业价值。用户画像,即对用户进行信息标签化处理,...

15天吸粉300w,知识科普类视频在抖音迎来成长机会?

15天吸粉300w,知识科普类视频在抖音迎来成长机会?

变幻莫测的极光、险恶的极地环流、体积庞大的冰山……跟随俄罗斯核动力破冰船“北海航线”号,@绝密研究所所长为我们揭开了南极大陆的神秘面纱。随着东方科考站腹地东方湖的不断深入,呈现在我们面前的,除了极端的气候环境,还有奇形怪状的巨型海底生物,长达16米的座头鲸、巨大的褐红色冥河水母、重达12公斤的南极帝...

私域社群活跃的10个方法

私域社群活跃的10个方法

要想做好私域社群运营,除了朋友圈搭建、线下活动组织、产品制度设计外,最重要的一点就是群内的维护。群内的维护也不仅仅是靠群规、群主的维系,还要配合一些活动来提升社群的活跃、用户参与和认同。所以今天村长就为大家罗列一些,做社群运营常用的一些促活、催单的小互动、小游戏。因为不同社群适合的活动不一样的,因此...

大众点评产品分析报告

大众点评产品分析报告

吃饭前、购物前、旅游前,不少人都会提前做攻略,看看别人的评价如何,大众点评就是其中最常用的软件之一。一、体验环境二、产品定位大众点评是中国领先的本地生活信息及交易平台,也是全球最早建立的独立第三方消费点评网站。大众点评不仅为用户提供商户信息、消费点评及消费优惠等信息服务,同时亦提供团购、餐厅预订、外...