数据准确性是数据人的生命线

0 评论 6674 浏览 6 收藏 9 分钟

数据准确性是数据人的生命线,是数据人的能力体现。文章结合案例,对数据准确的重要性进行了总结。

如果有一件事情是数据人必须捍卫到底的,那就是数据准确性。

数据不准,意味着做数据的人和团队不靠谱,一旦被打上不靠谱的标签,翻身可就难了。如果,因为错误的数据,管理层做出了错误的业务决策,责任就更大。数据不准,数据人的里子、面子都没了,所以数据人错不起。

虽然数据不准的理由万万千,但数据不准的责任由数据人来担,因为是我们在输出数据。数据不准,我们寸步难行。数据不准可能是因为上游业务系统出问题,也可能是数据人自己没注意,也有可能是故意而为之。但不管哪种原因,因为数据是数据人提供的,首先被追责的还是数据人。

案例1:明目张胆的数据造假

由于系统的各种历史原因,指标无法准确计算。比如点击率=点击/曝光,但点击的数值采集了8个页面,曝光只采集了5个页面。

如果分子、分母都只计算5个页面,对业务来说,明显少算了自己的业绩,他们肯定不乐意。

如果把分母中少了的3个页面的曝光加上去,当然最好,但大家盘了一下,发现技术、数据上下游好长一串要改动,一时半会驱动不了这么多资源,只能歇菜。

如果不做调整,直接按现有的数据计算,分子是8个页面的点击,分母是5个页面的曝光,则会出现大量点击率大于100%的情况,在很多业务场景都无法解释。

然而聪明的业务负责人,出了个招,分子依然是8个页面的点击,分母改为5个页面的曝光+8个页面的点击,这样一来不需要向大家解释为什么点击率超过100%,二来业务目标本来就是转化率越高越好,高说明自己的业务做的很棒,5个页面的曝光+8个页面的点击明显小于5个页面的曝光+3个未打点页面的真实曝光。

这支聪明又超有执行力的团队真的这么干了,一系列指标火速上线。上线后,由于这些是常用指标,和大量已有相关指标冲突,比如曝光在这个报表里看是50,在那个报表里看是80,数据被群起围攻求解释。

这是一起很恶劣的数据造假事件。事后复盘时,那位聪明人竭力否认自己干过这样的事。数据团队则认为自己很无辜,这是业务做的决策。但是数据团队只能抗下责任,因为指标是数据团队开发的。

案例2 :业务没抓手,那就看收据口径有没问题

某业务团队的KPI是买家数的增长,但团队耗尽脑力,没想出来好的业务抓手,怎么办?

这个团队的业务leader是数据背景转行的,给大家支了个招。大家盘点下数据口径,怎么样定义买家,是不是有些应该被算进来的,却被遗漏了?比如怎么定义注册,是否一定要注册?

然后整个业务团队的人天天都坐在数据团队办公,但数据团队没有人愿意支持这个业务团队。

如何确保数据准确性?

高智商的人故意犯错很可怕。就跟懂法的人利用法律的漏洞违法是一个意思。

当前,数据团队面临的数据准确性的挑战,不但有数据团队内部的原因,系统上下游的原因,也有来自业务的各种挑战。但数据准确性是我们的底线。底线破,做的再多都于事无补,甚至越做越错。

我们该如何捍卫自己的底线?渔歌的策略有三:

(1)数据准确性首先是一种态度,所以向大家明确表达态度。让业务、管理层认识到这个数据团队的人挺认真、挺靠谱,这就是一种声音透传,所以适当的时候强势捍卫,数据需要精准的时候必须做到100%精准,无法精准的时候说明为什么无法精准。

渔歌也遇到过对数据准确性没太高要求的数据人,当其他同学已经明确表达由于系统原因,数据准确性可能只有80%,不建议大量应用时,这位数据负责人说这个问题让业务来判断,数据怎么用,由业务负责。这家伙肯定没有吃过数据不准确的亏,不管什么原因,数据的兜底永远都在数据人手上,指望别人兜底太过天真。

(2)确保数值的准确性。这是数据人的专业,也是我们必须坚守和捍卫的基线。比如数据是否做了清洗,清洗的逻辑是否合理,比如是否需要去重、是否做去了重,数据是否有缺失、上游产系统的数据回传是否正常,是否做了预警监控等等。这是我们在加工、应用数据时,必须做好的检查和准备,来确保数据是准的。做为负责具体业务域的数据人,如果对该业务域的数据是否正常都不能有所判断,也是很可怕的事。

(3)让数据描述准确:数据描述分二个层面:

1)让受众一眼看,就准确了解到这个数据的真实含义是什么,而不是让他发挥无限想象去猜这个数据到底是什么意思。比如单量,到底是支付订单、还是子订单、还是物流订单,是否包含取消。请在向受众传达数值的时候,清晰的传达这个数值是什么意思,不管面对面的分享还是ppt流转,指标名称都应该清晰明确,有争议的在备注中附属说明。这何尝不是数据人的一种态度。

2)对于数据准确度没法保证,但又很需要的数据,怎么办?这样的数据该展示的还是要展示,但一定要明确告诉你的受众,哪些情况下会有问题,什么样的问题,对数据的影响是什么。比如订单评价就是发生在后期,甚至要消费者签收之后,相比订单的产生有很长时间的延后,那么相关数据都会受影响,或者因为哪个不靠谱的系统挂了,导致数据采集不到,那就客观、简明扼要的说明,这个说明也得禁得起挑战,这也是一种态度。

数据人一定要学会客观的呈现数据的本真含义,这个过程也体现了我们很认真、很靠谱,我们的人生也将受益于这些好习惯。

小结

数据准确性是数据人的生命线,不可逾越。数据准确性首先是一种态度,然后用我们的专业能力去确保每个数值、每份报告的准确性,同时用我们的智慧去准确的描述,彰显我们的态度和求真的过程。

 

作者:西湖渔歌;微信公众号:西湖渔歌

本文由 @西湖渔歌 原创发布于人人都是产品经理,未经许可,禁止转载。

题图来自Unsplash, 基于CC0协议。

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!