数据治理(一):动手前的建设思考

0 评论 3707 浏览 32 收藏 11 分钟

数据治理环节的存在可以帮助企业解决数据不准、或者数据全生命周期的相关问题,那么企业该如何进入数据治理环节、并搭建相应策略?可能在开始之前,企业需要先做好内部调研和思考。本篇文章里,作者便针对数据治理建设发表了他的见解,一起来看一下。

前言

数据治理这一概念最近越来越受到企业的关注,笔者也在两家公司完成数据治理从0-1的建设,从数据集成、数据质量、数据资产、数据安全、数据交换各个环节。数据治理是个大话题,包含的环节也非常多,所以拆开了多期内容与大家共同讨论。

一、定义

数据治理基本上有两种定义。第一类【数据】治理,主要解决指标标准、数据不准的问题,解法相对于聚焦一些,应用工具指标管理平台、数据质量平台,甚至直接由研发“人肉智能”就能够见效。第二类数据【治理】,主要解决数据全生命周期的问题,从数据采集、数据质量、数据应用、数据安全、数据分享各个环节。

二、思考

数据治理是一个系统化且长周期的工程,虽然治理的路数和思路基本上大同小异,基本上三大抓手“组织架构、治理工具、运营监控”,但是因为下面几个问题,所以在各企业落地的方式和形态都不太一致。

1. 角色

数据治理绝大部分都是由内向外,在企业内部形成闭环,那我们所在部门在公司的角色是重中之重,这影响到可以获得的支持、调动的资源、协调的部门、取得的收益。

第一类国企,那看数据治理这份工作是什么视角,是软件部门所在的治理还是以监察审计出发,可以参考成熟的数据治理成熟度模型-DCMM去建设治理体系,不会犯错,看当前有多少预算,多少资源选择性去做(下图有些删减,仅供参考)。

第二类私企,一般业务部门的数据团队进行【数据】治理,保障数据的准确性的一致性即可。而在数据中台则考虑的更全面、更体系,笔者现在是数据中台,所以后续内容站在中台视角讲的多些,下面先简单讲讲数据中台。

数据中台是围绕数据从生产、存储、质量、使用、传输、共享、冷存储到毁灭的全生命周期,是满足数仓研发工程师、数据科学专家、产品经理、分析师、决策管理者等不同角色对数据的应用需求,具备海量多源异构数据整合、实时数据计算与发布、统一通道数据调用与分析能力,支持高可复用、高可靠、高效的且开放型数据治理能力的数据应用平台。

2. 阶段

从数据的价值角度来看,总结有两个阶段「业务数据化和数据业务化」,企业处于不同的阶段,我们所实施的治理的步骤顺序也有一定重心调整。

业务数据化实际上就是业务发生的过程形成数据,比如教培行业的课中学习数据、老师授课数据、广告投放数据等等。那这一部分治理的重心就在于数据埋点、数据入库、数据存储、数据标准、数据质量、数据指标,保证数据及时、完整、一致,为数据分析做好有效有效支持。

数据业务化实际上就是数据加工后,从中找出规划后反哺业务。比如音乐平台,根据用户之前的听歌记录,通过算法判断用户的喜好,推送歌单给用户,提升用户的粘性和留存。亦如电商平台根据客户的历史购买记录,给客户推荐商品。这个阶段重点治理数据仓库、数据资产、数据分析、数据安全、数据应用等,释放数据价值。

三、价值

如何评估数据治理的价值呢?这往往也是令我们最头疼的,本质上来讲数据治理的价值就是降本增效、控质提安、赋能决策,治理的收益有很多,但是要知道的是上面想拿哪些收益,这也是影响治理的重要性和执行力度的关键。

1. 降本

成本一般由四部分构成,分别是采集、计算、存储、应用。

降本是这里面收益最直观、见效最快、最好衡量,毕竟和Money挂钩,这四部分收益最快的存储>计算>应用>采集。

存储可以直接采用下服务、删除冗余数据等手段,衡量的指标可以直接用“存储节约TB/元”。

计算可以在有限的资源里去合理的分配,或者使用监控手段,比如一条计算大约多少钱,当然这一部分有明确的业务预算和高层的支持。

应用和采集是相对不好拿收益,采集是大数据的源头,理论来讲其实是越多越好,而应用是最终服务的呈现,治理的话牵一发动全身,还需慎重。

2. 增效

增效的角度可以从查询效率、查询时间、时间成本都可以作为治理收益。比如我查询数据之前要用一个小时,现在用十五分钟。

3. 控质

从数据质量角度出发,数据故障率、数据及时率、数据完整率等指标进行监控。

4. 提安

安主要是讲数据的安全,数据安全可以从风险项、数据安全覆盖率、数据脱敏等角度出发。

“安全无小事,责任终于山”,安全这个方向要么不出事要么就是出大事,所以数据一定要监控留痕,以防事后追责。最近行业内安全事故层出不穷,各个企业也都越来越重视。

5. 赋能决策

这个方向比较长效,串联部门也多,更需要深入业务,比如数据模型、画像标签直接带来的收益,还有一种思路比如说不同数据源它的业务产生的价值区别。

四、策略

对内有的时候治理规则太多,不能落地,导致大而全,没办法集中资源,拿不到有效的收益。对外有的时候治理规则太多,不能落地,毕竟需要很多团队参与,效率协同也很重要。

1. 体系

所有数据治理体系已经很成熟了,阿里云的dataworks、华为云的DataArts Studio等,但是如果采用自建数据体系,一定不能因为治理而治理,要从实际出发,找到企业自身痛点,确定优先级。

2. 组织

首先,在做数据治理前重中之重一定要有高层的支持,自上而下的去推动,否则只是停留在口号阶段。其次,数据治理谁负责?谁执行?从笔者公司的数据中台角度来说,建立数据体系,平台工具,最终由业务数据团队协同配合和使用。

数据委员会的建立,一般是有企业的高级管理者组成,负责数据战略创建和批准,负责项目、政策、授权的制定和协同。

数据治理小组一般是负责人角色,负责整理体系的方案构建、平台落地、评估规划。

业务治理团队一般是执行者角色,使用平台工具按照标准规范生产加工数据,根据评估体系来治理数据所存在的问题。

协同团队一般财务、hr团队,给予数据治理资源的协调和支持。

3. 运营

数据治理不是一个 “阶段性项目”,而是一个“可持续的运营项目”。针对企业存储、规范、质量、资源、安全、价值等六个方面形成数据治理评估体系,可以采用健康分的形式,以现存的问题为驱动的理念,覆盖事前、事中、事后的全链路主动式数据治理和治理评估。

五、总结

数据治理是一个大工程,所以在动手之前要做好充足的思考和调研,所以也就有了此篇文章,后续数据治理章节会以平台工具为话题去安排,按照体系中的架构图,包含指标管理平台、数据质量监控平台、数据地图、数据安全中心等。

本文由 @芥末先生 原创发布于人人都是产品经理。未经许可,禁止转载。

题图来自 Unsplash,基于 CC0 协议。

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!