数据治理:企业信息化的核心基础性工作

0 评论 3738 浏览 29 收藏 21 分钟

对个人来说,我们最熟悉的应该就是数据分析。而对企业而言,数据治理更为重要。这个数字化转型中的核心环节,能帮企业解决很多问题。

“数据治理”这个名词,我想无论是对身处数字化转型的传统企业还是数字原生企业的伙伴来说都不陌生。但这个词所代表的具体含义及其背后的治理逻辑框架,可能就不是每个人的明晰了。

今天笔者就从什么是数据治理、为什么要进行数据治理、如何进行数据治理三方面来和各位分享下这一企业信息化的核心基础性工作。

一、什么是数据治理

数据治理是围绕数据资产展开的系列工作,以服务组织各层决策为目标,是数据管理技术、过程、标准和政策的集合。

通过数据治理过程提升数据质量、一致性、可得性、可用性和安全性,并最终使企业能将数据作为核心资产来管理和应用。

二、为什么要进行数据治理

其实数据治理不是一开始就有的,最初大部分企业通过数据管理就足以解决大部分的数据问题。

数据管理的目标是“控制、保护、交付和提高数据和信息资产的价值”。

随着国内大部分领先企业都陆续建设了ERP系统、资产管理系统、人力资源系统、供应链管理系统、物流系统、电子商务系统、集成门户、协同办公、决策支持系统等各类信息化系统。这些系统通常情况下都是独立建设,独立运行,分别服务于企业内不同的职能部门。

由于业务和IT技术发展的渐进性,企业的各个业务系统都经历了从无到有,不断扩展和升级的过程,从而形成了一个又一个的业务竖井。业务系统的构建更多是以项目为中心,从下而上地构建,往往缺乏整个企业范围内的统一规划,从而使得一些需要在各个业务中共享的核心数据被分散到了个各个业务系统进行分别管理。

在这个以应用为中心的信息化进程中,由于企业各部门在开发或引进各种应用系统时都是单一地追求各自功能的实现,没有从全局视角进行业务数据流分析和相互协调,没有遵循统一的数据标准和规范,各个部门都按“自产自用”的模式管理数据资源,导致数据不一致和数据冗余问题与日俱增。

这种以职能和应用为中心的企业信息化建设在带来数据高速增长的同时,引发诸多数据管理的问题。这些海量的、分散在不同系统中的数据资产呈现出数据量大,涉及领域广、结构复杂的特点,导致了数据资源利用的复杂性和管理的高难度。

具体而言,大型企业在数据管理方面通常存在如下问题:

  • 缺乏数据管理的体系规划
  • 缺乏有效的数据管理组织
  • 缺乏IT工具的支持
  • 缺乏对数据管理的正确认识

由于在数据管理上存在上述认识、规划、组织和管理工具上的缺陷,各类业务系统往往各自为政,难以互联互通,数据不一致和数据冗余问题与日俱增。海量的数据资产往往无法得到高层次的利用,不能及时发现潜在问题。最终,企业缺乏完善、统一的基础数据来源和技术标准,缺乏统一、可信的基础数据源,给企业的发展带来了极大的障碍。企业在信息化的进程中,正在面临“数据资产管理危机”。具体表现:

  • 信息孤岛
  • 数据标准不统一
  • 数据质量差

最终呈现出的结果就是很多企业的数据资产都或多或少面临着如下问题。

  • 数据不完整:缺少关键基础数据,部分辅助数据缺失或不全面,历史数据丢失严重
  • 数据分散、不一致:企业内的数据入口众多,同一类型数据采用的标准、规则不一致
  • 数据质量低:大量数据基本上“堆积”在一起,缺乏必要的数据管理,集成数据的可用性差,质量比较低
  • 数据共享集成成本高:数据标准不统一、分散、可用质量差,数据核对、清理、映射的工作量巨大,导致共享集成和数据分析的成本非常高
  • 数据经济效益不显著:数据决策分析的结果可靠性差,投入与产出不匹配

因此种种,企业数据治理应运而生:

  • 企业信息化的发展,大数据概念的提出,导致企业数据的种类和数量急剧增加,企业面临的数据环境日趋复杂
  • 企业信息化的深度应用对跨部门、跨职能领域的协作提出了更高的要求,信息系统之间的互通、互联、互操作的复杂性持续增加
  • 海量的数据、复杂的数据环境、潜在的数据质量的缺陷阻碍了企业级的信息集成和信息深度利用,成为制约企业信息化发展的瓶颈

数据治理势在必行。一般来说,企业可以通过治理其数据而实现以下目标:

  • 完善的数据管控体系。通过对数据管控组织、流程、标准和技术支持的统一规划设计,实现数据管控过程的高效运行和持续优化,建立数据治理的长效机制。
  • 统一的数据来源。通过对关键共享数据进行集中管理,确保关键共享数据的一致性,构建企业层面的统一数据视图。
  • 标准化、规范化的数据。数据清理将实现现有数据的标准化,数据申请和数据审批等业务流程将控制新增数据的标准化,从而彻底改善数据不完整、冗余、错误等质量问题。
  • 提高工作效率。数据的标准化将使企业内部的信息共享、业务融合更加顺畅,业务对数据实时性、准确性的需求得到满足,从而带来工作效率的提高。
  • 降低数据管理、维护、集成成本。共享数据分散在不同的业务系统中,想要保持数据的一致性,就需要付出大量管理维护成本,但这仍然无法根治数据质量问题。数据治理通过对这部分数据统一管理,而后将一致的、权威的数据通过接口自动分发给各个业务系统,大大节约维护成本,并且保证了数据的质量。
  • 满足数据的合规性。数据治理将帮助组织更好的遵从内外部有关数据使用和管理的监管法规,如SOX法案、Base Ⅲ 协议等。

三、如何进行数据治理

在介绍如何进行数据治理前,我们先要明确需要对谁进行治理。结合目标对象因数而治才能起到事半功倍的效果,毕竟数据这个概念太宽泛,尤其是在大数据背景下,数据低价值密度的趋势愈发明显,如果对所有数据一视同仁,数据质量的工作量必将会呈几何倍数的增长,得不偿失。

3.1 数据结构模型

根据企业中数据的特征、作用以及管理需求的不同,我们可根据马尔克姆·奇泽姆的分类方法,将企业数据分为六个层次,分别为元数据、引用数据、企业机构数据、业务结构数据、业务活动数据和业务审计数据。

1)元数据

元数据是系统中最基础的数据,是关于数据的数据,或者说是用于描述其他数据的结构的数据。元数据描述数据定义、数据约束、数据关系等。在物理模型中,元数据定义了表和属性字段的性质。

2)引用数据

引用数据定义了元数据的可能取值范围,也被称为属性值域。例如月份的引用数据为(1-12月)十二个属性值,国家的引用数据为世界上现有的200多个国家和地区。引用数据的正确、完备和统一是其他数据质量的保证,可大大提升业务流程和数据分析的准确性和效率。

3)企业结构数据

企业结构数据描述了企业数据之间的关系,反映了现实世界中的实体间的关系或流程,如会计科目、组织架构和产品线等。这些数据是多条主数据的集合,共同描述了企业中的层次结构关系,是企业开展业务和进行管理的依据。

4)业务结构数据

业务结构数据描述了业务的直接参与者,产品数据和客户数据都是典型的业务结构数据。掌握业务结构化数据是业务发生的必要条件。

5)业务活动数据

业务活动数据记录了企业运营过程中产生的业务数据,其实质是主数据之间活动产生的数据,如客户购买产品的业务记录、工厂生产产品的生产记录。业务活动数据是企业日常经营活动的直接体现,也是早期企业自动化的关注重点。

6)业务审计数据

业务审计数据记录了数据的活动。例如,对客户信息进行修改、对业务进行删除,这些变化都将被记录在系统中,以便日后追溯。利用业务审计数据可以对数据按照时间维度进行分析,把握企业运营趋势。同时,一些法律法规也对业务审计数据进行了要求,特别是对银行等关键业务。

以上的数据层次模型抓住了不同层次数据量、变化程度和生命周期的差异,但这个模型提出时间较早,随着大数据和商务智能的发展,由这些基础数据衍生出大量的分析数据未能在这个模型中体现。

所以现阶段的数据结构模型,在数据层次模型的基础上,提出了数据的域模型。根据企业中数据特征、作用以及隶属关系的不同,我们将相对慢变的元数据、引用数据、企业结构数据、业务结构数据作为主数据来管理,业务活动数据和业务审计数据通常属于在线事务处理(OLTP)的范畴作为业务数据管理,分析数据则和在线分析处理(OLAP)关系紧密。

1)主数据域

主数据是指具有高业务价值的、可以在企业内跨越各个业务部门被重复使用的数据,是单一、准确、权威的数据来源。

主数据包含元数据、引用数据、企业结构数据、业务结构数据等内容。

主数据依赖于静态的关键基础数据,关键基础数据往往是标准的、公开的,如国家、地区、货币等。这些数据相对慢变,但对企业具有全局的重要作用。

2)业务数据域

业务数据包含业务活动数据和业务审计数据,业务数据是在交易和企业活动过程中动态产生的,通常有实时性的要求。

3)分析数据域

分析数据是对业务数据梳理和加工的产物,相对业务数据而言,实时性的要求较低,通常按照分析的主题进行组织和管理。同时随着大数据技术的发展,在分析数据域中除了传统的结构化数据之外,有大量半结构和非结构化数据引入。

在上述这三类数据资产中,主数据是上层业务数据、分析数据组织和管理的基础,相对于上层数据具有稳定、数量少的特点,但这些关键数据的影响范围广泛。业务数据和分析数据与企业的运营决策直接相关,其数据质量严重依赖底层主数据的质量。因此主数据是企业数据资产的根基,只有健康的树根才能支撑得起大树的繁茂枝叶、累累硕果。

所以主数据治理是业务数据治理和分析数据治理的前提,为业务系统和分析系统提供基础性的数据服务,数据治理应该是由主数据驱动的。

3.2 数据治理的基本过程

数据治理是一种完整的体系,企业通过数据标准的制定、数据组织和数据管控流程的建立健全,对数据进行全面、统一、高效的管理。数据治理正是通过将流程、策略、标准和组织有效组合,才能实现对企业的信息化建设进行全方位的监管。因此,数据治理项目的实施需要企业内部一次全面的变革,需要企业高层的授权和业务部门与IT部门的密切协作。

一个完整的数据治理流程,应该包含以下5个基本过程。

3.3 主数据驱动的数据治理框架

企业开展数据治理之前,应首先明确数据治理的目标,参照ITSS提出的数据治理规范,本框架把实施数据治理的目标总结为运营合规、风险可控、价值创造三个层面,企业可根据自身需求进行选择。

首先,运营合规是基础目标;在合规的基础上,建立数据风险管控机制,确保数据及其应用满足风险偏好和风险容忍度;以合规、可控的数据应用为基础,构建数据价值实现体系,促进数据资产化和数据价值实现。

将数据治理的各项任务和要素划分在5个不同的域内。

1)管理域

管理域是数据治理的主要驱动力量,负责确定数据治理的战略、组织、制度和流程。数据治理规划应保持与业务规划、信息技术规划的一致,并明确战略规划实施的策略。组织架构设计明确责任主体及责权利,通过完善组织机制,获得利益相关方和理解和支持,制定数据管理的流程和制度,以支撑数据治理的实施。

2)治理域

治理域是数据治理的主体,明确数据治理的具体目标和责任。依据对数据资产构成的分析,将治理域分为主数据治理、业务数据治理、分析数据治理三部分,其中主数据治理是业务数据治理和分析数据治理的前提,为业务系统和分析系统提供基础性的数据服务。因数据特征和管理需求的不同,三部分的治理任务有所区别,但都应包含以下基本的数据治理组件。

  • 数据标准管理
  • 数据模型管理
  • 数据质量管理
  • 数据安全管理
  • 数据生命周期管理

3)技术域

技术域是数据治理的支撑条件,提供治理所需的数据架构、管控平台和治理工具,在IT整体规划的基础上,通过持续的评估、改进和优化,支撑数据治理的应用和服务。

4)过程域

过程域是数据治理的实施的具体方法。数据治理过程包含分析、设计、执行、评估4个步骤。

  1. 在分析阶段,应评估数据治理的成熟度、风险及合规性,发现问题;
  2. 在设计阶段,应明确数据治理目标和任务,设计数据标准、数据模型、数据架构,做好数据治理实施的准别;
  3. 在执行阶段,应构建数据治理实施的机制和路径,确保数据治理实施的有序运行;
  4. 在评估阶段,应监控数据治理的过程,改进数据治理方案,优化数据治理实施策略、方法和流程,促进数据治理体系的完善。

5)价值域

数据治理的目标是通过对数据资产的有效管控持续创造价值,价值域通过对治理结果的有效整理,通过构建具体化的数据产品,实现上述的价值创造。

数据治理的价值体系具体包括三个方面:

  • 数据服务:通过数据的采集、清晰、导入,提升数据质量,确保数据的一致性。这部分体现着主数据治理的关键价值。
  • 数据流通:通过实现信息整合和分发机制,支持跨业务、跨部门、跨系统的信息流转和协同。这部分体现着业务数据治理的关键价值。
  • 数据洞察:通过清除数据内在的质量缺陷,明确数据之间的关联关系,帮助数据分析人员更好地理解数据,实现数据洞察。这部分体现着分析数据治理的关键价值。

以上便是从什么是数据治理、为什么要进行数据治理、如何进行数据治理三个问题对数据治理的初步分享。

第三部分如何进行数据治理,这次只是对框架进行了初步介绍,更加具体的数据治理实施和数据治理技术方面内容由于篇幅更多,后续再与各位进行分享。大家如果对某一个部分特别有兴趣的,也可以在评论区互动,后续优先分享。

专栏作家

耳海听潮,微信公众号:弈呓(ID:YiYi_TANG7980),人人都是产品经理专栏作家。一个做过运营、数据、产品的互联网从业者,企业数字化转型的推进者。

本文原创发布于人人都是产品经理,未经许可,禁止转载

题图来自 Unsplash,基于 CC0 协议

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!