起点学院课程

基于某生鲜APP业务的数据仓库搭建过程(一)

1 评论 5069 浏览 32 收藏 13 分钟
15天0基础极速入门数据分析,掌握一套数据分析流程和方法,学完就能写一份数据报告!了解一下>>

生鲜app搭建数据仓库是非常必要的,它需要提升供应链管理能力和数据的计算的准确性和时效性。那么,要怎么去进行一个数据仓库的搭建呢?本文给大家分享一下搭建的过程~

某生鲜APP搭建数据仓库的必要性分析

(1)供应链能力是生鲜电商致胜的关键,提升供应链管理能力离不开数据仓库的底层支撑。

中国生鲜电商市场目前处于高速发展期,随着巨头和资源活跃,行业内频频出现新玩家和创新模式。当下,生鲜电商市场呈现多业态共存的局面,随着赛道玩家的增多以及巨头布局的扩大,生鲜电商行业竞争将持续升级,同时也将推动原有的行业格局加速洗牌。

“供应链管理”作为生鲜电商最重要的一环,是企业在混战中突围致胜的关键,在生鲜供应链中运用大数据、人工智能、物联网等先进技术,追踪用户行为、精准预测市场需求、把控生鲜产品质量,以及通过生产端延伸,以缩短供应链条、降低运营成本是提高供应链管理能力的重要途径。

而实现以上诉求,离不开数据的支撑,数据仓库保证了数据的准确性、时效性和完整性。

(2)生鲜电商市场潜力大,未来仍呈快速增长趋势,数据仓库保证密集型数据计算的准确性与时效性。

中国生鲜电商市场发展迅速,2018年生鲜电商市场交易规模突破2000亿元。2016-2017年市场虽迎来洗牌期,大量中小型生鲜电商或倒闭或被并购,与此同时,阿里京东等电商巨头入局,不断加码供应链及物流等基础建设投资,并带来了线上线下融合的新零售模式,整个生鲜电商行业仍将保持快速发展。

业务的快速增长意味着数据的极度密集,急需数据仓库的支撑来实现高速和大批量的数据计算。

(3)该生鲜商城拥有成熟的线上业务系统,底层OLTP系统成熟完善,拥有搭建数据仓库的业务基础。

数据仓库搭建的价值

(1)数据集成整合,权限统一管理,可以保证数据的安全性。

通过数据的集中化管理,通过权限与角色的配置,可以全方面把控数据的访问路径与口径,不同权限对应不同数据主题,进一步预防数据的泄漏。

(2)数据查看更加直观灵活、能够进一步促进运营策略、带来数据增长。

搭建在数据仓库之上的数据看板、CEO驾驶舱,能直观的看到数据的增长和分布情况,更加方便企业垂直化运营,盘活私域流量,促进GMV增长。

(3)多部门合作更加顺畅。

拥有数据仓库之后,产品经理可以基于此根据不同部门的日常需求合并归纳,将高频度高时效的需求落实到具体的大数据产品中,方便运营或者商务、市场部门人员自行实时获取数据,降本增效,提高响应速度,更好支撑业务部门的工作。

数据仓库落地流程

首先,数据仓库是一款数据产品,遵循产品设计逻辑,从业务出发,挖掘分析需求,立足需求确定产品设计方案,最后交付工程师实际落地。

其次,从数据仓库的角度来看,数据仓库落地包括从源数据到DW输出过程中对数据进行采集、建模、清洗、预处理、加工和集成等关键步骤。

再次,数据仓库产品不仅仅承担数据的仓储功能,还希望基于在海量数据之上提供更多分析、决策、模型等应用。

从需求了解为起点,整个数仓的搭建过程需要经历以下9个步骤:

1. 了解业务背景

该生鲜APP是一款线上电商产品,用户的主要行为在于商品的选购,在APP上浏览生鲜产品,选择后加入购物车,提交订单,完成支付,然后由商家进行配送,配送完成。

流程结束,如下图所示:

该产品的商业化思路很清晰,提升用户粘性,提高下单率,提升GMV,降低仓储、物流及供货成本,降本增效、提高企业利润是该数仓追求的主要目标

2. 设计数据仓库实施步骤

2.1 根据业务目标,设计分析方案

根据经济学原理可以得出:利润=营业额-成本。

在相同成本基础上,营业额越高,利润值越大;相反,营业额不变的基础之下,成本越低,利润值越高。

提高营业额,我们可以从:扩大购买人群、提高客单价、提高复购率、减少退货率等方面着手。

降低成本,我们则可以从:降低进货价格、减少库存量、降低货品损坏率、降低物流成本等方面着手。

扩大购买人群,提高客单价、提高复购率、减少退货率,我们可以从用户数据、订单数据、大客户数据、购物车数据、售后数据进行分析;

降低进货成本、减少库存、降低货品损坏率、降低物流成本,我们可以从供应链数据、微仓数据进行分析。

根据以上思路,我们可以将数据分析主题划分为以下7个:

  1. 用户主题分析
  2. 订单主题分析
  3. 大客户主题分析
  4. 购物车主题分析
  5. 售后主题分析
  6. 供应链主题分析
  7. 微仓主题分析

2.2 对所有主题进行目标拆解

用户分析:

  • 用户会员占比?
  • 用户使用优惠券的情况?
  • 使用优惠券后有多少转为会员?
  • 成为会员的路径?
  • 会员剩余有效期的时间?
  • 购买会员时长的分布?
  • 会员年龄段、性别的分布情况?
  • 用户点击行为?
  • 用户账户的情况分类(手机号、第三方账号)?
  • 用户来源渠道(推广页面、短信导流、二维码扫码)?
  • 用户支付习惯(支付宝、银联、微信、其他)?

订单分析:

  • 订单金额分布?
  • 哪些商品比较受欢迎?
  • 下单时间的分布是怎么样的?
  • 年度、季度、月度、周、日销售额、利润?
  • 哪种优惠形式用的比较多(会员?优惠券?优惠券额度?免配送费)?
  • 哪些品类产品销售比较快?
  • 订单评价(物流、服务、商品)?
  • 下单到配送完成,订单消耗时间分布?
  • 订单支付方式分布?
  • 订单组成类型(个人订单、大客户订单),销售额占比情况?

大客户分析:

  • 大客户来源?
  • 大客户订单规模(100人、200人)?
  • 大客户单位性质、行业分布?(国企、私企、互联网)
  • 大客户地域分布?
  • 大客户购买频率?
  • 大客户复购率?

购物车分析:

  • 购物车产品数量?
  • 购物车产品分类?
  • 购物车商品关联度?
  • 购物车转为订单的比率?

售后分析:

  • 售后渠道接单量分布?
  • 售后类型(物流、商品质量、支付问题)?
  • 售后回复效率、时间?
  • 售后满意度?
  • 售后处理方式(退款?赔偿?发送优惠券?)分布?

供应链分析:

  • 哪些供应商的产品比较受欢迎?
  • 哪些供应商产品比较全?
  • 哪些供应商的配货速度比较快?
  • 各品类商品供应商配货时间集中度是什么时候?
  • 供应商的分布?

微仓分析:

  • 微仓的分布?
  • 微仓的规模?
  • 哪些微仓效益比较好?
  • 哪些微仓评价比较好?
  • 微仓配货分拣时间分布?
  • 微仓收入是怎么样的分布?
  • 微仓面积与产品囤货量分析?

2.3 抽取公共维度,构建数据集市

确定细分的分析主题后,需要对上述所有的主题进行切片,抽取公共维度。公共维度的抽取非常重要,如果没有维度的切片,那么所有分析数据只能从业务源数据中抽取,这样会极大降低数据的处理速度,甚至会导致计算系统的崩溃。这一步也为接下来的数据建模提供基础。

以用户分析为例,与用户有关的维度有下单时间、下单日期、所在地区、购买的产品、用户订单、支付方式、折扣方式、年龄、购买频率、售后等等。

以此类推,逐个分析每一个主题,然后抽取公共维度,构建总线矩阵表,如下所示:

2.4 根据常用建模方法,设计维度表和事实表

一般来说,数据仓库由维度表和事实表2种表组成,保存度量值的详细值或事实的表称为“事实表”;用来描述事物维度和属性的表称为维度表。一般来说,一个事实数据表都要和一个或多个维度表相关联。

在这一步骤中,我们需要把OLTP模型中的数据转化为关系模型。建模方法常用的有星形模型、雪花模型。

以下订单事实表为例,基于星型模型将OLTP中的数据转化为关系模型,定义层次结构,在这一步基本完成物理数据库的设计。

如下图所示:

3. 配置数据源

OLTP中的数据类型非常多,来源也很多。既有结构化数据,也有半结构化、非结构化数据;既有mysql、oracle等关系型数据数据,也有日志文件、ngix服务器、埋点数据,甚至还有DOC文件数据。

在这一步就需要梳理所有数据来源,包括来源总数、数据类型、存储方式、数据量级、更新频度、增量量级等等。

另外需要注意到,结构化数据可以直接通过ETL方式进行提取;结构化和半结构化数据则需要通过一定的算法处理后再入库。

未完待续……

 

本文由 @alentain 原创发布于人人都是产品经理,未经许可,禁止转载。

题图来自 Unsplash,基于CC0协议。

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
起点学院课程
评论
评论请登录
  1. 1111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111

    回复