这篇文章把数据讲透了(四):数据挖掘

0 评论 3255 浏览 8 收藏 9 分钟

编辑导读:随着“数智化”时代的到来,我们生活中的方方面面都离不开数据,而你真的了解数据吗?本文将为你重新解读数据的概念和价值,以及数据的价值是如何在“数智化”时代下一步一步得到运用与升华的;因内容颇多,笔者将分几期为大家进行讲解。

一、前言

上一期文章中,我们已经了解到“数据”是一个庞大的体系(如下图所示);并用了“洗菜、择菜”的例子,为大家讲解数据清洗的含义;而今天笔者主要给大家讲解当净菜备好后,如何对净菜进行加工烹饪,让它变成有价值、有意义的美味佳肴,即数据挖掘的过程。

二、数据挖掘(烹饪)

数据挖掘是对既定的“净数据”进行加工利用的过程,我们可以把它看作是烹饪加工的过程。

而数据挖掘是有一定规则和相应模型的,这一点我们也可以通过一个类比进行理解。

清洗后的高质量数据就像是“净菜”,而数据挖掘模型就像是各种“菜系”,我们知道,就算“净菜”材料一致,但菜系(数据挖掘模型)不同,最终得到的成品也是截然不同的!

下面是数据挖掘中较为常见的几个“菜系”(模型),下面我们配合模型对应的使用场景逐一阐述

总的来说,数据挖掘模型可以通过“监督模式”进行大致分类,分类为监督模型、非监督模型:

  • 监督模型:简单的说,就是让机器学会举一反三,它好比学生在学习时已知题目和答案,去学习分析如何解题一样,下次遇到一样的或者类似的题目就会做了;监督模型内的数据分为训练集和测试集,常见模型有决策树、LOGISTIC线性回归等。
  • 非监督模型:简单的说,就是略去了监督模型中”举一反三“的过程,输入的仅仅是一堆数据,没有标签,也没有训练集和验证集之分,让算法根据数据本身的特征去学习,常见模型一般有clustering。

了解了数据挖掘的基本类别,下面我们来切入场景,看一看这些具体的算法模型如何帮助我们在现实场景中进行数据挖掘。

聚类分析——其中以K-Means算法最为典型。

原理与步骤:

  1. 选取K个中心点,代表K个类别;
  2. 计算N个样本点和K个中心点之间的欧氏距离;
  3. 将每个样本点划分到最近的(欧氏距离最小的)中心点类别中——迭代1;
  4. 计算每个类别中样本点的均值,得到K个均值,将K个均值作为新的中心点——迭代2;
  5. 重复234;
  6. 得到收敛后的K个中心点(中心点不再变化)——迭代4;

使用场景:商业领域,聚类分析常结合(RMF模型)被用来进行客户细分;生科领域,聚类分析常被对动植物分类和基因进行分类,进行种群研究。

实操案例:运用K-Means算法对航空业客户进行价值衡量和细分。

1. 参考RMF模型与数据集,自定义聚类类别

得到数据集后删除不相关、弱相关或冗余属性,如会员卡号、性别等,可以得到与RMF模型相关的5个属性分别是:C(平均折扣率较高、仓位等级较高)、F(乘坐次数)、M(总里程),R(最近乘坐航班)低、L(入会时长),我们根据属性更够对客户群进行分类,鉴别出重要挽留客户、重要保持客户、低价值客户等。

2. 已确定5个聚类类别,套入代码进行聚类即可(代码如下)

3. 针对结果进行可视化分析,并对每一个customer进行标识

回归分析——具体分为两大类(逻辑回归、线性回归)。

那么,有同学就会问了,逻辑回归和线性回归究竟有什么区别呢?

其实,两者属于同一个家族(广义线性模型),但它们面向的因变量类型不同,逻辑回归的因变量是分类变量(男女、职业…),线性回归的因变量是连续型数字变量(如1000人的工资,单位元)。

实操演练:最小二乘法OLS回归(属于线性回归的一种)——例如,下方,我们对工资与各项贷款余额的关系进行研究。

STEP1. 导入数据后,画出散点图,观察数据大致趋势,并画拟合曲线:

  • x=data[‘各项贷款余额’]
  • y=data[‘工资’]
  • z1 = np.polyfit(x, y, 1) # 1表示用1次多项式拟合
  • p1 = np.poly1d(z1)#拟合方程
  • f=p1(x)
  • plt.scatter(data[‘各项贷款余额’],data[‘工资’])
  • plot2=plt.plot(x, f, ‘r’,label=’polyfit values’)#画拟合线

STEP2. 导出相关回归数据参考指标,如拟合R方(越接近1越好,一般来说0.7以上已经算相关性比较强,拟合效果较好)、P值(一般情况<0.05为理想拟合)等,对回归方程进行检验。

综上,我们可以得到Y(工资)=0.0379X(各项贷款余额)-0.8295。

三、结语

本期,笔者通过一个“烹饪和菜系”的例子,带着大家了解了数据挖掘的常用模型,相信大家有所收获!

下期,笔者将在数据挖掘的基础上,讲解数据可视化,看看我们如何简单易懂的把数据故事讲懂、讲透!

往期文章:

这篇文章把数据讲透了(一):数据来源

这篇文章把数据讲透了(二):数据采集

这篇文章把数据讲透了(三):数据清洗

持续更新…

 

本文由 @小陈同学ing. 原创发布于人人都是产品经理,未经作者许可,禁止转载。

题图来自Unsplash,基于CC0协议。

给作者打赏,鼓励TA抓紧创作!
更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!