数据分析——异常数据识别

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

LLL

2021-01-19

0 评论 37805 浏览 178 收藏

16 分钟

编辑导语：在数据分析中，我们可能经常会遇到异常数据识别的情况，为了避免一些数据异常，我们会用到一些识别方法，在不同场景下运用的方法也有所不同；本文作者分享了关于数据分析中异常数据识别的一些方法，我们一起来看一下。

异常数据识别在数据分析和数据挖掘中，是经常会遇到的问题；本文会介绍不同场景下，异常数据识别的方法有哪些，以及他们之间的区别。

一、使用场景

当前异常数据识别的使用场景主要有以下2方面：

数据分析和数据挖掘在正式分析前的数据处理，识别异常数据后，删除或者修正异常数据，避免异常数据影响分析结论；
风控业务，通过数据识别异常用户、异常访问、异常订单、异常支付等，避免黑产团队入侵。

二、单变量数据异常识别

1. 简单统计量分析

对变量做描述性统计，然后再基于业务考虑哪些数据是不合理的。

常用的统计量是最大值和最小值，判断这个变量是否超过合理的范围；例如：用户的年龄为150岁，这就是异常的。

2. 三倍标准差

定义：如果单变量数据服从正态分布，异常值被定义为与平均值偏差超过3倍标准差的值。

原因：是因为在正态分布的假设下，偏离均值3倍标准差出现的概率小于0.003，是一个小概率事件。

在实际分析中，我们也不一定要拘泥于3倍标准差，可以根据实际严格程度定义，如偏离均值的4倍标准差。

3. BOX-COX转化+3倍标准差

如果原始数据的分布是有偏的，不满足正态分布时，可通过BOX-COX转化，在一定程度上修正分布的偏态；转换无需先验信息，但需要搜寻最优的参数λ。

Box-Cox变换的一般形式为：

数据分析-异常数据识别

式中y(lambda)为经Box-Cox变换后得到的新变量，y为原始连续因变量，lambda为变换参数。
以上变换要求原始变量y取值为正，若取值为负时，可先对所有原始数据同加一个常数a，使其（y+a）为正值，然后再进行以上的变换。
常见的lambda取值为0，0.5，-1；在lambda = 0 时该变换为对数变换，-1时为倒数变换，而0.5时为平方根变换。

Box-Cox的python实现如下，可直接通过函数boxcox找到最优的lambda和转化后的值：

数据分析-异常数据识别

4. 箱线图

箱形图（Box plot），又称为盒须图、盒式图、盒状图或箱线图，是一种用作显示一组数据分散情况的统计图。

它能显示出一组数据的最大值、最小值、中位数及上下四分位数；

箱线图提供了一种数据识别的标准：异常值通常被定义为小于下边缘或者大于上边缘的数据为异常值。

如下图所示：

数据分析-异常数据识别

上四分位数：1/4的样本值取值比他大
下四分位数：1/4的样本值取值比他小
上边缘=上四分位数+1.5*（上四分位数-下四分位数）
下边缘=下四分位数-1.5*（上四分位数-下四分位数）

箱线图识别异常数据的优势：

箱线图根据数据的真实分布绘制，他对数据不做任何限制性的要求，比如要服从正态分布等；
箱线图异常数据识别依赖于上四分数和下四分位数，因此异常值极其偏差不会影响异常值识别的上下边缘，这一点是优于3倍标准差方法的。

三、时间序列数据异常识别

日常工作中还有一种场景，是需要对时间序列数据进行监控，如：订单量、广告访问量、广告点击量；我们需要从时间维度识别出是否异常刷单、刷广告点击的问题；像广告投放场景下，如果发现渠道刷量，会及时停止广告投放，减少损失。

对于时间序列数据异常识别，根据数据不同的特点，识别方法不同。

1. 设置恒定阈值

如果时间序列呈现平稳分布状态，即时间序列数据围绕中心值小范围内波动；我们可以定义上下界的恒定阈值，如果超过上下阈值则定义为异常。

2. 设定动态阈值-移动平均法

所谓动态阈值是指，当前时间的异常阈值是由过去n段时间的时序数据计算决定的；通常对于无周期，比较平稳的时间序列，设定动态阈值的方法是移动平均法。

所谓移动平均法：就是用过去n个时间点的时序数据的平均值作为下一个时间点的时序数据的预测。

数据分析-异常数据识别

异常数据识别即是：确定固定移动窗口n，以过去n个窗口的指标平均值作为下一个窗口的预测值；以过去n个窗口的指标的平均值加减3倍方差作为监控的上下界。

使用范围：数据无周期性，数据比较平稳。

3. STL数据拆解法

如果时间序列数据是周期性数据，可使用STL算法将时序数据拆解成趋势项、周期项和余项，即每个时刻的时序数据等于当前时序趋势项、周期项和余项的和（或者乘）。

数据分析-异常数据识别

趋势项（T_v）：涵盖了这个时序数据的趋势变化；
周期项（S_v）：涵盖了时序数据的周期变化；
余项（R_v）：表示时序数据除去趋势项和周期项后的日常波动变化。

一般使用STL需要确定2个点：

确定数据周期，外卖业务的一个常规周期为7天，在周一至周五又可以将数据周期缩短为1天。
拆分规则，是选择加法方式还是乘法方式。

加法方式：原始数据 = 平均季节数据 + 趋势数据 + 余项这种方式，随着时间的推移季节数据不会有太大的变化，在以七天为一大周期的业务数据更适合这样的拆分方式。

数据分析-异常数据识别

乘法方式：原始数据 = 平均季节数据 * 趋势数据 * 余项。

这种方式，直观感受是随着时间的推移季节数据波动会非常明显。

数据分析-异常数据识别

至于如何要判断某事的时序数据是否异常，是根据STL分解后的余项来判断；一般情况下，余项部分的时序数据是平稳分布状态，我们可对余项设置恒定阈值或者动态阈值，如果某个时间节点的分解余项超过设定阈值，则是异常数据。

python可以用seasonal_decompose可以将时间序列数据拆解成三部分，具体函数代码如下：

import statsmodels.api as sm

from statsmodels.tsa.seasonal import seasonal_decompose

# Multiplicative Decomposition

result_mul = seasonal_decompose(data1, model=’multiplicative’, extrapolate_trend=’freq’)

Actual_Values = result_mul.seasonal * result_mul.trend * result_mul.resid
# Additive Decomposition

result_add = seasonal_decompose(data1, model=’additive’, extrapolate_trend=’freq’)

Actual_Values = result_mul.seasonal + result_mul.trend + result_mul.resid

四、多变量数据异常识别

所谓多变量数据异常识别是指：不只从一个特征去判读数据异常，而是在多个特征下来判断其是否异常。多变量异常数据识别的方法很多，比如聚类模型、孤立森林模型、one-class svm模型等。下面主要介绍简单高效，更容易使用的孤立森林模型。

1. 孤立森林

孤立森林iForest （Isolation Forest）是一个可扩散到多变量的快速异常检测方法；iForest 适用于连续数据的异常检测，将异常定义为“容易被孤立的离群点——可以理解为分布稀疏且离密度高的群体较远的点；用统计学来解释，在数据空间里面，分布稀疏的区域表示数据发生在此区域的概率很低，因而可以认为落在这些区域里的数据是异常的。

iForest属于Non-parametric和unsupervised的方法，即不用定义数学模型也不需要有标记的训练。

算法逻辑介绍：

假设现在有一组一维数据（如下图所示），我们要对这组数据进行随机切分，希望可以把点 A 和点 B 单独切分出来。

具体的，我们先在最大值和最小值之间随机选择一个值 x，然后按照 <x 和 >=x 可以把数据分成左右两组；然后，在这两组数据中分别重复这个步骤，直到数据不可再分。

显然，点 B 跟其他数据比较疏离，可能用很少的次数就可以把它切分出来；点 A 跟其他数据点聚在一起，可能需要更多的次数才能把它切分出来。

数据分析-异常数据识别

我们把数据从一维扩展到两维，同样的，我们沿着两个坐标轴进行随机切分，尝试把下图中的点A’和点B’分别切分出来；我们先随机选择一个特征维度，在这个特征的最大值和最小值之间随机选择一个值，按照跟特征值的大小关系将数据进行左右切分。

然后，在左右两组数据中，我们重复上述步骤，再随机的按某个特征维度的取值把数据进行细分，直到无法细分，即：只剩下一个数据点，或者剩下的数据全部相同。

跟先前的例子类似，直观上，点B’跟其他数据点比较疏离，可能只需要很少的几次操作就可以将它细分出来；点A’需要的切分次数可能会更多一些。

数据分析-异常数据识别

上面其实就是 Isolation Forest（IF）的核心概念。而具体的IF采用二叉树去对数据进行切分，数据点在二叉树中所处的深度反应了该条数据的“疏离”程度。

整个算法大致可以分为两步：

训练：抽取多个样本，构建多棵二叉树（Isolation Tree，即 iTree）；
预测：综合多棵二叉树的结果，计算每个数据点的异常分值。

训练：构建一棵 iTree 时，先从全量数据中抽取一批样本，然后随机选择一个特征作为起始节点，并在该特征的最大值和最小值之间随机选择一个值；将样本中小于该取值的数据划到左分支，大于等于该取值的划到右分支。

然后，在左右两个分支数据中，重复上述步骤，直到满足如下条件：

数据不可再分，即：只包含一条数据，或者全部数据相同。
二叉树达到限定的最大深度。

预测：根据估算它在每棵 iTree 中的路径长度（也可以叫深度），计算数据 x 的异常分值，通常这个异常分值越小越异常。

Isolation Forest 算法主要有两个参数：一个是二叉树的个数；另一个是训练单棵 iTree 时候抽取样本的数目。

实验表明，当设定为 100 棵树，抽样样本数为 256 条时候，IF 在大多数情况下就已经可以取得不错的效果，这也体现了算法的简单、高效。

具体python实现如下：

from sklearn.ensemble import IsolationForest

IsolationForest(*, n_estimators=100, max_samples=’auto’, contamination=’auto’, max_features=1.0, bootstrap=False, n_jobs=None, random_state=None, verbose=0, warm_start=False)

下图是我用孤立森林拟合数据识别异常值的可视化图，左边表示原始数据的呈现，右边表示孤立森林异常识别（黑色表示异常，黄色表示正常）；从左右对比可看出，离散点都能识别出，但是也有一些偏离中心的正常点也被识别为异常数据。

数据分析-异常数据识别