为什么我认为无监督学习在反欺诈中的应用场景是一场噱头?

0 评论 7403 浏览 10 收藏 16 分钟

近些年来,“无监督学习在反欺诈中的应用”这一概念非常火,然而从应用场景以及实际效果来看,这更像是一场被扭曲的骗局。

很久没更新这个公众号,翻一下历史记录,上一篇文章都已经是年前了。年前的文章中的coming soon中就说过想写一篇关于无监督学习的文章,不过万恶的拖延症一直阻止着我,趁着出差在火车上更新了这篇稿子。

最近听到比较火的观点(项目目标、工作计划等)就是:我要在反欺诈工作中应用无监督学习的算法,其实这样的论点在2015年的时候就已经零零散散地听到了。

最近这一年多因为互金风控发展的原因,这个论点开始频繁现身于各大交流论坛、公众号文章,这种感觉就像无监督学习算法是一个先进的手段,不用无监督学习就证明你的反欺诈水平很low,隐隐间,感觉有一种贩卖焦虑的咪蒙鸡汤~

再到后来,我甚至发现一点统计背景都没有的做风控的人在各种场合都开始大谈无监督学习,用自己对无监督学习一点模糊的认知来体现自己是个走在领域前沿的行业专家,感觉有点歪风盛行。

一、一个领域何种场景下会使用新方法?

无监督学习和有监督学习都是出现了几十年的方法,每一类方法下面都有好几大类经典的算法,在风控之外的领域他们都因为算法的不同特性有了很好的落地应用,那为什么这几十年来风控行业都在用有监督学习来做模型,而从我的行业了解状况来看,无监督学习很难有成熟的落地应用。为什么这两年无监督学习突然又被炒起来来呢,是因为发生了什么变化么?

其实我们都知道,一个方法/工具与特定场景能够产生新的化学反应的原因无外乎以下三点:

(1)这是一个新的方法/工具,过去从来没有出现过。(2)这个方法/工具以前已经有,但是因为条件受限制,在该场景中从来没有人使用过。

(3)特定的场景发生了新的业务外延,让这个方法/工具有了新的用武之地。

1. 是因为无监督学习的方法刚刚出现吗?

很明显不是,好几类经典的无监督学习方法出现时间估计有一百年时间了(此处我没有细细考察,希望指正),而有监督学习当中经典的逻辑回归方法应该是在1950年之后出现的事情,所以这不是一个新的方法。

2. 是因为无监督学习在反欺诈场景中的使用条件限制吗?

很明显也不是,限制一个学习算法在场景中的应用最大的束缚无外乎就是计算速度的问题,而在有监督学习中,很多算法的计算量远远大于无监督学习。所以肯定也不是硬件和软件条件的限制。

3. 是因为反欺诈业务中出现了新的特征和业务外延吗?

这是目前认为反欺诈中需要无监督学习的主要的论点:目前随着互联网形态的发展,互联网对运营效率的提升同时也带来了非面对面交易、高并发、非结构性数据的反欺诈难点,传统的专家规则和有监督学习难以解决错综复杂、变幻莫测的欺诈形式,如果能够用无监督学习自动的把相似的点全部聚集在一起,就可以找出欺诈团伙。‍‍‍

是的,看起来很有道理的样子,感觉也能说得通,但是实际上真的是如此吗?

二、无监督学习在反欺诈中的应用怎么就火了?

无监督学习在反欺诈学习中的应用这个论点火起来的心路历程大概就是:

(1)A(行业KOL):

有人邀请我去风控论坛做演讲,讲点啥呢?

该讲的都讲过了,怎么体现我逼格更高呢?

好像前几天在网上看过无监督学习在反欺诈应用的例子,虽然我们公司也没怎么应用落地,那就讲无监督学习吧。

(2)B(部门leader):

又要写明年规划了,怎么样才能把工作规划逼格抬上去呢?

好像前两天在论坛上看过有家同业好像用无监督学习了,那我写上去吧,好不好用到时候再说。

(3)C(刚入行萌新):

看看网上一些大佬老说无监督学习应用在风控领域是一个方向,我也赶紧学习学习,看看能不能赶上潮流前沿
以此轮询~

而这类观点之所以被认可,无外乎因为
(1)懂业务不懂模型的风控人:说的是啊,坏人都具有相同的特征,无监督学习确实能够把坏人聚类。

(2)懂模型不懂业务的风控人:说的是啊,无监督学习把不同的人进行分类,他们业务就能找到坏人啦。

这个逻辑就是鸡生蛋还是蛋生鸡的问题。

业内有一家一直号称做无监督学习算法的风控乙方,该家公司的创始人背景也很牛,一直在业内号称要用无监督学习解决反欺诈难题。很多投资人会觉得这是一个新兴的领域,公司领导也觉得这是非做不可的(有点像钻石的营销骗局)。在搜索引擎上用“无监督学习”、“反欺诈”做关键词,你会发现,大部分的文章都是这家公司或者这家公司的员工发布出来的,标题也很惊悚——无监督学习改变反欺诈、无监督学习反欺诈是主流等等。

整理一下目前网上所谓的“典型的无监督学习做反欺诈”的流程:

(1)特征映射

(2)聚类算法

(3)分析、判断欺诈属性

简单点说就是:

(1)找变量:几百维甚至上千维变量,与有监督学习一模一样。

(2)聚类算法:按照变量用聚类算法聚成集群,分成很多组,有可能需提前降维。

(3)看看这个组是不是欺诈:怎么看?看看有多少黑名单,看看怎么关联在一起的。

问题来了,在线上实际应用的时候,你如何判断这个组是不是欺诈?就因为组成员多就把这个组认为是团伙么,我怕你会被业务喷死。现在最大的问题在于你把组分出来了,你如何给组定义?

为了认定这个分出来的组是不是欺诈,那就要根据这个组的特征,比如里面有多少坏用户啊、是通过何种方式聚集在一起的啊,然后训练一个模型判断这个组是不是坏的?

等等,这不就是有监督学习了?针对一个个(集群)组来进行有监督学习?

针对集群的有监督学习,其实本质上还是集群中个体的有监督学习,比如该用户所用设备关联几个坏用户,一个WiFi网络下有多少用户申请类似。所以这个所谓针对无监督出来集群+对集群的有监督学习,本质上还是个体指标的有监督学习。

这个直观的例子就是:我要从上海到北京,本来坐京沪高铁直达就行了。你说不行,要先飞到武汉,再从武汉高铁到北京,excuse me?有钱任性么。
另外还有一个问题在于:这个分组是并不稳定的,在不同的阈值和分组方法下,得到的分组结果天壤之别,这种不稳定在实际生产环境中又如何使用?

引申上面的例子就是:我要从上海到北京,本来坐京沪高铁直达就行了。你说不行,中间要转一道,从哪转,不确定随机的,这次是武汉,下次是重庆,在下次是广州,excuse me?

三、实际效果又如何?

以上这个观点,我从业内某家甲方做了几十万样本(包括原本规则已拒绝样本+通过样本)的无监督学习测试报告反馈中摘取典型的几个群组,看看号称的无监督学习到底识别结果到底是怎么样的?

这应该算是测试反馈比较有效的群组了,其他的聚集群组是不是敢在生产中实际应用,群组里面的效果表现如何,很难保证。这样的群组分类,本质上就是一种有监督,一种用实际结果来证明挑出来的这个群组是坏群组的不科学的验证方法。

另外,这些规则策略应该都是专家规则里面直接做的,为什么要多次一举画蛇添足绕这么大一圈,效果也没好在哪里。

有些小伙伴会说,你看不是多识别出来了几笔?

其实,大概率那是专家规则的阈值啊(比如阈值为3,所以通过了2个人),新样本进件是有次序的,第一笔第二笔欺诈总是不容易被识别的。就算这个算法应用到生产当中,他也没办法在前两笔就识别出来的,本质上还是一样的效果。

所谓的无监督学习,绕了一大圈回来,还是得依赖专家规则+有监督学习,多出来的那一步。这里想到2个不知道是否真假的故事:

(1)联合利华引进了一条香皂包装生产线,结果发现这条生产线有个缺陷:常常会有盒子里没装入香皂。总不能把空盒子卖给顾客啊,他们只得请了一个学自动化的博士后设计一个方案来分拣空的香皂盒。博士后拉起了一个十几人的科研攻关小组,综合采用了机械、微电子、自动化、X射线探测等技术,花了几十万,成功解决了问题。每当生产线上有空香皂盒通过,两旁的探测器会检测到,并且驱动一只机械手把空皂盒推走。

中国南方有个乡镇企业也买了同样的生产线,老板发现这个问题后大为发火,找了个小工来说:“***给老子把这个搞定,不然你给老子爬走。”小工很快想出了办法:他花了90块钱在生产线旁边放了一台大功率电风扇猛吹,于是空皂盒都被吹走了。

(2)在太空中由于失重,无法使用圆珠笔或者自来水笔进行记录,对此美国宇航局投入大量资金,开发了可以在失重条件下写字的太空用自来水笔,而前苏联的宇航员则简单地用铅笔写字解决了这个问题。

虽然故事可能是假的,但是话粗理不粗,为了营造一个噱头,是不是资本推动的噱头就不好说了,把本来能够很简单解决的事情包了一个无监督的外衣,其实在反欺诈的实质上没有任何改变。

过去,我一直用有监督的各类算法解决遇到的风险问题,我也理解无监督学习的实现机理。但是,我知道无监督学习在反欺诈的业务落地层是极其困难的,能够落地的所谓的无监督学习本质上都是有监督学习。

四、总结

从研究生开始,就开始做企业财务风险预警,所以对各类无监督、有监督的算法都会有比较深的涉及;过去几年来,从研究生毕业一直做反欺诈相关的工作,从电商做到信贷,算是站在反欺诈业务的第一线,黑灰产对抗、风控系统设计、策略体系设计等等。其实风控的人一定要懂一点算法背后机理、也真正地做过业务,才知道到底什么样的算法是最有用的。

对于无监督学习在反欺诈场景中的实际应用场景的可行性,我是持怀疑偏负面的态度的,有没有可能说是资本推动的噱头或者骗局我不敢说(我在跟投资机构的沟通中对这种方法表示了质疑),但是至少目前我没有看到任何有实质性改观的应用场景。无监督学习是一个门槛很低的学习方法,在其他领域已经有非常广泛的涉及了,但是在反欺诈领域,暂时没有看到有意义和实际效果的应用落地。

更进一步的,反欺诈本身也是对人性的考量,机器永远在人性这块代替不了人。靠着一堆数据无来由的做聚类从反欺诈业务的底层来看就不怎么牢靠,连有监督学习都需要认真去考量人性,更何况无监督学习呢?

此篇文章无意抹黑任何人或者任何企业,纯粹行业的技术探讨。

 

作者:独孤qiu败,微信公众号:互联网风控那些事儿(anti_fraud_share),互联网行业风控产品经理,定期分享互联网风控相关业界动态、系统设计方案、模型算法。

本文由 @独孤qiu败 原创发布于人人都是产品经理,未经许可,禁止转载

题图来自 Unsplash,基于 CC0 协议

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!