平安产险科技中心首席AI专家肖嵘：跨越AI的最后一公里

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

平安产险科技中心首席AI专家肖嵘：跨越AI的最后一公里

人人都是产品经理

2019-05-16

1 评论 6082 浏览 21 收藏

19 分钟

2019年4月13-14日，人人都是产品经理举办的【 2019产品创新大会·深圳站】完美落幕。平安产险科技中心首席AI专家肖嵘老师，给大家分享了《跨越AI的“最后一公里”》。

大家好，我是肖嵘。做了十多年的技术工作，去年加入平安财产险，在AI方面做一些智能产品的创新工作。

可能大家不理解，怎么把一个技术宅硬生生的逼成了半个产品经理，这是为什么？主要是AI的创新实在太难了——AI的产品落地，技术跟产品的中间存在一个巨大的一个鸿沟：如何跨越AI的最后一公里。

这几年，人工智能技术在行业里有了很多应用：人脸识别、自然语言处理、深度学习等等。但是，哪些人工智能技术是已经相对成熟了呢？比如说人脸识别，火车站机场基本上都能用得到，但是光线差一点，或者有点逆光就不行了。

为什么？

因为这些技术和它的训练数据关联性非常强。在任何一个场景通用的算法基本上是找不到的，这里面有一个问题：如何针对我的应用场景，选择一个足够好用的算法？

这就涉及到深度打磨的过程。今天就从5个场景给大家分享一下，如何做一名创新的AI产品经理。

一、移花接木：AI宠物识别

这个部分，我们从“宠物识别”来说起。

现在身边养宠物的人越来越多，宠物的整个市场、规模、保费规模等都在增加。

但是宠物险这个市场其实还没有完全开发起来，因为有非常大的风险——今天我给我的猫投保了，但是宠物是没有身份证的，猫也没有什么生物验证的技术（即使有也不成熟）；如果我拿邻居家生病的猫来理赔，保险公司是很难检测出问题的。

这种情况下，是否跨越用人脸识别的技术做一个猫狗脸的识别——这其实是一个非常自然的一个想法。

人脸识别有几个步骤：

把人脸的位置找出来；
把人脸上五官找出来，进行精确定位；
在五官精确定位的基础上，抽取人脸特征进行比对。

我们把人脸识别的技术搬到了猫狗脸识别上，效果也非常好。

人脸能做到99.8%，我们能做到95%，很大程度上解决了猫狗脸识别的问题。这就是移花接木，把这朵花（人脸识别）接到木（宠物识别）上去。

它有两个维度的创新：

行维度：比如人脸识别创新到猫狗上。
列维度：有一个新的算法，比如人脸识别搬到猫狗脸识别上去，在猫狗脸识别上有一个新的算法，新的网络架构出来了，搬到人脸识别上去应用，同样得到性能的提升。

二、起死回生：OCR图像分类与识别

在OCR技术中，图片质量和真实场景是一个很复杂的情况，导致OCR准确率一直不是很高。

以新车合格证为例：它的vin码有17位，即使每个字符识别的准确率能到99%，它一个码全对的概率也只有0.99*17次方，约等于84%的准确率。

大家可以想象一下，一张表格有很多字段，每个字段每个字符都识别争取，是一件非常难的事情。身份证可能是个比较简单的问题，能做的比较高一些，但是在很多复杂场景下，如何应用OCR技术，其实非常难——只有百分之七八十的准确率。而如果要交付，肯定要99%以上对不对？如果只有百分之七八十，就需要人工再确认一遍。

这种情况下，对效率提升就不是那么明显。

在这种场景下，我们怎么来解决这个问题？

做技术的人应该非常清楚，OCR技术分成三个步骤：

文字检测：告诉你文字在哪；
文字识别：每个字符是什么；
文字理解：理解这个字符是什么意思。

我们以身份证举例：

在“出生”这里，我们画了一个框，但是“1654”这四个字是什么意思？是金额还是其他的？在这个特殊场景里面，我们还需要知道这个位置是什么意思。

OCR技术的三个步骤：一是识别文字范围，二是识别文字字符，三是根据当前的上下文和模板。

意思是，在这个过程中，三个步骤的准确率不完全一样的。识别比较难一些，文字理解部分，是有一些前沿的知识在里面。所以，我们是不是可以运用不同的技术手段，把效果提升上去？

OCR技术为什么不准确？

很大一个原因是图片质量不太好，所以我们引入了图片质量的算法——当资源质量不好的时候，在用户端就直接拦截掉。

OCR技术是依赖于不同的表征类型的，我们引入了迁移学习，对图像进行分类，找出是身份证还是新车合格证（OCR技术在理解的时候必须要结合具体的场景，所以不能把身份证放到新车合格证的识别场景去做），用算法把不同的表现分解出来，放到不同的分类器里面去。

所以，我们的OCR技术处理流程变成了：

客户端获取图片-筛选出质量合格的图片-对图片进行自动分类

整个流程，我们需要上传四个类型的证件，通过图片分类和质量筛选，找到四个合适的图片，上传流程就可以结束了。如果类型缺失或者图片质量不佳，在用户端实时提醒。

在识别的时候，我们可能设定一些可信度：当算法不能够完全确认的情况下，直接把无法确定的部分拦截，调用人工进行判断，完全可信的就自动进入下一个环节。

（人工判断任然是现在采用的一种辅助模式，人工判断会产生新的标注信息。因为这些人工标注的都是计算机判断不准的部分，利用计算机的深度学习引擎可以对算法进行更新迭代，让模型自动升级）

通过这样的方式，我们统合图像质量评估、图像分类、图像识别三大技术，使得整个OCR技术能全自动运行起来。对用户而言，基本上就是直接拍个照问题就解决了，后面人工的部分他是看不到的（人工部分随着模型的迭代可以降低甚至消除）。

我们的OCR引擎刚上线的时候，只有百分之七十几的一个准确率，随着模型的自动更新迭代，现在我们做到了百分之九十几，未来可能还会继续更高。

而且我相信，OCR技术和图像分类也是一样（大家都知道在图像分类技术上，它已经超过人类了），在未来的3-5年之内，也能超过人类。

三、老树新花：AI智能闪赔

在已有的一些场景/应用上，我们能不能继续突破/更新。

我们以平安的“AI智能闪赔”这个产品为例：

（此处插入视频）

看视频可能会觉得很炫，但是实际使用中，依然会有很多的问题：

用户拍摄的时候，很多时候不是那么准的——要么过大，要么过小，这会导致后面的识别就不准确。
人是很聪明的，如果对这辆车拍个远景，再对着一辆撞坏的车拍照，然后说这是我的损伤，来报案理赔——这种情况，我们是无法识别其中的风险的。
AI技术在落地上受限于场景。比如说反光，车拍一下阳光或者路灯照在车上的反光，会直接影响到损伤部位的判定——它显示就是个亮斑，而亮斑是不是损伤是没法判断的。

我们进行反思之后，抓住了几个点：

智能抓拍
安全
增强图像质量

这里面我们提供了一套解决方案，对老技术进行了一次整体的升级换代。在这里面，我们的技术人员和AI技术员有过深入沟通，发现很多东西其实你只要想到那个方向，其实都是可以解决掉的。

比如：智能抓拍。在拍照过程中，我们通过手机视频的物理检测，可以告诉你离车是远还是近，直接在屏幕里提示你“往前走进一点”还是“离远一点”，在视频中完全可以通过交互实现。

另外，视频其实就是不断的连续帧的集合，每一帧之间都是有相似性存在的。通过帧与帧之间的相似性，可以锁定一个证据链，形成类似“从远处拍车，到近处的局部”照片，结合车辆的检测和相似性给定锁定的证据链，防止篡改视频，降低理赔的风险。

前面说的亮斑问题，困扰我们很久，后来我们采用的方法很简单。

反光是一个非常有意思的物理现象，反光的位置是由你观察的位置和光源的位置所决定的。当你往前移动的时候，反光的位置也在移动，而损伤的部位是不会动。而我们在拍摄视频的过程中，我们的人和反光点都是在往前移动的，但是损伤不会移动，我们通过多帧图像进行融合，增强图像来解决亮斑影响损伤判断的问题。

所以，AI的技术其实并没有固定的模式，都是多个人工智能技术的融合过程——在应用场景中，发现的每一个难点，如何匹配流程上的变化，把技术/算法进行升级，解决掉这个问题。

四、芥子须弥：智能机器人

在人工智能应用中，很多技术是“胶水技术”——它可以把很多技术整合在一起，形成一个更加完整的体验。

比如说我们的聊天机器人小新，基本上就是完成一些用户的沟通需求：与用户闲聊，查询一下天气之类的，Google的还可以预定披萨，帮你接电话之类的，解决一些情感、沟通的问题。

而这个机器人的技术，我们在工业或者商业的应用上，可以做成业务型机器人——完成多伦问答，满足客户的特定需求，完成特定业务流程（比如说询报价，询报价是固定的流程，用户输入他的身份证，输入他的车架号车牌号，然后再看你有什么需求，整个业务流程是非常确定的）。基本上都是通过文字/语音和机器人沟通，但是技术其实不限于此。