人脸识别行业分析

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

柴帽双全

2019-05-06

11 评论 18414 浏览 156 收藏

43 分钟

人脸识别与其它生物识别技术相比，优势在于非接触性、非侵扰性、硬件基础完善、可拓展性。本文主要跟大家分析一下人脸识别这个行业，enjoy~

一、人脸识别概况

生物识别，是指依靠人体的身体特征来进行身份验证的识别技术，目前较为主流的识别技术有：人脸识别、指纹识别、虹膜识别、语音识别等四类。

人脸识别，是基于人的脸部特征信息进行身份识别的一种生物识别技术。通常采用摄像机或摄像头采集含有人脸的图像或视频流，并自动在图像中检测和跟踪人脸。人脸识别系统主要包括四个组成部分，分别为人脸图像采集及检测、人脸识别预处理、人脸图像特征提取以及匹配与识别。

人脸识别与其它生物识别技术相比，优势在于非接触性、非侵扰性、硬件基础完善、可拓展性。指纹识别唯一性比较强，采集成本较低，但是指纹可由指纹贴、指纹膜等复制，且接触性、侵扰性较强，人脸识别与其相比接触性和侵扰性较低；虹膜识别最精准，但是采集成本非常高，识别效率较低，接触性、侵扰性也较强，人脸识别与其相比，采集成本低、识别效率高；语音识别采集成本低，但语音具有可变性，人脸识别与其相比，识别效率高。

人脸识别技术原理简单来讲主要是三大步骤：

一是建立一个包含大批量人脸图像的数据库；
二是通过各种方式来获得当前要进行识别的目标人脸图像；
三是将目标人脸图像与数据库中既有的人脸图像进行比对和筛选。

根据人脸识别技术原理具体实施起来的技术流程则主要包含以下四个部分，即人脸图像的采集与预处理、人脸检测、人脸特征提取、人脸识别和活体鉴别。

1. 采集

需要考虑图像大小，图像分辨率，光照环境，模糊程度，遮挡程度，采集角度。

人脸图像的采集有两种途径，分别是：人脸图像的批量导入和人脸图像的实时采集。前者是指将采集好的人脸图像批量导入至人脸识别系统，系统会自动完成个人脸图像的采集工作；后者是指调用摄像机或摄像头在设备的可拍摄范围内自动实时抓取人脸图像并完成采集工作。

人脸图像的预处理是指对系统采集到的人脸图像进行光线、旋转、切割、过滤、降噪、放大缩小等处理来使得该人脸图像符合人脸图像特征提取的标准要求。

目前主要有三种图像预处理手段，即灰度调整、图像滤波、图像尺寸归一化。其中灰度调整是对地点、设备、光照等造成的图像质量差异进行处理，图像滤波是对噪声造成的图像质量差异进行降噪处理，图像尺寸归一化是针对图像像素大小不同进行尺寸处理。

2. 人脸检测

在图像中准确标定出人脸的位置和大小，并把其中有用的信息挑出来（如直方图特征、颜色特征、模板特征、结构特征及Haar特征等），然后利用信息来达到人脸检测的目的。

人脸检测是指判断是否存在人脸及定位出人脸的位置、大小与姿态。目前的人脸检测方法可分为三类，分别是基于肤色模型的检测、基于边缘特征的检测、基于统计理论方法的检测。

基于肤色模型的检测是利用人脸的肤色特征建立肤色模型从而进行检测，其优点是人脸的检测速度较高，对遮挡和光照有一定的鲁棒性，不足是和其他方法不太兼容，且不易处理复杂背景和多人物同框；
基于边缘特征的检测则是利用图像的边缘特征进行人脸检测，优点是计算量相对较小，可实现实时检测，与其它特征方法可融合，缺点是在复杂背景下误检率比较高；
基于统计理论方法的检测则是通过对人脸特征值的循环迭代来检测人脸，其计算速度快，应用广泛，但是误检率较高。

3. 特征提取

人脸识别系统可使用的特征通常分为视觉特征、像素统计特征、人脸图像变换系数特征、人脸图像代数特征等。人脸特征提取就是针对人脸的某些特征进行的，也称人脸表征，它是对人脸进行特征建模的过程。主要方法有基于知识的表征方法（主要包括基于几何特征法和模板匹配法）和基于代数特征或统计学习的表征方法。

基于知识的提取方法是根据人脸五官结构特征等先验知识来进行提取，其特点是识别方法比较简单、容易理解，检测速度较快，但是没有形成统一的特征提取标准，对动态人脸图像的鲁棒性较差；
基于代数特征的提取方法是基于统计学习的特征提取方法，特点是特征易抽取，识别精度较高，应用广泛，但是需要与相应的数据库进行统计训练。

4. 匹配与识别

这一精确筛选的过程分为两类：一是一对一的筛选，即对人脸身份进行确认的过程；二是一对多的筛选，即根据人脸相似程度进行匹配比对的过程。此外人脸识别包含活体鉴别环节，即区别识别的特征信号是否来自于真正的生物体。

关键技术指标：检测率、误检率、漏检率、速度。识别中的精确率、召回率、错误接受率/认假率/误识率、错误拒绝率/拒真率/拒识率

二、行业概况

2.1 行业逻辑

2.1.1 人脸识别技术日趋成熟、准确率高

2018 年 11 月 16 日，美国国家标准与技术研究院（NIST）公布了全球权威人脸识别比赛（FRVT）最新报告，从前十名企业在千分之一的误报率下的识别准确率来看，其平均能达到 99.69%，在千万分之一误报下的识别准确率超过99%。

意味着机器几乎可以做到在1000万人的规模下准确识别每一个人，而人脑记忆并辨别 100 个人的身份都很有可能犯错，相比于去年同期，全球人脸识别性能提升了80%，且中国企业占据榜单前五位，居世界领先水平，为人脸识别的技术落地提供技术面支撑。

从研究学者分布来看，中国占据世界第三的位置，人才储备居优势地位。2018 年， AMiner 基于发表于国际期刊会议的学术论文，对人脸识别领域全 TOP1000 的学者进行计算分析。

从全球范围来看，美国人脸识别研究学者聚集最多的国家，在人脸识别领域的研究占有绝对的优势；英国紧随其后，位列第二；中国位列全球第三，占有一席之地。可以看出，中国的追赶势头不容忽视。

从公开专利数量来看， 2007-2017年，我国人脸识别专利公开数量总体呈上升趋势，为人脸识别商业化应用打下基础。

从每年新增数量来看， 2007 年新增专利尚不足百例，至 2015 年迎来了爆发，全年新增专利已达到 1398 例，至 2017 年，我国人脸识别专利公开数量 2698 项，达到近年来最大值；截至 2018年7月，专利公开数量为2163 项，技术实力的显著增强也为国内商业化产品的迅速普及打下了坚实的基础。

2.1.2 政策推动

长期以来，国家高度重视人脸识别产业落地的发展，出台多项政策助推产业发展。

2015 年以来，国家密集出台了《关于银行业金融机构远程开立人民币账户的指导意见（征求意见稿）》，给人脸识别普及打开；其后，《安全防范视频监控人脸识别系统技术要求》、《信息安全技术网络人脸识别认证系统安全技术要求》等法律法规，为人脸识别在金融、安防、医疗等领域的普及打下了坚实的基础，扫清了政策障碍。

同时， 2017 年人工智能首次写入国家政府报告，作为人工智能的重要细分领域，国家对人脸识别相关的政策支持力度在不断的加大。 2017 年 12 月发布的《促进新一代人工智能产业发展三年行动计划（2018-2020 年）》则具体规划“到 2020 年，复杂动态场景下人脸识别有效检出率超过 97%，正确识别率超过 90%”。

另外，工地场景上，住房和城乡建设部、人力资源社会保障部印发《建筑工人实名制管理办法(试行)》明确提出：建筑企业应配备实现建筑工人实名制管理所必须的硬件设施设备，施工现场原则上实施封闭式管理，设立进出场门禁系统，采用人脸、指纹、虹膜等生物识别技术进行电子打卡；不具备封闭式管理条件的工程项目，应采用移动定位、电子围栏等技术实施考勤管理。相关电子考勤和图像、影像等电子档案保存期限不少于2年。

2.1.3 资金推动

根据 CB Insights 在 2018 年发布的《Top AI Trends To Watch In 2018》显示，：中国在人工智能初创公司的资金支持方面已超过美国，位列世界第一，其投入的资金主要专注于人脸识别核心技术。

2017 年，全球AI 创业公司获得资金支持 152 亿美元，其中 48％流向中国， 38％流向美国，中国在人工智能初创公司的资金支持方面已超过美国，而中国在人工智能上投入的资金主要专注于人脸识别核心技术，仅在 2017 年就突破十亿美元大关，达到 16.40 亿美元。

此外，政府对人脸识别初创公司的资金支持已达亿级以上。仅在 2017 年，就有广州市政府和有国务院国资委背景的中国国有资本风险投资基金对云从科技、旷视科技投入亿级以上资金。

人脸识别是AI领域融资最多的方向。

2.2 行业规模与结构

2017 年，全球视觉人工智能市场规模约为 70 亿美元，同比增长 12.36%，而中国视觉人工智能市场规模达到 41 亿元，同比增长 259.6%，远高于全球市场的增速。随着视觉人工智能技术的逐渐成熟及应用领域的逐步扩大，预计到 2020 年中国视觉人工智能市场规模将进一步扩大，达到 755.5 亿元。

视觉人工智能是中国人工智能市场上最大的组成部分。根据中国信通院数据，2017 年中国人工智能市场中视觉人工智能的占比超过 37%。在视觉人工智能领域，安防影像分析是最大的应用场景，2017 年占比约 67.9%。其他主要应用包括广告、互联网、云服务、手机等。

2.3 行业场景与应用

最近三年，视觉人工智能技术不仅带来了生产效率的提升，而且还催生了众多新产业、新商业模式与新应用场景，推动了多行业产业链的重构。随着视觉人工智能技术的不断发展，市场规模的不断扩大及行业应用解决方案的建立和完善，视觉人工智能行业的应用场景将进一步渗透，助力各应用行业解决痛点，实现行业转型和升级，需求前景广阔。

最近几年机器视觉行业实现快速发展的背景是： 2015 年基于深度学习的计算机视觉算法在ImageNet 数据库上的识别准确率首次超过人类，同年 Google 在开源自己的深度学习算法。

这些带动中美两国的科学家把计算机视觉算法运用到安防、金融、互联网、物流、零售、医疗、制造业等不同垂直行业。但在实际的运用当中，由于数据可得性，算法成熟度，服务的容错率等因素的影响，落地的速度开始出现分化。移动互联网/安防领跑，零售/物流跟进，医疗/无人驾驶发展较慢。

2.3.1 智能安防

安防领域是人脸识别技术最成熟的落地领域，也是 AI 视觉公司普遍首先切入的细分领域。安防领域的特性在于：

公共安全的刚需应用，可极大提高效率；
市场预算分级、高度碎片化，且政府订单为主，可有效贡献收入；
深度赛道，不断面临新问题与新需求，问题难度跨度大（简单需求如车牌识别、困难需求如动态识别与犯罪预防等）。

作为公共安全的刚需应用，安防领域计算机视觉未来将继续向多模态融合、万路以上广联网发展。

2.3.2 移动互联网

计算机视觉在移动互联网上的应用目前主要包括：

互联网直播行业的主播美颜；
鉴黄、广告推荐等视频分析；
智能手机里的 AI 美颜和人脸解锁。

一方面，移动互联网行业数据较为丰富，数据可得性较高；另一方面，由于应用多为“锦上添花”型的娱乐、广告应用，容错率较高，技术难度相应下降。因此计算机视觉在移动互联网得以快速顺利落地。

移动互联网应用的普及离不开深度摄像头的应用，如面部识别可以使手机解锁及支付更加安全快捷，手势动作识别可以增强游戏体验，人形及物体建模可以使网络购物更加直观方便快捷。通过与人工智能、虚拟现实等技术有机结合，深度摄像可广泛应用在智能手机、智能汽车、智能安防、智能家居、金融等领域，给消费者带来全新的用户体验，提高生产和生活效率。

因此，深度摄像拥有广阔的市场空间，预计到 2021 年，全球范围内深度摄像头市场规模有望达到78.9 亿美元，较 2017 年的 22 亿美元增长 262.73%。

2.3.3 金融

金融领域中的人脸识别，主要用途分为身份核验和场景规模化应用。身份核验，也称作 1:1 刷脸，广泛地被应用于互联网金融、银行的远程开户、远程身份认证、远程支付，通过刷脸的方式进行校验。场景规模化应用也称作 1:N 刷脸，多用在刷脸支付、取款等。

由于金融人群庞大，身份核验、场景应用等环节给人脸识别技术发展提供助力，预计可提供亿级以上的市场体量。以银行为例，人脸识别在银行领域的业务点主要有私有云部署、智慧网点改造、自助机具改造、网点 VIP。四大业务点市场体量都在百亿元级别，智慧网点改造更是达千亿元级别，人脸识别可发挥的空间巨大。

笔者认为，金融行业容错率低，出于谨慎性原则，方案推行周期较长，且当前很难大规模在全国推广，因此爆发力有所欠缺。

2.3.4 其他场景

医疗领域： 医疗数据碎片化严重，各种疾病需要的影像资料不同，数据标注需要有专业医师参与，成本高，进展慢。导致发展低于预期。

无人驾驶： 无人驾驶涉及采集摄像头、雷达等多种数据，并根据多重数据进行车辆、物体、道路、行人等不同识别后进行决策。我们认为离实现通用无人驾驶还早，在限定场景下实现商用的机会较大。

2.4 商业模式

视觉人工智能公司提供服务的方式主要包括 3 种，分别为 API、SDK 与解决方案。

API 提供云端比对识别服务，具有弹性、灵活、高效等特点，互联网金融公司多采用此种形式。
SDK基于对数据的保护或实时性要求，向客户提供核心算法模块，在用户端或客户的服务器端完成视觉计算，手机及互联网娱乐公司多采用此种形式。
解决方案向客户提供较为全面的软硬件集成解决方案，可能涉及软件系统、嵌入式解决方案、前端硬件设备、专有服务器部署等，公安、银行多采用此种形式。

与服务方式相对应，视觉人工智能公司的主要收费方式也包括 3 种，分别为按调用量或包时收费、结合授权设备量及授权周期定价与结合具体项目收费，后续每年可有升级维保收入。API 服务大多采用第一种收费方式，SDK 服务多采用第二种收费方式，解决方案多采用第三种收费方式。

目前市面旷视等主流厂商SDK价格约50-100元/台设备。

2.5 产业链与竞争格局

视觉人工智能产业链可以划分为三个部分，分别为：

基础支撑层：包含芯片（寒武纪、地平线）、传感器（海康、大华、速腾创新、镭神智能）、系统架构和初级算法（谷歌、百度、微软、脸书）等部分。
技术提供层：包含图像识别平台和嵌入式视觉软件两类。前者直接提供应用服务，后者需要和硬件进行系统集成后在终端产品中使用。国内主要厂商包括旷视科技、商汤科技、图漾信息、格灵深瞳、虹软科技等。
场景应用层：直接解决具体应用场景的需求，产品的形式可能是应用系统，也可能是软硬件一体的终端产品或服务，主要的应用场景包括智能驾驶（佑驾创新、驭势科技、格林深瞳）、智能安防（商汤科技、格灵深瞳、旷视科技、依图科技）、智能医疗（商汤科技、依图科技）、智能家居（速感科技、依图科技）、智慧金融（格灵深瞳、旷视科技、商汤科技、依图科技、云从科技）、智能硬件（云天励飞、依图科技）、智慧商业（商汤科技、旷视科技、码隆科技、图普科技）、娱乐（旷视科技、图普科技）等。

2.5.1 上游芯片领域亟待突破，与算法、数据集共同解决算力问题

人脸识别产业链上游，即基础层，影响发展的三大要素是芯片、算法和数据集。

（1）芯片领域

在芯片领域，由于目前没有专门用于人脸识别的处理芯片，只能采用通用芯片代为处理。因深度学习算法对算力资源需求高，一般采取核心处理器（如 CPU、 ARM 芯片）进行视频采集，把视频中的人脸图像抠取下来，而核心数据处理芯片无法执行人脸识别结构化运算，只能将图像处理的工作交给更合适的专门处理芯片进行结构化处理。

目前常见芯片的有 GPU 显示核心、 FPGA 现场可编程门阵列、 ASIC 专用集成电路，其中 GPU 是 AI芯片的主导者。

GPU 优势在于解决浮点运算、数据并行计算问题，在大量数据元素并行程序方面有极高的计算密度，但是仍有两个致命缺点，一是功耗大，需依托 X86 架构服务器运行，不适用于更为广泛的人脸识别产品方案开发，尤其是人脸识别民用化趋势日渐增强的当下，GPU 不适于在小型化项目的采用。二是成本高昂，采用 GPU 方案，折算单路人脸识别成本在万元以上，相较其他千元级，甚至是百元级的方案，毫无成本优势可言，不利于商业平民化推广。目前在 GPU 芯片领域的龙头企业为 NVIDIA（英伟达），其所占份额为 60%。其次是 Xeon Phi，所占份额为 21%。
FPGA 具有可编程性，让软件与终端应用公司能够提供与其竞争对手不同的解决方案，并且能够灵活地针对自己所用的算法修改电路，但是其设计资源受到很大的限制，一旦型号选定，其逻辑资源上限就确定，其布线资源也受限制，不像 GPU 这样走 ASIC flow，因此，在峰值性能方面，FPGA 要远逊于 GPU。
ASIC 芯片的优势是运算能力强、规模量产成本低，但开发周期长、单次流片成本高，主要适用于量大、对运算能力要求较高、开发周期较长的领域，比如大部分消费电子芯片和实验。

为满足当下人脸识别等人工智能的发展需求，行业也推出了各种针对深度学习芯片，如 TPU、 NPU、DPU、 BPU 等，但因其受场景限制以及性能不及 GPU 等，市场上仍以 GPU 等通用芯片占主导。

从上游芯片市场看，高端市场均被国外企业垄断。根据上文我们的分析，人脸识别芯片目前均采用人工智能通用芯片，而根据市场研究顾问公司 Compass Intelligence 在 2018 年 5 月发布的关于 AI 芯片最新调研报告，排名靠前的均是国外企业——英伟达、英特尔、 IBM 与谷歌。

排行榜中共有七家中国人工智能芯片公司入围榜单 Top24，华为排名 12，成中国大陆地区最强芯片厂商，其余六家中国公司分别为：联发科、Imagination、瑞芯微、芯原、寒武纪、地平线。

而目前在中国人脸识别设备商中，商汤科技与瑞芯微达成战略合作，将其 SDK 软件包直接整合进瑞芯微芯片平台中；而云从科技则在布局“基于自研 SoC 芯片的高准确度人脸识别产业化应用”项目，人脸识别芯片仍有待突破。

（2）算法和数据集

在算法开发市场上，根据最新的 FRVT 比赛排名，我国人脸识别依图科技、商汤科技包揽前四名，识别率均在 99%以上，处世界前列。此外，目前的算法主要是基于上文提到的基于代数特征的提取方法，算法需要不断的进行训练。基于此，测试中的算法准确率与实际应用中的准确率仍有一定的差距，因此扩充数据集以锻炼算法的不断升级成为重点。

目前主流的数据集有 FERET 人脸数据库、 CMU Multi-PIE 人脸数据库、 YALE 人脸数据库、 MIT 人脸数据库、 ORL 人脸数据库、 BioID 人脸数据库、 UMIST 图像集、年龄识别数据集 IMDB-WIKI。

综上所述，上游芯片领域由于缺乏人脸识别专用的芯片，在成本和性能上制约人脸识别技术的应用，而在算法方面，目前中国已领跑世界，但在实际应用的测试准确性来说仍是不够的，而此时数据集的扩充成为锻炼算法的重要途径。

2.5.2 中游3D 人脸识别技术是方向，但仍需进行技术性突破

中游人脸识别技术市场的解决方案主要包括 2D 识别、 3D 识别，目前市场主流为 2D 识别，但 3D 识别有不可比拟的优势，将成为未来人脸识别技术发展的趋势。与 2D 人脸识别技术比较， 3D 人脸识别的优点在于：

精准度高——3D 人脸识别系统采集人体面部三维特征，识别精度高，错误拒绝率和错误接受率极低，大量面部特征和数据点足以区分双胞胎；
环境稳定性强——3D 人脸识别系统对光线、背景灯环境的实用性更强，系统更稳定；
防伪稳定性高——3D 人脸识别系统更稳定，系统不易被轻易愚弄、欺骗，而冒充身份者能够通过合法用户的视频图像或相片骗过 2D 人脸识别系统；
实用性强——3D 人脸识别系统不需要用户配合，当人脸有姿态、角度、表情、面部遮挡物等时，其识别性能稳定，实用性强，而 2D 人脸识别系统识别性能下降剧烈。

目前 3D 技术应用程度并不高，主要是苹果等手机厂商在应用，而从 Counterpoint Research 的研究数据来看，未来 3D 技术在手机端将比 2D 技术占据更高的市场份额；而根据 Yole Developpement 的研究数据显示， 3D 技术不仅在 C 端市场份额进一步扩大，在 B 端商用领域也将进一步扩大市场份额。

目前，主流的 3D 成像技术有三种：

结构光（Structured Light）：结构光投射特定的光信息到物体表面后，由摄像头采集。根据物体造成的光信号的变化来计算物体的位置和深度等信息，进而复原整个三维空间。代表性产品应用为苹果 X。
TOF（Time Of Flight）： 通过专有传感器，捕捉近红外光从发射到接收的飞行时间，判断物体距离。
双目测距（Stereo System）：利用双摄像头拍摄物体，再通过三角形原理计算物体距离。

具体而言，结构光技术具有低光下表现良好，分辨率较高，成本、功耗适中等优点，但易受阳光影响，识别距离短，识别速度稍慢；而 TOF 技术具有响应时间快，抗光照表现尚可，深度信息精确度高、识别距离远，但分辨率低、成本高、功耗高、模块太大；而双目测距技术分辨率高，模块小，成本低，但是昏暗环境下不适用，算法开发难度大，识别速度慢。

尽管 3D 人脸识别相较 2D 人脸识别有质的飞越，但是可以从现在主流的 3D 结构光技术抗光照能力弱、识别速度不高、硬件成本高以及工作距离短的缺点以及尚未普及的 TOF 技术分辨率低、精度低的缺点看出， 3D 人脸识别仍有技术难关需要攻破。

在中游技术解决方案市场上，由于在 B 端普遍的人脸识别技术方案是 2D 人脸识别技术，市场格局并未明朗，各方根据场景应用均采取差异化战略。如商汤科技、旷视科技、阿里巴巴、腾讯等采用图像人脸识别技术，海康威视等采取视频对象提取分析技术，而云从科技则在于 2018 年 2 月 7 日首发国内 3D 结构光人脸识别技术。