AI时代的中层支柱：统计学

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

无问西东

2019-07-16

1 评论 9131 浏览 17 收藏

11 分钟

本文笔者将通过对统计学和AI的关系进行分析，追溯他们的发展史，去探究：如何将对统计学如何应用到人工智能领域？

AI 不过是统计学

Thomas J. Sargent ：人工智能只是统计学的延伸

2011年诺贝尔经济学奖取得者Thomas J. Sargent在题为“共享全球智慧引领将来科技”的世界科技创新论坛上表示：

计算机是非常擅长计算，它们可以非常快速地完成计算人算不了的东西，但最终必须由人来组织和分析这些计算。你可以看一些非常成功的人工智能应用，它不仅是机器在「思考」，也是科学家在思考。像 AlphaGo 的算法看上去是第一次出现，但其实有很多非常聪明的数学，并且是由人设置教学内容。人工智能是由机器和人分饰两角的，非常有趣。

任正非：人工智能就是统计学

华为创始人兼CEO任正非在接受央视《面对面》采访，当谈到人工智能是，任正非表示：

中国没有人工智能这门课，计算机与统计学，审计学与审计学，你说我们要进入大数据时代，大数据时代做啥？统计。说明我们国家在数学上重视不够，第二个在数学中的统计学重视不够。

金榕：统计学是人工智能若干重要基础之一，但远不是全部

阿里巴巴达摩院机器智能技术实验室主任金榕：

除了统计，AI中的“学习”“推理”和“决策”中还使用了代数、逻辑、最优化等许多其他学科知识与方法。此外，有了算法后如何有效实现也非常重要。所以，单纯说AI就是统计学，或者说“所有的AI都是利用统计学来解决问题的”都是片面和不准确的。

关于AI与统计学的关系，尽管众说纷纭，各位大佬持有不同意见，但是，我们仍然不难发现统计学在AI发展中占有非常重要的位置。

统计学VS人工智能发展史

为了分析统计学和AI的关系，我们同时追溯他们的发展史，找出其中的交叉部分。

1. 统计学发展史

人类的统计实践是随着计数活动而产生的，统计发展史可以追溯到距今足有五千多年的原始社会，而使统计学开始成为一门系统的学科却是距今三百余年的事情。

从统计学三个大的发展阶段可以看出，统计学经历了实践→理论→检验三个时期，当前统计学主要是通过对数据的描述与分析来进行对未来的推断，这与AI的定义十分相似。

2. AI发展史

AI发展史可以追溯到计算机诞生时代。

在经历过二十年黄金时代的发展后，人们开始意识到计算类的功能可以被机器很好的完成。但是，对于感知类的功能却很难达到模拟人类的要求。人们对人工智能的理解也从幻想中的智能转变到重视人工技术。

Thomas J. Sargent ：人工智能是由机器和人分饰两角的，非常有趣。

现在人们对于人工智能的期待，不再像科幻电影里那样不切实际。技术人员意识到当下可以实现的AI技术是基于人的“思考”，让机器来实施，AI应该着眼于解放生产力而不是“完全替换人类”。

3. 统计学和AI的交叉点

1988年，美国科学家朱迪亚·皮尔将概率统计方法引入人工智能的推理过程中。

后来，IBM的沃森研究中心把概率统计方法引入到Candide项目——一个基于200多万条语句实现了英语和法语之间的自动翻译。

1992年，华人李开复使用统计学的方法设计开发了Siri最早的原型。从将统计学引入AI研究后，直至近期大家所熟知的阿尔法go，AI的侧重之一就是机器学习。基于由人类产生的大量数据，使用人类思维去分析标记，然后引入机器进行学习，最终让机器掌握规则和规律进行工作。

我们不难发现：统计学和AI有了一个共同的研究对象——数据。

统计学概念在AI中的应用

统计学作为交叉学科之一推动着人工智能的发展，在发展中逐渐被应用于各行各业。不论以后从事AI产品经理，还是AI工程师，只有具备良好的统计学基础才能对数据分析具有准确、深入的理解。

1. 应用于调查数据

以机器学习为例：其核心是“使用算法解析数据，从中学习，然后对世界上的某件事情做出决定或预测”。

在学习之前就要进行数据分析，而机器学习需要庞大的数据集作为支撑才能保证其学习效果。

对于婴儿来说，即使只有三岁，也观看过数亿张图像，拥有庞大的数据库。要想让AI“靠谱”，就要有靠谱的数据。统计学的数据获取方法与处理方法是机器学习建立数据集必需要使用的。

图片来自：https://www.jianshu.com/p/0fed5efab3e5

统计学上的数据来源：

统计学常见数据的处理：

2. 应用于建造模型

面对没有标准定义的数据：

比如：电商平台希望把数据中会恶意退货的那些人给找出来，但数据并未指明哪些人恶意退货。

对这个具体数据，没有教科书或文献给出任何的方法。这就要有独特的处理方法，你必须考虑基于什么样的恶意退货机理和背景来建立模型，不能单一的就把有过几次退货操作的用户找出来，你就要了解用户退货方面的思维方式。

对于人类来讲，这种推断与判断的行为并没有复杂的数学运算。但对于机器来说，这一切都要基于数学运算。有效的运算模型是AI推断的基础。

面对没有模型的统计需求：

比如：运营团队希望可以预测一个新营销活动可带来的流量有多少，这并不能简单靠一些公式、几个模型解决。

现有的模型一般比较固定，例子也简单，不符合复杂的实际数据。经典统计上确定模型的优劣方法严重依赖于对数据的无法证明的众多数学假定。那么，如果想在众多统计模型中要挑一个真正满足实际需求的，就需要把数据拿过来做交叉验证。交叉验证，就是用一部分数据来建立一个模型，然后用另外一块数据来验证这个模型。交叉验证是判断AI是否能做出有效预测的重要手段。

统计学是AI发展的基础之一

通过以上对于统计学在AI领域应用的简短分析，我们不难看出统计学的确是AI不可缺少的一部分，但是仅有统计学并不能实现真正的AI。

Thomas J. Sargent与任正非对于统计学重要性的肯定是正确的，金榕对于多技术支持的观点也是正确的。统计学作为传统的经典学科，支撑起了AI发展的基础。但AI不应被定性为一门全新的技术，而应是已有技术的延伸与发展。没有哪项新技术是凭空诞生的，未来将传统学科应用于新领域是高等教育的一个转折点。

本篇文章仅是作者在学习统计学时的做的一些思考，希望能抛砖引玉。随着大数据时代的来临，未来将有更多PM投身于数据分析，设计出优秀的数据分析、预测工具。