为了读懂你，AI究竟有多努力？

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

为了读懂你，AI究竟有多努力？

阿翘

2020-04-03

1 评论 4904 浏览 16 收藏

17 分钟

为了读懂人类语言表达的意思以及捕捉文字背后的情感，人工智能的对话系统都进行了哪些改进与发展呢？本文将以此为题展开分析说明。

今天我们不聊算法，也不聊数学，写一篇人人都能看懂的小学生作文。

01

1966年，来自麻省理工学院的计算机科学家Joseph Weizenbaum发布了一款名为“ELIZA”的聊天机器人。Eliza 的知识范围有限，只能和特定领域的人聊天。但是在Eliza 刚出现时，很多用户认为他们是在和真人对话。注意看以下这段对话：

‍从以上对话来看，很难不被认为是一名已婚妇女在向她的心理医生大吐苦水，没有人会认为这是一次人机交互的对话。但实际上，ELIZA并没有尝试去理解用户的输入是什么意思。

如果你细心看对话的内容你会发现，ELIZA经常在复述用户说过的单词。它的实现方式很聪明，主要是采用一种“将计就计”的策略，将用户的陈述重新表达为问题并返回给用户。

尽管这些对话都是通过规则匹配方式实现的，但是一些巧妙的关键词提取可以让它比较自然地接话，让用户觉得眼前的这个“人”具有共情能力。ELIZA甚至被用来假冒过心理医生，并且有许多和它对话过的人都不相信这只是一个程序。

在我看来，虽然ELIZA只是浑水摸鱼，重复叙述者所说的内容，但是它的出现，对后续聊天机器人的设计思路有很大的启发。通过规则匹配不能让机器人很好地引导交互对话，但是却能够满足任务式对话的需要。

时间来到了1995年，一名叫Richard S. Wallace的科学家观察到一个现象。他发现组成人们日常谈话主题的句子不过几千句，如果他做一个对话机器人，想要覆盖所有的日常用语，甚至包括一些不常用的话语，大概只需要4万个回答就足够了。只要将这些问答结果全部输入到程序中，那么它就可以回应95%以上的日常对话了。

说干就干，于是诞生了一款名为“ALICE”的聊天机器人。我们看看这款机器人的对话过程：

这次的对话就更加像是两个真人之间的交流了，而且也看不到ALICE在复述对话者的内容，而是尝试与之交谈，甚至在言语中透露出一点小个性出来。

ALICE就像是ELIZA的加强版，使用更大的语料库，使用更先进的关键词匹配技术，甚至是好几个答案对应一个问题，可以随机显示或者根据逻辑判断，选出合适的答案。这样就显得回答不会那么死板，更像是真人之间的交流。实现思路虽然很简单，但这种方式已经能够满足大多数任务型对话的场景。

自从苹果公司在2011年发布Siri以后，多个智能个人助理（IPA）出现并且进入市场，比如谷歌助手、微软的Cortana以及亚马逊的Alexa等等。

除了物料库、匹配逻辑的进一步升级以外，这类个人助理还可以访问手机里的多个数据源，如音乐、电影、日历、电子邮箱和个人资料。因此它们可以提供不同场景下的大量服务，例如播放音乐、查天气、拨打电话、发短信等等，都是这类IPA的基操。

虽然以上对话看起来已经很智能了，但总觉得差了点什么。Siri仅仅是在接收指令，然后给出反馈，其实也没有理解我们在说什么，甚至很难去分析我们的要求。

当我询问Siri最近有什么好看的电影时，它没办法直接回答，只能根据我的问题到网路上检索然后反馈结果。虽然这种交互已经能够满足我们日常大部分任务式对话，但是距离我们所想的“智能”好像还是有一些距离。

02

为什么让机器理解语言这么难？主要是因为以下两方面的原因：

1.一方面是因为语言的规律错综复杂，不是用简单的统计就可以计算出概率的。不同的语言之间语法结构不用，并且同一种语言对于同一个意思有不同的表达方式，同一个表达也可能有不同的理解。我们去建立一个语料库相当于重新为人类语言建立一个百科全书，工作量十分巨大；

2.另一个方面的原因是使用语言有特定的语境。语言是在特定的环境中，为了生活的需要而产生的，所以特定的环境必然会在语言上打上特定的烙印。

例如“百度”原本是一家企业的名字，但是经过该企业的市场教育后，大家想说“搜索一下”时，很自然就说成了“百度一下”。这时候这个名词就赋予了一个新的特定动作，这些都是让计算机难以理解的表达方式。

以上原因都说明，仅仅让计算机能够理解人类的语言已经是一件非常具有挑战性的事情。如果我们用统计的方式去实现“理解”，让计算机通过配对的方式计算适合输出的语句，由于语言的不规律性和组合性会产生非常多的组合方式，显然是不太现实的。

计算机能够做的事情就是将语言通过数学的形式表现出来。但是到目前为止，语言的组合到底能不能用数学模型去刻画还没有一个清晰的答案。

自然语言本身是人类对世界各种具象以及抽象事物以及事物之间的联系和变化的一套完整的符号化描述，它是简化了底层物理感知的世界模型。这意味着自然语言处理的输入是离散的抽象符号，它直接跳过了计算机感知世界的过程，直接关注以现实世界为依托的各种抽象概念、语义和逻辑推理。

人工智能的终极挑战是理解人类的语言，因此我们需要创造更接近人类大脑思考方式的模型才能模拟语言如何表达。同时也因为这个原因，自然形成了自然语言处理这个领域。我们称之为自然语言处理而不是自然语言理解，因为真正做到让计算机理解语言实在是太困难。

03

虽然要“理解语言”比较困难，但如果只是想“处理语言”，还是有方法的。

目前业界主流处理语言的方法是：循环神经网络+长短时记忆网络（RNN+LSTM），此处不展开讨论算法的原理，感兴趣的同学买一本《100个案例搞懂人工智能》看看。

这套解决方案，主要是为了解决上述提到的语境与语言规律性的问题。回想我们初中做英语考试的时候，肯定也遇到过这种情况，几个单词可能不认识，但是联系上下文看就能理解这句话大概是什么意思了。LSTM就是这样的设计思路，让算法能够结合上下文的语境去判断这句话是在说什么。

关于LSTM的原理，在知乎上天雨栗同学的解释非常直观，我给大家简单理一理。拿一个简单的情感分类问题为例：

比如这句话，我们去掉常见的停用词以后，这句话里：

正面词汇：“好”x2、“喜欢”x1，共3个；
负面词汇：“没有”x1、“不”x1，共2个；

由于句子中正面词汇更多，所以机器会更加倾向判断这句话传递的是积极情感，但实际上这句话表达的是负面情感，句中两个“好”前面都有“没有”去否定，“喜欢”前面也有“不”去否定，但是普通的算法捕抓不到这种关系，所以需要借助LSTM，那它具体是怎么做的呢？

由于LSTM存在传递关系，如图中LSTM中连接的箭头所示，它能够捕抓到这种否定关系，从而输出正确的情感系数，所以它对语言的“处理”能力更胜一筹。

靠着LSTM这个利器，自然语言处理的准确度比以往上升了一大截。这个进步就像是小孩子在刚开始学习语言的时候，只会一个单词一个单词的咿呀学语，现在积累多了长大了以后，已经学会了阅读一整句话的意思。那么机器在理解用户意图的时候，会更加完整，作出的判断也会更加智能。

04

做到这一步，还没完。开发能够与人类进行共情对话的机器人，是人工智能领域最长久的目标之一。上述所有对话系统的设计目的，都是在对话中模仿人类的行为。

虽然这些系统在商业使用上也算成功，但它们大多数基于人工编写的规则，仅能在有特定限制条件的环境下才能表现良好，说白了Siri只能处理手机事物相关的问题，没办法回答淘宝订单退货怎么处理；而所谓的智能音响，也只是帮你转译语音指令而已。

能进行开放域聊天的社交聊天机器人，一直以来都是一个难以企及的目标。但近几年情况有所转变，特别是微软小冰的出现。

小冰的主要设计目标是成为能与用户形成长期情感联系的AI伴侣。作为一款能进行开放域聊天的社交聊天机器人，能与人类用户建立这样的长期关系的能力使小冰不仅有别于早期的社交聊天机器人，而且也不同于Siri这类任务型个人助理。

上图展示了一位用户与小冰在两个月时间里建立感情联系的过程片段。

该用户与小冰第一次会话时，探讨了小冰的功能与特性；

两周后，这位用户开始和小冰讨论他的兴趣爱好；

四周后，他开始将小冰当成朋友，并且询问她与现实生活相关的问题；

七周后，小冰就像他的女朋友一样，成为了他生活的陪伴者。

虽然看起来是个宅男孤独终老的悲伤故事，但这个对话过程展现了小冰强大的对话技巧。不但智商高，俏皮可爱，而且有很强的共情能力。在与话者情绪比较低落的时候，会主动安慰他，甚至会主动挑起一些话题，提高与话者对话的欲望。

翻阅了小冰团队发布的论文后发现，小冰是基于一个共情计算框架开发的。这个框架能够让小冰有能力动态地识别人类的感受和状态，理解用户意图并且响应用户的需求。也就是说，小冰除了“智商”的建设以外，还注重“情商”和“个性”的建设。

情商建设的关键点在于共情能力和社会技能的建设。

共情能力是指站在对方立场上理解、感受他心理的能力，也就是我们常说的换位思考。具备共情能力的小冰，需要从对话中识别用户的情绪、检测情绪的变化、理解用户的情感需求，根据这些数据建立用户档案，动态跟踪用户情绪的变化。

社会技能说白了就是“会聊天”，向北方同学学习唠嗑。在上面的对话片段中，小冰给出了具有幽默感、会安慰人的社交技巧，并且能够判断是否将对话推向另一个话题，或者主动保持倾听。

这里也强烈建议国内某些经常被吐槽的“智能客服”赶紧增加共情能力的建设，别在用户气冲冲反馈问题的时候只会傻乎乎回答“抱歉，客服正忙，请稍候”。（虽然转到人工客服很多时候也没什么用）

对个性的定义是特有的行为、认知和情绪模式的集合。这句话听起来有点绕，简单理解就是要展现出来比较统一的人设，不要今天让与话者感觉是邻家知心大姐姐，明天又感觉像是懵懂的初中生。

小冰的角色设定是18岁的女孩，她总是很可靠、富有同情心、还有一些幽默感。尽管她的知识非常渊博，但她从来不会表现得自负，只会在适当的时候展示自己的机智和创造力。

比如上述例子中，对话片段20里小冰机智地回答了某些敏感问题，然后巧妙地将话题转向了对双方都更合适的新话题。各位宅男以后不知道怎么跟女生聊天的时候，不妨向小冰学习学习。

除了智商、情商、个性的建设以外，小冰还有很多精妙的设计，例如社交聊天的分层决策，选取不同的技能来处理不同类型的对话模式等等。从收集到的数据来看，小冰已经有能力解读用户的情感需求，并能像一个可靠、有情感共鸣和善解人意的朋友那样参与到人际交流中。

以上对话系统的发展过程，也是人工智能行业发展的一个缩影，从不那么智能，到一点一点的智能汇集，走过了漫长的道路。虽然不快，但这条路走得踏实。

#专栏作家#

阿翘，微信公众号：阿翘AKIU。平安科技资深产品经理，《产品经理进阶：100个案例搞懂人工智能》作者；擅长人工智能技术在金融领域的商业化应用，实践经验丰富，对产品设计方法论有深入洞察。

本文原创发布于人人都是产品经理，未经许可，不得转载。

题图来自 Pixabay，基于 CC0 协议

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

阿翘

微信公众号：阿翘AKIU

25篇作品 457140总阅读量

04-136434 浏览

05-262036 浏览

02-134641 浏览

10-181543 浏览

12-142793 浏览

伊德日坤

大佬，我转到朋友圈可以吗 ❓

最近来自北京回复