如何评测一个智能对话系统（一）

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

如何评测一个智能对话系统（一）

单赢

2019-11-23

2 评论 8599 浏览 32 收藏

9 分钟

本文从对话系统的分类介绍与评测目标进行分析，解释了如何评测一个智能对话系统。

自然语言对话作为新一代的人机交互媒介，已经创建了广泛的应用程序。长期以来，研究人员一直在探索机器产生自然回复的不同方法，包括基于检索的回复，端到端的生成回复，以及问答和推荐系统。从智能家居设备到智能电话助手，从客户服务到情感陪伴，我们周围已经出现了各式各样的聊天机器人。然而，智能对话系统的表现往往因不同的应用场景和目标而异，因此行业内一直都没有一个统一的对话质量评测标准。

近年来，“如何评测一个智能对话系统”这个开放的问题引起了相关领域研究人员的极大关注。在过去的几年时间里，我一直致力于探索智能对话系统的评测方法。由我设计的对话评测方法已经在多款智能对话产品上得到验证，有效推动了产品的持续优化和迭代。与此同时，该评测方法被nlpcc2019选为开放域对话系统竞赛的评测标准，受到了领域专家的认可。

那么，对于这样一个看似无解的问题，我是如何着手进行设计的呢？

首先，对话评测是一个非常大的概念，它涉及到很多不同领域的知识，而且非常的主观，无法用一个统一的标准评判。说白了，这个问题就是在评价一个人说话的水平，只不过被评价的对象是一个机器人。但是，这个事情也不是完全无章可循。我们可以通过聚焦和拆解的方法把这个大问题分成多个可量化的小问题。

想要有效的评测一个对话系统，我们首先要知道被评测对话系统的目标是什么。换句话说，就是我们期待对话系统给我们带来什么样的价值。只要明确了目标，我们就可以围绕目标建立标准，再通过标准引伸出评测的方法。

智能对话系统的分类

谈到对话系统的目标，就不得不提及对话系统的分类。一般来说，人机交互的对话场景一共分为三大类别，分别是任务类对话，问答类对话，和闲聊类对话。这是目前业界比较公认的方法，其依据是这三类对话系统背后所运用到的核心技术与实现方法截然不同。

不过，在真实的应用场景中，几乎每款对话类产品都同时具备了上述提到的至少两类对话系统的特征。目前市面上的对话系统往往同时具备解决任务的能力，回答问题的能力和闲聊的能力。因此我们不能单纯的以这样的分类方式为对话系统分别设计评测方法，而是应该跳出技术的实现框架，从应用的角度寻找所有智能对话系统共同存在的特征，并以这些特征作为考量条件去设计评测方法。我将这些特征总结为对话系统的对话情境，对话场景以及对话目的。

智能对话评测的考量条件

对话情境－上下文内容

在对话系统中，回答内容的好坏与其上文的内容有着直接的关联，在评价回答内容的时候，最主要的一个限制条件就是上文问题的内容。在评判一个对话系统生成答案好与坏的时候，测试者需要结合上文的内容才能对答案作出比较公正和正确的判断。这当中不仅需要判断当前对话内容的质量，还涉及到对话所表达内容逻辑的一致性与情感的合理性。上下文内容对于多轮对话的生成起着至关重要的影响。一组对话内容被放在不同的对话情境下会表现出皆然不同的效果。因此，在对一组对话内容进行评测时，有必要充分理解其所在的对话情境。

对话场景 – 机器人扮演的角色

在不同的应用场景下，对话系统需要扮演不同的角色以实现用户特定的需求和意愿。目前比较主流的应用场景包括家庭场景，早教场景，客服场景和车载场景。一个特定的场景下的对话内容，总是包含特定的术语或套路，以及相关领域的知识库或知识图谱。这一类的对话往往可以返回一些约定俗成的回答或解决方案。在对对话系统进行判定之前，测试人需要通过想象力将自己置身于该场景中。理解对话系统所尝试扮演的角色，能够帮助我们更加客观的对其进行评测。

对话目的 – 话题与意图

在现实生活中，人与人的自然语言对话可分为两大类，即有目的的对话和无目的的对话。有目的的对话可以根据提问者或主动发起对话者来引导当前对话的目的。在对话结束时，我们可以通过判断对话目的是否达成而判断对话的质量。事实上，在实际对话过程中，对话的目的并不总是能够被清晰的定义。在对话评测时，我们不能只关心有明确目的的对话，而忽略无目的的对话。在无目的的对话内容中依然会有信息的传递，和情感的交互。因此，无论对话内容是否有明确的话题和意图，我们都应该关注其传达的信息和情感。