当两种用研结果完全相反的时候,我该怎么办?

9 评论 113673 浏览 121 收藏 13 分钟

如果你的产品从一个角度看起来很好,而另一个角度看起来很糟糕,那该怎么办?

在最近的关于用户体验定量研究的培训研讨会时,我被问到一个有趣的问题:

“我领导的团队负责改造复杂的企业产品,我们一直在进行广泛的研究,以便为发布做好准备。但前提是风险很高 ,即使是微小的改进也可能带来巨大的生产力提升,相反,设计中的小问题也可能会给我们的用户带来很大的问题。

在我们的定量可用性测试中,与旧产品相比,我们已经看到人们在原型中执行重要任务所需的时间大幅减少。但问题在于,在定性访谈中,我们的用户非常讨厌这个原型,反馈非常消极。请问我们如何调和这一矛盾?我们应该做什么?”

这位负责人描述的情况,对许多以研究为重点的数字产品团队来说是一个常见的情况。

进行用户研究的理想方法是使用多种方法,混合定量和定性研究。但是,当那些不同的研究方法讲述不同甚至相互矛盾的故事时会发生什么呢?

在本文中,我将考虑针对此情况的一些可能的问题,给出解释和解决方案。不过,我关于提出问题的负责人的产品和研究的细节很少,但我会根据我被问到的其他问题给出一些理论。

检查方法

在如上所述的情况下,第一步是检查每项研究的进行方式。用户研究面对的是“人”,因此存在大量可能导致错误或误导性的事情发生。

在我们考虑这些矛盾的结果可能意味着什么之前,我们需要检查每项研究中的一些关键组成部分,我们应该在四个方面寻找潜在的问题:参与者、任务、过程、分析。

1. 参与者

谁参与了每一项研究?有多少人参加了每一项研究?有没有异常值 (那些表现得与其他人不同的人)?

同一用户群是否参与定量研究和定性研究?这两项研究的参与者是如何招募的?回答这些问题可能发现结论相互矛盾背后的原因。

例如,研究人员可能决定招募具有不同专业水平的用户使用该产品。如果新手参与定量研究,但有经验的用户提供了定性反馈,那么参与者群体之间的差异可能会影响结果。

2. 任务

定量研究包括哪些任务?

在执行公司的一些核心任务时,用户可能更有效率。但是,如果用户经常参与一系列广泛的任务,那么在整个系统中可能不会存在其在产品某个区域的效率提高。

定性访谈之前有多少曝光?

如果研究人员只是在笔记本电脑上拉出新版本,指出它,并询问参与者他们的想法,而不给他们实际完成任何任务的机会,这可以解释一些负面的反应。

如果 UI 没有足够的时间来探索其功能,那么用户可能只是对 UI 看起来新颖且不同的事实做出了反应。

定量研究之前有多少曝光?

用户在测试系统之前是否给出了任何练习任务?他们是否接受过研究人员的任何培训?如果定量参与者比定性参与者更多地接触新系统,他们就有时间克服他们最初的负面反应并学会使用新产品。

3. 过程

这些研究是如何进行的?

我们需要验证研究是否以合理的现实方式进行——研究具有外部有效性。

例如:假设该产品总是在工厂车间使用,用户会受到很多环境噪音和干扰。如果研究是在安静的会议室进行的,那么用户可能会在新版本中表现更好,但是设计的某些方面可能会使其在现实条件下表现更差。

此外,我们还需要检查是否存在一些意外问题,因为如何进行定量研究可能会对结果产生偏差,我们可以问:谁在审核这些测试?主持人有多少经验?

即使很小的混杂变量也可能产生无效结果,例如:想象一下,如果测试新版本产品的所有参与者都是在星期一早上参与测试,测试旧版本的所有参与者在星期五的晚上参与测试。这就可能很容易出现关于测试时间的问题,这些测试会影响参与者的表现。

4. 分析

我们有统计学意义吗?

对于定量研究,两种设计之间的差异是否具有统计学意义?换句话说,新版本的任务时间是否更可靠且不太可能产生随机变化?

如何分析任务的时间?在许多研究中,任务时间仅包括那些成功的尝试。比如新设计比旧设计更快,但成功率是否可比?如果平均任务时间增加 2 分钟,但成功完成任务的用户比例下降了 40%,那对公司和用户来说仍然是坏事。

人们遇到了哪些类型的错误?我们不仅应关注任务,还应关注定量研究期间收集的其他指标,看看它们是否都表明新产品更好。即使新设计的错误较少,但它们可能比旧系统的错误更严重,并且影响了用户在定性研究中的态度。

解释结果

如果我们发现方法中没有实质性的错误或解释,那么就该考虑这两种质量标准(定量效率和定性满意度)之间的冲突可能意味着什么。

作为专业人士,我们的工作就是倾听用户的意见。正如任何经验丰富的用户体验专家都会告诉你的那样,虽然这听起来比实际更容易。因为我们不能只听取用户的意见,并遵循他们逐字记录的请求。

人们通常不知道他们真正想要什么,而且你的用户不是系统的设计者,他们无法以你的方式看到大局。更糟糕的是,他们的反馈往往受到其他因素的影响(错误的记忆,社会压力,心理偏见等)。

我们不能只是问人们他们想要什么,做他们告诉我们的事情。我们必须收集混合数据(定量,定性,自我报告和观察)才能真正了解正在发生的事情,然后我们可以使用该信息来解释用户所说的内容。

那么,在文章开始的例子中,我们应该如何理解用户反馈?这似乎与定量数据相矛盾吗?我们需要看看为什么这些人可能对客观上更好的产品做出如此负面的反应,而定量研究中的任务时间似乎能更好地反应。

感知的可用性可能与客观可用性不同

不幸的是,我们并不确切地知道这个特定团队在定量研究中减少了多少时间,这可能意味着几秒钟或几分钟。从公司的角度来看,即使减少秒数也可能是非常有益的。

想象一下,成千上万的员工每年要执行这项任务数千次 ,作为公司层面,这些效率提升很快就会增加,并可以节省成本。

但是,从个人用户的角度来看,这些收益可能并不重要。如果这是几秒钟的改进,个别用户可能甚至没有意识到新系统实际上更快,因为她没有看到自己的任务时间或其他参与者的时间。

人们不喜欢变化

上述这个复杂的企业产品的用户几乎每天都在使用它工作,他们中的一些人多年来一直使用相同版本的应用程序。即使它不是最有效的,他们也已经习惯了,他们知道它是如何运作的。

通过改变事物,研究团队要求用户投入精力来熟练掌握新版本(用户讨厌改变这是一个常见的发现,这也是在发布之前进行研究的原因,以便可以最大限度地减少后续更改)。

如果定量研究中的用户在测试之前接受了新系统的培训或实践,则可能存在一些初始滞后,引入新界面时,复杂的任务学习新界面需要花费相当多的时间,效率低于仅使用旧的熟悉界面执行任务的人。

下一步

我对这个团队领导的建议是,首先考虑用户反馈背后的这些原因,然后退一步看看更具体的问题。当然,在用户体验中,定量数据不应该自动否决定性信息或设计者的直觉(采用这种方法会导致滑稽的设计错误)。

在权衡相互矛盾的结果时,我们必须意识到——我们始终希望用户能够高效,高效地使用我们的产品。

由于赌注很高,并且团队的研究预算也并不宽泛,我的建议是做出更多的调查,看看这个假设是否正确。团队可以尝试与新用户进行定性测试,选择与之前的系统接触程度最小的人,看看他们的反馈是否有所不同。

或者,团队可以进行系统的可学习性研究,通过多轮定量可用性测试来跟踪任务时间、任务完成情况和长期满意度,之后准确完整地描述用户表现和满意度随着人们获得新产品体验而变化的情况。

如果新设计确实比旧设计更好,那么团队应该期望满意度和性能测量(任务时间和任务完成)随着时间的推移而增加,并最终达到与当前设计相当或更好的数字。该研究也很好地解释了——到底需要多久才能克服用户最初的负面反应。

如果这些研究表明最初的负面反应会被长期满意度和生产率提高所取代,那么团队可以确信它正朝着正确的方向前进。

于是,他们可以计划新系统的增量部署,允许当前用户在准备好时(而不是在紧迫的截止日期之前)选择使用新产品可以减少短期的挫败感。

或者,另一个可能的研究结果是——新设计大多是好的,但旧设计中有一些好的方面应该保留在新版本中。

理解各种结果的矛盾是进行用户体验研究的挑战(和乐趣)的一部分。每种方法都只是一条信息,从不同的角度看待我们的用户或我们的产品。数据可以告知我们信息和结果,但最终,我们还是要根据自己的分析思路做出最佳选择。

本文编译部分来源:

https://www.nngroup.com/articles/interpreting-research-findings/

 

作者:Kate Moran

编译来源:用户行为洞察研究院

本文由 @用户行为洞察研究院 翻译发布于人人都是产品经理。未经许可,禁止转载

题图来自Unsplash,基于CC0协议

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 真,好文,点醒我了。

    回复
  2. 很棒

    回复
  3. 学习了

    回复
    1. 🌝

      回复
  4. 很棒的分析过程,很明显的翻译腔😂

    回复
    1. 哈哈 毕竟话锋要正经

      来自北京 回复
  5. 人们通常不知道他们真正想要什么,而且你的用户不是系统的设计者,他们无法以你的方式看到大局。更糟糕的是,他们的反馈往往受到其他因素的影响(错误的记忆,社会压力,心理偏见等)。对头

    回复
  6. 你好咱们产品经理都是需要那些软件

    回复
    1. 神策数据了解一下 😉

      来自北京 回复