可用性测试，到底需要找多少个用户？

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

可用性测试，到底需要找多少个用户？

TCC翻译情报局

2023-02-08

0 评论 6110 浏览 8 收藏

8 分钟

可用性测试到底需要多少参与者？本文作者经常被问及。由五名参与者进行的可用性研究将发现超过 80% 的界面问题，他介绍得出该结论的依据，并且统计抽样方法也得出了相同结论。5-10 名参与者是一个合理的基线范围，应在每次研究之前进行评估，并附上了需要考虑的一些事项。

人们经常问我：我们的可用性测试需要找多少个用户？

这个问题是用研人员和利益相关者间存在大量争论的根源。作为专业人士，我们的目标是可靠性与业务目标及其他影响因素（例如时间和预算）之间取得平衡。这意味着我们应识别出不同样本量测试中潜在的风险和影响，并为不同研究项目推荐最佳的小组人数规模……

通常，在不清楚可用性测试内如何及什么环节使用这些用户，用研人员就接受了关于可用性研究流行的人数建议。典型例子是尼尔森 (Nielsen) 的建议：“由五名参与者进行的可用性研究将发现超过 80% 的界面问题”。这个著名的建议基于维尔奇 (1992) 和尼尔森 (1993) 的研究。

根据麦斯菲尔德 (2009) 的说法，他们是这样得出这个结论的：“100 组 5 名用户参加发现界面问题。该研究的确发现，在所有 100 组中发现的问题的平均百分比约为 85%。然而，这个数字有 95 % 的置信水平和 ±18.5% 的误差范围。这意味着对于任何一个特定五人组，发现问题的百分比有 95% 的可能性在 66.5%-100% 的范围内。事实上，一些五人组确实（实际上）识别了所有问题;然而，一个五人组只发现了 55% 的问题。”

最近，福克纳 (2003) 尝试使用统计抽样方法回答同样的问题。她发现，平均而言，尼尔森的预测是正确的。在 100 次模拟测试中测试 5 名用户，发现平均 85% 的可用性问题是在更大的群体中发现的。然而，当仔细查看数据时，由 5 名参与者组成的小组发现的可用性问题的范围从几乎 100% 到只有 55%（类似于早期的研究）。这对用研人员意味着什么？当我们只依赖 5 名用户时，我们冒着错过几乎一半可用性问题的风险。

回顾福克纳的结果，我们看到增加参与者的数量，可以解决问题并提高研究结果的可靠性。更具体地说，10 名参与者平均可以发现 95% 的问题（范围从82% 到 100%）。参与者增加到 15 名可以平均识别 97% 的问题（范围为 90% 到 100%）。

用户研究｜你的可用性测试到底需要多少人

福克纳 (2003) 的表格显示了不同的参与者群体规模如何影响研究达到问题发现的水平。

当然，招募超过 5 名用户并不总是可行的，而且我们不希望一次发现所有可用性问题！那么应该怎么做呢？

就像用户研究存在诸多方面，没有一种适合所有方面的方法我们可以采用！答案取决于许多因素，应在每次研究之前进行评估。需要考虑的一些因素如下：

研究的影响结果：如果你没有尽可能多地发现可用性问题，会有什么风险？与测试购物 app 中的新功能相比，测试一个以人们生命为代价的系统时，可用性问题带来的风险会更高。影响越大，你应该招募的参与者就越多。
正在测试的产品/系统的复杂性：最佳小组规模应受研究复杂性的影响，更复杂的研究需要更多的参与者。可以通过一些标准来评估研究的复杂性：被测系统的复杂性、所用任务的范围和复杂性、参与者的多样性等。
目标用户群体：如果你正在开发存在不同用户类型的产品，你测试来自所有类型的用户以获得有效结果。例如，如果你有两种不同的用户类型，你需要从每个类型（例如5个卖家和 5个买家）中招募一个具有代表性的用户样本。
开发周期的阶段：位于越早的开发过程，就越有可能发现影响产品功能的严重错误。因此，可以从招募较小的样本开始。随着产品变得更改善和更优化，可用性问题更难发现，需要更大的样本。
用户必须使用的主线任务：测试的任务越多越复杂，需要的用户就越多。当要求用户完成基础的主线任务时，你可以使用较小的样本量。
研究目的：研究目的会影响我们需要招募多少用户。例如，出于政治原因（比如说服利益相关者）进行可用性研究需要小样本（2-3名参与者），但如果想测试新产品的可用性，则需要更大的样本来帮助我们发现尽可能多的问题。

根据麦斯菲尔德 (2009) 的评论，可以证明：“对于大多数发现问题的研究，3-20 名用户的小组规模是有效的，5-10 名参与者是一个合理的基线范围，并且小组规模应该随着研究的复杂性和背景的重要性而增加”。

注意：如果测试质量差，再多用户参与都无济于事……

研究表明，可用性测试的结果很大程度上取决于评估者（雅各布森和赫茨姆研究，2001）。例如，使用无效的测试任务或不正确地促进会话。可用性测试中的错误并不少见 —— 即使是有经验的研究人员也会犯错。

正如莫利奇 (2010) 建议的那样，如果我们使用糟糕的方法，无论参与群体的人数规模如何，研究的结果都会很糟糕…… 选择正确的方法并努力防止评估者的错误应该是首要事项。

原文作者：Dr Maria Panagiotidi（本文翻译已获得作者的正式授权）

原文：uxpsychology.substack.com/...

译者：周佳悦；审核：徐曼鹭；编辑：孙淑雅；微信公众号：TCC翻译情报局（ID：TCC-design）；连接知识，了解全球精选设计干货

原标题：用户研究｜你的可用性测试到底需要多少人

本文由@TCC翻译情报局翻译发布于人人都是产品经理，未经许可，禁止转载

题图来自 Unsplash，基于 CC0 协议

该文观点仅代表作者本人，人人都是产品经理平台仅提供信息存储空间服务。

更多精彩内容，请关注人人都是产品经理微信公众号或下载App