没有埋点数据时,如何证明你的方案有效性?

6 评论 6327 浏览 42 收藏 13 分钟

大部分的产品或者场景下其实是没有埋点数据,或是因为某些原因拿不到各项数据。本文介绍了如何利用NASA-TLX与PANAS量表量化方案有效性。帮助你提供证据证明你的解决方案真正的达到了商业预期。

对于一个设计解决方案来说经常被问到:你怎样验证你的方案的有效性?或是你怎么证明你是否真的达到了你的商业目标?

这个问题的根本是需要证明你的方案是有效的,除了客观的行为数据,我们还可以通过量化用户心理数据来提供证明方案的有效性。

在大数据时代的当下,我们过分强调线上结果数据,从而忽视了对于用户心理层面的调研分析,甚至直接使用线上客观数据直接用于判断和建立一些知识体系,这就是数据化的弊端,我们很容易被各类数据所淹没,这对于认识世界真正的客观规律的知识模型的建立不利,也对今后的商业决策产生负面的影响。

一份有效的用户分析,应该既包含生理上的,也包含心理上的。生理上我们现在常见的眼动仪、点击率、转化率这类生理行为的商业客观数据,但如果我们需要更好的进行迭代产品或是寻找产品方向,那么我们就应也注重在用户的心理层面的研究分析。

社会分工不断细分的今天都没离开一个基础的课题「研究人」,用户研究也离不开人的属性,对于用户的研究就是对于人的研究。

在时间的验证下,沉淀了一些方法,其中NASA-TLX量表是用于衡量用户在使用产品时的心理负荷水平,PANAS量表是用于评估用户在使用产品的情绪状态,这些标准化量表可以帮助产品打磨开发过程中快速得到能直接使用的问卷问题,但我们在产品开发的不同周期中,对于用户研究的目的与情景都差别很大,如果仅仅直接使用标准化量表进行用户调研和分析,很有可能与你的目标相违背,从而达不到用户研究想要的结果。

所以本文的目的:

  1. 介绍NASA-TLX与PANAS量表
  2. 如何利用标准化量表建立属于你的量化解决方案的有效问卷?

一、什么是NASA-TLX(Task load Index)《NASA任务负荷指数量表》 ?

用户在使用产品过程中的心理负荷水平意味着直接影响着对于用户使用过程中认知模型的刺激。

NASA任务负荷问卷(NASA-TLX, NASA Task Load Index) 是一个主观的工作量评估工具,主要用途是对各种用户界面系统的操作人员进行主观的工作量评估。通过采用多维评级程序,美国国家航空航天局 TLX 根据六个加权平均数的评级得出总体工作量评分:

  1. 脑力需求(Mental Demands);
  2. 身体负担(Physical Demands);
  3. 时间需求(Temporal Demands);
  4. 任务绩效(Own Performance);
  5. 努力程度(Effort);
  6. 挫败感(Frustration)

翻译过来就是:

二、什么是PANAS(Positive Affect and Negative Affect Schedule)《积极与消极情绪量表》?

PANAS量表是由三位美国心理学家David Watson,Lee Anna Clark和Auke Tellegen于1988年开发。当时,PANAS量表主要用于测量执行研究任务时的感觉和情感变化。该测试还用作小组研究中的研究工具。

这种心理测验量表,显示了性格统计数据和特征与正负情绪之间的关系。在填写调查表时,重点是要确定一个人当时的感受。到现在PANAS量表现已成为衡量情绪变化的标准方法。

翻译过来:

完整的PANAS情绪量表共有20个因子,I-PANAS-SF是后来基于PANAS开发出的一套更短更简洁的版本,它删除了一些有歧义和需要解释的空间,并由含义明确的词所替代,使各个国籍的人都能以相同的方式理解成为了国际上可使用的更可靠的测试量表。

I-PANAS-SF

三、如何利用标准化量表建立属于你的有效问卷?

国际上用于衡量用户体验或可用性的标准化量表有很多,由于我所在的业务的特性,从这两个标准化量表中提取与转化一部分为针对我用户研究目标的问题。

上文我构建了AST模型也阐述了为什么我需要这三个维度的来验证我的方案,这是基于我的业务目标来说我需要获得这三个维度的用户反馈信息,

它衍生出的三个方向也是我进行用户研究的三大目的:

  1. 吸引,在一个交互片段前能否逐步吸引用户不断获取信息?
  2. 刺激,在一个交互片段中对用户认知模型的刺激量有多大?(不论是刺激调动/形成认知模型还是刺激促成行为)
  3. 信任,在一个交互片段后用户对本次体验的认知修正量有多大?

第一步:基于调研目标提取问卷因子

从这些标准化量表中提取与我目标相关的因子,我这里转化提取了7个因子,在问卷中使用时,尽量正反词穿插使用,避免依赖性,评估刻度使用Likert五分量表法

第二步:评估建立因子与目标维度的相关性

根据你所在业务的特性评估出每个问题对目标的影响程度的大小,在这里我想要了解的是产品使用过程中的吸引力,产品对用户认知模型的刺激程度,以及产品对用户产生的信任度。你只需要依据你调研的目标来建立问卷量表与你目标之间的相关度关系,不一定是我这里呈现的吸引,刺激,信任三大维度。

第三步:建立三个维度的衡量基准

当拿到量化数据后,我们还需要建立起评价基线,否则数据就仅仅是数据,一个好的解决方案对于用户来说或对于企业来说能接受的阈值为多少,也是需要跟你的情况进行评估衡量得出。

通过这样对用户填写轻松的量表,可以快速得到一个解决方案的体验数据。但对用户的研究不仅仅停留至此,这样的可用性量表得出的结果,它真正的目的是为你提供你的客户/用户对你粗粒度的信息反馈,从而为下次深度访谈获取细粒度信息或洞察分析提供线索。

用户行为的数据分析与对用户心理的数据分析,对于解决方案的决策或来说是同等重要的。在获取用户行为数据的同时,辅助可用性量表的方法能更有效进行在方案制作过程中或方案完成后的用户研究,且能直接帮助到设计方案早期的迭代与上线后的验证,从而让产品开发迭代过程形成一个可持续的闭环。

用户的研究或是可用性测试的意义,也不仅仅停留在表面的体验层迭代上,它对于商业战略层的分析和规划同样有着必要的提供依据的作用。

References

Di Stasi, L., Antolí, A., Gea, M., & Cañas, J. (2011). A Neuroergonomic Approach to Evaluating Mental Workload in Hypermedia Interactions. International Journal of Industrial Ergonomics, 41(3): 298-304.

Komlodi, A., Hou, W., Preece, J., Druin, A., Golub, E., Alburo, J., Liao, S., & Resnik, P. (2007). Evaluating a Cross- cultural Children’s Online Book Community: Lessons Learned for Sociability, Usability, and Cultural Exchange. Journal of Interacting with Computers, 19(4):494-511.

Preece, J., Rogers, Y., and Sharp, H. (2002). Handbook of Interaction Design: Beyond Human-Computer Interaction. New York: Wiley.

Bevan, N. (1995). Usability is Quality of Use. Advances in Human Factors/Ergonomics, 20: 349-354.

Hart, S., Staveland, L. (1988). Development of NASA-TLX (Task Load Index): Results of Empirical and Theoretical Research. Human Mental Workload (Amsterdam: North Holland Press), 139-183.

Hassenzahl, M. & Tractinsky, N. (2006). User Experience: A Research Agenda, Journal of Behaviour & Information Technology, 25(2): 91-97.

Lenker, J., Nasarwanji M., Paquet V., and Feathers, D. (2011). A Tool for Rapid Assessment of Product Usability and Universal Design: Development and Preliminary Psychometric Testing. Journal of Work, 39:141–150.

Watson, D., Clark, L. A., & Tellegen, A. (1988). Development and Validation of Brief Measures of Positive and Negative Affect: The PANAS Scales. Journal of Personality and Social Psychology, 54(6):1063-1070.

Hertzum, M., Hansen, K., & Andersen, H. (2009). Scrutinising Usability Evaluation: Does Thinking Aloud Affect Behavior and Mental Workload? Behavior & Information Technology, 28(2): 165-181.

Wei-Ying Cheng, Po-Hsin Huang, Ming-Chuan Chiu.(2014). Integrating physiological and psychological techniques to measure and improve usability: an empirical study on Kinect applying of health management sport. International Journal of Industrial Engineering, 21(6), 304-316.

Lin, H., Choong, Y., & Salvendy, G. (1997). A Proposed Index of Usability: A Method for Comparing the Relative Usability of Different Software Systems. Journal of Behaviour & Information Technology, 16(4-5): 267-277.

 

作者:WuP,公众号:WuP的设计视界

本文由 @WuP 原创发布于人人都是产品经理。未经许可,禁止转载

题图来自Unsplash,基于CC0协议

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 本质上就是用户问卷调查,只不过这里有个理论支撑,我们通过这两个量化方案指导如何制定问卷,如何分析问卷结果。这样理解正确嘛?

    来自四川 回复
  2. 两种量化表有评分调研的表格(比如1-5分有的),为啥没有评分分析体系呢(比如项目A得分6分,这6分意味着什么,代表什么样的结果成都)

    来自北京 回复
    1. 对的,你说的这一块也是重要的后续流程,我这里更侧重想讲这两份不太常见但有用的量表,建立完整的评价体系,我这里只一笔带过了,在第三步分数衡量基准的建立,是需要考虑到您说的这个点的,为什么定的6分是优秀和一般的分水岭,为什么有的维度5分就是优秀,以及为什么我们在某个维度上要达到优秀水平背后的意义或商业价值,是根据每个人具体的公司背景去灵活制定与评估得来的,这也是很大的一块要去拆解阐述。您这个确实是很好的问题,我在文章中因为内容篇幅有限没有表达出来🤝

      来自浙江 回复
  3. 看不懂 😈

    来自福建 回复
    1. 需要的时候就懂了

      来自浙江 回复
  4. 好复杂

    来自福建 回复