AR设计师需要了解的6个技术点

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

林影落

2020-12-16

0 评论 4633 浏览 20 收藏

10 分钟

编辑导读：AR界面作为一个触点，实现了人和机器双方的联结，进行了信息的交流和转化。作为一名AR设计师，要对硬件和软件的技术有所了解，才能实现AR智能化发展。本文作者列举了AR设计师需要了解的6个技术点，与你分享。

和屏幕UI一样，AR界面本身并不等于我们所要探索的自然交互方式，它只是一个触点。通过这个触点，机器与人实现了双方的联结，进行信息的交流和转化。

为了实现人机间更自然的交互方式，在我们所看到的AR界面背后，需要许许多多包括硬件和软件层面的关键技术来支持它实现智能化发展。作为AR领域的设计师，自然需要对这些技术术语及基本原理有所了解，才能更好的发挥自己的专长，赋能技术更早的面向应用层面和生产层面。

这篇文章，我主要以设计师的角度来理解和分享这些技术术语，确保我们在设计的时候对AR界面下的基本技术和通识概念有所了解。

一、FOV

Field of view的缩写，是AR设计中所设计对象的显示区域，在之前的文章里我也有介绍过。它可以理解为屏幕UI设计里的手机屏幕、电脑屏幕，如果使用视频流式的显示方案两者区别不大，如果使用光学显示方案区别就会比较大。大家一般在网上所看到的AR应用视频，其实都是视频流显示方案的效果，和真实带上光学式AR眼镜的感觉是完全不同的。

光学方案下AR设计中的屏幕没有固定的物理尺寸，大小主要由设备里的光学仪器能够显示出来的视角场范围决定，距离越远，虚拟物体能显示的范围越大。这个距离是可以由设计定义的，但由于设备和人眼等限制问题，在设计中并不是越远越好。

现在的光学技术所能提供的虚拟显示区域并不大，以比较先进的50°FOV视场角为例，1080P屏幕在1.5m距离的显示大小，换算成真实世界尺寸大概为1.16×0.51m。

二、手势

对于头戴式设备来说，手势操作是一种理想的交互方式。它作为物理世界里本来存在的自然交互方式，对物体的抓取，移动等，有不可置疑的体验优势。但要在AR的世界里实现这样的交互，首先必须要满足用户使用手势的手是在机器的识别FOV范围内的，否则它无法被机器所识别，也无法做出反馈。

需要注意的是，这里的FOV与上面的显示FOV不是同一个FOV，是指另外一个硬件（TOF相机）的FOV。

总的来说，我们在加入手势交互的时候，要了解对应设备与手势有关的效度，精度和准度，以辅助我们形成更完整的设计方案。效度就是指手势在什么条件下是有效的，起作用的。一般来说，现在的TOF相机的FOV都不太大，很容易跟丢或认错手势的运动。精度是指设备可以识别到什么程度的手势，比如是否能区分一只手指和两只手指的区别。准度是指设备对此手势的判读是否准确无误，错误或与其他手势混淆的概率是多少。

三、SLAM

Simultaneous localization and mapping的缩写，是一种同步定位与地图构建的技术。即是让设备知道两个问题：我所处的环境是什么样子的？以及我在哪的问题。最早用于机器人领域，现在在多个人工智能领域都有所运用。

图片来源：Hololens 网站

由于这门技术还属于正在发展中的一项技术，具体的实现方式也会各有不同，一般是通过设备的相机、传感器等输入设备，经过计算得出自身定位坐标和地图构建。由于依赖于相机等输入设备来进行实时计算，对AR设备来说，用户使用时的位置和姿态会影响其输入，网络延迟造成的丢帧现象也会影响其输入，实际的环境和光线强弱造成的曝光现象也会影响其输入，在设计的时候考虑到这些情况，就可以在用户使用的时候做出引导或反馈性的设计，来更好的提升技术限制所带来的用户体验问题。

四、3DOF VS 6DOF

这两个术语其实可以归类于SLAM技术下，和经过SLAM技术所得出的坐标位置有关。DOF就是自由度的意思，也就是3个轴向和6个轴向的问题，关系到设备在人机交互中可以支持到的程度。

3种平移自由度（3DOF）+3种旋转自由度 = 6种自由度（6DOF）。

图片来源：https://www.sohu.com/a/418784025_230122

五、物体识别

相较于SLAM是让设备（机器）回答“我在哪，我来去何方？”的问题，我理解物体识别是让机器回答 “他是什么？” 的问题。在维基百科里的解释是“计算机视觉及影像处理中的术语，指的是让计算机去分析一张图片或者一段视频流中的物体，并标记出来。这需要给神经网络大量的物体数据去训练它，这样才能进行识别。”

怎么理解这段话呢？简单的说，如果把机器比作小孩子，当我们需要小孩子去认识三维世界一个叫苹果的东西，首先需要给与他真实的苹果或大量的苹果照片去告诉他这就是苹果，也就是上面所说的大量物体数据，这样在新遇见一个苹果的时候，他才能准确的认知到这是苹果。机器也是一样。

图片来源：公司内部培训资料

是否能正确的识别出这个物体，除了之前输入的数据以外，还受限于物体本身是否易于识别，这个物体的背后是否有过多干扰，当时环境的光线是否过于明亮或昏暗等。

由于技术难易程度的不同，使用视频流显示方案比使用光学显示能获得更精准和快速的识别效果。如果是需要稳定度更高的工业应用，可以更多的考虑视频流显示方案。

六、特征点

这个术语可以看做SLAM和物体识别所衍生出来的技术术语，我们知道，SLAM和物体识别都需要依赖于摄像机的输入，它相当于机器的眼睛。而在机器看来，一副生动的图像其实是由无数的像素点构成的，每一个像素都可以翻译成0~256的RGB数值，当某一个像素点和周围的像素点数值特别不一样的时候，这个点就成为了值得机器去关注的一个特殊的点，它可能代表某个物体的边缘位置，或者某个空间的转角界限。

这个特殊的点，就是特征点。

当你要定义一个虚拟界面属于A类和B类的时候（《AUI中的四种分类模式》），可以提前考虑这个场景或者物体的特征点是否足够稳定和相对不变，在机器的性能、算法、环境，甚至用户本身的使用条件下，设计效果图里的理想状态所出现的概率有多大，是否能满足产品所定义的场景应用等。

在以“人”为核心设计界面的同时，对基本的技术术语有所了解，不仅更方便与研发沟通，也更了解当前技术下所能达到的设计边界，从而更好的探索AR领域下的人机自然交互。AR界面本身只是一个触点，它并不等于智能化，要实现更好的人机交互，就必须依赖于背后更多技术的综合应用。

作者：林影落，10年+体验设计师，专注AR及创新领域设计；微信公众号：林间有影落

本文由 @林影落原创发布于人人都是产品经理，未经许可，禁止转载

题图来自 Unsplash，基于 CC0 协议

更多精彩内容，请关注人人都是产品经理微信公众号或下载App