具身智能的“视界观”：AI视觉感知传感器全景解析

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

具身智能的“视界观”：AI视觉感知传感器全景解析

杰克说AI

2025-12-12

0 评论 983 浏览 0 收藏

19 分钟

本文深入探讨了具身智能感知技术的多种传感器，包括单目视觉、双目视觉、结构光、ToF、激光雷达和事件相机等，分析了它们的技术原理、优缺点及应用场景，展望了未来具身智能感知系统的发展趋势。

1 具身感知

在讨论具体视觉传感器之前，先抛出一个问题：为什么具身智能的感知如此困难？

传统的工业机器人工作在结构化环境中，坐标是确定的，光照是恒定的。而具身智能面临的是充满不确定性的现实世界——强烈的阳光干扰、透明的玻璃幕墙、快速移动的行人以及纹理缺失的白墙。

1.1 从2D图像到3D语义的跨越

感知的本质是信息的重构。摄像头捕捉的是3D世界在2D平面上的投影，这个过程伴随着维度的丢失（深度信息消失）。感知的核心任务就是通过算法或主动探测手段，把这个丢失的Z轴找回来，并在此基础上叠加语义信息（这是杯子还是石头？）和时序信息（向左还是向右移动？）。

这一过程不仅依赖于传感器本身的性能（信噪比、动态范围），更依赖于后端算力的支撑。随着NVIDIA Orin等大算力芯片的普及，原本受限于计算瓶颈的算法（如OCC占用网络）得以在端侧实时运行，推动了感知技术的代际跃迁。

1.2 主动感知与被动感知的博弈

基于场景定义产品形态，首先要面对的决策是：主动感知（Active Sensing）vs被动感知（Passive Sensing）。

被动感知（如单目、双目）：像人眼一样，不发射能量，仅接收环境光。隐蔽性好，功耗低，无多机干扰，但极度依赖环境光照和纹理。
主动感知（如LiDAR、ToF、结构光）：像蝙蝠一样，向环境发射能量（激光、红外光）并接收回波。精度高，不受光照影响（除非阳光过强导致饱和），但存在功耗高、多机干扰和材质吸收问题。

2 单目视觉

单目视觉是目前最具争议也最具潜力的技术路线。以Tesla为代表的“纯视觉派”从第一性角度认为，既然人类靠双眼（实际上大部分时间靠大脑对单眼信息的脑补）能开车，机器人也应该可以。

2.1 技术原理

传统的单目测距极其困难，因为一张照片中，近处的小车和远处的大车可能占据相同的像素面积（尺度模糊性）。

现代单目视觉不再依赖几何计算，而是依赖数据驱动的先验知识。

自监督学习：利用视频序列中的帧间运动作为监督信号。如果一个物体在相邻帧中移动得快，它离得近；移动得慢，离得远。神经网络通过数亿帧的视频训练，学会了这种“直觉”。
BEV变换：将前视摄像头的透视图像，通过Transformer模型投影到俯视的3D空间坐标系中。这是实现自动驾驶和机器人路径规划的关键步骤。

2.2 核心算法：Occupancy Network

Tesla的Occupancy Network（占用网络），这是目前单目视觉的巅峰之作。

体素化：将机器人周围的空间切割成无数个微小的立方体（Voxel）。
状态预测：网络不输出“这里有辆车”，而是输出每个体素的“占用概率”和“语义标签”。
优势：它可以识别训练集中从未见过的异形障碍物（如侧翻的卡车、散落的石块），这是传统目标检测算法无法做到的。

通过稠密的空间体素占用确定感知结果，为预测和规划提供更加准备的条件。

2.3 硬件选型与工程挑战

传感器：通常选用高动态范围的CMOS以应对隧道出口或逆光场景。
视场角 (FoV)：往往需要鱼眼（Fisheye）与长焦（Narrow）组合。接近量产的Tesla Optimus 3.0应该就是采用和cybercab前后周视和后视这五个摄像头一样的摄像头。共5个摄像头，前面2个，侧向2，正后1个。
算力门槛：单目视觉是“硬件省钱，软件烧钱”。它需要极高的端侧推理算力来运行巨大的Transformer模型，否则延迟会高到无法接受。

3 结构光：工业级的毫米精度

如果说单目是“脑补”，双目就是“几何”。它是目前最具性价比、最成熟的近场深度感知方案，广泛应用于无人机、扫地机器人以及波士顿动力Spot。

3.1 技术原理：三角测距的几何美学

双目相机模仿人眼，利用两个平行放置的摄像头之间的视差来计算深度。

3.2 极线矫正与立体匹配

双目的核心难点在于立体匹配——要在左图中找到一个点，然后在右图中找到完全相同的那个点。

被动双目 (Passive Stereo)：纯靠图像纹理。

死穴：遇到白墙（无纹理）或重复纹理（瓷砖地、绿草地），算法无法匹配，深度图会出现空洞。

主动双目 (Active Stereo)：为了解决白墙问题，在两个摄像头中间加一个红外投影仪，向墙面打上伪随机散斑。这样即使是白墙也有了“人造纹理”。

4 结构光：工业级的毫米精度

结构光是3D感知的“显微镜”，它在近距离（<1.5米）拥有无与伦比的精度，是机械臂抓取和FaceID人脸识别的首选。

4.1 技术原理：编码光场的形变

结构光不依赖两个摄像头找不同，而是通过一个投影仪投射特定的编码图案，再用一个摄像头拍摄图案在物体表面的形变。

格雷码 (Gray Code)：投射一系列黑白相间的条纹。精度高，鲁棒性好，但需要连续投射多帧图像，因此只能测静止物体。
相移法 (Phase Shift)：投射正弦波条纹，通过相位的偏移计算深度。精度可达微米级，但同样怕动。
MEMS散斑 (Speckle)：如第一代Kinect和iPhone前置。投射数万个离散光点。只需要一帧图像，适合动态场景，但精度略低于条纹法。

4.2 致命弱点与应用局限

结构光是典型的“室内温室花朵”。

阳光致盲：室外阳光中的红外成分远强于投影仪的功率，会瞬间淹没编码图案，导致室外完全失效。
距离限制：光能随距离衰减，超过2米后信噪比急剧下降。
多机干扰：两个机器人的结构光投影仪如果照在一起，图案会互相干扰，导致谁也算不准。

4.3 具身智能中的应用

在人形机器人中，结构光通常安装在手腕处 (Eye-in-Hand)。当机器人伸手去抓一个反光的螺丝钉，头部的相机可能看不清细节，但手腕上的结构光可以提供亚毫米级的操作引导。

5 ToF：光速的测量艺术

ToF（飞行时间）技术是近年来增长最快的领域，得益于苹果在iPad/iPhone Pro上的引入，ToF已经从工业神坛走向了消费电子。但“ToF”是一个大筐，里面装了两种截然不同的物理原理：iToF和dToF。

5.1 iToF (Indirect ToF)：相位的游戏

iToF并不直接掐表测量时间，而是发射连续的调制光波（如正弦波），测量回波与发射波之间的相位差 (Phase Shift)。

优点：使用标准的CMOS工艺即可制造，分辨率可以做得很高（如VGA、百万像素），成本相对较低。

缺点：

相位模糊：就像时钟转了一圈回到原点，如果物体距离超过了调制波长（例如5米），相位会发生卷绕（Wrapping），导致5.1米被误判为0.1米。
多径干扰：光线打到墙角反弹多次回到传感器，会导致测量出的角落是圆角的，这对机器人沿墙走是致命的误差。

5.2 dToF (Direct ToF)：光子秒表

dToF是真正的“掐表计时”。它发射极短的激光脉冲（纳秒级），利用SPAD（单光子雪崩二极管）捕捉反射回来的第一个光子，直接计算。

优点：

抗干扰强：脉冲能量极其集中，能穿透阳光。
无模糊距离：测到多少就是多少，没有相位卷绕。
低功耗：激光器大部分时间在休息。

技术突破：以前dToF很难做高分辨率，但随着Sony等厂商攻克了SPAD阵列堆叠技术，现在已经有了几万像素的dToF传感器（如iPhone LiDAR）。

5.3 选型指南：iToF vs dToF

选iToF：如果你需要近距离（<5米）的高分辨率3D建模，且主要在室内使用（如扫地机避障）。
选dToF：如果你需要中远距离（>5米），或者经常在室外工作，或者需要极低的功耗（如无人机定高）。

6 激光雷达 (LiDAR)：构建上帝视角

激光雷达本质上是dToF技术在空间上的扫描延伸。它是所有传感器中真值属性最强的——无论算法多烂，激光雷达扫到的墙一定就在那里，不会像视觉那样把白墙看成无限远。

6.1 技术演进：从机械旋转到固态芯片

LiDAR是目前硬件迭代最激烈的战场，存在多条技术路线博弈。

机械旋转式 (Mechanical)

形态：经典的“全家桶”，头部360度旋转。
原理：垂直排列多束激光器，通过马达带动整体旋转进行扫描。
局限：成本高昂，机械部件寿命短，体积大，难以集成进人形机器人的体内。目前正逐渐被边缘化，主要用于Robotaxi开发验证。

混合固态 (MEMS/转镜)

形态：只有内部微小的镜面在动，外观不动。
原理：利用MEMS微振镜反射激光束进行扫描。
优势：车规级可靠性，成本可控，体积小。是目前Unitree B2、CyberDog 2等高端四足机器人的首选。
视场角限制：通常只有120°的前向视角，不像机械式那样自带360°。因此机器人通常需要前后各装一个，甚至侧面也要装。

纯固态 (Flash/OPA)

Flash LiDAR：就像拍照一样，一次闪光照亮全场，用SPAD面阵接收。完全无运动部件，极其耐造。但受限于功率密度，目前探测距离较短（<50米），常作为补盲雷达。
OPA (光学相控阵)：利用硅光芯片调节光波相位来改变光束方向，是LiDAR的终极形态（类似相控阵雷达）。目前仍处于实验室阶段，良率和旁瓣干扰是难题。

6.2 波长之争：905nm vs 1550nm

905nm：硅基探测器，成本低，产业链成熟。但为了人眼安全（不烧伤视网膜），发射功率受限，探测距离难做远。
1550nm：铟镓砷（InGaAs）探测器，成本极高。但该波长会被人眼角膜吸收，不伤视网膜，因此可以肆无忌惮地加大功率，看透雨雾和长距离（>250米）。

6.3 3D点云与SLAM

LiDAR输出的是点云 (Point Cloud)——数百万个(x,y,z,反射率)坐标点。

LOAM/LIO-SAM算法：机器人利用点云进行SLAM（即时定位与建图），精度可达厘米级。这是视觉SLAM（VSLAM）难以比拟的稳定性。
痛点：点云数据稀疏，缺乏颜色和纹理。虽然知道前面有个物体，但很难知道它是纸箱还是石头。

7 事件相机：神经形态的毫秒级反应

如果说前面的传感器都在模仿“眼睛的结构”，事件相机模仿的是视网膜的神经元机制。这是一个可能颠覆未来5年机器视觉的黑科技。

7.1 技术原理：只关注变化

传统相机不管画面动不动，都按30fps傻傻地拍照。事件相机（Event Cameras）的每个像素都是独立的神经元。只有当光照强度变化超过阈值时，该像素才会被激活，发送一个信号（Event）。

输出：不是图像，而是连续的事件流，其中是微秒级的时间戳，是极性（变亮还是变暗）。

7.2 降维打击的优势

极低延迟：响应速度是微秒级的（<1ms），比传统相机快100倍以上。非常适合捕捉高速运动（如接球、躲避飞来的物体）。
超高动态范围 (HDR)：>120dB。能同时看清隧道内的黑暗和出口的强光，这对于机器人进出室内外至关重要(40)。
无运动模糊：因为没有“曝光时间”的概念，高速旋转的扇叶也能看得清清楚楚。

7.3 应用困境

虽然物理性能无敌，但算法太难了。现有的CNN、Transformer都是为帧图像设计的，无法直接处理异步的事件流。目前主要用于极速避障和视觉伺服，尚未成为主摄。

8 未来趋势预测

具身智能的视觉感知，本质上是在用硅基的材料去逼近碳基的奇迹。

在这个技术爆炸的时代，没有最完美的传感器，只有最适合场景的感知组合。站在2025年的节点，具身智能的感知系统正处于收敛的前夜，做一下预测：

LiDAR的退守与进化：随着视觉算法的进步，高线束机械LiDAR将彻底退出人形机器人市场。取而代之的是低成本、芯片化的固态LiDAR（Flash/OPA）。
端到端感知的崛起：传统的“感知-规划-控制”模块化架构正在瓦解。未来的传感器数据可能不再生成点云或地图，而是直接输入到端到端大模型（E2E Model），直接输出电机扭矩。
事件相机的爆发：随着机器人运动能力的提升（跑酷、接飞盘），传统相机的帧率将成为瓶颈，事件相机必将成为高性能机器人的标配。

注：本文引用的数据和参数基于2024-2025年的行业公开资料及技术白皮书。

本文由 @杰克说AI 原创发布于人人都是产品经理。未经作者许可，禁止转载

题图来自Unsplash，基于CC0协议

更多精彩内容，请关注人人都是产品经理微信公众号或下载App