具身智能的“视界观”:AI视觉感知传感器全景解析

0 评论 224 浏览 0 收藏 19 分钟

本文深入探讨了具身智能感知技术的多种传感器,包括单目视觉、双目视觉、结构光、ToF、激光雷达和事件相机等,分析了它们的技术原理、优缺点及应用场景,展望了未来具身智能感知系统的发展趋势。

1 具身感知

在讨论具体视觉传感器之前,先抛出一个问题:为什么具身智能的感知如此困难?

传统的工业机器人工作在结构化环境中,坐标是确定的,光照是恒定的。而具身智能面临的是充满不确定性的现实世界——强烈的阳光干扰、透明的玻璃幕墙、快速移动的行人以及纹理缺失的白墙。

1.1 从2D图像到3D语义的跨越

感知的本质是信息的重构。摄像头捕捉的是3D世界在2D平面上的投影,这个过程伴随着维度的丢失(深度信息消失)。感知的核心任务就是通过算法或主动探测手段,把这个丢失的Z轴找回来,并在此基础上叠加语义信息(这是杯子还是石头?)和时序信息(向左还是向右移动?)。

这一过程不仅依赖于传感器本身的性能(信噪比、动态范围),更依赖于后端算力的支撑。随着NVIDIA Orin等大算力芯片的普及,原本受限于计算瓶颈的算法(如OCC占用网络)得以在端侧实时运行,推动了感知技术的代际跃迁。

1.2 主动感知与被动感知的博弈

基于场景定义产品形态,首先要面对的决策是:主动感知(Active Sensing)vs被动感知(Passive Sensing)。

  • 被动感知(如单目、双目):像人眼一样,不发射能量,仅接收环境光。隐蔽性好,功耗低,无多机干扰,但极度依赖环境光照和纹理。
  • 主动感知(如LiDAR、ToF、结构光):像蝙蝠一样,向环境发射能量(激光、红外光)并接收回波。精度高,不受光照影响(除非阳光过强导致饱和),但存在功耗高、多机干扰和材质吸收问题。

2 单目视觉

单目视觉是目前最具争议也最具潜力的技术路线。以Tesla为代表的“纯视觉派”从第一性角度认为,既然人类靠双眼(实际上大部分时间靠大脑对单眼信息的脑补)能开车,机器人也应该可以。

2.1 技术原理

传统的单目测距极其困难,因为一张照片中,近处的小车和远处的大车可能占据相同的像素面积(尺度模糊性)。

现代单目视觉不再依赖几何计算,而是依赖数据驱动的先验知识。

  • 自监督学习:利用视频序列中的帧间运动作为监督信号。如果一个物体在相邻帧中移动得快,它离得近;移动得慢,离得远。神经网络通过数亿帧的视频训练,学会了这种“直觉”。
  • BEV变换:将前视摄像头的透视图像,通过Transformer模型投影到俯视的3D空间坐标系中。这是实现自动驾驶和机器人路径规划的关键步骤。

2.2 核心算法:Occupancy Network

Tesla的Occupancy Network(占用网络),这是目前单目视觉的巅峰之作。

  • 体素化:将机器人周围的空间切割成无数个微小的立方体(Voxel)。
  • 状态预测:网络不输出“这里有辆车”,而是输出每个体素的“占用概率”和“语义标签”。
  • 优势:它可以识别训练集中从未见过的异形障碍物(如侧翻的卡车、散落的石块),这是传统目标检测算法无法做到的。

通过稠密的空间体素占用确定感知结果,为预测和规划提供更加准备的条件。

2.3 硬件选型与工程挑战

  • 传感器:通常选用高动态范围的CMOS以应对隧道出口或逆光场景。
  • 视场角 (FoV):往往需要鱼眼(Fisheye)与长焦(Narrow)组合。接近量产的Tesla Optimus 3.0应该就是采用和cybercab前后周视和后视这五个摄像头一样的摄像头。共5个摄像头,前面2个,侧向2,正后1个。
  • 算力门槛:单目视觉是“硬件省钱,软件烧钱”。它需要极高的端侧推理算力来运行巨大的Transformer模型,否则延迟会高到无法接受。

3 结构光:工业级的毫米精度

如果说单目是“脑补”,双目就是“几何”。它是目前最具性价比、最成熟的近场深度感知方案,广泛应用于无人机、扫地机器人以及波士顿动力Spot。

3.1 技术原理:三角测距的几何美学

双目相机模仿人眼,利用两个平行放置的摄像头之间的视差来计算深度。

3.2 极线矫正与立体匹配

双目的核心难点在于立体匹配——要在左图中找到一个点,然后在右图中找到完全相同的那个点。

被动双目 (Passive Stereo):纯靠图像纹理。

死穴:遇到白墙(无纹理)或重复纹理(瓷砖地、绿草地),算法无法匹配,深度图会出现空洞。

主动双目 (Active Stereo):为了解决白墙问题,在两个摄像头中间加一个红外投影仪,向墙面打上伪随机散斑。这样即使是白墙也有了“人造纹理”。

4 结构光:工业级的毫米精度

结构光是3D感知的“显微镜”,它在近距离(<1.5米)拥有无与伦比的精度,是机械臂抓取和FaceID人脸识别的首选。

4.1 技术原理:编码光场的形变

结构光不依赖两个摄像头找不同,而是通过一个投影仪投射特定的编码图案,再用一个摄像头拍摄图案在物体表面的形变。

  • 格雷码 (Gray Code):投射一系列黑白相间的条纹。精度高,鲁棒性好,但需要连续投射多帧图像,因此只能测静止物体。
  • 相移法 (Phase Shift):投射正弦波条纹,通过相位的偏移计算深度。精度可达微米级,但同样怕动。
  • MEMS散斑 (Speckle):如第一代Kinect和iPhone前置。投射数万个离散光点。只需要一帧图像,适合动态场景,但精度略低于条纹法。

4.2 致命弱点与应用局限

结构光是典型的“室内温室花朵”。

  • 阳光致盲:室外阳光中的红外成分远强于投影仪的功率,会瞬间淹没编码图案,导致室外完全失效。
  • 距离限制:光能随距离衰减,超过2米后信噪比急剧下降。
  • 多机干扰:两个机器人的结构光投影仪如果照在一起,图案会互相干扰,导致谁也算不准。

4.3 具身智能中的应用

在人形机器人中,结构光通常安装在手腕处 (Eye-in-Hand)。当机器人伸手去抓一个反光的螺丝钉,头部的相机可能看不清细节,但手腕上的结构光可以提供亚毫米级的操作引导。

5 ToF:光速的测量艺术

ToF(飞行时间)技术是近年来增长最快的领域,得益于苹果在iPad/iPhone Pro上的引入,ToF已经从工业神坛走向了消费电子。但“ToF”是一个大筐,里面装了两种截然不同的物理原理:iToF和dToF。

5.1 iToF (Indirect ToF):相位的游戏

iToF并不直接掐表测量时间,而是发射连续的调制光波(如正弦波),测量回波与发射波之间的相位差 (Phase Shift)。

优点:使用标准的CMOS工艺即可制造,分辨率可以做得很高(如VGA、百万像素),成本相对较低。

缺点:

  • 相位模糊:就像时钟转了一圈回到原点,如果物体距离超过了调制波长(例如5米),相位会发生卷绕(Wrapping),导致5.1米被误判为0.1米。
  • 多径干扰:光线打到墙角反弹多次回到传感器,会导致测量出的角落是圆角的,这对机器人沿墙走是致命的误差。

5.2 dToF (Direct ToF):光子秒表

dToF是真正的“掐表计时”。它发射极短的激光脉冲(纳秒级),利用SPAD(单光子雪崩二极管)捕捉反射回来的第一个光子,直接计算。

优点:

  • 抗干扰强:脉冲能量极其集中,能穿透阳光。
  • 无模糊距离:测到多少就是多少,没有相位卷绕。
  • 低功耗:激光器大部分时间在休息。

技术突破:以前dToF很难做高分辨率,但随着Sony等厂商攻克了SPAD阵列堆叠技术,现在已经有了几万像素的dToF传感器(如iPhone LiDAR)。

5.3 选型指南:iToF vs dToF

  • 选iToF:如果你需要近距离(<5米)的高分辨率3D建模,且主要在室内使用(如扫地机避障)。
  • 选dToF:如果你需要中远距离(>5米),或者经常在室外工作,或者需要极低的功耗(如无人机定高)。

6 激光雷达 (LiDAR):构建上帝视角

激光雷达本质上是dToF技术在空间上的扫描延伸。它是所有传感器中真值属性最强的——无论算法多烂,激光雷达扫到的墙一定就在那里,不会像视觉那样把白墙看成无限远。

6.1 技术演进:从机械旋转到固态芯片

LiDAR是目前硬件迭代最激烈的战场,存在多条技术路线博弈。

机械旋转式 (Mechanical)

  • 形态:经典的“全家桶”,头部360度旋转。
  • 原理:垂直排列多束激光器,通过马达带动整体旋转进行扫描。
  • 局限:成本高昂,机械部件寿命短,体积大,难以集成进人形机器人的体内。目前正逐渐被边缘化,主要用于Robotaxi开发验证。

混合固态 (MEMS/转镜)

  • 形态:只有内部微小的镜面在动,外观不动。
  • 原理:利用MEMS微振镜反射激光束进行扫描。
  • 优势:车规级可靠性,成本可控,体积小。是目前Unitree B2、CyberDog 2等高端四足机器人的首选。
  • 视场角限制:通常只有120°的前向视角,不像机械式那样自带360°。因此机器人通常需要前后各装一个,甚至侧面也要装。

纯固态 (Flash/OPA)

  • Flash LiDAR:就像拍照一样,一次闪光照亮全场,用SPAD面阵接收。完全无运动部件,极其耐造。但受限于功率密度,目前探测距离较短(<50米),常作为补盲雷达。
  • OPA (光学相控阵):利用硅光芯片调节光波相位来改变光束方向,是LiDAR的终极形态(类似相控阵雷达)。目前仍处于实验室阶段,良率和旁瓣干扰是难题。

6.2 波长之争:905nm vs 1550nm

  • 905nm:硅基探测器,成本低,产业链成熟。但为了人眼安全(不烧伤视网膜),发射功率受限,探测距离难做远。
  • 1550nm:铟镓砷(InGaAs)探测器,成本极高。但该波长会被人眼角膜吸收,不伤视网膜,因此可以肆无忌惮地加大功率,看透雨雾和长距离(>250米)。

6.3 3D点云与SLAM

LiDAR输出的是点云 (Point Cloud)——数百万个(x,y,z,反射率)坐标点。

  • LOAM/LIO-SAM算法:机器人利用点云进行SLAM(即时定位与建图),精度可达厘米级。这是视觉SLAM(VSLAM)难以比拟的稳定性。
  • 痛点:点云数据稀疏,缺乏颜色和纹理。虽然知道前面有个物体,但很难知道它是纸箱还是石头。

7 事件相机:神经形态的毫秒级反应

如果说前面的传感器都在模仿“眼睛的结构”,事件相机模仿的是视网膜的神经元机制。这是一个可能颠覆未来5年机器视觉的黑科技。

7.1 技术原理:只关注变化

传统相机不管画面动不动,都按30fps傻傻地拍照。事件相机(Event Cameras)的每个像素都是独立的神经元。只有当光照强度变化超过阈值时,该像素才会被激活,发送一个信号(Event)。

  • 输出:不是图像,而是连续的事件流,其中是微秒级的时间戳,是极性(变亮还是变暗)。

7.2 降维打击的优势

  • 极低延迟:响应速度是微秒级的(<1ms),比传统相机快100倍以上。非常适合捕捉高速运动(如接球、躲避飞来的物体)。
  • 超高动态范围 (HDR):>120dB。能同时看清隧道内的黑暗和出口的强光,这对于机器人进出室内外至关重要(40)。
  • 无运动模糊:因为没有“曝光时间”的概念,高速旋转的扇叶也能看得清清楚楚。

7.3 应用困境

虽然物理性能无敌,但算法太难了。现有的CNN、Transformer都是为帧图像设计的,无法直接处理异步的事件流。目前主要用于极速避障和视觉伺服,尚未成为主摄。

8 未来趋势预测

具身智能的视觉感知,本质上是在用硅基的材料去逼近碳基的奇迹。

在这个技术爆炸的时代,没有最完美的传感器,只有最适合场景的感知组合。站在2025年的节点,具身智能的感知系统正处于收敛的前夜,做一下预测:

  1. LiDAR的退守与进化:随着视觉算法的进步,高线束机械LiDAR将彻底退出人形机器人市场。取而代之的是低成本、芯片化的固态LiDAR(Flash/OPA)。
  2. 端到端感知的崛起:传统的“感知-规划-控制”模块化架构正在瓦解。未来的传感器数据可能不再生成点云或地图,而是直接输入到端到端大模型(E2E Model),直接输出电机扭矩。
  3. 事件相机的爆发:随着机器人运动能力的提升(跑酷、接飞盘),传统相机的帧率将成为瓶颈,事件相机必将成为高性能机器人的标配。

注:本文引用的数据和参数基于2024-2025年的行业公开资料及技术白皮书。

本文由 @杰克说AI 原创发布于人人都是产品经理。未经作者许可,禁止转载

题图来自Unsplash,基于CC0协议

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!