拆解具身智能(硬件本体):基本定义、组成部件和商业化

0 评论 702 浏览 1 收藏 25 分钟

具身智能正从科幻走进现实,但它的核心原理对很多人来说仍是一团迷雾。本文以人形机器人为例,深入拆解电机、减速器、丝杠等关键部件的工作原理,用最通俗的语言揭秘机器人如何实现『丝滑运动』。从行星减速器的齿轮咬合到RV减速器的抗冲击设计,再到六维力矩传感器的精妙平衡控制,带你读懂具身智能硬件的底层逻辑与商业化困境。

大家对机器人的概念并不陌生。提到机器人大家会觉得到这个东西是高科技。如果想详细了解它,需要耗费大量的时间。作为具身智能行业的产品经理。我想用小白也能理解的语言,将它的核心零部件拆解清楚。

本文会从以下几个角度阐述具身智能(硬件本体),后续会写篇对具身智能软件系统的文章。

  • 首先对于具体身智能做一个基本定义,进行基础概念的扫盲
  • 其次以经典的人形机器人为例,将机器人核心组成部件处理拆解
  • 最后再简述一下我看到的具身智能商业化。

一、具身智能扫盲

1、什么是具身智能

具身智能,英文Embodied AI,简称EAI, 它是依靠物理实体(如机器人、四足机器狗,自动驾驶车辆等)与环境交互来实现智能增长的智能系统。

注意,我们要将具身智能看作为一个系统,而不仅仅认为是一个会动的机器。终极版的具身智能在其与环境的交互过程中,通过感知、控制和自主学习积累知识和技能,提升自身的智能水平,并形成影响物理世界的能力。估计这种终极版的机器人出现要到很多年以后了,相信那个时候人类社会也将会发生震撼级的反应。

一款好的具身智能产品,需要它将感知、决策和执行紧密结合。其中最大的挑战就在于如何提升硬件性能、提高算法的泛化能力和系统集成的水平。

2、明确核心概念

(1)EAI≠ 大模型+机器人(等物理实体),而是=AI+机器人(等物理实体)。现有的大模型虽有推理决策、语言和视觉能力,但不存在主观感觉能力,多少亿参数都不行(观点出自斯坦福教授李飞飞)。脑、身体和环境的深度耦合是产生高级认知的基础。这需要构建新一代人工智能算法,结合了脑神经、运控控制等复杂理论,推动具身智能实现认知涌现。

(2)EAI ≠ 人形机器人, EAI> 人形机器人。具身智能可以搭载到其他机器人,比如仿生机器人、机器狗、L4自动驾驶等;人形机器人只是具身智能的一种应用,也被认为是最理想的应用形态。但笔者认为目前来看人形未必是最理想的应用形态,脱离应用场景谈产品,纯属疯子。

(3)EAI ≠ 智能体Agent,两者各有交叉和侧重。 Agent 是代理人,既可以是虚拟世界的,如manus , 也可以是物理世界的智能机器人,;而EAI一定要是真实世界的实体物体,如人形机器人。

二、机器人拆解

具身智能形态但前主要有人形,四足机械狗,非正常生命体三种形态。

我们观察生命体,人类以及动物所做的所有运动,都可以理解为是直线运动+曲线运动组成的。所以要让具身智能可以看起来不机械,更有生命力。就需要将这两大运动配合得更加完美。

所以对于现在的具身智能来讲,大家都在为将上述的两大运动形式搭配更加丝滑而努力。丝滑是需要各种装置相互完美配合才能做到理性效果。下面会分别讲述为了实现机器人的直线运动和曲线运动,会用到哪些装置。

1、核心部件

机器人核心组成部件:旋转关节,线性关节,灵巧手/足,软件系统

旋转关节其实就是电机+减速器;线性关节就是电机+丝杠

能理解电机、减速器、丝杠,这三个核心内容就能了解80%以上的机器人基本工作原理,所以下面分别就这三个核心内容进行讨论。

2、电机

(1)基础物理概念简述:在详细讨论电机之前,还需要简要科普一些最少且必备理解电机的物理概念

磁体:小时候我们玩的吸铁石,这种无需外接因素影响就能产生磁场的物品,称之为永磁体。还有一种是我们高中学到的物理知识——电磁体。通电以后,会产生电磁场,可以让一个原本没有磁场的物体产生磁场。

定子:固定不动的一个磁体,定子可以稳定的提供磁场。

转子:会发生旋转的一个磁体,转子的磁场会因为外界条件的影响,使磁场的强度和方向发生变化。

直流电:电流固定沿着一个方向移动

交流电:电流会周期性改变移动方向和电流大小

了解到以上基础物理概念,其实电机就学的差不多了,接下来就是理解它们之间是怎么配合工作的

(2)电机的定义:用电供能,将电能转化成机械能的一种装置。

(3)电机的工作原理:它其实就是由定子&转子组成的。通电时,电流通过线圈产生磁场,定子磁场恒定不变,当转子的磁场与定子的磁场相互排斥时,就形成了反作用力,因此让转子产生了运动。当转子能够持续的产生和定子互斥的磁场,此时就会持续的产生运动,使其线圈发生旋转。

(4)电机的两大类别(用于卖关子,先不直接说它们是什么):直流永磁无刷伺服电机、交流永磁异步伺服电机

(5)电刷:上述提到的有刷,无刷,说的就是电刷这个装置,是否存在,存在就是有刷,不存在就是无刷。电刷是用于传递电子的一个媒介,它可以导电。电刷工作时因为摩擦力会产生一些噪音,摩擦过程中会产生很多热量,因此电刷是具有损耗性的。电刷的定义一旦理解了,那我们就学会了下面这两种直流电机。

有刷直流电机:定子磁场恒定+转子磁场旋转

无刷直流电机:转子磁场恒定+定子磁场旋转 (无刷直流电机,是通过三组线圈间歇性给每一组线圈通电产生磁场,进而改变磁场方向,推动转子转动)

交流电机中定子有自己的固定磁场,固定磁场产生了交流电,交流电又产生了磁场,这个磁场和之前定子的固定磁场力的作用是相互的

同步和异步电机:其实就是转子和定子的速度是否能够一致,如果能,那就是同步,不能就是异步。

  • 异步电机:由于转子旋转,是由于定子的磁场而出现的,所以是先有了定子,才有了转子的运动,因此转子的转速相比于定子的转速会慢一点。因此这种电机叫做异步电机
  • 同步电机:在异步电机的基础上,进行改装升级,这种电机叫做同步电机

伺服电机:这个电机并不是一个新的电机类别,只是在现有的电机基础上,增加了一个控制系统,可以更好的控制电机的转速,扭矩,位置等等。伺服说明了它的控制能力。伺服系统包括了驱动器,传感器,编码器等

空心杯电机:就是直流永磁无刷电机,但是他的转子不是普通的铁芯和缠绕线圈,而是一种永磁体

无框电机:没有传统机械外壳的电机,定子和转子是环状的。可以卡在传动轴上带动轴旋转,结构紧凑,体积小巧,就像甜甜圈

3、减速器

在机器人里,电机天生就是“快跑选手”(转速高),但关节需要的是“大力士、慢动作”。为实现缓慢而有力的精准动作,就要请减速器来当这个“转换器”。

比方说自行车,踏板的力很大,但转速相对慢,这是高扭矩、低转速。减速器,就是自行车的“齿轮组”,它要在单位空间内实现更大的减速比,需要调节转速和扭矩。核心就是两件事:

①把电机的高转速降下来(比如电机转100圈,减速器输出轴只转1圈)

②同时把扭矩放大(100圈变1圈,输出扭矩放大100倍)

三大减速器介绍

(1)行星减速器:输入轴在中间转动,带动三个齿轮围绕转动,带外层大齿轮转动。

  • 优点:结构紧凑、刚度较高、承载力强、价格相对亲民、能承受较大冲击。
  • 缺点:行星齿轮天生有背隙。这个背隙说的通俗一点就是用空隙,因为空袭的存在,会导致能量传输的缺失,一般放在机器人身体中对精度要求不是很高的位置中。

(2)谐波减速器:波发生器把柔轮撑成椭圆形,长轴两端柔轮齿与刚轮齿完全啮合,短轴完全脱开。波发生器转一圈,柔轮会反向移动齿数差的距离,从而输出超大的减速比。很多机器人手腕和手臂关节都用谐波。是工业小机器人末端关节、人形机器人旋转关节的首选。

  • 波发生器:一个椭圆凸轮,外面套一个薄壁柔性轴承。
  • 柔轮:一个很薄的、能弹性变形的杯状金属零件,外圈有齿。
  • 刚轮:一个刚性内齿圈,比柔轮多2个齿。
  • 优点:零背隙(因为时刻有很多齿在双侧预压啮合,没有间隙。这是它最牛逼的地方)、极高定位精度、体积小重量轻、单级减速比大(50~160常见)、运行平稳。
  • 缺点:柔轮是薄壁弹性元件,反复变形会疲劳。寿命受负载、转速影响;抗冲击能力弱

(3)RV减速器:将扭矩分配到更多齿轮和传动元件上。内部空间很复杂,结构极其精密。第一层是行星减速器,第二层还有一个奇怪的减速器架构(这个第二层的架构原理我也没搞清楚,哈哈)。很多重型机器人的大关节里面必然有一个RV,我怀疑擎天柱这么强,里面就是用了好几个RV。据说RV能抗住几千公斤的冲击。

  • 优点:逆天的刚性和抗冲击能力,精度寿命极长,背隙也能做到极低,力矩密度惊人。
  • 缺点:结构复杂,零部件极多,重量大,成本远高于谐波,且噪音和振动控制需要很高工艺。

4、丝杠

从物理学和运动学的角度来看:一切运动都是由直线运动和旋转运动组成的。减速器负责旋转运动,丝杠负责直线运动。(本质是这两项运动,但是实际工作中有很多的复合运动)

最简单的丝杠就是螺丝钉。使用螺丝刀做旋转运动,但是螺丝钉却是呈直线运动方式进入槽位。这就是最简单的丝杠。螺丝钉的这种运动方式,就是滑动丝杠。常见物品中还有千斤顶,F型钳。

丝杠的核心作用就是:把电机的高速旋转运动,精准转化为缓慢但推力巨大的直线运动。

(1)滑动丝杠:在结果展示层上,让丝杆产生水平滑动的效果,比如螺丝钉。一般机器人很少使用滑动丝杠。大型机械臂的肘部、肩部驱动,各种精密电缸、滑台模组内部,几乎都是滚珠丝杠。

  • 优点:结构极其简单,成本极低,能自锁(垂直负载断电不掉),承载能力极强,抗冲击。
  • 缺点:效率低(通常30%-40%),磨损快,间隙巨大且无法消除,精度差,高速下剧烈发热。

(2)滚珠丝杠:在丝杠中间加上一圈圈的滚动珠,减少摩擦力,可以更大效率的提升丝杠的传动的效率。

  • 优点:传动效率很高(90%以上),摩擦损耗很低。配合预压技术,可彻底消除轴向间隙,实现极高定位精度。标准化程度极高,产业链成熟,型号从微型到数米长、承重数吨的都有。
  • 缺点:对粉尘异物敏感,长距离高速运转有极限(钢球循环冲击),细长轴会有抖动。

(3)行星滚柱丝杠:是滚珠丝杠的升级版。类似像行星旋转的运动,这种运动轨迹呈现出来的丝杠,叫做行星滚柱丝杠。把珠子换成了带螺纹的、腰鼓形的小滚柱。多个滚柱像行星齿轮一样绕着丝杠轴排列,在一个保持架里同时啮合。特斯拉的一款机器人公开的方案就是行星滚柱丝杠。

  • 优点:负载能力是滚珠丝杠的3-5倍(线接触 vs 点接触),抗冲击能力极强;刚度和寿命远高于滚珠丝杠,适合高频、高强度的连续往复运动。能做得更紧凑,推力密度惊人。
  • 缺点:价格昂贵,制造工艺极其复杂,全球能批量稳定供货的厂家屈指可数,供应高度集中。

5、六维力矩传感器和IMU

具身智能需要和真实的物理世界交互,这种交互需要硬件行动起来影响物理世界的某些物质。一种是不执行任何操作,无任何效率提升的物理位置移动;还有一种是需要完成某项工作的,提升效率的功能性交互。 很多时候这两类行动方式会搭配起来工作。

(1)第一种无操作行为的移动:移动方式多种多样化, 可以飞行移动,双轮滚动,双足行走,四足奔跑。其中双足形态是拟人化。正常人类行为的双足运动,受到小脑控制,在面对复杂的物理世界时,可以保持平衡,运动起来。对于具身智能来说,为了面对这个负责的物理世界,工程师们也给具身智能设计了小脑——IMU

IMU:机器人的小脑 (惯性单元,Inertial Measurement Unit)

我们要将机器人的身体比做人体。机器人的关节和躯干构成机器人的身体。机器视觉构成机器人眼睛,算法大模型构成了机器人的大脑,IMU就是机器人的小脑。小脑主要作用就是负责协调身体平衡的。IMU就是机器人的小脑。

IMU的组成与作用:加速度计+陀螺仪+磁力计。主要用于用于测量物体的加速度,角速度和磁场强度

为了让机器人搞清楚实时的运动状态,做到维持身体平衡和避开障碍物等功能,通常会采用六维力矩传感器+IMU+视觉系统。

IMU很多时候也是卫星系统的补充,当机器人在一个没有信号,无法进行卫星定位的地方行动时,IMU就可以充当卫星系统的角色。IMU的最核心难点就在于,如何提升它的精准度,降低它的计算误差,IMU的鲁棒性是需要在进一步的进行考验的。

现在IMU市面上主要有6轴和9轴,6轴IMU包含一个三轴加速度传感器,一个三轴陀螺仪;9轴IMU则多了一个三轴的磁力计。另外,对于采用MEMS技术的IMU,一般还内置有温度计进行实时的温度校准。

(2)第二种有操作行为的移动:这种操作是为了实现具体的工作内容。如搬运重物,清洁扫地。这种移动需要识别更多维度空间信息,需要计算大量的位置,力量等信息。保证具身智能完成功能内容。所以在这个过程中,就需要根本更加复杂的控制器——力矩传感器,触觉传感器。

a.一维力传感器:测量的是直线方向的力

b.一维力矩传感器:测量的是旋转方向的力

c.六维力矩传感器:可以同时测量三个空间维度的力,以及围绕这三个方向旋转的旋转力。所以称之为六维

d.六维力矩传感器,主要安装在机器人的手部和足底部(手部需要高度的精准度和灵活性,需要在多个方向进行旋转倾斜和移动,足底是和地面接触次数最多的重要部位,需要在多个方向进行平衡和稳定。六维力矩传感器检测足底倾斜姿态和位置)

e.触觉传感器:最典型的是压阻式。原理和最简单的力传感器类似。当有力施加到传感器上的时候,内部电阻会发生变化,进而将压力信号转变为数字信号。触觉传感器会有更加密集的接触点,可以测量接触面的形状,硬度,表面纹理等等,更加丰富的细节信息。其实触觉传感器,就是在一维力传感器的基础上,朝不同的功能纵向或者横向发散。

六维力矩传感器和触觉传感器最核心的区别:六维力矩传感器可以获取更多空间维度力的信息。所以当触觉传感器和六维力矩传感器搭配起来使用,可以解决灵巧手的灵巧问题。比方说,让机器人拿鸡蛋。

以上就是整个具身智能核心原件的概念介绍。 虽然说在尽量用白话讲清具身智能的原理和组成。但在实际研发过程中工程师们还会遇到很多的问题,具身智能是一门艺术。想让具身智能真的解决实际问题,还需要工程师们一起通力合作。

三、商业化的糊研乱宇

关于具身智能,从我已知的信息来讲,短期内落地走到平常百姓家还不太现实。现在核心的商业化场景,主要集中B端。B端场景更聚焦,更单一。

我刚刚有提过具身智能解决的是物理世界的问题。他需要和物理世界做交互。物理世界是非常复杂的。 哪怕是一个开门的小动作,都有很多的说法。需要考虑门把手的形状,力的方向,力的大小,是否有油污,障碍物出现如何开门,等等。

所以场景越简单,越单一,变量越少,机器人越能落地。B端的工厂无疑是一个相对来说更加单纯的垂类场景。

现在C端用户购买机器人的数量比较少,购买机器人的这些用户不是为了解决问题,是出于新奇特的角度看待机器人。要么是想二次开发或者其他目的而购买的(如机器人租赁、发表论文)。

机器人走进C端用户家庭的时间,至少还要3年以上。主要是两个视角脉络导致的

  • 企业视角:机器人的成本当他降到有足够的经济性时,才具备企业商业化的前提。(最近宇数G1机器人很便宜,不知道大家有没有上手体验)
  • 用户视角:用户购买的不是机器人,购买的是效率。解决不了问题的机器人,我会有一万个不买它的理由。

不过我相信,具身智能一定会是是手机,汽车外的第三大电子消费品。它是最有有可能提升500m内生产效率的产品。

本文由 @糊研乱宇 原创发布于人人都是产品经理。未经作者许可,禁止转载

题图来自Unsplash,基于CC0协议

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!