灵巧手遥操方案调研

1、调研背景与目标

遥操作(Teleoperation)是机器人模仿学习(Imitation Learning)与示教数据采集过程中的关键前置环节,其系统性能直接影响示教数据的质量、一致性与可扩展性。随着灵巧手在精细操作、复杂人机协作以及远程作业等场景中的应用不断增加,对高质量、低延迟且具备良好扩展能力的遥操作系统提出了更高要求。 在实际工程与研究中,灵巧手遥操作系统通常涉及多类输入设备、人手到机器人之间的运动映射(retargeting)方法,以及灵巧手或“手–臂协同”系统的实时控制执行机制。不同方案在系统成熟度、工程复杂度与适用场景方面存在显著差异,有必要从系统整体视角对现有方案进行系统性梳理与分析。 基于此,本调研聚焦于已有较为成熟、已在工程实践或研究工作中得到验证的灵巧手遥操作方案,从完整系统视角出发,对其输入源形式、retargeting 方法以及遥操作执行方式进行系统整理与对比分析。调研对象既包括纯灵巧手遥操作方案,也涵盖灵巧手与机械臂协同的遥操作方案。 本调研的具体目标包括:

  • 梳理当前主流、已被工程或研究验证的灵巧手遥操作技术路线;
  • 对不同方案在系统成熟度、工程实现复杂度与适用场景方面进行对比分析;
  • 为后续遥操作方案的选型与实现提供清晰、可落地的技术依据。

2、灵巧手遥操系统总体架构

2.1 遥操系统基本组成

从功能划分角度看,灵巧手遥操作系统通常可以抽象为三个核心层次:输入层、retargeting 层以及执行层。输入层负责获取操作者的手部或上肢运动信息;retargeting 层负责完成人手运动到机器人运动的映射;执行层则将映射结果转化为对灵巧手或机械臂系统的实时控制指令。 [图片]

2.2 输入层:人手运动获取

输入层负责获取操作者运动状态并向后续模块输出可用的数据表示。常见输入信息可分为两类:

  • 关节空间量:通常为手指关节角,维度较低、物理意义清晰,适合直接驱动关节型灵巧手。
  • 位姿空间量:通常以骨骼旋转(如四元数)或齐次变换矩阵(4×4)表示,用于描述骨骼姿态或完整位姿,更适合基于指尖/骨骼约束的映射与手–臂协同控制。 输入层的精度、延迟与稳定性会直接影响整体遥操体验与后续映射效果,因此在设备选型与系统设计中需要在性能与成本(佩戴/标定/维护)之间权衡。

    2.3 Retargeting层:人手到灵巧手的映射

    由于人手与灵巧手在自由度数量、关节结构以及运动约束等方面存在本质差异,操作者的手部运动通常无法直接用于驱动机器人系统。Retargeting 层的核心任务正是在此背景下,将人手运动信息转换为满足机器人结构约束的控制指令。该模块决定遥操的自然性、可控性,也会影响示教数据的质量与一致性,因此通常是系统中最关键的能力点之一。

    2.4 执行层:灵巧手与机械臂控制

    执行层负责将 retargeting 输出结果转化为对机器人系统的实际控制。在纯灵巧手遥操作场景中,该层主要关注灵巧手各关节的运动控制;而在手–臂协同遥操作场景中,还需要同时考虑机械臂末端位姿与灵巧手动作之间的协调关系。 此外,执行层通常需要引入必要的安全机制,以应对通信延迟、异常输入或系统失联等情况,从而保证遥操作过程的稳定性与安全性。

    2.5 数据流与系统实时性要求

    灵巧手遥操可以视为一条从输入层经 Retargeting 到执行层的连续数据流。该链路对端到端延迟与抖动敏感:延迟过大或不稳定会显著降低操控体验,甚至引发误操作。因此,多数遥操系统采用软实时设计目标:在保证稳定与安全的前提下,尽可能降低端到端延迟并抑制抖动影响。

    2.6 共性工程问题

    不同方案实现各异,但通常绕不开以下共性问题:

    1. 坐标系与标定:输入设备、人手模型与机器人坐标系需一致,否则会出现方向偏差/镜像等问题。
    2. 自由度不匹配与约束:需处理欠驱动、耦合关节、关节限位与碰撞等约束,避免动作不可达或畸变。
    3. 稳定性与安全:需要滤波、限速、异常输入抑制与失联保护,避免抖动或突变。
    4. 可扩展性:统一数据语义与模块接口,降低新增输入源/机械臂/灵巧手的接入成本。

3、遥操作输入源方案调研

3.1 输入源分类与选型维度

灵巧手遥操作的输入源,本质上是在回答两个问题:怎么采到人的动作,以及把动作用什么形式交给系统。为了便于后续方案对比与选型,本章用“获取方式 + 数据表示”两条主线来组织调研。 (1)按获取方式分类

  • 穿戴式输入:通过与人体直接接触测量运动(数据手套、外骨骼、部分 IMU 方案)。优点是稳定、抗遮挡;代价是佩戴与标定对齐成本更高。
  • 非穿戴式输入:通过视觉/空间感知估计手部运动(相机手追踪、XR 手追踪、部分无标记动捕)。优点是部署快、交互自然;代价是易受遮挡、光照与快速运动影响。
  • 动捕系统:面向高精度捕获的人体运动采集(光学标记动捕、惯性动捕)。常用于高质量示教与研究验证,但部署与成本门槛较高。 (2)按输出数据表示分类
  • 关节空间量(Joint):手指关节角等,语义清晰、易控,适合直接驱动关节型灵巧手与做稳定示教。
  • 位姿空间量(Pose):骨骼旋转(四元数)或位姿(4×4),表达能力强,适合基于指尖/骨骼约束的映射与手–臂协同。

    3.2 数据手套类输入方案(穿戴式,最工程化)

    数据手套通过穿戴式传感器直接测量手指运动,是目前最常用、最稳定的输入方案之一。成熟手套往往同时提供两类数据:

  • 关节角:适合直接驱动关节型灵巧手,省事,但关节定义与灵巧手不一定一致,通用性不够。
  • 骨骼旋转(四元数)/位姿:适合做骨骼/指尖约束的 retargeting,便于手–臂协同 优点是稳定、语义清晰、易做限位/滤波;缺点是需要佩戴与标定,硬件成本较高。 工程上常见策略:先用关节角把系统跑稳,再按需要引入骨骼位姿做更高级的映射。

    3.3 视觉手部追踪输入方案(非穿戴式,最灵活)

    视觉方案用摄像头/深度相机估计手部关键点、骨骼或位姿,输出通常是位姿空间量(关键点/四元数/4×4)。它的优势是无需佩戴、部署快,适合快速验证与交互演示。 主要问题在鲁棒性:遮挡、光照、快速运动都会导致丢点或抖动,因此需要更强的滤波与异常处理。

适用场景:原型验证、低成本交互、对精细接触要求不高的遥操。

3.4 XR / 空间计算设备输入方案(沉浸式 + 手–臂协同友好)

XR 设备通常能提供头部位姿 + 手部骨骼信息,并天然适配第一人称视觉反馈,因此在遥操里常用于沉浸式控制与示教。它的输入本质上仍是“视觉/空间感知”,但系统层面更完整(含位姿追踪与交互闭环)。 优势:适合手–臂协同(腕姿、手位)、示教体验好;
代价:集成复杂、坐标系标定与数据格式适配工作较多,稳定性仍会受遮挡影响。

3.5 动捕输入方案(高精度,但成本/部署门槛高)

动捕系统用于高精度捕获人体运动,常见有两类:

  • 光学标记动捕:精度高,但对场地、相机布置和标定要求高
  • 惯性动捕(IMU):部署更灵活,但会有漂移,需要校正 动捕适合“高质量示教数据采集/研究验证”,但通常不作为通用长期运行的输入方案(成本与部署复杂度太高)。

    3.6 外骨骼(输入 + 力反馈,最重但最强)

    外骨骼通过物理连接测量关节运动,并能向人体施加力/阻尼,因此同时具备:

  • 高精度输入(关节角/力矩等)
  • 双向反馈(接触感、约束感) 优势:可控性强、接触任务体验好;
    缺点:设备重、佩戴复杂、安全要求高、成本高。

适用场景:高端研究或特定接触密集任务,不适合作为通用基础方案。

3.7 触觉与力反馈输入(扩展方案)

触觉/力反馈模块用于把机器人端的接触状态“传回人端”,提升精细操作体验。它通常作为增强模块叠加在手套或外骨骼上。 工程上要注意:反馈链路对延迟与稳定性更敏感,安全策略要更严格(限幅、失联保护、异常抑制)。因此多数系统把它作为特定任务增强,而不是通用遥操的必配组件。

3.8 本章小结

从工程落地角度看:

  • 数据手套通常是最稳的基础选择:关节角适合快速落地与长期运行;若同时提供骨骼旋转/位姿,则可为更高级的映射与协同控制预留空间。
  • 视觉手追踪与 XR 手追踪部署灵活、交互自然,但鲁棒性更依赖环境与算法,需要更多的滤波与异常处理来保证稳定。
  • 动捕系统适合追求高精度、高一致性的示教数据采集,但成本与部署门槛较高,更偏研究验证与高端采集场景。
  • 外骨骼与触觉/力反馈能够提供更强的可控性与接触感知,但系统复杂度与安全要求显著提高,通常作为特定任务的增强方案而非通用必选。

4、Retargeting方法综述

4.1 问题定义

Retargeting的目标是将人手的运动输入转换为灵巧手(或手-臂系统)可执行的控制指令。由于人手与机器人在自由度数量、关节结构与运动范围上存在差异,这一过程本质上是一个在约束条件下的映射问题。 工程上,Retargeting 需要同时满足三点:

  1. 可执行:结果必须满足机器人结构与安全约束;
  2. 稳定:映射结果不应出现抖动或突变;
  3. 一致:在能力允许范围内尽量保持人类动作意图。

4.2 基于关节空间的Retargeting

4.2.1 方法概述

基于关节空间的 Retargeting 以人手关节角作为主要输入表示,通过比例映射、关节耦合或查表方式,将其直接转换为机器人关节指令。该类方法不涉及复杂的运动学求解,是工程系统中最稳定、最常用的基线方案。

4.2.2 典型实现方式

比例映射+限位裁剪:

q_robot[i] = clamp(
    scale[i] * q_human[i] + offset[i],
    q_min[i], q_max[i]
)

工程实践中常见增强手段包括:

  • 临近关节耦合
  • 关节速度/加速度限制
  • 指令滤波(低通、指数平滑)

4.2.3 特点与适用性

  • 优点:实时性高、失败模式清晰、实现成本低
  • 局限:难以精确保持指尖位置与手型几何关系

4.3 基于任务空间解算的Retargeting(IK家族)

4.3.1 方法定位

基于位姿/骨骼约束的 Retargeting 将人手动作表达为任务空间目标(如手掌位姿、指尖位置或方向),并通过逆运动学(IK)求解机器人关节角。从工程角度看,该类方法与优化式方法同属”任务空间 → 关节空间解算”谱系,其主要区别在于目标数量与约束复杂度。

4.3.2 目标定义方式

常见任务空间目标包括:

  • 手掌目标:位置 + 姿态(6DoF);
  • 指尖目标:位置或方向;
  • 骨骼方向:指向一致性;
  • 相对几何关系:指尖间距离、双手相对关系。

目标通常以加权形式组合,体现优先级(如手掌优先于指尖)。

4.3.3 求解方法

工程中常见 IK 解法包括:

  • Jacobian 迭代法;
  • 阻尼最小二乘(DLS / SDLS);
  • 加权/分层 IK(Soft Constraint)。

典型解算目标可表示为:

minimize:
  || FK(q) - x_target ||^2
subject to:
  q_min ≤ q ≤ q_max

4.3.4 工程稳态策略

为保证实时性与稳定性,工程系统通常引入:

  • warm start(以上一帧解作为初值)
  • 约束松弛(解不出时逐步放宽次要目标)
  • 不可达回退(fallback 至关节映射)

4.4 基于优化的 Retargeting(整体一致性方法)

4.4.1 方法定位

优化式 Retargeting 将 Retargeting 显式表述为一个带约束的优化问题,通过设计整体代价函数,在满足安全与结构约束的前提下,求解最符合人手动作意图的机器人关节配置。该类方法可视为约束更丰富、目标更复杂的 IK 扩展形式。

4.4.2 典型代价函数设计

常见优化项包括:

  • 指尖位置/方向一致性;
  • 手型或骨骼相似性;
  • 关节正则项(避免极端姿态);
  • 平滑项(抑制帧间抖动)。

示意形式:

J(q) =
  w_task * task_error(q)
+ w_smooth * || q - q_prev ||^2
+ w_limit * joint_penalty(q)

4.4.3 约束处理

优化式方法通常显式建模:

  • 关节限位;
  • 关节耦合;
  • 自碰撞(简化或近似);
  • 可选接触/抓取约束。

4.4.4 求解与实时性考虑

常见求解方式包括:

  • 非线性优化(Gauss-Newton、SQP);
  • 线性化后的 QP 求解;
  • 低频或关键帧触发计算。 该类方法计算与调参成本较高,通常不作为高频主路径,而用于关键动作或示教质量提升。

4.5 混合Retargeting策略(工程常态)

实际系统中,单一 Retargeting 方法难以兼顾稳定性与动作一致性,工程上通常采用混合策略,如:

  • 默认状态:关节空间映射
  • 关键动作:启用 IK / 优化
  • 异常情况:回退至关节映射

该策略能够在保证系统稳定运行的前提下,在关键时刻提升动作质量,是目前工程系统中的主流做法。

4.6 本章小结

Retargeting 方法的核心差异在于输入表示与约束处理方式。关节空间方法稳定、易用;位姿与骨骼约束方法在动作表达上更具优势;优化与混合方法能够在复杂任务中提供更高质量的映射,但代价是更高的系统复杂度。

Retargeting 的设计应与输入源的输出形式及执行端结构相匹配。后续章节将结合成熟系统案例,对不同输入与 Retargeting 组合方式进行进一步分析与比较。

在工程实践中,遥操作执行层通常直接基于机械臂与灵巧手厂商提供的 SDK 接口实现。

  • 机械臂:多支持关节空间与末端位姿控制
  • 灵巧手:现市面的灵巧手还多为关节角度控制,通常不直接暴露指尖级任务空间接口,相关映射与约束由上层 retargeting 与控制逻辑完成

6、遥操案例分析

6.1 Shadow Robot

链接Shadow Robot Teleoperation Shadow Robot 采用经典的 数据手套 + 空间定位 Tracker 遥操方案。系统通常使用 Manus 数据手套获取手指关节角与骨骼信息,并通过 Vive Tracker、OptiTrack 等设备获取手部整体位姿,从而实现对高自由度灵巧手的稳定控制。 该方案工程成熟度高,已被长期用于工业与科研场景,但对外部基站存在依赖,部署成本较高,Tracker 在复杂光照环境下偶尔会受到干扰,更适合固定场地使用。 Retargeting方法:几何法关节映射
对指效果:一般

Shadow Robot 遥操作系统示意图

6.2 Unitree

链接Unitree XR Teleoperation
代码unitreerobotics/xr_teleoperate Unitree 提供了一套产品级 XR 遥操作栈,支持多种主流 VR / MR 设备,通过网络实现端到端遥操作闭环。其遥操封装完善,产品级 teleop 栈,VR设备主动连接到机器人遥操server发送数据,server回传视频。

Retargeting方法:猜测为几何法
对指效果:一般

Unitree XR 遥操作系统示意图

6.3 Bidex-Teleop

链接Bidex-Teleop 该方案主要为了解决双手遥操协同的问题,解决方案应该是训练模型时加入双手的相对关系,让模型理解。其间遥操的范例也值得参考。

Bidex-Teleop 示意图

6.3.1 Manus手套+机械臂外骨骼方案

代码Bidex_Manus_Teleop

他们这套手部retargeting中也提到,直接使用manus的关节角度偏差会有一些大,他们本身的手和人手的偏差就是挺大的,但是使用直出的关节会比较快捷。他们以manus输出的指尖/骨架信息为目标约束,使用ik进行求解,具体为基于manus数据计算出五指指尖,在 PyBullet 里对机器人手做 SDLS 逆运动学(IK),pybullet求解ik多为加载urdf或者mjcf模型。

6.3.2 VisionPro方案

代码Bidex_VisionPro_Teleop

他们的visionpro与manus的处理是同一方式。遥操方案基本与wuji相同,server为VisionPro,计算机主动连接visionpro获取数据进行后续处理。

相关代码

链接A Mobile Robot Hand-Arm Teleoperation System by Vision and IMU

旨在解决移动机器人上稳定控制机械臂灵巧手,好像没有用正常的retargeting,应该是一种离散位置播放。类似所谓原子语义,分解出灵巧手离散动作map,通过条件触发各个动作。

6.5 Vision-based Teleoperation

6.5.1 TechNet (2018)

论文TechNet: Learning to Teleoperate a Mobile Manipulator
代码TAMS-Group/TeachNet_Teleoperation

基于训练的神经网络,输入RGB图像输出机器手关节角,泛化性差。

TechNet 示意图

6.5.2 Dexpilot (2019)

论文Dexpilot

从图像恢复人手几何(mediapipe等方式),再用几何关系把动作映射到机器人。

Dexpilot 示意图

6.5.3 Telekinesis (2022)

链接Robotic Telekinesis

从视觉得到目标,用机器人模型作ik/优化求解。

Telekinesis 示意图

7、方案对比与选型分析

8、调研总结与后续工作规划




Enjoy Reading This Article?

Here are some more articles you might like to read next:

  • lerobot探索
  • 提问的智慧
  • Markdown 功能使用指南
  • ROS 机器人开发实践
  • ROS 运行管理与常用组件