1、调研背景与目标

遥操作（Teleoperation）是机器人模仿学习（Imitation Learning）与示教数据采集过程中的关键前置环节，其系统性能直接影响示教数据的质量、一致性与可扩展性。随着灵巧手在精细操作、复杂人机协作以及远程作业等场景中的应用不断增加，对高质量、低延迟且具备良好扩展能力的遥操作系统提出了更高要求。在实际工程与研究中，灵巧手遥操作系统通常涉及多类输入设备、人手到机器人之间的运动映射（retargeting）方法，以及灵巧手或“手–臂协同”系统的实时控制执行机制。不同方案在系统成熟度、工程复杂度与适用场景方面存在显著差异，有必要从系统整体视角对现有方案进行系统性梳理与分析。基于此，本调研聚焦于已有较为成熟、已在工程实践或研究工作中得到验证的灵巧手遥操作方案，从完整系统视角出发，对其输入源形式、retargeting 方法以及遥操作执行方式进行系统整理与对比分析。调研对象既包括纯灵巧手遥操作方案，也涵盖灵巧手与机械臂协同的遥操作方案。本调研的具体目标包括：

梳理当前主流、已被工程或研究验证的灵巧手遥操作技术路线；
对不同方案在系统成熟度、工程实现复杂度与适用场景方面进行对比分析；
为后续遥操作方案的选型与实现提供清晰、可落地的技术依据。

2、灵巧手遥操系统总体架构

2.1 遥操系统基本组成

从功能划分角度看，灵巧手遥操作系统通常可以抽象为三个核心层次：输入层、retargeting 层以及执行层。输入层负责获取操作者的手部或上肢运动信息；retargeting 层负责完成人手运动到机器人运动的映射；执行层则将映射结果转化为对灵巧手或机械臂系统的实时控制指令。 [图片]

2.2 输入层：人手运动获取

输入层负责获取操作者运动状态并向后续模块输出可用的数据表示。常见输入信息可分为两类：

关节空间量：通常为手指关节角，维度较低、物理意义清晰，适合直接驱动关节型灵巧手。
位姿空间量：通常以骨骼旋转（如四元数）或齐次变换矩阵（4×4）表示，用于描述骨骼姿态或完整位姿，更适合基于指尖/骨骼约束的映射与手–臂协同控制。输入层的精度、延迟与稳定性会直接影响整体遥操体验与后续映射效果，因此在设备选型与系统设计中需要在性能与成本（佩戴/标定/维护）之间权衡。
2.3 Retargeting层：人手到灵巧手的映射

由于人手与灵巧手在自由度数量、关节结构以及运动约束等方面存在本质差异，操作者的手部运动通常无法直接用于驱动机器人系统。Retargeting 层的核心任务正是在此背景下，将人手运动信息转换为满足机器人结构约束的控制指令。该模块决定遥操的自然性、可控性，也会影响示教数据的质量与一致性，因此通常是系统中最关键的能力点之一。

2.4 执行层：灵巧手与机械臂控制

执行层负责将 retargeting 输出结果转化为对机器人系统的实际控制。在纯灵巧手遥操作场景中，该层主要关注灵巧手各关节的运动控制；而在手–臂协同遥操作场景中，还需要同时考虑机械臂末端位姿与灵巧手动作之间的协调关系。此外，执行层通常需要引入必要的安全机制，以应对通信延迟、异常输入或系统失联等情况，从而保证遥操作过程的稳定性与安全性。

2.5 数据流与系统实时性要求

灵巧手遥操可以视为一条从输入层经 Retargeting 到执行层的连续数据流。该链路对端到端延迟与抖动敏感：延迟过大或不稳定会显著降低操控体验，甚至引发误操作。因此，多数遥操系统采用软实时设计目标：在保证稳定与安全的前提下，尽可能降低端到端延迟并抑制抖动影响。

2.6 共性工程问题

不同方案实现各异，但通常绕不开以下共性问题：
1. 坐标系与标定：输入设备、人手模型与机器人坐标系需一致，否则会出现方向偏差/镜像等问题。
2. 自由度不匹配与约束：需处理欠驱动、耦合关节、关节限位与碰撞等约束，避免动作不可达或畸变。
3. 稳定性与安全：需要滤波、限速、异常输入抑制与失联保护，避免抖动或突变。
4. 可扩展性：统一数据语义与模块接口，降低新增输入源/机械臂/灵巧手的接入成本。

3、遥操作输入源方案调研

3.1 输入源分类与选型维度

灵巧手遥操作的输入源，本质上是在回答两个问题：怎么采到人的动作，以及把动作用什么形式交给系统。为了便于后续方案对比与选型，本章用“获取方式 + 数据表示”两条主线来组织调研。（1）按获取方式分类

穿戴式输入：通过与人体直接接触测量运动（数据手套、外骨骼、部分 IMU 方案）。优点是稳定、抗遮挡；代价是佩戴与标定对齐成本更高。
非穿戴式输入：通过视觉/空间感知估计手部运动（相机手追踪、XR 手追踪、部分无标记动捕）。优点是部署快、交互自然；代价是易受遮挡、光照与快速运动影响。
动捕系统：面向高精度捕获的人体运动采集（光学标记动捕、惯性动捕）。常用于高质量示教与研究验证，但部署与成本门槛较高。（2）按输出数据表示分类
关节空间量（Joint）：手指关节角等，语义清晰、易控，适合直接驱动关节型灵巧手与做稳定示教。
位姿空间量（Pose）：骨骼旋转（四元数）或位姿（4×4），表达能力强，适合基于指尖/骨骼约束的映射与手–臂协同。
3.2 数据手套类输入方案（穿戴式，最工程化）

数据手套通过穿戴式传感器直接测量手指运动，是目前最常用、最稳定的输入方案之一。成熟手套往往同时提供两类数据：
关节角：适合直接驱动关节型灵巧手，省事，但关节定义与灵巧手不一定一致，通用性不够。
骨骼旋转（四元数）/位姿：适合做骨骼/指尖约束的 retargeting，便于手–臂协同优点是稳定、语义清晰、易做限位/滤波；缺点是需要佩戴与标定，硬件成本较高。工程上常见策略：先用关节角把系统跑稳，再按需要引入骨骼位姿做更高级的映射。
3.3 视觉手部追踪输入方案（非穿戴式，最灵活）

视觉方案用摄像头/深度相机估计手部关键点、骨骼或位姿，输出通常是位姿空间量（关键点/四元数/4×4）。它的优势是无需佩戴、部署快，适合快速验证与交互演示。主要问题在鲁棒性：遮挡、光照、快速运动都会导致丢点或抖动，因此需要更强的滤波与异常处理。

适用场景：原型验证、低成本交互、对精细接触要求不高的遥操。

3.4 XR / 空间计算设备输入方案（沉浸式 + 手–臂协同友好）

XR 设备通常能提供头部位姿 + 手部骨骼信息，并天然适配第一人称视觉反馈，因此在遥操里常用于沉浸式控制与示教。它的输入本质上仍是“视觉/空间感知”，但系统层面更完整（含位姿追踪与交互闭环）。优势：适合手–臂协同（腕姿、手位）、示教体验好；
代价：集成复杂、坐标系标定与数据格式适配工作较多，稳定性仍会受遮挡影响。

3.5 动捕输入方案（高精度，但成本/部署门槛高）

动捕系统用于高精度捕获人体运动，常见有两类：

光学标记动捕：精度高，但对场地、相机布置和标定要求高
惯性动捕（IMU）：部署更灵活，但会有漂移，需要校正动捕适合“高质量示教数据采集/研究验证”，但通常不作为通用长期运行的输入方案（成本与部署复杂度太高）。
3.6 外骨骼（输入 + 力反馈，最重但最强）

外骨骼通过物理连接测量关节运动，并能向人体施加力/阻尼，因此同时具备：
高精度输入（关节角/力矩等）
双向反馈（接触感、约束感）优势：可控性强、接触任务体验好；
缺点：设备重、佩戴复杂、安全要求高、成本高。

适用场景：高端研究或特定接触密集任务，不适合作为通用基础方案。

3.7 触觉与力反馈输入（扩展方案）

触觉/力反馈模块用于把机器人端的接触状态“传回人端”，提升精细操作体验。它通常作为增强模块叠加在手套或外骨骼上。工程上要注意：反馈链路对延迟与稳定性更敏感，安全策略要更严格（限幅、失联保护、异常抑制）。因此多数系统把它作为特定任务增强，而不是通用遥操的必配组件。

3.8 本章小结

从工程落地角度看：

数据手套通常是最稳的基础选择：关节角适合快速落地与长期运行；若同时提供骨骼旋转/位姿，则可为更高级的映射与协同控制预留空间。
视觉手追踪与 XR 手追踪部署灵活、交互自然，但鲁棒性更依赖环境与算法，需要更多的滤波与异常处理来保证稳定。
动捕系统适合追求高精度、高一致性的示教数据采集，但成本与部署门槛较高，更偏研究验证与高端采集场景。
外骨骼与触觉/力反馈能够提供更强的可控性与接触感知，但系统复杂度与安全要求显著提高，通常作为特定任务的增强方案而非通用必选。

4、Retargeting方法综述

4.1 问题定义

Retargeting的目标是将人手的运动输入转换为灵巧手(或手-臂系统)可执行的控制指令。由于人手与机器人在自由度数量、关节结构与运动范围上存在差异，这一过程本质上是一个在约束条件下的映射问题。工程上，Retargeting 需要同时满足三点：

可执行：结果必须满足机器人结构与安全约束；
稳定：映射结果不应出现抖动或突变；
一致：在能力允许范围内尽量保持人类动作意图。

4.2 基于关节空间的Retargeting

4.2.1 方法概述

基于关节空间的 Retargeting 以人手关节角作为主要输入表示，通过比例映射、关节耦合或查表方式，将其直接转换为机器人关节指令。该类方法不涉及复杂的运动学求解，是工程系统中最稳定、最常用的基线方案。

4.2.2 典型实现方式

比例映射+限位裁剪：

q_robot[i] = clamp(
    scale[i] * q_human[i] + offset[i],
    q_min[i], q_max[i]
)

工程实践中常见增强手段包括：

临近关节耦合
关节速度/加速度限制
指令滤波(低通、指数平滑)

4.2.3 特点与适用性

优点：实时性高、失败模式清晰、实现成本低
局限：难以精确保持指尖位置与手型几何关系

4.3 基于任务空间解算的Retargeting(IK家族)

4.3.1 方法定位

基于位姿/骨骼约束的 Retargeting 将人手动作表达为任务空间目标（如手掌位姿、指尖位置或方向），并通过逆运动学（IK）求解机器人关节角。从工程角度看，该类方法与优化式方法同属”任务空间 → 关节空间解算”谱系，其主要区别在于目标数量与约束复杂度。

4.3.2 目标定义方式

常见任务空间目标包括:

手掌目标：位置 + 姿态（6DoF）；
指尖目标：位置或方向；
骨骼方向：指向一致性；
相对几何关系：指尖间距离、双手相对关系。

目标通常以加权形式组合，体现优先级（如手掌优先于指尖）。

4.3.3 求解方法

工程中常见 IK 解法包括：

Jacobian 迭代法；
阻尼最小二乘（DLS / SDLS）；
加权/分层 IK（Soft Constraint）。

典型解算目标可表示为：

minimize:
  || FK(q) - x_target ||^2
subject to:
  q_min ≤ q ≤ q_max

4.3.4 工程稳态策略

为保证实时性与稳定性，工程系统通常引入：

warm start（以上一帧解作为初值）
约束松弛（解不出时逐步放宽次要目标）
不可达回退（fallback 至关节映射）

4.4 基于优化的 Retargeting（整体一致性方法）

4.4.1 方法定位

优化式 Retargeting 将 Retargeting 显式表述为一个带约束的优化问题，通过设计整体代价函数，在满足安全与结构约束的前提下，求解最符合人手动作意图的机器人关节配置。该类方法可视为约束更丰富、目标更复杂的 IK 扩展形式。

4.4.2 典型代价函数设计

常见优化项包括：

指尖位置/方向一致性；
手型或骨骼相似性；
关节正则项（避免极端姿态）；
平滑项（抑制帧间抖动）。

示意形式：

J(q) =
  w_task * task_error(q)
+ w_smooth * || q - q_prev ||^2
+ w_limit * joint_penalty(q)

4.4.3 约束处理

优化式方法通常显式建模：

关节限位；
关节耦合；
自碰撞（简化或近似）；
可选接触/抓取约束。

4.4.4 求解与实时性考虑

常见求解方式包括：

非线性优化（Gauss-Newton、SQP）；
线性化后的 QP 求解；
低频或关键帧触发计算。该类方法计算与调参成本较高，通常不作为高频主路径，而用于关键动作或示教质量提升。

4.5 混合Retargeting策略（工程常态）

实际系统中，单一 Retargeting 方法难以兼顾稳定性与动作一致性，工程上通常采用混合策略，如：

默认状态：关节空间映射
关键动作：启用 IK / 优化
异常情况：回退至关节映射

该策略能够在保证系统稳定运行的前提下，在关键时刻提升动作质量，是目前工程系统中的主流做法。

4.6 本章小结

Retargeting 方法的核心差异在于输入表示与约束处理方式。关节空间方法稳定、易用；位姿与骨骼约束方法在动作表达上更具优势；优化与混合方法能够在复杂任务中提供更高质量的映射，但代价是更高的系统复杂度。

Retargeting 的设计应与输入源的输出形式及执行端结构相匹配。后续章节将结合成熟系统案例，对不同输入与 Retargeting 组合方式进行进一步分析与比较。

在工程实践中，遥操作执行层通常直接基于机械臂与灵巧手厂商提供的 SDK 接口实现。

机械臂：多支持关节空间与末端位姿控制
灵巧手：现市面的灵巧手还多为关节角度控制，通常不直接暴露指尖级任务空间接口，相关映射与约束由上层 retargeting 与控制逻辑完成

6、遥操案例分析

6.1 Shadow Robot

链接：Shadow Robot Teleoperation Shadow Robot 采用经典的数据手套 + 空间定位 Tracker 遥操方案。系统通常使用 Manus 数据手套获取手指关节角与骨骼信息，并通过 Vive Tracker、OptiTrack 等设备获取手部整体位姿，从而实现对高自由度灵巧手的稳定控制。该方案工程成熟度高，已被长期用于工业与科研场景，但对外部基站存在依赖，部署成本较高，Tracker 在复杂光照环境下偶尔会受到干扰，更适合固定场地使用。 Retargeting方法：几何法关节映射
对指效果：一般

Shadow Robot 遥操作系统示意图

6.2 Unitree

链接：Unitree XR Teleoperation
代码：unitreerobotics/xr_teleoperate Unitree 提供了一套产品级 XR 遥操作栈，支持多种主流 VR / MR 设备，通过网络实现端到端遥操作闭环。其遥操封装完善，产品级 teleop 栈，VR设备主动连接到机器人遥操server发送数据，server回传视频。

Retargeting方法：猜测为几何法
对指效果：一般

Unitree XR 遥操作系统示意图

6.3 Bidex-Teleop

链接：Bidex-Teleop 该方案主要为了解决双手遥操协同的问题，解决方案应该是训练模型时加入双手的相对关系，让模型理解。其间遥操的范例也值得参考。

Bidex-Teleop 示意图

6.3.1 Manus手套+机械臂外骨骼方案

代码：Bidex_Manus_Teleop

他们这套手部retargeting中也提到，直接使用manus的关节角度偏差会有一些大，他们本身的手和人手的偏差就是挺大的，但是使用直出的关节会比较快捷。他们以manus输出的指尖/骨架信息为目标约束，使用ik进行求解，具体为基于manus数据计算出五指指尖，在 PyBullet 里对机器人手做 SDLS 逆运动学（IK），pybullet求解ik多为加载urdf或者mjcf模型。

6.3.2 VisionPro方案

代码：Bidex_VisionPro_Teleop

他们的visionpro与manus的处理是同一方式。遥操方案基本与wuji相同，server为VisionPro，计算机主动连接visionpro获取数据进行后续处理。

相关代码：

VisionProTeleop
wuji-retargeting
6.4 Mobile Robot Hand-Arm

链接：A Mobile Robot Hand-Arm Teleoperation System by Vision and IMU

旨在解决移动机器人上稳定控制机械臂灵巧手，好像没有用正常的retargeting，应该是一种离散位置播放。类似所谓原子语义，分解出灵巧手离散动作map，通过条件触发各个动作。

6.5 Vision-based Teleoperation

6.5.1 TechNet (2018)

论文：TechNet: Learning to Teleoperate a Mobile Manipulator
代码：TAMS-Group/TeachNet_Teleoperation

基于训练的神经网络，输入RGB图像输出机器手关节角，泛化性差。

TechNet 示意图

6.5.2 Dexpilot (2019)

论文：Dexpilot

从图像恢复人手几何(mediapipe等方式)，再用几何关系把动作映射到机器人。

Dexpilot 示意图

6.5.3 Telekinesis (2022)

链接：Robotic Telekinesis

从视觉得到目标，用机器人模型作ik/优化求解。

Telekinesis 示意图