让机器人学会系袋子！北大-灵初团队提出DexKnot可泛化打结操作策略，解锁商超打包新技能

近日，由北大-灵初联合实验室完成的论文DexKnot: Generalizable Visuomotor Policy Learning for Dexterous Bag-Knotting Manipulation被ICRA 2026接收。该研究针对塑料袋打结任务，提出了一种结合形状无关表征学习与扩散策略的可泛化灵巧操作框架。DexKnot不仅实现了鲁棒的打结操作，更对训练集中从未见过的袋子实例和初始形变展现出良好的泛化能力，为机器人在商超打包等实际场景中的应用打下了算法基础。

DexKnot概览。左上：在真实世界中采集关键点对应数据，用于形状无关表征学习。左下：对于未见过的袋子构型，通过表征匹配识别关键点，引导扩散策略完成打结任务。右：DexKnot能有效泛化至未见过的初始形变和袋子实例。

一、研究背景

塑料袋打结是生活中的常见操作，但对于机器人而言却有很大挑战。其难点主要体现在两方面：

1.无限自由度导致泛化困难。袋子具有无限的自由度，其形变状态非常多样。在训练数据较少的情况下，以往基于稠密视觉表征的策略学习方法往往难以处理未见过的形变状态。

2.复杂动力学特性带来的仿真鸿沟。塑料袋材质柔软，动力学特性复杂。这不仅使针对袋子的仿真与现实存在较大鸿沟，也给真机数采和测评造成了很大困难。

针对这些挑战，DexKnot旨在解决一个核心问题：如何充分利用有限的真机数据，训练出一个对袋子实例和初始形变具有良好泛化性的打结策略。

二、方法概述

DexKnot的核心思想是化繁为简，将高维、冗余的视觉观测降维成一组稀疏但足以引导操作的关键点序列，从而提升策略的泛化能力和训练/推理效率。该框架主要包含三个部分：

1.关键点对应数据采集。首先在真实环境中对多个不同袋子进行手动形变操作并录制RGB-D视频，然后对袋子把手上与操作相关的关键点进行追踪，从而构建包含多种袋子实例和大量形变状态的关键点对应数据集。

2.形状无关表征学习。基于关键点对应数据集训练PointNet++编码器。通过对比学习（采用InfoNCE损失），该编码器能够提取形状无关的表征，即无论袋子如何形变或被替换，其把手上用于引导操作的关键点都会被编码成相似的特征。对于新的袋子构型，只需将其点云上的每个点与参考构型上的关键点进行特征匹配，即可识别新构型上的关键点。

3.关键点引导的扩散策略。将识别出的关键点坐标与机器人关节状态作为条件共同输入给扩散Transformer（DiT），通过生成动作块的方式输出机器人关节角序列。

DexKnot框架。左上：对每个袋子进行手动形变操作并录制RGB-D视频，然后追踪关键点以构建关键点对应数据。右上：通过对比学习训练PointNet++编码器，使编码器对不同袋子构型下相应的关键点输出尽可能相近的表征。下行：在策略推理阶段，通过表征匹配在初始帧中识别关键点，并在后续帧中持续追踪关键点。关键点坐标与机器人关节状态一起被输入扩散策略以生成动作块。

三、实验结果

实验在RealMan RM75-6F双臂机器人平台上进行，采用PsiBot G0-R六自由度灵巧手与安装在头部的RealSense D435相机。研究定义了五种典型的袋子初始形变：竖直-压缩（Vertical-Compressed, VC）、水平-压缩（Horizontal-Compressed, HC）、对角-压缩（Diagonal-Compressed, DC）、扭转-平展（Twisted-Flat, TF）、倾斜-平展（Inclined-Flat, IF），并在多个训练集中见过/未见过的袋子实例上进行了系统测评。

训练和测评中采用的袋子构型。左上：示教数据中的袋子形变；左下：测试时的新形变；右上：关键点对应数据收集所用的袋子；右下：示教数据收集所用的袋子和用于泛化性测试的袋子。

实验结果表明：

1.DexKnot具有较强的跨形变泛化能力。与3D Diffusion Policy（DP3）等基线方法相比，DexKnot在倾斜、扭转等分布外的形变状态上表现出更强的泛化性。例如，在倾斜-平展状态下，基线方法难以完成操作，而DexKnot仍保持可观的成功率。

2.DexKnot具有较强的跨实例泛化能力。在完全未见过的新袋子上，所有方法的性能均有所下降，但与基线方法相比，DexKnot的性能损失最小，展现出更强的鲁棒性。

策略的执行过程（绿框代表成功，红框代表失败）。

袋子处于不同形变状态下的测评结果。左：基于示教数据中出现过的袋子进行测评；右：基于示教数据中未出现过的袋子进行测评。

四、总结与展望

DexKnot结合形状无关表征学习与关键点引导的扩散策略实现了塑料袋打结操作。通过稀疏表征降低观测维度，DexKnot仅需少量人类示教数据即可实现跨袋子实例、跨形变的可泛化操作。DexKnot对视觉噪声、物体外观变化具有较强的鲁棒性，在商超打包等实际场景中具有广泛的应用前景。

灵初智能致力于长程灵巧操作技术的研究与落地，在商超、物流等场景持续积累。本次ICRA成果是团队在灵巧操作领域的又一进展，也为后续在真实场景中的机器人应用打下了算法基础。

论文链接：https://arxiv.org/abs/2603.07136

发表评论 取消回复

发表评论取消回复