3D Diffusion Policy
王建明老师的文章,关于diffusion policy+与robotics,讲的很好:https://zhuanlan.zhihu.com/p/670555655
3D diffusion policy
代码链接:https://github.com/YanjieZe/3D-Diffusion-Policy
Octo:https://arxiv.org/pdf/2405.12213 一个开源的、通用的、可适配不同机器人和任务的机器人操作策略模型,基于transformer
本质上是一种3D点云+diffusion policy+模仿学习:DP3
background
- 模仿学习
- 视觉模仿学习
模型方法
根据论文的描述,主要分为感知和决策部分Perception
- DP3 在所有任务中仅使用单视图相机进行策略学习,其他方法更多表现为多相机视角表示
- 利用稀疏点云进行3D表示,更加高效吧
- DP3通过从相机获取深度图像(例如,使用RealSense等深度相机)来构建3D环境的点云表示。深度图像首先通过相机的外参和内参转换为点云数据。
- 点云处理:点云数据通常会包含冗余的点,例如来自地面或桌面的无关点。DP3通过裁剪去除这些不需要的点,仅保留与任务相关的区域,从而减少了数据的冗余。采用最远点采(FPS),充分覆盖3D空间且减少采样随机性,512-1024个点。
- 点云编码:点云进入DP3编码器,3层MLP+最大池化函数(,减少数据维度,汇聚点云特征),层间穿插 LayerNorm(层归一化,调整每个特征的均值和方差,使其符合标准正态分布) 层以稳定训练,得到64维向量。编码器优于PointNet。
- 最终输出:一个紧凑的64维3D特征向量,包含了环境中的空间结构信息。
Decision
- 决策部分利用diffusion policy进行动作生成。基于条件去噪扩散模型,以 3D 视觉特征 v 和机器人姿态 q 为条件,将随机高斯噪声去噪为动作 a。从高斯噪声开始,去噪网络进行 K 次迭代,逐步将随机噪声去噪为无噪声动作。
- 扩散过程在每个去噪步骤中,计算更新后的动作:
$a{k-1} = \alpha_k \left( a_k - \gamma_k \epsilon\theta (a_k, k, v, q) \right) + \sigma_k N(0, I)$ - 输出控制动作:通过多次去噪过程(通常是10次或更多),最终生成的$a_0$就是控制机器人执行任务所需的动作序列。
- 最终输出是一个控制动作序列,它是机器人在给定环境(由感知部分提供的3D特征向量)和当前状态下执行任务所需的具体动作。
实验与结论-
实验设置
- 仿真基准:7 个领域共 72 个任务,操作,抓取等
- 仿真环境:MuJoCO,Issacgym等,(未来可以在IsaacSim进行一次复现)
- 专家示范:主要是运用Human-teleoperated、脚本策略、强化学习算法(PPO等)训练轨迹。
- BaseLine:基于图像的扩散模型,还与 IBC(一种无监督的模仿学习way)、BCRNN(基于RNN) 及其 3D 变体比较
- Evaluation metric:We run 3 seeds for each experiment with seed number 0, 1, 2. For each seed, we evaluate 20 episodes every 200 training epochs and then compute the average of the highest 5 success rates. We report the mean and std of success rates across 3 seeds.
Ablations
- Choice of 3D representations
- 编码器选择
- DP3设计
- Sample Prediction vs. Epsilon Prediction
- 实验结果:总而言之是在成功率、收敛速度、少的示范数据、推理速度、演示精度等都得到了提高
Real-world experiment setup
- 被用于四个任务,Roll - Up、Dumpling、Drill 和 Pour
- 专家演示通过人类遥操作收集,每个任务提供了40个示范。
- 结果:总而言之也是在成功率、安全性、泛化能力等方面都要优于其他基准方法,如Diffusion policy or (depth)
3D点云与RGB/RGBD
- RGBD图像结合了RGB图像和深度信息。它不仅包含每个像素的RGB颜色值,还包含深度信息(即该像素到相机的距离)。这使得RGBD图像能够同时提供物体的颜色和空间结构信息。
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 PIQUE!