王建明老师的文章，关于diffusion policy+与robotics，讲的很好：https://zhuanlan.zhihu.com/p/670555655

3D diffusion policy

代码链接：https://github.com/YanjieZe/3D-Diffusion-Policy
Octo：https://arxiv.org/pdf/2405.12213 一个开源的、通用的、可适配不同机器人和任务的机器人操作策略模型，基于transformer
本质上是一种3D点云+diffusion policy+模仿学习:DP3

background

模仿学习
视觉模仿学习
模型方法
根据论文的描述，主要分为感知和决策部分
Perception
DP3 在所有任务中仅使用单视图相机进行策略学习，其他方法更多表现为多相机视角表示
利用稀疏点云进行3D表示，更加高效吧
DP3通过从相机获取深度图像（例如，使用RealSense等深度相机）来构建3D环境的点云表示。深度图像首先通过相机的外参和内参转换为点云数据。
点云处理：点云数据通常会包含冗余的点，例如来自地面或桌面的无关点。DP3通过裁剪去除这些不需要的点，仅保留与任务相关的区域，从而减少了数据的冗余。采用最远点采(FPS)，充分覆盖3D空间且减少采样随机性，512-1024个点。
点云编码：点云进入DP3编码器，3层MLP+最大池化函数（，减少数据维度，汇聚点云特征），层间穿插 LayerNorm（层归一化，调整每个特征的均值和方差，使其符合标准正态分布）层以稳定训练，得到64维向量。编码器优于PointNet。
最终输出：一个紧凑的64维3D特征向量，包含了环境中的空间结构信息。
Decision
决策部分利用diffusion policy进行动作生成。基于条件去噪扩散模型，以 3D 视觉特征 v 和机器人姿态 q 为条件，将随机高斯噪声去噪为动作 a。从高斯噪声开始，去噪网络进行 K 次迭代，逐步将随机噪声去噪为无噪声动作。
扩散过程在每个去噪步骤中，计算更新后的动作：
$a{k-1} = \alpha_k \left( a_k - \gamma_k \epsilon\theta (a_k, k, v, q) \right) + \sigma_k N(0, I)$
输出控制动作：通过多次去噪过程（通常是10次或更多），最终生成的$a_0$就是控制机器人执行任务所需的动作序列。
最终输出是一个控制动作序列，它是机器人在给定环境（由感知部分提供的3D特征向量）和当前状态下执行任务所需的具体动作。
实验与结论-
实验设置
仿真基准：7 个领域共 72 个任务，操作，抓取等
仿真环境：MuJoCO,Issacgym等，（未来可以在IsaacSim进行一次复现）
专家示范：主要是运用Human-teleoperated、脚本策略、强化学习算法（PPO等）训练轨迹。
BaseLine:基于图像的扩散模型，还与 IBC（一种无监督的模仿学习way）、BCRNN（基于RNN）及其 3D 变体比较
Evaluation metric:We run 3 seeds for each experiment with seed number 0, 1, 2. For each seed, we evaluate 20 episodes every 200 training epochs and then compute the average of the highest 5 success rates. We report the mean and std of success rates across 3 seeds.
Ablations
Choice of 3D representations
编码器选择
DP3设计
Sample Prediction vs. Epsilon Prediction
实验结果：总而言之是在成功率、收敛速度、少的示范数据、推理速度、演示精度等都得到了提高
Real-world experiment setup
被用于四个任务，Roll - Up、Dumpling、Drill 和 Pour
专家演示通过人类遥操作收集,每个任务提供了40个示范。
结果：总而言之也是在成功率、安全性、泛化能力等方面都要优于其他基准方法，如Diffusion policy or （depth)

3D点云与RGB/RGBD

RGBD图像结合了RGB图像和深度信息。它不仅包含每个像素的RGB颜色值，还包含深度信息（即该像素到相机的距离）。这使得RGBD图像能够同时提供物体的颜色和空间结构信息。

3D diffusion policy

background

模型方法

Perception

Decision

实验与结论-

实验设置

Ablations

Real-world experiment setup

3D点云与RGB/RGBD