| type | method | |||||
|---|---|---|---|---|---|---|
| tags |
|
|||||
| status | complete | |||||
| updated | 2026-04-20 | |||||
| summary | Behavior Cloning 把专家演示转成监督学习问题,是机器人模仿学习最简单也最常用的基线。 | |||||
| related |
|
|||||
| sources |
|
Behavior Cloning, BC:把专家演示数据当作监督学习数据集,直接学习从观测到动作的映射,是模仿学习最直接的做法。
给机器人一堆“专家在这个状态下应该怎么做”的样本,训练一个策略去直接复现这些动作。
- 它几乎是所有模仿学习 pipeline 的起点:先训一个能跑的 BC baseline,再谈 DAgger、Diffusion Policy 或 IL+RL。
- 在奖励函数很难设计、但演示数据容易拿到的任务里,BC 往往是最低门槛方案。
- 许多真机操作系统都会先用 BC 做 warm start,再用更复杂方法提升鲁棒性。
给定专家数据集
常见设定:
- 输入:图像、关节状态、末端位姿、历史动作等观测
- 输出:关节目标、末端动作、action chunk 或离散动作 token
- 损失:MSE、L1、交叉熵、负对数似然
它不需要环境交互、不需要在线探索,也不需要 reward engineering。
在固定专家数据上训练,通常比从零探索的 RL 更快进入“能做事”的区间。
训练和部署都像标准 supervised learning,适合先做 baseline、集成到已有感知模型、或作为大模型动作头。
训练时看到的是专家访问到的状态,部署时策略一旦出错,就会进入训练集中没见过的状态分布。
单步小误差会沿着闭环执行不断累积,序列越长、任务越长 horizon,问题越明显。BC 并不是“每步都独立无害”的方法。
如果数据里没有恢复动作、异常姿态或罕见接触,BC 通常也学不会这些行为。
| 问题 | 常见缓解 |
|---|---|
| 分布漂移 | DAgger 在线聚合策略访问到的新状态 |
| 长时序误差 | Action Chunking、序列模型、闭环再规划 |
| 多模态动作 | Diffusion Policy、Flow Matching、Mixture Density |
| 真机鲁棒性不足 | 数据增强、传感器噪声注入、真实数据微调 |
- BC:最简单,离线监督学习基线。
- DAgger:仍然学监督映射,但会反复收集“当前策略真正会访问到的状态”,核心是修复 covariate shift。
- Diffusion Policy / π₀:仍可看作 BC 范式的生成式升级,重点解决多模态动作和长时序建模。
- 桌面抓取、装配、双手协作
- 遥操作数据蒸馏为离线策略
- VLA / Foundation Policy 的动作头微调基线
- 用 MoCap、教师策略或 privileged teacher 生成数据,再做学生策略蒸馏
- 常作为 IL+RL 混合流程的第一步,而不是最终控制器
- 误区 1:BC 与 DAgger 等价。 不是。DAgger 的关键价值正是在于持续覆盖策略部署分布,通常比纯 BC 更能处理分布漂移。
- 误区 2:BC 的累积误差和序列长度无关。 错。horizon 越长,早期偏差越容易滚雪球。
- 误区 3:只要模型够大,BC 就天然鲁棒。 模型容量能帮助拟合,但不能替代分布覆盖。
- sources/papers/imitation_learning.md — DAgger / BC / ACT / Diffusion Policy 的 ingest 档案
- sources/papers/diffusion_and_gen.md — 生成式模仿学习如何扩展传统 BC
- Ross et al., A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning — 解释为什么纯 BC 会受到 covariate shift 影响
- Imitation Learning
- Behavior Cloning Loss — BC 在不同动作空间下的数学形式化定义
- DAgger
- Diffusion Policy
- Manipulation
- RL vs Imitation Learning
- Ross et al., DAgger — 经典交互式 IL 方法
- Zhao et al., ACT — 用 action chunking 缓解长时序误差
- Chi et al., Diffusion Policy — 生成式方法如何超越传统 BC