| type | method | ||||
|---|---|---|---|---|---|
| tags |
|
||||
| status | complete | ||||
| summary | Imitation Learning 通过专家演示学习策略,是奖励难定义任务中最直接的数据驱动路线。 |
模仿学习 (Imitation Learning):通过专家演示数据(行为克隆等),让机器人学会从状态到动作的映射,核心是“抄”。
让机器人看人类/专家怎么做,它就模仿着做。常用的算法包括 DAgger、行为克隆 (Behavior Cloning) 等。
- 纯 RL sample efficiency 低,训练慢。
- 很多任务难以定义 reward。
- 专家演示(行为克隆)提供了高质量数据,可以快速初始化策略。
最简单的模仿学习 (IL):把专家数据当监督学习做。参见 Behavior Cloning with Transformer。
... 有效缓解行为克隆的分布偏移问题。
轨迹级模仿学习的经典工具,见 Dynamic Movement Primitives (DMP)。它通过二阶微分方程描述运动,具有良好的自适应性。
用 GAN 思想:
- 判别器:区分专家数据 vs 策略数据
- 生成器(策略):试图骗过判别器
让策略在 reward signal 上接近专家,不需要显式 reward。
先从演示中提取隐表示或技能 latent,再用于控制。
代表:ASE, CALM, Motion Encoder
| 模仿学习 | 强化学习 | |
|---|---|---|
| 数据来源 | 专家演示 | 环境交互 |
| 样本效率 | 高 | 低 |
| 可超越专家 | 难 | 可以 |
| Reward 设计 | 不需要 | 需要 |
| 适用范围 | 有专家数据的任务 | 任意可定义 reward |
常见组合策略:
- IL 初始化 + RL 微调:先用 IL 训一个不错的初始策略,再用 RL 探索超越专家
- IL + RL 混合:如 GAIL 本身就是 IL 和 RL 的混合
典型 pipeline:
专家演示(MoCap/遥控/CLAW合成)→ 动作重定向(Retarget)→ 模仿学习训练(robot_lab/legged_gym)→ Sim2Real部署
代表工作:
- DeepMimic:BC + RL 改进
- MimicKit:j提炼 encoder-decoder 框架
- ASE:对抗技能嵌入
- CALM:latent 方向控制
- CLAW:宇树 G1 的模块化语言-动作数据生成管线
- Retarget 误差:MoCap 动作不一定适配机器人身体结构
- 分布偏移:训练分布和真实部署差异
- 技能组合:如何把多个独立技能串成复杂长序列
- Ross et al., A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning — DAgger 原论文
- Chi et al., Diffusion Policy: Visuomotor Policy Learning via Action Diffusion — 生成式 IL 代表工作
- sources/papers/imitation_learning.md — DAgger / ACT / Diffusion ingest 摘要
- sources/blogs/claw_unitree_g1_language_annotated_motion_data.md — CLAW 数据生成管线资料
- sources/repos/robot_lab.md — robot_lab RL 训练框架资料
- Imitation Learning 论文导航 — 论文集合
- 机器人论文阅读笔记:DeepMimic
- 机器人论文阅读笔记:ASE
- 机器人论文阅读笔记:CALM
- 机器人论文阅读笔记:Diffusion Policy
- Reinforcement Learning
- Whole-Body Control
- Locomotion
- Sim2Real
- Foundation Policy(基础策略模型)
- Behavior Cloning — 最基础的离线监督式 IL 基线
- CLAW (宇树 G1 全身动作数据生成管线) — 通过 MuJoCo 仿真和组合原子动作快速生成带语言标签的专家数据
- robot_lab — 提供高效 IL/RL 任务开发环境的扩展框架
- DAgger — 用专家回标策略访问到的状态,缓解 covariate shift
- VLA — 把语言、视觉与动作统一进多模态模仿学习 / foundation policy 路线
- RL vs Imitation Learning(两大策略学习路线的系统性对比)
- Motion Retargeting — MoCap 数据需经过 Motion Retargeting 才能作为 IL 的参考轨迹
- Imitation Learning 论文导航
- Diffusion Policy (Blog)(当前 IL 方向最活跃的生成式路线)
- Ross et al., A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning(DAgger 原论文)
- Peng et al., AMP: Adversarial Motion Priors for Style-Preserving Physics-Based Humanoid Motion Synthesis(IL + RL 融合路线)