type

method

Imitation Learning (IL, 模仿学习)

模仿学习 (Imitation Learning)：通过专家演示数据（行为克隆等），让机器人学会从状态到动作的映射，核心是“抄”。

一句话定义

让机器人看人类/专家怎么做，它就模仿着做。常用的算法包括 DAgger、行为克隆 (Behavior Cloning) 等。

为什么重要

纯 RL sample efficiency 低，训练慢。
很多任务难以定义 reward。
专家演示（行为克隆）提供了高质量数据，可以快速初始化策略。

主要分类

1. 行为克隆 (Behavior Cloning, BC)

最简单的模仿学习 (IL)：把专家数据当监督学习做。参见 Behavior Cloning with Transformer。

2. DAgger (Dataset Aggregation)

... 有效缓解行为克隆的分布偏移问题。

3. DMP (Dynamic Movement Primitives)

轨迹级模仿学习的经典工具，见 Dynamic Movement Primitives (DMP)。它通过二阶微分方程描述运动，具有良好的自适应性。

3. GAIL（Generative Adversarial Imitation Learning）

用 GAN 思想：

判别器：区分专家数据 vs 策略数据
生成器（策略）：试图骗过判别器

让策略在 reward signal 上接近专家，不需要显式 reward。

4. 基于重建的方法

先从演示中提取隐表示或技能 latent，再用于控制。

代表：ASE, CALM, Motion Encoder

和强化学习的关系

	模仿学习	强化学习
数据来源	专家演示	环境交互
样本效率	高	低
可超越专家	难	可以
Reward 设计	不需要	需要
适用范围	有专家数据的任务	任意可定义 reward

常见组合策略：

IL 初始化 + RL 微调：先用 IL 训一个不错的初始策略，再用 RL 探索超越专家
IL + RL 混合：如 GAIL 本身就是 IL 和 RL 的混合

在人形机器人中的应用

典型 pipeline：

专家演示（MoCap/遥控/CLAW合成）→ 动作重定向（Retarget）→ 模仿学习训练（robot_lab/legged_gym）→ Sim2Real部署

代表工作：

DeepMimic：BC + RL 改进
MimicKit：j提炼 encoder-decoder 框架
ASE：对抗技能嵌入
CALM：latent 方向控制
CLAW：宇树 G1 的模块化语言-动作数据生成管线

常见问题

Retarget 误差：MoCap 动作不一定适配机器人身体结构
分布偏移：训练分布和真实部署差异
技能组合：如何把多个独立技能串成复杂长序列

参考来源

Ross et al., A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning — DAgger 原论文
Chi et al., Diffusion Policy: Visuomotor Policy Learning via Action Diffusion — 生成式 IL 代表工作
sources/papers/imitation_learning.md — DAgger / ACT / Diffusion ingest 摘要
sources/blogs/claw_unitree_g1_language_annotated_motion_data.md — CLAW 数据生成管线资料
sources/repos/robot_lab.md — robot_lab RL 训练框架资料
Imitation Learning 论文导航 — 论文集合
机器人论文阅读笔记：DeepMimic
机器人论文阅读笔记：ASE
机器人论文阅读笔记：CALM
机器人论文阅读笔记：Diffusion Policy

关联页面

Reinforcement Learning
Whole-Body Control
Locomotion
Sim2Real
Foundation Policy（基础策略模型）
Behavior Cloning — 最基础的离线监督式 IL 基线
CLAW (宇树 G1 全身动作数据生成管线) — 通过 MuJoCo 仿真和组合原子动作快速生成带语言标签的专家数据
robot_lab — 提供高效 IL/RL 任务开发环境的扩展框架
DAgger — 用专家回标策略访问到的状态，缓解 covariate shift
VLA — 把语言、视觉与动作统一进多模态模仿学习 / foundation policy 路线
RL vs Imitation Learning（两大策略学习路线的系统性对比）
Motion Retargeting — MoCap 数据需经过 Motion Retargeting 才能作为 IL 的参考轨迹

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Imitation Learning (IL, 模仿学习)

一句话定义

为什么重要

主要分类

1. 行为克隆 (Behavior Cloning, BC)

2. DAgger (Dataset Aggregation)

3. DMP (Dynamic Movement Primitives)

3. GAIL（Generative Adversarial Imitation Learning）

4. 基于重建的方法

和强化学习的关系

在人形机器人中的应用

常见问题

参考来源

关联页面

推荐继续阅读

FilesExpand file tree

imitation-learning.md

Latest commit

History

imitation-learning.md

File metadata and controls

Imitation Learning (IL, 模仿学习)

一句话定义

为什么重要

主要分类

1. 行为克隆 (Behavior Cloning, BC)

2. DAgger (Dataset Aggregation)

3. DMP (Dynamic Movement Primitives)

3. GAIL（Generative Adversarial Imitation Learning）

4. 基于重建的方法

和强化学习的关系

在人形机器人中的应用

常见问题

参考来源

关联页面

推荐继续阅读