Skip to content

Latest commit

 

History

History
119 lines (85 loc) · 5.96 KB

File metadata and controls

119 lines (85 loc) · 5.96 KB
type method
tags
il
behavior-cloning
diffusion-policy
sim2real
status complete
summary Imitation Learning 通过专家演示学习策略,是奖励难定义任务中最直接的数据驱动路线。

Imitation Learning (IL, 模仿学习)

模仿学习 (Imitation Learning):通过专家演示数据(行为克隆等),让机器人学会从状态到动作的映射,核心是“抄”。

一句话定义

让机器人看人类/专家怎么做,它就模仿着做。常用的算法包括 DAgger、行为克隆 (Behavior Cloning) 等。

为什么重要

  • 纯 RL sample efficiency 低,训练慢。
  • 很多任务难以定义 reward。
  • 专家演示(行为克隆)提供了高质量数据,可以快速初始化策略。

主要分类

1. 行为克隆 (Behavior Cloning, BC)

最简单的模仿学习 (IL):把专家数据当监督学习做。参见 Behavior Cloning with Transformer

2. DAgger (Dataset Aggregation)

... 有效缓解行为克隆的分布偏移问题。

3. DMP (Dynamic Movement Primitives)

轨迹级模仿学习的经典工具,见 Dynamic Movement Primitives (DMP)。它通过二阶微分方程描述运动,具有良好的自适应性。

3. GAIL(Generative Adversarial Imitation Learning)

用 GAN 思想:

  • 判别器:区分专家数据 vs 策略数据
  • 生成器(策略):试图骗过判别器

让策略在 reward signal 上接近专家,不需要显式 reward。

4. 基于重建的方法

先从演示中提取隐表示或技能 latent,再用于控制。

代表:ASE, CALM, Motion Encoder

和强化学习的关系

模仿学习 强化学习
数据来源 专家演示 环境交互
样本效率
可超越专家 可以
Reward 设计 不需要 需要
适用范围 有专家数据的任务 任意可定义 reward

常见组合策略:

  • IL 初始化 + RL 微调:先用 IL 训一个不错的初始策略,再用 RL 探索超越专家
  • IL + RL 混合:如 GAIL 本身就是 IL 和 RL 的混合

在人形机器人中的应用

典型 pipeline:

专家演示(MoCap/遥控/CLAW合成)→ 动作重定向(Retarget)→ 模仿学习训练(robot_lab/legged_gym)→ Sim2Real部署

代表工作:

  • DeepMimic:BC + RL 改进
  • MimicKit:j提炼 encoder-decoder 框架
  • ASE:对抗技能嵌入
  • CALM:latent 方向控制
  • CLAW:宇树 G1 的模块化语言-动作数据生成管线

常见问题

  • Retarget 误差:MoCap 动作不一定适配机器人身体结构
  • 分布偏移:训练分布和真实部署差异
  • 技能组合:如何把多个独立技能串成复杂长序列

参考来源

关联页面

推荐继续阅读

  • Imitation Learning 论文导航
  • Diffusion Policy (Blog)(当前 IL 方向最活跃的生成式路线)
  • Ross et al., A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning(DAgger 原论文)
  • Peng et al., AMP: Adversarial Motion Priors for Style-Preserving Physics-Based Humanoid Motion Synthesis(IL + RL 融合路线)