새소식

논문 리뷰

Diffusion Policy:Visuomotor Policy Learning via Action Diffusion

  • -
Cheng Chi1, Siyuan Feng2, Yilun Du3, Zhenjia Xu1, Eric Cousineau2, Benjamin Burchfiel2, Shuran Song1

https://diffusion-policy.cs.columbia.edu/

 

Diffusion Policy: Visuomotor Policy Learning via Action Diffusion

This paper introduces Diffusion Policy, a new way of generating robot behavior by representing a robot's visuomotor policy as a conditional denoising diffusion process. We benchmark Diffusion Policy across 12 different tasks from 4 different robot manipula

diffusion-policy.cs.columbia.edu

 

 

Abstract

본 논문은 로봇의 visuomotor policy (시각적 입력을 받아서 적절한 Motor action을 출력)을 Conditional denoising diffusion process로 표현하여 로봇의 행동을 생성하는 Diffusion Policy를 제안한다. 
Diffusion Policy는 action-distribution Score function의 그래디언트를 학습하고, 추론 과정에서 일련의 Stochastic Langevin Dynamics 단계를 통해 그래디언트 필드에 대해 반복적으로 최적화 과정을 거친다. 
우리는 Diffusion이 Robot Policy에 적용될 때 다음과 같은 장점들을 제공한다는 것을 발견했다. 

- Multimodal action distribution을 잘 처리함
- 고차원 행동 공간에 적합
- 학습이 안정적으로 이루어짐

물리적 로봇에서의 visuomotor policy 학습을 위한 Diffusion 모델의 잠재력을 완전히 끌어내기 위해, 본 논문은 다음과 같은 주요한 기술적 contribution을 제시한다. 

- Incorporation of receding horizon control 
- Visual conditioning
- Time-series diffusion transformer

 

Introduction

Policy learning은 단순한 형태로는 '관찰을 행동으로 매핑하는 Regression task'라고 말 할 수 있다. 하지만 실제로는 Multi-modal distribution, 순차적 상관관계, 높은 정밀도같이 로봇 Policy 예측의 고유한 특성으로 인해 어려움이 많다. 

이전 연구들은 1) 가우시안 혼합 모델 사용, 2) 행동의 양자화 등 다른 '행동 표현'을 탐구하거나, 다중 모달 분포를 더 잘 포착하기 위해 explicit한 것들을 implicit하게 바꾸는 등 여러 방식으로 문제를 해결하고자 했다. 

본 논문에서는 Robot action space에서 Conditional denoising diffusion process를 통해 행동을 생성하는 새로운 Diffusion Policy를 도입해 문제를 해결하고자 한다. 이 공식에서는 직접 행동을 출력하는 대신, 정책이 시각적 관찰을 조건으로 하여 K번의 Denoising 반복에 걸쳐 action-score gradient를 추론한다. 이러한 접근은 로봇 Policy가 Diffusion 모델로부터 몇 가지 핵심 특성을 상속받아 성능을 크게 향상시킬 수 있게 한다. 

- Expressing multimodal action distributions

Action score 함수의 그래디언트를 학습하고 이 그래디언트 필드에서 Stochastic Langevin Dynamic 샘플링을 수행함으로써, Diffusion Policy는 multi-modal 행동 분포를 포함한 임의의 정규화 가능한 분포를 표현할 수 있다. 

- High-dimensional output space

이미지 생성 결과에서 보여주듯이, Diffusion 모델은 고차원 출력 공간에 대한 뛰어난 확장성을 보여주었다. 이 특성은 정책이 single-step 행동 대신에 미래 행동의 시퀀스를 동시에 추론할 수 있게 하며, 이는 시간적 행동 일관성을 보여주고 근시안적 계획을 피하게 한다. 

- Stable training

Diffusion policy의 성능을 향상시키고 물리적 로봇에 잘 적용하기 위해 본 논문에서는 다음과 같은 기술적 기여를 제시한다. 

- Closed-loop action sequence

Receding-horizon control과 고차원 행동 시퀀스 예측 능력을 결합하여 강건하게 실행할 수 있도록 했다. 

- Visual conditioning

시각적 관찰을 데이터 분포의 일부가 아닌 조건으로 취급하는 조건부 Diffusion 정책을 도입했다. 이 방법에서는 정책이 denoising 반복과 관계없이 시각적 표현을 한 번만 추출하여 계산을 크게 줄였다. 

- Time-series diffusion transformer

일반적인 CNN 기반 모델의 과도한 over-smoothing 효과를 최소화하고, high-frequency 행동 변화와 빠른 속도 제어가 필요한 작업에서 좋은 성능을 달성하는 트랜스포머 기반 Diffusion network를 제안한다. 

*Receding-horizon control 이란 ?

MPC의 한 형태로, 특정 시간 범위(horizon) 동안의 미래 행동을 계획하고 실행하는 제어 방식이다. 

1. 현재 상태에서 시작해서 미래 N 스텝에 대한 행동 계획을 수립
2. 계획 중 첫 번째 행동만 실행
3. 다음 시점에서 새로운 상태 정보를 관측하고 Horizon을 한 스텝 앞으로 이동 (Recede) 
4. 새로운 N 스텝 계획을 다시 수립

이렇게 함으로써 실시간으로 계획을 수정할 수 있고, 장기적인 결과를 고려하여 의사결정을 내릴 수 있다. 

Diffusion Policy Formulation

Diffusion 정책들은 복잡한 Multi-modal 행동 분포를 표현할 수 있고 안정적으로 학습하기 때문에 작업별로 하이퍼파라미터 튜닝이 거의 필요하지 않다. 

A. Denoising Diffusion Probabilistic Models

DDPM은 출력 생성이 Denoising 프로세스로 모델링되는 생성 모델의 한 종류로, 종종 Stochastic Langevin Dynamics라고 불린다. 가우시안 노이즈에서 샘플링된 x^k에서 시작하여, DDPM은 K번의 디노이징 반복을 수행하여 노이즈 수준이 점차 감소가흔 중간 시리즈를 생성하고, 최종적으로 원하는 노이즈가 없는 출력 x^0이 형성된다. 

B. DDPM Training


Contents

포스팅 주소를 복사했습니다

이 글이 도움이 되었다면 공감 부탁드립니다.