본 논문은 로봇의 visuomotor policy (시각적 입력을 받아서 적절한 Motor action을 출력)을 Conditional denoising diffusion process로 표현하여 로봇의 행동을 생성하는 Diffusion Policy를 제안한다. Diffusion Policy는 action-distribution Score function의 그래디언트를 학습하고, 추론 과정에서 일련의 Stochastic Langevin Dynamics 단계를 통해 그래디언트 필드에 대해 반복적으로 최적화 과정을 거친다. 우리는 Diffusion이 Robot Policy에 적용될 때 다음과 같은 장점들을 제공한다는 것을 발견했다.
- Multimodal action distribution을 잘 처리함 - 고차원 행동 공간에 적합 - 학습이 안정적으로 이루어짐
물리적 로봇에서의 visuomotor policy 학습을 위한 Diffusion 모델의 잠재력을 완전히 끌어내기 위해, 본 논문은 다음과 같은 주요한 기술적 contribution을 제시한다.
- Incorporation of receding horizon control - Visual conditioning - Time-series diffusion transformer
Introduction
Policy learning은 단순한 형태로는 '관찰을 행동으로 매핑하는 Regression task'라고 말 할 수 있다. 하지만 실제로는 Multi-modal distribution, 순차적 상관관계, 높은 정밀도같이 로봇 Policy 예측의 고유한 특성으로 인해 어려움이 많다.
이전 연구들은 1) 가우시안 혼합 모델 사용, 2) 행동의 양자화 등 다른 '행동 표현'을 탐구하거나, 다중 모달 분포를 더 잘 포착하기 위해 explicit한 것들을 implicit하게 바꾸는 등 여러 방식으로 문제를 해결하고자 했다.
본 논문에서는 Robot action space에서 Conditional denoising diffusion process를 통해 행동을 생성하는 새로운 Diffusion Policy를 도입해 문제를 해결하고자 한다. 이 공식에서는 직접 행동을 출력하는 대신, 정책이 시각적 관찰을 조건으로 하여 K번의 Denoising 반복에 걸쳐 action-score gradient를 추론한다. 이러한 접근은 로봇 Policy가 Diffusion 모델로부터 몇 가지 핵심 특성을 상속받아 성능을 크게 향상시킬 수 있게 한다.
- Expressing multimodal action distributions
Action score 함수의 그래디언트를 학습하고 이 그래디언트 필드에서 Stochastic Langevin Dynamic 샘플링을 수행함으로써, Diffusion Policy는 multi-modal 행동 분포를 포함한 임의의 정규화 가능한 분포를 표현할 수 있다.
- High-dimensional output space
이미지 생성 결과에서 보여주듯이, Diffusion 모델은 고차원 출력 공간에 대한 뛰어난 확장성을 보여주었다. 이 특성은 정책이 single-step 행동 대신에 미래 행동의 시퀀스를 동시에 추론할 수 있게 하며, 이는 시간적 행동 일관성을 보여주고 근시안적 계획을 피하게 한다.
- Stable training
Diffusion policy의 성능을 향상시키고 물리적 로봇에 잘 적용하기 위해 본 논문에서는 다음과 같은 기술적 기여를 제시한다.
- Closed-loop action sequence
Receding-horizon control과 고차원 행동 시퀀스 예측 능력을 결합하여 강건하게 실행할 수 있도록 했다.
- Visual conditioning
시각적 관찰을 데이터 분포의 일부가 아닌 조건으로 취급하는 조건부 Diffusion 정책을 도입했다. 이 방법에서는 정책이 denoising 반복과 관계없이 시각적 표현을 한 번만 추출하여 계산을 크게 줄였다.
- Time-series diffusion transformer
일반적인 CNN 기반 모델의 과도한 over-smoothing 효과를 최소화하고, high-frequency 행동 변화와 빠른 속도 제어가 필요한 작업에서 좋은 성능을 달성하는 트랜스포머 기반 Diffusion network를 제안한다.
*Receding-horizon control 이란 ?
MPC의 한 형태로, 특정 시간 범위(horizon) 동안의 미래 행동을 계획하고 실행하는 제어 방식이다.
1. 현재 상태에서 시작해서 미래 N 스텝에 대한 행동 계획을 수립 2. 계획 중 첫 번째 행동만 실행 3. 다음 시점에서 새로운 상태 정보를 관측하고 Horizon을 한 스텝 앞으로 이동 (Recede) 4. 새로운 N 스텝 계획을 다시 수립
이렇게 함으로써 실시간으로 계획을 수정할 수 있고, 장기적인 결과를 고려하여 의사결정을 내릴 수 있다.
Diffusion Policy Formulation
Diffusion 정책들은 복잡한 Multi-modal 행동 분포를 표현할 수 있고 안정적으로 학습하기 때문에 작업별로 하이퍼파라미터 튜닝이 거의 필요하지 않다.
A. Denoising Diffusion Probabilistic Models
DDPM은 출력 생성이 Denoising 프로세스로 모델링되는 생성 모델의 한 종류로, 종종 Stochastic Langevin Dynamics라고 불린다. 가우시안 노이즈에서 샘플링된 x^k에서 시작하여, DDPM은 K번의 디노이징 반복을 수행하여 노이즈 수준이 점차 감소가흔 중간 시리즈를 생성하고, 최종적으로 원하는 노이즈가 없는 출력 x^0이 형성된다.