모델 기반 강화학습 방법들은 종종 approximate 동역학 모델을 추정하는 목적으로만 학습을 사용하고, 의사결정 작업의 나머지 부분은 고전적인 Trajectory 최적화 도구에 맡기게 된다. 단순하지만 이런 조합은 여러가지 한계점을 보여 주며, 학습된 모델이 표준적인 trajectory optimization에 적합하지 않을 수 있다. 본 논문에서는 trajectory optimization의 최적화 파이프라인의 많은 부분을 모델링 문제로 통합하여 1) 모델에서 샘플링하는 것(sampling from the model)과 2) 모델을 사용한 계획(planning with it)이 거의 동일해지는 방식을 고려한다. 우리의 접근의 핵심은 "궤적에서 반복적으로 노이즈를 제거함으로써 계획을 수립하는 Diffusion 모델"에 있다.
우리는 Classifier-guided sampling과 이미지 inpainting이 어떻게 일관된 planning 전략으로 재해석될 수 있는지 보여주고, Diffusion 기반 플래닝 방법의 특성을 탐구하며, Long-horizontal decision-making과 test-time flexibility를 강조하는 제어 환경에서 우리 프레임워크의 효과를 입증한다.
Introduction
Learned model을 사용한 플래닝은 개념적으로 단순하다. 이런 접근 방식은 모델이 충분히 학습되었을 때만 효과적으로 사용될 수 있고, 알지 못하는 학습 문제를 지도학습 문제처럼 근사화하는 데 사용되고 있다.
[ 모델 기반 강화학습에서 발생하는 문제: 학습된 모델은 실제 환경을 완벽하게 모방하지 못하고 오차를 가지고 있는데, Trajectory optimization 알고리즘은 이런 모델들을 활용해 최적의 행동 계획을 찾을 때 종종 모델의 약점을 이용할 수 있다. 예를 들어 학습된 모델이 특정 각도에서 로봇 팔의 역학을 약간 부정확하게 예측한다고 해보자. 만약 특정 각도에서는 물리적으로 불가능한 수준으로 빠르게 물체를 움직일 수 있다고 예측한다면, Trajectory optimization 알고리즘은 이런 약점을 찾아내 불가능한 문제를 활용하는 계획을 만들어낸다.
]
이 연구에서 우리는 데이터 기반 Trajectory optimization에 대한 새로운 접근법을 제안한다. 핵심 아이디어는 모델에서 샘플을 추출하는 것과, 모델을 사용해 계획을 수립하는 것이 거의 동일해지도록 Trajectory optimization에 직접 적용 가능한 모델을 훈련시키는 것이다.
이는 모델 설계 방식의 변화를 필요로 한다. 일반적으로 학습된 역학 모델은 환경 역학의 대리자 (Proxies for environment dynamics) 역할을 하기 때문에, 모델의 개선은 주로 causal process를 구조화함으로써 이루어진다.
그러나 우리는 모델이 사용될 Planning 문제에 맞게 어떻게 설계할 지를 고려한다. 예를 들어 모델이 궁극적으로 계획에 사용될 것이므로, 행동 분포는 상태 역학만큼 중요하며, 장기적 정확성은 단일 단계 오류보다 더 중요하다고 할 수 있다. 또한 모델은 그 예측 뿐 아니라 계획도 경험을 통해서 개선되고, 기존의 Trial 기반 계획 알고리즘의 근시안적 한계를 극복할 수 있도록 설계되어야 한다.
우리는 이 아이디어를 Fig.2에 시각화된 Diffuser라는 Trajectory level Diffusion 모델로 구현했다.
기존의 모델 기반 Planning 기술이 시간에 따라 autoregressive하게 예측하는 반면, Diffuser는 계획의 모든 시간 단계를 동시에 예측한다. Diffusion 모델의 반복적 샘플링 과정은 유연한 조건부 설정을 가능하게 하기 때문에, 보조 가이드(Auxilary guide)가 샘플링 과정을 조정함으로써 높은 보상을 얻는 궤적이나 특정 제약 조건을 만족하는 궤적을 찾아낼 수 있다. 이런 데이터 기반 최적화 접근법은 몇 가지 매력적인 특성을 가진다.
1. Long-horizon scalability
Diffuser는 단일 단계 오류가 아닌 생성된 궤적 전체의 정확성을 목표로 훈련되므로, 단일 단계 역학 모델에서 발생하는 오류 누적 문제를 겪지 않고 긴 계획 기간에 대해 더 효과적으로 확장된다.
2. Task compositionality
Reward function은 계획 샘플링 중에 활용되는 Auxilary gradient를 제공하여 여러 보상의 그래디언트를 단순히 더함으로써 복합적인 계획을 수립할 수 있는 방법을 제공한다.
3. Temporal compositionality
Diffuser는 local consistency를 반복적으로 개선함으로써 전체적으로 일관된 궤적을 생성하며, 학습 데이터 내의 부분 시퀀스들을 결합해 새로운 궤적으로 일반화할 수 있다.
4. Effective non-greedy planning
모델과 플래너 사이의 경계를 허물어, 모델의 예측을 개선하는 훈련 과정이 동시에 계획 능력도 향상시키는 효과를 가진다.
본 연구의 핵심 Contribution은 궤적 데이터를 위해 설계된 Denoising Diffusion 모델과 이와 연관된 Behavior synthesis를 위한 확률적 프레임워크 제안이다. 이런 접근법은 DRL에서 일반적으로 사용되는 모델 유형과는 다르지만, Diffuser가 다양한 유용한 특성을 가지고 있으며, 특히 장기적 추론과 Test time 유연성이 필요한 오프라인 제어 환경에서 매우 효과적임을 보여준다.
Background
우리의 접근법은, Trajectory optimization을 사용한 behavioral synthesis에 관한 이전 연구를 learning-based로 유사하게 적용해 본 것이다.
2.1 Problem Setting
상태 St에서 행동 At가 주어졌을 때 Discrete-time dynamics St+1 = f(st, at)에 의해 제어되는 시스템을 고려해 보자. Trajectory optimization은 각 시간 단계별 보상 (또는 비용) r(st, at)로 분해된 목적 함수 J를 최대회 (혹은 최소화)하는 행동 시퀀스를 찾는 것을 의미한다.
여기서 T는 planning horizon이다.
2.2 Diffusion Probabilitic Models
Diffusion probabilistic model은 데이터 생성 과정을 반복적인 노이즈 제거 절차
로 설정한다. 이 노이즈 제거는 데이터 구조에 점차 노이즈를 추가하여 손상시키는 forward diffusion process의 역과정이다. 모델에 의해 유도된 데이터 분포는 다음과 같이 주어진다.
Notation
이 연구에서는 두 가지 '시간'이 작용한다. 확산 과정의 시간과 Planning 문제의 시간이다. 우리는 확산 시간 단계를 나타내기 위해 위첨자를 사용하고, Planning 시간 단계를 나타내기 위해 아래첨자를 사용한다.
Planning with Diffusion
Trajectory optimization 기술을 사용하는 데 있어서 주된 장애물은 환경 동역학 f에 대한 지식이 필요하다는 점이다. 대부분의 학습 기반 방법은 Approximate 동역학 모델을 훈련시켜서 기존 Planning 루틴에 연결함으로써 이런 장애물을 극복하려고 시도한다. 그러나 학습된 모델은 종종 실제 모델을 염두에 두고 설계된 Planning 알고리즘 유형에 적합하지 않아, adversarial example을 찾아 학습된 모델을 악용하는 Planner로 이어지게 된다.
우리는 모델링과 계획 사이의 더 긴밀한 결합을 제안한다. 고전적인 플래너의 맥락에서 학습된 모델을 사용하는 대신, 가능한 많은 플래닝 과정을 생성 모델링 프레임워크로 포함시켜 플래닝이 샘플링과 거의 동일해지도록 한다.
*기존 접근법의 한계:
전통적인 궤적 최적화는 환경이 어떻게 변화하는지(동역학 함수 f)를 정확히 알아야 작동한다. 예를 들어, 로봇 팔을 움직일 때 특정 관절에 힘을 가하면 어떻게 움직일지 정확히 알아야 계획을 세울 수 있다.
현재 대부분의 방법은 데이터로부터 환경 동역학을 학습하고(즉, 근사 함수 f를 만들고), 이 학습된 모델을 기존 플래닝 알고리즘에 그대로 넣는다. 이것은 마치 "실제 물리법칙 대신 근사화된 물리법칙을 플래닝 시스템에 입력하는 것"과 같다.
다만 이렇게 학습된 모델은 근사치이기 때문에 오류와 불완전성을 가지고 있다. 만약 지도 데이터에 오류가 있어 "벽을 통과할 수 있다"고 잘못 표시하면, 경로 계산 알고리즘은 그 벽을 통과하는 경로를 최적이라고 제안할 것이다.
*새로운 접근법:
환경 모델과 플래너를 별개로 다루지 말고, 통합된 시스템으로 다루자. 또한 Diffuser에서는 전체 경로를 한 번에 고려하고 (시간 순서대로 하나씩 예측하지 않음) 물리적으로 가능한 전체 궤적을 직접 생성한다.
함수 h(τ)는 prior evidence(observation history), 원하는 결과 (goal to reach), 또는 최적화할 일반 함수(보상이나 비용 같은)에 대한 정보를 포함할 수 있다. 이러한 Perturbed distribution에서 추론을 수행하는 것은 섹션 2.1에서 제시된 Trajectory optimization의 probabilistic analogue로 볼 수 있다.
3.1 A Generative Model for Trajectory Planning
Temporal Ordering
Trajectory 모델에서 샘플링하는 것과 이것으로 플래닝하는 것 사이의 경계를 흐릿하게 하면 특이한 제약이 생긴다 : 우리는 더 이상 시간 순서대로 상태를 autoregressive하게 예측할 수 없다. 예를 들어 p(s₁|s₀, s_T)같은 상태에서, 다음 상태 s₁은 이전 상태뿐만 아니라 미래 상태에도 의존한다. 동역학 예측은 현재가 과거에 의해 결정된다는 의미에서 인과적이지만, 의사결정과 제어는 현재의 결정이 미래에 조건부라는 의미에서 반인과적일 수 있다.
시간적 자기회귀 순서를 사용할 수 없기 때문에, 우리는 Diffuser가 계획의 모든 시간 단계를 동시에 예측하도록 설계하였다.
Temporal Locality
자기회귀적이거나 마르코프적이지 않음에도 불구하고, Diffuser는 완화된 형태의 시간적 지역성을 특징으로 한다.