전통적인 포텐셜 필드 방법은 한 번에 한 지점씩 최적화하는 반면, Diffusion 모델은 전체 궤적을 한꺼번에 단계별로 최적화한다.
특정 지점에서의 지역 최소값보다 전체 경로의 품질에 더 초점을 맞춘다.
궤적 전체에 대한 정보를 활용하므로 "전역 시야"를 가진다고 할 수 있다.
사전 지식
Potential-based motion planning
환경의 요소들(장애물과 목표 등)을 에너지 포텐셜 필드로 표현하는 접근 방식
목표 지점은 낮은 포텐셜(당기는 힘)을 가지고, 장애물은 높은 포텐셜(밀어내는 힘)을 가짐
로봇은 마치 구슬이 언덕에서 굴러 내려가듯이 전체 포텐셜 필드에서 낮은 에너지 상태로 이동하는 경로를 찾는다.
Composability: 여러 제약 조건을 각각의 포텐셜로 변환하여 단순히 더하는 방식으로 쉽게 결합할 수 있다는 점
Sampling-based approach와의 차이점 (RRT, PRM 등)
샘플링 기반: 공간에서 무작위로 지점을 샘플링하고 연결하여 경로를 찾음
포텐셜 기반: 연속적인 포텐셜 필드를 통해 그래디언트를 따라 최적화
Abstract
고차원 공간에서 효과적인 모션 플래닝은 로봇공학에서 오랫동안 해결되지 않은 문제이다. 전통적인 모션 플래닝 알고리즘의 한 종류로 포텐셜 기반 모션 플래닝이 있다. 포텐셜 기반 모션 플래닝의 장점은 조합 가능성(composability)에 있다. 서로 다른 motion constraint들을 corresponding potential에 추가함으로써 쉽게 결합할 수 있다. 그러나 포텐셜로부터 motion path를 구성하기 위해서는 configuration space potential landscape에 걸친 전역 최적화를 해결해야 하는데, 이는 종종 local minima에 빠지기 쉽다. 그래서 우리는 포텐셜 기반 모션 플래닝을 학습하는 새로운 접근법을 제안한다. 이 방법에서는 신경망을 훈련시켜 모션 플래닝 궤적에 대해 쉽게 최적화할 수 있는 포텐셜을 포착하고 학습한다. 우리는 이런 접근법의 효과를 보여주며, 기존의 고전적인 방법과 최근의 학습된 모션 플래닝 접근법들을 크게 능가하고 local minima 문제를 회피한다. We further illustrate its inherent composability, enabling us to generalize to a multitude of different motion constraints.
Introduction
모션 플래닝은 로봇공학의 기본적인 문제로, 지정된 configuration space내에서 시작 상태와 목표 상태 사이의 부드럽고 충돌이 없는 경로를 찾는 것을 목표로 하며, 조작이나 내비게이션과 같은 다양한 로봇공학 작업에서 광범위하게 사용된다. 모션 플래닝을 위한 다양한 접근 방식이 존재하며, 고전적인 샘플링 기반 접근법부터 최적화 기반 방법부터 다양하게 있다. 최근 연구들은 accelerated performance를 위해서 학습된 신경망이 모션 플래닝과 어떻게 통합될 수 있는지 추가로 탐구해 왔다.
모션 플래닝을 향한 고전적인 접근법은 포텐셜 기반 모션 플래닝으로, 궤적 상에서 에너지 포텐셜을 정의할 수 있다. 이의 장점은 모션 플래닝에 대한 다양한 제약 조건들을 동등한 에너지 포텐셜로 변환하여 모션 계획을 최적화하기 위해 결합할 수 있다는 점이다. 그러나 포텐셜 기반 방법은 lcoal geometry에 대한 그래디언트 최적화에 의존하므로 local minima 문제를 초래한다. 또한 일반적으로 실제 환경에서 얻기 어려운 암시적 장애물(implicit obstacle representation)을 필요로 한다.
그래서 우리는 Diffusion 모델을 활용한 포텐셜 기반 모션 플래닝 접근법을 제시한다. 이 접근법에서는 Diffusion 모델을 사용하여 시작 상태와 목표 상태 사이의 configuration space trajectory에 걸쳐 포텐셜 지형을 매개변수화하고 학습한다. 이런 포텐셜 함수는 raw perceptual input에서 직접 추론될 수 있어서 implicit object representation의 필요성을 없앨 수 있다. 또한 Diffusion 모델에서 일련의 포텐셜 에너지 지형에 걸친 Annealed 최적화 절차는 최적화 과정에서 지역 최소값을 피하는 데 도움이 될 수 있다. 이 최적화 절차는 확률적이어서 플래너가 특정 문제에 대해 다양한 형태의 여러 모션 계획을 생성할 수 있게 하여 테스트 시간에 선택할 수 있는 다양한 모션 계획 후보를 제공한다.
학습 기반 모션 플래너의 주요 장애물 중 하나는 보지 못한, 더 복잡한 제약 조건이 있는 환경으로의 일반화 능력이다. 예를 들어, 희박한 장애물에 대해 훈련된 학습 모델은 밀집된 장애물이 있는 시나리오에서는 성능이 좋지 않을 것이다. 이런 설정은 분포를 벗어나기 때문이다.
우리의 접근법은 구성성(compositionality)을 통해 이 문제를 해결한다. 우리의 학습된 포텐셜은 additively하게 함께 구성되어 훈련시간에 본 것보다 더 큰 제약 조건 집합을 가진 모션 플래닝 문제를 해결할 수 있다. 그림 1에서 보여지듯이, 서로 다른 Diffusion 모델에서 두 포텐셜을 결합하면 십자 모양의 장애물을 피하는 것과 사각형의 장애물을 피하는 두 가지 제약 조건을 모두 만족하는 궤적을 최적화할 수 있다. 이렇게 제약 조건을 특별히 구성할 수 있는 유연성은 에이전트가 실행 과정에서 환경 내에서 새로운 모션 constraint를 경험하게 되는 문제들에서 특히 유용하다.
따라서 본 논문에서 우리의 기여는 다음과 같다.
(1) Diffusion 모델을 사용한 학습된 포텐셜 기반 모션 플래닝 접근법 제시 (2) 정확도와 충돌 검사에서 기존 방법들을 능가하는 성능 (3) 모션 플래너의 compositionality를 보여 주어 여러 모션 constraint 집합에 대한 일반화된 성능
Method
3.1 Potential Based Motion Planning
Configuration space Rn에서 지정된 시작 상태 qst와 끝 상태 qe가 주어졌을 때, 모션 플래닝은 qst에서 시작하여 qe에서 끝나는 충돌 없는 궤적 q1:N을 찾는 것으로 정의할 수 있다.
포텐셜 기반 모션 플래닝에서 이러한 충돌 없는 궤적 q1:N을 해결하기 위해, 구성 공간에 대한 포텐셜 함수 U(q): Rn → R은 다음과 같이 정의할 수 있다.
여기서 U(q)는 목표 상태 qe에 낮은 포텐셜 값을 할당하고 충돌이 있는 모든 상태에 높은 포텐셜을 할당한다. 방정식 1에서 Uatt(q)는 끝 상태 qend에서 낮은 값을 가지고 그로부터 멀어질수록 높은 값을 가지는 attraction 포텐셜을 나타내며, Urepel(q)는 장애물 근처에서 높은 값을 가지고 장애물로부터 멀어질수록 낮은 값을 가지는 repulsion 포텐셜을 나타낸다. 포텐셜 함수 U(q)는 방정식 1의 기존 포텐셜에 장애물을 나타내는 새로운 포텐셜 Unew(q)를 추가함으로써 모션 플래닝에 추가 장애물을 통합하는 쉬운 접근 방식을 제공한다.
포텐셜 함수 U(q)로부터 모션 계획을 얻기 위해, qst에서 qe까지의 충돌 없는 궤적 q1:N은 포텐셜 함수의 스케일된 그래디언트를 반복적으로 따라가며 얻어진다. 최적화 절차가 포텐셜 함수 U(q)의 최소값에 도달했을 때 성공적인 모션 계획이 구성된다. 방정식 2의 가장 큰 문제점은 'local minima에 빠질 수 있다'는 점이다. 만약 최적화 절차가 이런 최소값에 빠지면, 모션 계획은 더 이상 qst에서 qe까지의 경로를 성공적으로 구성하지 못하게 된다.
3.2 Potential Based Diffusion Motion Planning
따라서 이 섹션에서 우리는 샘플을 효과적으로 최적화할 수 있는 포텐셜을 어떻게 학습하는지 논의하고, 시작 상태 qst에서 끝 상태 qe까지의 모션 계획 q1:T와 구성 공간 특성 C(즉, 환경 내 장애물의 집합)가 주어졌을 때, 우리는 궤적 수준의 포텐셜 함수 Uθ를 학습할 것을 제안한다.
q*1:T는 qst부터 qe까지 성공적인 모션 플랜을 나타낸다.
(3)의 포텐셜 함수를 학습하기 위해, 우리는 모션 플래닝 데이터셋 D = {qst, qe, q1:T, Ci}에 걸쳐 EBM(에너지 기반 모델)을 학습할 것을 제안한다. 데이터셋 D는 해결된 모션 플래닝 문제들로 구성되어 있기 때문에, 학습된 에너지 함수 Eθ는 성공적인 모션 계획 q*1:T에서 최소 에너지를 가지게 되고 따라서 방정식 3의 포텐셜 함수 Uθ를 만족시킨다.
모션 계획 q*1:T를 효과적으로 최적화하고 생성할 수 있게 하는 EBM 지형을 학습하기 위해, 우리는 Denoising Diffusion Training Objective를 사용하여 energy landscape를 형성할 것을 제안한다. 이 목표에서, 우리는 에너지 함수에 대한 그래디언트가 대부분 올바른 모션 경로부터 완전히 손상된 가우시안 노이즈 궤적까지 다양한 노이즈 손상 수준 {1,..., S}에 걸쳐 노이즈를 제거하고 모션 계획 q1:T를 복구할 수 있도록 에너지 지형을 명시적으로 훈련한다.
우리는 포텐셜을 훈련시키기 위해 Compositional generation with energy-based diffusion models and mcmc (https://arxiv.org/abs/2302.11552)의 에너지 기반 Diffusion objective를 사용한다. 이 objective에서 에너지 함수의 그래디언트는 D에서 에너지가 손상된 모션 계획 qi의 노이즈를 제거하도록 훈련받는다.