Conditional diffusion 모델은 조건부 분포를 정확하게 모델링하는 능력 때문에 robot policy 학습에 효율적인 도구로 입증되었다. 동적 장애물, 미로같은 복잡한 특성은 로봇 local navigation의 복잡성을 Conditional distribution problem 문제로 강조하고 있다. 그러나 로봇 local navigation을 위해 diffusion 모델을 활용하는 것은 간단하지 않으며, 다음과 같은 여러 과제에 직면한다. 1) Data Urgency
local navigation의 복잡한 조건부 분포는 다양한 실제 시나리오에서 다양한 정책을 포함하는 훈련 데이터를 필요로 한다.
2) Myopic Observation (근시안적인 관찰)
로봇의 지역적 관점에 기반한 Diffusion 결정은 종종 전체 작업에서 최적이 아닐 수 있다. 우회가 필요한 특정 시나리오에서는 로봇이 갇힐 수 있다.
이런 문제를 해결하기 위해, 우리 접근 방식은 통합된 글로벌-로컬 인사이트에 의해 정보를 제공받는 대상 선택을 통해, 뚜렷한 선호도를 보이는 다양한 에이전트를 포함하는 다양한 데이터 생성 매커니즘을 탐색하는 것으로 시작한다. 그런 다음 다양한 훈련 데이터를 기반으로 여러 시나리오에서 뛰어난 충돌 회피 능력을 갖춘 Diffusion agent를 얻는다.
이후 우리는 LDP를 경량 방식으로 글로벌 관찰을 통합하여 강화한다. 이런 개선은 LDP의 관찰 범위를 넓혀 local minima에 갇힐 위험을 효과적으로 완화하고 더 강력한 내비게이션 결정을 촉진한다.
Introduction
인공지능과 로봇 공학의 급속한 발전으로 로봇 충돌 회피를 위한 경로 계획에 많은 기술들이 통합되고 있다. 여러 학습 기반 방식은 계획 작업을 Conditional diffusion 문제로 모델링하며, 여기서 로봇의 행동 순서는 prior distribution을 가진 latent variable이다. Planning 과정은 robot observation, final rewards, constraint와 같은 조건들을 기반으로 사후 분포를 계산함으로써 완성된다.
잘 알려진 바와 같이 로봇 내비게이션을 위한 실제 환경은 다양한 상황을 포함하는 복잡한 세계이다. 각 상황에 맞는 특정 정책을 설계하는 것은 엄청난 노력이 필요하다. 따라서 뛰어난 내비게이션 정책은 다양한 상황을 효과적으로 처리해야 한다. 더욱이 최적에 가까운 expert policy의 분포는 상황마다 다르게 나타나기 때문에, 다양한 상황을 다루는 내비게이션 정책은 Multi-modal한 분포를 보여줄 필요가 있다. 이런 요구사항을 고려할 때, 모델 학습 데이터로 사용할 expert 데이터를 수집하고 멀티 모달 분포를 더 잘 표현하는 것이 중요하다.
따라서 위에 언급한 과제들을 해결하기 위해 본 논문에서는 다음과 같은 두 가지 노력을 기울였다.
1. 다양한 상황에서 여러 선호도(preference)를 가진 expert policy 데이터를 수집하고, 강력한 분포 모델링 능력을 가진 diffusion 모델을 활용하여 policy 모델을 구축했다. 2. 전역 경로를 추가 조건으로 통합하여 Diffusion 모델을 guide 함으로써 더 나은 내비게이션을 위한 정책을 강화했다.
구체적으로 우리는 밀집된 정적 환경, 동적 보행자 환경, 미로와 같은 환경 등 세 가지 다른 유형 상황에서 expert policy 데이터를 수집했다. 각 상황에서 "원래의 SAC 정책"과 "전역 경로로 guide된 SAC"라는 두 가지 preference에 대한 expert policy 데이터를 모았다. DDPM 알고리즘을 사용해 로봇 observation(local cost map, goal, global path)를 기반으로 posterior trajectory 분포에서 직접 노이즈를 제거하고 단계별로 샘플링해 최종 로봇 행동 순서를 생성했따.
실험에서 LDP는 다양한 상황에서 다른 baseline 알고리즘보다 성능이 뛰어났다. mixed scenario 데이터를 다룰 때 뛰어난 학습 능력을 보여 주었고, 또한 보지 못한 상황에서도 향상된 성능을 보여줌으로써 인상적인 제로샷 일반화 능력을 선보였다.
Related Works
C. Diffusion Model for Robotic Decision Planning
Diffuser는 일정 길이의 state-action 시퀀스를 2차원 배열로 연결하고 원래의 DDPM 방법을 unconditional sampling에 활용하며, 보상, 목표 및 기타 정보를 기반으로 한 분류기를 설계해 inference denoising 프로세스를 guide함으로써 생성된 의사결정 시퀀스가 제약 조건을 준수하도록 한다.
Diffusion policy는 로봇의 시각적 관측을 조건으로 사용하고 분류기 없이 직접 행동 시퀀스의 생성을 안내하는 대안적 모델링 방법을 나타낸다. MPD(Motion Planning Diffusion)는 Diffusion 모델과 최적화 기반 방법을 통합한다. 시작점과 종료점의 계획 및 다양한 최적화 비용을 조건으로 하여 정적 시나리오에서 전역 모션 계획의 생성을 guide한다. 그러나 LDP는 정적 및 동적 환경에서 local planning을 수행한다.
NoMaD는 Diffusion 모델의 강력한 분포 모델링 능력을 활용하고 goal mask를 사용해 내비게이션과 탐색 작업을 모두 할 수 있다는 단일한 정책을 제시한다. 이와는 반대로, LDP는 다양한 장면과 preference의 mixed expert trajectory distritbution 내에서 policy 모델의 내비게이션 성능을 평가하고 guide를 위한 조건으로 추가적인 전역 경로를 도입한다.
Method
이 섹션에서는 먼저 Data Urgency 과제에 초점을 맞춘 훈련 데이터 수집 접근법을 설명한다. 이어서 수집된 데이터를 사용해 Myopic Observation 문제를 해결하기 위한 Diffusion local planner 개발의 세부 사항을 살펴볼 예정이다.
A. Expert Policy Data
최근 강화학습의 빠른 발전으로 로봇 모션 플래닝 과정에 대한 새로운 해결책이 등장했다. 우리는 정교한 내비게이션 정책을 학습하기 위해 SAC 알고리즘을 사용한다. 이 로봇 내비게이션 문제는 마르코프 의사결정 과정을 개념화된다.
Policy의 state space는 다음과 같이 두 부분으로 나뉜다.
1. 3D LiDAR로 생성된 84x84 크기의 egocentric costmap 2. relative target pose
action space는 2차원이며 연속적으로, 애커만 조향 로봇의 선형 속도와 앞바퀴 각도를 나타낸다. 선형 속도가 음수 값을 가질 수 있으므로, 이 expert navigation policy는 후진 움직임도 나타낼 수 있다. 강화학습 정책을 위한 보상 함수는 이와 같이 정의된다. 여기서 rshaping_t는 희소 보상을 밀도 높은 보상으로 변환하여 강화학습 알고리즘의 훈련 과정을 가속화하는 보상 형성 매커니즘을 나타낸다. 기본적으로 이와 같은 설계는 두 가지 주요 요소를 포함한다.
1. 로봇을 local goal에서 벗어나게 하는 행동에는 페널티가 부과된다. 2. 에이전트가 더 높은 보상을 얻기 위해 목표 근처에서 나선형으로 움직이는 등의 전략을 사용하지 못하게 하도록 각 행동에 고정 값 페널티가 추가로 부과된다.
B. Local Diffusion Planner
우리 연구의 목표는 다양한 환경과 선호도를 포괄하는 Multi-modal expert policy 데이터를 활용해 로봇을 위한 local planner 알고리즘을 개발하는 것이다. 따라서 우리는 이 작업을 Conditional generation problem via diffusion model로 공식화한다.
여기서 τ는 훈련에 사용되는 Expert trajectory data, A0는 최종적으로 생성된 행동 시퀀스, O는 Diffusion 모델의 condition 역할을 하는 로봇의 observation을 나타내며 pθ는 Diffusion 모델의 역방향 노이즈 제거 과정을 의미한다.
앞서 논의한 바와 같이, O는 비용 맵 C, 목표 G, 전역 경로 GP의 세 부분으로 구성된다. 여기서 중요한 점은 전역 경로가 단순히 확산 과정의 조건으로 작용할 뿐, expert policy 데이터 수집 방법에서와 같이 추론 중에 정책에 추가적인 지역 목표를 제공하지 않는다는 것이다.