새소식

논문 리뷰

DreamWaQ : Learning Robust Quadrupedal Locomotion With Implicit Terrain Imagination via Deep Reinforcement Learning

  • -

DreamWaQ : Learning Robust Quadrupedal Locomotion With Implicit Terrain Imagination via Deep Reinforcement Learning

I Made Aswin Nahrendra, Byeongho Yu and Hyun Myung

2023 IEEE ICRA

사족보행 로봇은 구조화되지 않은 지형을 걸어갈 수 있는 동물과 유사하다. 하지만 사족보행 로봇을 위한 제어기를 설계하는 것은 매우 복잡하다. 최근에는 다리가 있는 동물들이 경험을 통해 걷는 법을 배우는 방식에서 영감을 얻은 심층 강화학습이 자연스러운 사족보행을 구현하는 데 사용되고 있다. 그러나 최신 방법들은 복잡하고 Reliable한 센싱 프레임워크에 크게 의존적이다. 게다가 Proprioception 센서에만 의존하는 이전 연구들은 특히 장거리에 걸쳐서 도전적인 지형을 극복하는 데 한계를 보여 왔다. 
본 논문은 제한된 센서로도 사족보행이 어려운 지형을 걸어갈 수 있게 하는 새로운 사족보행 학습 프레임워크를 제안한다. 

 

최근 몇 년간 사족로봇은 산업 및 탐사 등 다양한 응용 분야에서 중요한 역할을 해 왔다. Wheeled robot과 달리, 사족 로봇은 구조화되지 않은 지형을 다닐 수 있지만 상대적으로 제어하기는 더 어려웠다. 기존의 모델 기반 제어기는 종종 1) State Estimation, 2) Trajectory Optimization, 3) Gait (걸음걸이) Optimization, 4) Actuator Control 로 구성된 복잡한 파이프라인을 필요로 한다. 이러한 복잡한 모델 기반 파이프라인은 정확한 모델링과 엄격한 매개변수 조정을 위해 상당한 인력을 요구하게 된다. 게다가, Linearized 사족 모델은 종종 그 성능이 제한적이기도 하다. 

다리가 있는 동물들은 주변 지형을 시각적으로 인지해 효율적으로 보행을 계획할 수 있다. 이러한 자연적인 매커니즘은 심층 강화학습을 통해 Perceptive Locomotion Policy를 훈련시켜 사족 보행 로봇이 구조화되지 않은 지형을 횡단할 수 있게 하는 많은 연구들에 영감을 주었다. 이런 연구들에서 로봇은 주변을 관찰하기 위해 카메라나 LiDAR같은 외수용성 센서 (Exteroceptive sensors)를 장착한다. 이후, 이런 센서들은 제어기와 함께 사용되어 로봇이 환경을 안전하게 횡단할 수 있도록 궤적과 보행을 계획한다. 

그러나 외수용성 센서들이 항상 신뢰할 수 있는 것은 아니다. 카메라는 불리한 날씨와 조명 조건에서 오작동할 수 있으며, 3D LiDAR는 traversable region을 구별하는 데 사용될 수 있지만 지형의 물리적인 특성을 정확히 추정하는 것은 여전히 어렵다. 예를 들어, 눈은 고체이고 통과 가능한 표면으로 보일 수 있지만 실제로는 부드럽고 pliable하다. 

한편, IMU와 관절 엔코더 같은 고유수용성(Proprioceptive) 센서들은 외수용성 센서에 비해 상대적으로 가볍고 견고하다. 최근 연구들은 다양한 고유수용성 센서들을 결합함으로써 사족 로봇이 주변 지형과 body state를 추정하는 법을 학습할 수 있음을 보여주었다. 그러나 이런 연구들은  다리가 있는 로봇이 높은 불확실성과 추정 오류로 인해 실패할 수 있는 다양한 도전적인 지형에서의 장거리 운용에 대한 경험적 입증이 부족했다. 

고유수용성 센서들을 통해 주변 지형의 특성을 추정하면서 보행 정책을 학습하는 것은 반복적인 과정을 필요로 한다. Policy는 robbust한 행동을 학습하기 위해서 지형의 특성을 이해할 필요가 있다. 그러나 지형적인 특성을 적절히 학습하기 위해서는 로봇이 그에 맞게 걸을 수 있어야 하고, 다양한 지형 특성을 탐험할 수 있어야 한다. 
이러한 딜레마는 종종 Representation Learning Bottleneck이라고 불리며, 최적의 정책 학습을 방해하는 요인이다. 따라서 정확한 환경 표현과 함께 robust한 정책을 동시에 학습하는 학습 프레임워크가 필요하다. 

본 논문에서는 심층 강화학습 알고리즘을 통해 고유수용성 센서만을 사용하여 사족 로봇을 위한 경고한 보행 정책을 훈련시키는 DreamWaq (Dream Walking for Quadrupedal Robots) 프레임워크를 제안한다. DreamWaq는 Heightmap, 마찰, 반발력, 장애물 등 지형 특성을 implicit하게 추론하도록 보행 정책을 훈련시킨다. 결과적으로 로봇은 다양한 지형을 안전하게 걸어갈 수 있도록 보행을 adapt할 수 있다. 본 논문에서는 DreamWaq를 Unitree A1 로봇에 적용하여 Challenging한 자연 및 인공 환경을 robust하게 걸어갈 수 있도록 하였다. 

요약하자면, 본 연구의 기여점은 다음과 같아. 

1. 비대칭 Actor-Critic 아키텍쳐를 통한 새로운 보행 학습 프레임워크를 제안하여 고유수용성 센서만을 사용하여 implicit하게 지형적인 특성을 추정할 수 있도록 하였다. 
2. Body state와 Environmental context를 동시에 추정하기 위한 context-aided estimator network를 제안하였다. 정책과 함께 본 연구에서 제안하는 방법은 기존의 Learning-based method를 능가하는 성능을 보여주고 있다. 
3. 다양한 야외 환경에서의 걷기를 통해 학습된 정책의 견고함과 내구성에 대한 real-world에서의 평가를 수행하였다. 

 

DreamWaq

A. Preliminaries

이 연구에서 환경은 관측가능한 마르코프 결정 과정(Patially Observable Markov Decision Process)로 모델링된다.  
Full state (S), Partial Observation (O), 행동 (A)은 연속적이다. 환경은 초기 상태 분포 (d0)로 시작하고, 상태 전이 확률 (State Transition Probability, P)로 진행되며 각 transition은 R로 보상된다. discount factor는 감마로 정의한다. 
우리는 또한 context vector를 정의하는데, world state의 latent representation을 내포한다. 

B. Implicit Terrain Imagination

최근 연구들은 Teacher-Student 패러다임을 이용해왔다. Student의 정책이 Teacher의 정책만큼 좋다는 것이 경험적으로 입증되었지만, Behavior Cloning은 Student 정책의 성능을 Teacher 정책으로 제한한다. 더욱이, Teacher와 Student 네트워크를 순차적으로 훈련하는 것은 데이터 효율성이 낮다. Student 정책은 Teacher 정책이 RL을 사용한 학습 초기 단계에서 배운 실패들을 경험하지 못할 수 있다. 이러한 한계는 Behavior Cloning 동안 Student 정책이 Teacher 정책으로부터 좋은 행동 감독만을 받기 때문이다. 

Implicit Terrain Imagination을 학습하기 위해서 본 논문에서는 비대칭 Actor-Critic Architecture를 채택했다. 

 

* Assymetric Actor-Critic Architecture란 ?

 

  • Actor (Policy Network) : 부분적인 관측만을 입력으로 받는다. 
  • Critic (Value Network) : 전체 상태 정보를 입력으로 받는다. 
  • Assymetric의 의미 : Actor와 Critic이 서로 다른 수준의 정보를 사용함. 
    • 일반적인 Actor-Critic 방법에서 두 네트워크가 동일한 정보를 사용하는 것과 대조적
Contents

포스팅 주소를 복사했습니다

이 글이 도움이 되었다면 공감 부탁드립니다.